文科生の量化闯关记 : 统计入门
  我是宽客 10天前 77 0

统计学是收集、分析、表述和解释数据的科学。


001.JPG

量化交易的本质,就是用统计学的方法,从海量的历史交易数据(K 线、成交量、财务数据、另类数据)中,找出那些长期稳定存在、且具有正期望收益的 “统计规律”(因子),并利用这些规律进行交易获利。

下面我们正式开始统计学的入门学习,一起了解统计学的定义、入门要点及其核心方法。

一、统计学到底是什么?

1. 核心定义

统计学(statistics)是关于数据的一门学问。所有收集而来的数据都需要经过整理、分析才能得出结论,这就是统计学利用数据解决实际问题的全过程。

统计学的核心就是「和数据打交道,用数据解决问题」。

  • 第一步:收集数据(比如做问卷、跑实验、爬取行业数据)
  • 第二步:整理数据(把杂乱的数据清洗、分类、做成表格/图表)
  • 第三步:分析数据(用方法挖数据里的信息)
  • 第四步:得出结论(用结论解决实际问题,比如预测销量、优化产品)

全过程是:收集数据 → 整理分析 → 得出结论。

举个量化投资中的例子:

  • 你想开发一个量化选股策略,先收集不同股票的历史价格、成交量、财务报表(PE、PB、ROE)、宏观指标(利率、GDP)、因子数据(动量、价值、质量)……
  • 收集完这些数据后,你要对比分析:哪个因子在过去10年夏普比率最高?哪个行业在降息周期里平均超额收益最好?哪些股票组合波动率最低但回报最高?
  • 最后得出结论:“这个多因子模型在回测中能跑赢沪深300,值得实盘上线!”

2. 统计学的两个关键特性

(1)结论的「不确定性」(Uncertainty)

同一个数据可以用不同方法分析,得出不同结论;不同数据用同一种方法,也会得出不同结论。统计分析的结论往往具有不确定性,因为它描述的是事件发生的机会(概率)。

举个例子(原文用了天气预报)

  • 降水概率90%≠100%下雨,只是下雨的可能性极高;
  • 降水概率5%≠绝对不下雨,只是几乎不会下。
    统计结论永远是「可能性」,不是「绝对真理」,这是统计学和数学最本质的区别之一。

(2)研究对象:「大量重复事物的数量特征」

统计学关注的是大量可重复事物现象的数量特征,而非单个个体的随机结果。

举个例子(原文用了身高)

  • 单个个体:高个子父母,孩子可能高,也可能不高(这是随机性,受基因、环境、饮食等无数因素影响);
  • 总体规律:从全国大量家庭来看,高个子父母的孩子,平均身高显著更高(这是统计规律,由高尔顿在1855年用数据证实)。

核心逻辑
统计学不纠结「单个个体的偶然」,而是从「大量重复的现象」里,找到随机背后的稳定规律。所以原文最后总结:

统计学也是一门找出统计规律的学问。


二、统计学的核心底层逻辑

我们把统计学的底层逻辑拆成3个核心,彻底搞懂它的本质:

1. 「数据→规律」的闭环

统计学的完整流程,本质是一个闭环:
收集数据 → 整理数据 → 分析数据 → 发现规律 → 验证规律 → 用规律解决问题

  • 比如:收集全国居民收入数据→整理成收入分布→分析出收入差距规律→用规律制定扶贫政策。
  • 在今天的大数据时代,量化投资几乎每秒都在产生数据(tick级行情、订单簿、新闻情绪、卫星数据……)。不会统计学,真的会在市场里吃大亏。

2. 「随机性」与「统计规律」的辩证关系

  • 随机性:单个事件的结果不可预测(比如抛一次硬币,不知道是正还是反);

单个股票的日收益率有随机性(受突发新闻、情绪、黑天鹅等很多因素影响)。

  • 统计规律:大量重复事件的结果有稳定规律(比如抛1万次硬币,正反比例接近1:1)。
    统计学的使命,就是从充满随机性的世界里,找到稳定的规律,并用概率量化这种规律的可靠性

海量历史数据中,隐藏着稳定的统计规律(例如Fama-French三因子模型、AQR因子库里发现的那些)

统计学的任务就是:从价格随机波动中找出可重复、可量化的投资规律!

3. 「概率」是统计学的语言

统计学中会反复提到「概率(probability)」,这是统计学的核心工具:

  • 所有统计结论,本质都是用「概率」来描述「不确定性」;
  • 比如:「有95%的把握认为,这个新药有效」,就是用概率量化结论的可信度。

三、统计两大类方法

002.png

  • 描述性统计:“这些数据长什么样?”
  • 推断统计:“总体数据可能是什么样?”

(一)、描述性统计

核心目的:对整理后的杂乱数据进行分析,挖掘数据隐藏的信息,初步了解数据分布的基本特征。

核心描述方式:

1、 统计量描述:从数据分布的三个核心特征入手,分别是反映数据聚集方向的集中趋势、反映数据分散范围的离散程度、反映数据分布形态的偏斜程度;

  • 集中趋势:描述数据“中心位置”,包括:
    • 平均数(易受极端值影响,如收入数据中的少数高收入者会拉高均值);
    • 中位数(数据排序后的中间值,适用于偏态分布,如房价统计常用中位数避免极端值干扰);
    • 众数(出现次数最多的值,如“最受欢迎的商品尺码”)。
  • 离散程度:描述数据“分散程度”,包括:
    • 标准差/方差(反映数据与均值的平均距离,方差越大说明数据波动越剧烈,如股票收益率的方差可衡量风险);
    • 四分位距(IQR = Q3-Q1,中间50%数据的范围,不受极端值影响,常用于识别异常值)。
  • 形态特征:通过偏度(数据分布是否对称)、峰度(数据集中程度)判断分布类型(如正态分布、偏态分布)。

2、直观呈现:除统计量外,还可通过表格和图形的形式,简单直观地展现数据分布的主要特征。

量化中的应用:

  • 包括:画K线图、收益率分布直方图、计算平均回报、波动率、最大回撤、相关性矩阵、热力图等。
  • 目的:让交易员一看就明白“这个因子组合的历史表现长什么样”。

(二)、推断统计

核心定义:依据样本数据,对总体数据特征进行估计、判断的过程,称为统计推断(statistical inference)。

核心基础:抽样与抽样分布——从总体中随机抽取样本,通过样本统计量(如样本均值)的分布规律(抽样分布),实现对总体参数的估计。

为什么用样本?

因为总体数据量太大(几十年tick数据、几万只股票),计算成本高、回测慢。我们不可能把所有可能的数据都跑一遍,所以用一个有代表性的样本来推断总体参数,这就是量化回测的本质。

两大核心形式:

1、参数估计(parameter estimation):

  • 点估计(point estimation):用样本统计量直接估计总体参数(例:用样本均值估计全校学生平均成绩);

  • 区间估计(interval estimation):给出参数的置信区间(例:“95%置信区间为[70,80]”,即总体均值有95%概率落在该范围)。

2、假设检验(hypothesis testing):

  • 核心逻辑:先对总体参数或分布形式提出假设,再搜集样本数据、计算样本统计量,检验假设的可靠性,最终做出拒绝或承认原假设的判断;

  • 分类:按总体分布情况,分为参数假设检验(总体分布已知,检验未知参数)和非参数假设检验(总体分布未知,检验分布形式及特征);按备择假设内容,分为单侧检验(左侧检验、右侧检验)和双侧检验(双尾检验)。

3、高级方法

除了上述提到的参数估计和假设检验,常用的统计方法还有方差分析(用于比较多组数据的均值差异)、回归分析(用于探究变量间的因果关系)、时间序列分析(用于预测未来趋势)等。

(三)、二者关系:从“描述”到“推断”的完整流程

1、描述性统计是基础:先通过描述性统计了解样本特征(如数据分布、异常值),为推断统计提供前提(如判断是否符合正态分布假设)。

2、推断统计是延伸:基于样本描述结果,进一步推断总体规律,解决“无法直接测量总体”的问题(如通过分析 1000 只股票的历史收益率数据,推断整个市场所有股票的收益规律)。

总结

我们已经学习了统计学入门理论,包括核心定义、两大特征以及三个基本概念(总体、样本、两类统计方法)。描述性统计展现 “数据的特征形态”,推断统计则用于推导 “数据背后蕴含的结论”。前者如同 “显微镜”,能清晰呈现数据的具体特征;后者好比 “望远镜”,能从数据中提炼出有价值的结论。
没有描述的推断是盲目的,没有推断的描述是局限的。

后续我会逐一解析每个部分的细节,帮助大家加深理解。

最后一次编辑于 9天前 0

暂无评论