统计学是收集、分析、表述和解释数据的科学。

量化交易的本质，就是用统计学的方法，从海量的历史交易数据（K 线、成交量、财务数据、另类数据）中，找出那些长期稳定存在、且具有正期望收益的 “统计规律”（因子），并利用这些规律进行交易获利。

下面我们正式开始统计学的入门学习，一起了解统计学的定义、入门要点及其核心方法。

一、统计学到底是什么？

1. 核心定义

统计学（statistics）是关于数据的一门学问。所有收集而来的数据都需要经过整理、分析才能得出结论，这就是统计学利用数据解决实际问题的全过程。

统计学的核心就是「和数据打交道，用数据解决问题」。

第一步：收集数据（比如做问卷、跑实验、爬取行业数据）
第二步：整理数据（把杂乱的数据清洗、分类、做成表格/图表）
第三步：分析数据（用方法挖数据里的信息）
第四步：得出结论（用结论解决实际问题，比如预测销量、优化产品）

全过程是：收集数据 → 整理分析 → 得出结论。

举个量化投资中的例子：

你想开发一个量化选股策略，先收集不同股票的历史价格、成交量、财务报表（PE、PB、ROE）、宏观指标（利率、GDP）、因子数据（动量、价值、质量）……
收集完这些数据后，你要对比分析：哪个因子在过去10年夏普比率最高？哪个行业在降息周期里平均超额收益最好？哪些股票组合波动率最低但回报最高？
最后得出结论：“这个多因子模型在回测中能跑赢沪深300，值得实盘上线！”

2. 统计学的两个关键特性

（1）结论的「不确定性」（Uncertainty）

同一个数据可以用不同方法分析，得出不同结论；不同数据用同一种方法，也会得出不同结论。统计分析的结论往往具有不确定性，因为它描述的是事件发生的机会（概率）。

举个例子（原文用了天气预报）：

降水概率90%≠100%下雨，只是下雨的可能性极高；
降水概率5%≠绝对不下雨，只是几乎不会下。
统计结论永远是「可能性」，不是「绝对真理」，这是统计学和数学最本质的区别之一。

（2）研究对象：「大量重复事物的数量特征」

统计学关注的是大量可重复事物现象的数量特征，而非单个个体的随机结果。

举个例子（原文用了身高）：

单个个体：高个子父母，孩子可能高，也可能不高（这是随机性，受基因、环境、饮食等无数因素影响）；
总体规律：从全国大量家庭来看，高个子父母的孩子，平均身高显著更高（这是统计规律，由高尔顿在1855年用数据证实）。

核心逻辑：
统计学不纠结「单个个体的偶然」，而是从「大量重复的现象」里，找到随机背后的稳定规律。所以原文最后总结：

统计学也是一门找出统计规律的学问。

二、统计学的核心底层逻辑

我们把统计学的底层逻辑拆成3个核心，彻底搞懂它的本质：

1. 「数据→规律」的闭环

统计学的完整流程，本质是一个闭环：
收集数据 → 整理数据 → 分析数据 → 发现规律 → 验证规律 → 用规律解决问题

比如：收集全国居民收入数据→整理成收入分布→分析出收入差距规律→用规律制定扶贫政策。
在今天的大数据时代，量化投资几乎每秒都在产生数据（tick级行情、订单簿、新闻情绪、卫星数据……）。不会统计学，真的会在市场里吃大亏。

2. 「随机性」与「统计规律」的辩证关系

随机性：单个事件的结果不可预测（比如抛一次硬币，不知道是正还是反）；

单个股票的日收益率有随机性（受突发新闻、情绪、黑天鹅等很多因素影响）。

统计规律：大量重复事件的结果有稳定规律（比如抛1万次硬币，正反比例接近1:1）。
统计学的使命，就是从充满随机性的世界里，找到稳定的规律，并用概率量化这种规律的可靠性。

在海量历史数据中，隐藏着稳定的统计规律（例如Fama-French三因子模型、AQR因子库里发现的那些）

统计学的任务就是：从价格随机波动中找出可重复、可量化的投资规律！

3. 「概率」是统计学的语言

统计学中会反复提到「概率（probability）」，这是统计学的核心工具：

所有统计结论，本质都是用「概率」来描述「不确定性」；
比如：「有95%的把握认为，这个新药有效」，就是用概率量化结论的可信度。

三、统计两大类方法

描述性统计：“这些数据长什么样？”
推断统计：“总体数据可能是什么样？”

（一）、描述性统计

核心目的：对整理后的杂乱数据进行分析，挖掘数据隐藏的信息，初步了解数据分布的基本特征。

核心描述方式：

1、 统计量描述：从数据分布的三个核心特征入手，分别是反映数据聚集方向的集中趋势、反映数据分散范围的离散程度、反映数据分布形态的偏斜程度；

集中趋势：描述数据“中心位置”，包括：
- 平均数（易受极端值影响，如收入数据中的少数高收入者会拉高均值）；
- 中位数（数据排序后的中间值，适用于偏态分布，如房价统计常用中位数避免极端值干扰）；
- 众数（出现次数最多的值，如“最受欢迎的商品尺码”）。
离散程度：描述数据“分散程度”，包括：
- 标准差/方差（反映数据与均值的平均距离，方差越大说明数据波动越剧烈，如股票收益率的方差可衡量风险）；
- 四分位距（IQR = Q3-Q1，中间50%数据的范围，不受极端值影响，常用于识别异常值）。
形态特征：通过偏度（数据分布是否对称）、峰度（数据集中程度）判断分布类型（如正态分布、偏态分布）。

2、直观呈现：除统计量外，还可通过表格和图形的形式，简单直观地展现数据分布的主要特征。

量化中的应用：

包括：画K线图、收益率分布直方图、计算平均回报、波动率、最大回撤、相关性矩阵、热力图等。
目的：让交易员一看就明白“这个因子组合的历史表现长什么样”。

（二）、推断统计

核心定义：依据样本数据，对总体数据特征进行估计、判断的过程，称为统计推断（statistical inference）。

核心基础：抽样与抽样分布——从总体中随机抽取样本，通过样本统计量（如样本均值）的分布规律（抽样分布），实现对总体参数的估计。

为什么用样本？

因为总体数据量太大（几十年tick数据、几万只股票），计算成本高、回测慢。我们不可能把所有可能的数据都跑一遍，所以用一个有代表性的样本来推断总体参数，这就是量化回测的本质。

两大核心形式：

1、参数估计（parameter estimation）：

点估计（point estimation）：用样本统计量直接估计总体参数（例：用样本均值估计全校学生平均成绩）；
区间估计（interval estimation）：给出参数的置信区间（例：“95%置信区间为[70,80]”，即总体均值有95%概率落在该范围）。

2、假设检验（hypothesis testing）：

核心逻辑：先对总体参数或分布形式提出假设，再搜集样本数据、计算样本统计量，检验假设的可靠性，最终做出拒绝或承认原假设的判断；
分类：按总体分布情况，分为参数假设检验（总体分布已知，检验未知参数）和非参数假设检验（总体分布未知，检验分布形式及特征）；按备择假设内容，分为单侧检验（左侧检验、右侧检验）和双侧检验（双尾检验）。

3、高级方法

除了上述提到的参数估计和假设检验，常用的统计方法还有方差分析（用于比较多组数据的均值差异）、回归分析（用于探究变量间的因果关系）、时间序列分析（用于预测未来趋势）等。

（三）、二者关系：从“描述”到“推断”的完整流程

1、描述性统计是基础：先通过描述性统计了解样本特征（如数据分布、异常值），为推断统计提供前提（如判断是否符合正态分布假设）。

2、推断统计是延伸：基于样本描述结果，进一步推断总体规律，解决“无法直接测量总体”的问题（如通过分析 1000 只股票的历史收益率数据，推断整个市场所有股票的收益规律）。

总结

我们已经学习了统计学入门理论，包括核心定义、两大特征以及三个基本概念（总体、样本、两类统计方法）。描述性统计展现 “数据的特征形态”，推断统计则用于推导 “数据背后蕴含的结论”。前者如同 “显微镜”，能清晰呈现数据的具体特征；后者好比 “望远镜”，能从数据中提炼出有价值的结论。
没有描述的推断是盲目的，没有推断的描述是局限的。

后续我会逐一解析每个部分的细节，帮助大家加深理解。