吐槽：

公式我习惯用latex打，但是好像上下角标有问题，编辑界面是正常的，比如最后一行，但是实际上网页显示不出来，我用图片替换了一部分，然后我发现图片大小也没法改，看得很丑，已经告诉it了，先凑付看吧，等改完再说吧。

引言

金融世界本质上是一个由不确定性驱动的大规模、实时的“数据实验室”。每一天，全球市场都在产生海量的数据——股票价格如心跳般起伏，宏观经济指标牵动着亿万资金的流向，公司财报则像一次次突然的“压力测试”。在这个充满“噪声”的复杂系统中，一个核心问题始终萦绕在每一位投资者、分析师和风险经理的心中：我们如何从这些随机波动的数据中，提取出有价值的信息，从而做出更明智的决策？统计就是核心。我计划写一个系列，尽可能帮助大家详细理解。~~（我自己顺便复习一下）~~

为什么要统计推断（Statistical Inference）？

统计推断是统计学的一个核心分支，它让我们能够利用从样本数据中计算得出的统计量，去对产生这些数据的总体参数做出合理的、量化的推断。我们几乎永远无法获得“总体”~~（永远无法到达oo的真实，我中了黄金镇魂曲？！）~~——我们无法知道所有未来可能的股价，无法遍历每一种经济情景，也无法让时间倒流进行无数次重复投资。我们能拥有的，仅仅是历史数据这一个“样本”。因此，我们必须依靠统计推断这把钥匙，来解锁数据背后的深层含义。

概率

先来点基础定义

定义：

样本空间（sample space）（ $\Omega$ ）：一个实验所有可能结果的集合。
结果（outcome）、实现（realization）或元素（element）（ $\omega$ ）：样本空间中的一个点，记为 $\omega \in \Omega$ 。( $\in$ 是属于的意思）
~~(P.S. 一个意思，不用太细究区分，硬要说我理解实现realization就是需要进一步计算一下，见下文举例。)~~
事件（event）或叫随机事件（random event）( $A$ )： $\Omega$ 的一个子集， $A \subset \Omega$ ,即一些样本结果的集合。

我们来举一个简单的例子：标普500指数明天的价格
1.样本空间：

最简样本空间只考虑最核心的方向: $\Omega_1= \{\text{上涨}, \text{下跌}, \text{持平}\}$ .

但是样本空间也可以在复杂一点，考虑方向和幅度。 $\Omega_2= \{\omega: \omega \in \mathbb{R} \}$ 这里的 $\omega$ 代表具体的收益率百分比。例如， $\omega = +0.5\%$ 或 $\omega = -1.2\%$ 。但这是一个不可数无限样本空间。

我们还可以将收益率离散来构造样本空间 $\Omega_3= \{\text{..., 大跌}(> -2\%), \text{小跌}(-2\% \sim 0\%), \text{小涨}(0\% \sim +2\%), \text{大涨}(> +2\%) \}$

结果、实现或元素
这是样本空间中的一个单一、不可再分的基本结果。对应到上面的样本空间的话如下：

在 $\Omega_1$ 中，一个结果是：上涨。

在 $\Omega_2$ 中，一个结果（或实现，因为这个东西需要自己定义收益公式，不是直接得到的）是：+0.45%。

在 $\Omega_3$ 中，一个结果是：小涨(0% to +2%)。

事件

事件是样本空间的子集，即一个或多个结果的集合。这里在 $\Omega_1$ 和 $\Omega_3$ 中结果就是事件，因为每个结果都是独立的，并不存在同时上涨和下跌,大涨和大跌这种情况。这里举个其他的例子：

$A$ : “标普500指数明日上涨” = $\{ \omega \in \Omega_2 : \omega > 0 \}$ 。这是一个包含无限多个结果（所有正收益率）的集合。

$B$ : “标普500指数明日跌幅超过1%” = $\{ \omega \in \Omega_2 : \omega < -1\% \}$ 。

更多的定义：

事件 $A$ 的补集： $A^c = \{\omega \in \Omega : \omega \notin A\}$ 。这里显然， $\Omega^c = \emptyset$ （空集）。
事件 $A$ 与 $B$ 的并集(Or/Union) ~~（我觉得用英文好记）~~： $A \cup B = \{\omega \in \Omega : \omega \in A \text{ 或 } \omega \in B\}$ ，则有 $A \cup B = B \cup A$ ，且 $A \cup A^c = \Omega$ 。
事件 $A$ 与 $B$ 的交集(And/Intersection)： $A \cap B \equiv AB = \{\omega \in \Omega : \omega \in A \text{ 且 } \omega \in B\}$ ，则有 $A \cap B = B \cap A$ ，且 $A \cap A^c = \emptyset$ 。
事件序列的并与交(就是有一堆A,他们的交集并集可以用下面的数学符号表示)：如果 $A_1, A_2, \cdots$ 是一个事件序列，则：
事件 $A$ 与 $B$ 的差集(Difference): $A \setminus B = \{\omega \in A : \omega \notin B\}$
也记作 $A - B$ 。
包含(Inclusion)关系：如果事件 $A$ 的发生意味着事件 $B$ 的发生，则称 $A \subset B$ 。注意 $A$ 发生意味着 $B$ 发生，但 $B$ 发生不一定意味着 $A$ 发生，所以 $A$ 是 $B$ 的子集但可能B不是A的子集（ $B \not\subset A$ ）。

这个我就不具体举例了，举起来没完，记不住也不用太担心，用个一两回就记住了。

以及更多的定义：~~（数学是这样的，定义定理一大堆，但不记住的话你看啥都看不懂，所以说数学是语言，数学是文科没毛病）~~

互斥或 不相交 事件：如果 $A \cap B = \emptyset$ ，则 $A$ 和 $B$ 是互斥的。根据之前定义的，显然 $A$ 和 $A^c$ 就是互斥的。比如，股票涨停和跌停就是互斥的，当然上涨与下跌与持平也是。
样本空间（ $\Omega$ ）的划分：一个不相交的事件序列 $A_1, A_2, \cdots$ ，使得
$\bigcup_{i=1}^{\infty} A_i = \Omega.$ 这个上文定义样本空间的时候就展示了，很直观。
$A$ 的指示函数：,这是一个定义在 $\omega \in \Omega$ 上的函数：

指数函数其实到处都是，而且很实用。例如，一个期权如果在交易日结束时股票上涨 ( $A$ ) 则支付 1 美元，否则支付 0 美元。其支付函数就是 $I_A$ 。上文中的 $\Omega_3$ 就可以通过定义一个指示函数由 $\Omega_2$ 得来，i.e. $\Omega_3=I_{\Omega_2}$ 。
单调事件序列及其极限：

一个序列 $A_1, A_2, \cdots$ 单调递增，如果 $A_1 \subset A_2 \subset \cdots \quad$ ,那么我们就可以定义 $\lim_{n \to \infty} A_n = \cup_{i=1}^{\infty} A_i$ 。

类似的，一个序列 $A_1, A_2, \cdots$ 单调递减，如果 $A_1 \supset A_2 \supset \cdots \quad$ ,那么我们就可以定义 $\lim_{n \to \infty} A_n = \cap_{i=1}^{\infty} A_i.$

在两种情况下，我们都可以写作 $A_n \to A$ （ $A_n$ 趋近于 $A$ )，其中 $A$ 表示其极限。~~(我也觉得很抽象）~~
我们来举一个例子方便理解：~~（其实不理解也没啥关系，我还没用到过这个）~~

令 $\Omega = (-\infty, \infty)$ ， $A_i = [0, 1/i]$ 。那么 $\lim_{n \to \infty} A_n =\cup_{i=1}^{\infty} A_i = [0, 1], \quad \cap_{i=1}^{\infty} A_i = \{0\}.$

同样的样本空间下，如果我们改为 $A_i = (0, 1/i)$ ，那么 $\cup_{i=1}^{\infty} A_i = (0, 1)$ 且 $\cap_{i=1}^{\infty} A_i = \emptyset$ 。

对于 $A_i = (-i, i)$ ， $\cup_{i=1}^{\infty} A_i = \Omega$ 。

怎么说呢，因为涉及到极限，我想到的现实一点的例子就是债券的久期（Duration）。但债券的久期感觉更难解释，之后要是有机会讲固收的话可以细讲。用个数学上比较常见的例子。~~先糊弄一下了~~ 。

P.S. deepseek说：单调事件序列的极限理论，为金融中分析"随着某个参数变化，风险如何累积或收敛"提供了严谨的框架。无论是评估极端损失（单调递减序列的极限）还是评估最大风险暴露（单调递增序列的极限），这都是至关重要的概念。久期正是衡量这种利率风险暴露的一个核心指标。(这我不懂desuwa，但我感觉应该有的是更常用的理论工具，比如时序time series，~~疯狂挖坑~~）

概率公理与性质

概率的定义：
一个函数 $P$ ，它将一个实数 $P(A)$ 分配给样本空间中的每个事件，如果满足以下三个条件，则称为概率函数：

i. 对任何事件 $A$ ，有 $P(A) \geq 0$ ，
ii. $P(\Omega) = 1$ ，且
iii. 对于互斥事件 $A_1, A_2, \cdots$ ，有

举个栗子：
假设根据过去一年数据，AAPL 有 55% 的交易日上涨, 上涨记作事件 $A$ 。那么：

$P(A) = P(\text{“上涨”}) = 0.55$ 。这满足 $P(A) \geq 0$ 。
$P(\Omega) = 1$ ，表示股票收益率必然落在我们定义的样本空间内，是确定事件。
可加性：假设 $P(B)= P(\text{“大跌”}) = 0.35$ ，并且显然事件“大涨”和“大跌”是互斥的，那么 $P(A \cup B) = P(\text{“大涨” or “大跌”}) = 0.55 + 0.35 = 0.9$ 。

一些性质：

空集的概率是0， $P(\emptyset) = 0$ ，证明：

令 $A_1 = \Omega$ ， $A_2 = A_3 = \cdots = \emptyset$ 。根据 (iii) 和 (ii)，可得 $P(\emptyset) = 0$ 。

$P(A^c) = 1 - P(A)$ 。证明：

$P(A) + P(A^c) = P(A \cup A^c) = P(\Omega) = 1$ 。

如果A是B的子集， $A \subset B$ ，则 $P(B) = P(A) + P(B \setminus A) \geq P(A)$ 。
$P(A \cup B) = P(A) + P(B) - P(A \cap B) \leq P(A) + P(B)$ 证明：

假设 $A \cup B = (AB) \cup (AB^c) \cup (A^cB)$ ，并且右边的 3 个事件是互斥的。根据定义可知：
$P(A \cup B) = P(AB) + P(AB^c) + P(A^cB)$ ,
$A = (AB) \cup (AB^c)$ ，
所以 $P(A) = P(AB) + P(AB^c)$
类似地 $P(B) = P(AB) + P(A^cB)$ 。
因此:
$P(A \cup B) = P(AB) + \{P(A) - P(AB)\} + \{P(B) - P(AB)\} = P(A) + P(B) - P(AB).$

布尔不等式（是通过重复应用4.得到的）：
$P(\bigcup_{i=1}^n A_i) \leq \sum_{i=1}^n P(A_i)$
如果 $A_n \to A$ ，则 $P(A_n) \to P(A)$ ，这个证明相对复杂，感兴趣的可以自行了解。

我举几个例子你就会发现这些性质其实特别直观，并且一直在用，比如：

$P(A^c) = 1 - P(A) = 1 - 0.55 = 0.45$ （下跌或持平的概率）。
如果 $P(C) = P( \text{涨幅>2\%}) = 0.25$ ，且 $P(A \cap C) = 0.25$ （因为 $C \subset A$ ），那么 $P(A \cup C) = P(A) + P(C) - P(A \cap C) = 0.55 + 0.25 - 0.25 = 0.55$
布尔不等式： $P(\text{“上涨”} \cup \text{“高交易量”}) \leq P(\text{“上涨”}) + P(\text{“高交易量”})$

独立性

定义

$k$ 个事件 $A_1, \cdots, A_k$ 被称为 独立的，如果对于任何 $1 \leq i_1 < i_2 < \cdots < i_j \leq k$ 和 $2 \leq j \leq k$ ，都有
$P(A_{i_1} \cap A_{i_2} \cap \cdots \cap A_{ij}) = P(A_{i_1})P(A_{i_2}) \cdots P(A_{ij})$

直观理解。 如果 $A$ 和 $B$ 是独立的，那么 $A$ 的发生不会给我们提供关于事件 $B$ 是否发生的任何信息。例如，两家业务毫无关联、地处不同国家的公司（例如，中国的茅台酒和美国的特斯拉）的股票日收益率通常可以被认为是独立的。知道茅台今天涨了，并不能给你任何关于特斯拉今天表现的信息。

举个例子：
投掷一枚标准的硬币10次，假设 $A=$ "至少有一个正面"，并定义 $T_j$ 为在第 $j$ 次结果是背面，那么我们可以得到公式：
$P(A) = 1-P(A^c) = 1-P(T_1...T_{10}) = 1-P(T_1)P(T_2)...P(T_{10}) = 1 - 0.5^{10} \approx 0.999$

条件概率与贝叶斯公式

条件概率：
如果 $P(B) > 0$ ，给定 $B$ 发生时 $A$ 的条件概率为

$P(A|B) = \frac{P(AB)}{P(B)}.$

注：
如果A和B是独立的， $P(A|B)=P(A)$
由公式可以显然得到，如果 $P(B) \neq 0$ , 那么 $P(AB)=P(A|B)P(B)$

举个例子：
一个盒子里有4个白球和1个黑球，5个人轮流拿，第二个人拿到黑球的概率是多少？
定义 $P(W_i)$ 为第i个人拿到的是白球，类似 $P(B_i)$ 就是第i个人拿到黑球，那么第二个人拿到黑球就可以写成，
$P(B_2)=P(W_1B_2)=P(W_1)P(B_2|W_1)=\frac{4}{5} \times \frac{1}{4} = \frac{1}{5}$
所以第二个人拿到黑球的概率和第一个人拿到黑球的概率是一样的。

贝叶斯公式：
令 $P(B) > 0$ 且 $P(A_i) > 0$ ，对于 $i = 1, \cdots, k$ 。那么
$P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^k P(B|A_i)P(A_i)}.$

证明.:
令 $A_1, \cdots, A_k$ 是 $\Omega$ 的一个划分。对于任何事件 $B$ ， $P(B) = P(BA_1) + \cdots + P(BA_k).$ 因为
$B = B\Omega = B(\cup_i A_i) = \cup_i (BA_i)$ 。由于 $BA_1, \cdots, BA_k$ 是互斥的。根据条件概率定义 $P(A_i|B) = P(A_iB)/P(B) = P(B|A_i)P(A_i)/P(B)$ 。用全概率公式替换 $P(B)$ ，我们得到贝叶斯公式。

举个例子：
小明将他的电子邮件分为 3 类： $A_1 = \text{“垃圾邮件”}, \, A_2 = \text{“低优先级”}$ 和 $A_3 = \text{“高优先级”}$ 。根据以往经验，他得出结论：

$P(A_1) = 0.7, \quad P(A_2) = 0.2, \quad P(A_3) = 0.1.$

令 $B$ 为邮件包含“免费”一词的事件。再次基于以往经验，

$P(B|A_1) = 0.9, \quad P(B|A_2) = 0.1, \quad P(B|A_3) = 0.1.$

他收到一封含有“免费”一词的新邮件。这封邮件是垃圾邮件的概率是多少？

根据贝叶斯定理，

$P(A_1|B) = \frac{P(B|A_1)P(A_1)}{\sum_{i=1}^3 P(B|A_i)P(A_i)} = \frac{0.9 \times 0.7}{0.9\times0.7 + 0.1\times0.2 + 0.1\times0.1} = \frac{0.63}{0.63+0.02+0.01} = \frac{0.63}{0.66} \approx 0.955.$