统计量化基础-统计推断-概率基础
  Mankindevil 2025年10月18日 367 2

吐槽:

公式我习惯用latex打,但是好像上下角标有问题,编辑界面是正常的, 比如最后一行Snipaste_20251104_225915.png,但是实际上网页显示不出来,我用图片替换了一部分,然后我发现图片大小也没法改,看得很丑,已经告诉it了,先凑付看吧,等改完再说吧。


引言

金融世界本质上是一个由不确定性驱动的大规模、实时的“数据实验室”。每一天,全球市场都在产生海量的数据——股票价格如心跳般起伏,宏观经济指标牵动着亿万资金的流向,公司财报则像一次次突然的“压力测试”。在这个充满“噪声”的复杂系统中,一个核心问题始终萦绕在每一位投资者、分析师和风险经理的心中:我们如何从这些随机波动的数据中,提取出有价值的信息,从而做出更明智的决策?统计就是核心。我计划写一个系列,尽可能帮助大家详细理解。(我自己顺便复习一下)


为什么要统计推断(Statistical Inference)?

统计推断是统计学的一个核心分支,它让我们能够利用从样本数据中计算得出的统计量,去对产生这些数据的总体参数做出合理的、量化的推断。我们几乎永远无法获得“总体”(永远无法到达oo的真实,我中了黄金镇魂曲?!)——我们无法知道所有未来可能的股价,无法遍历每一种经济情景,也无法让时间倒流进行无数次重复投资。我们能拥有的,仅仅是历史数据这一个“样本”。因此,我们必须依靠统计推断这把钥匙,来解锁数据背后的深层含义。


概率

先来点基础定义

定义:

  1. 样本空间(sample space)(Ω\Omega):一个实验所有可能结果的集合。
  2. 结果(outcome)、实现(realization) 或 元素(element)(ω\omega):样本空间中的一个点,记为ωΩ\omega \in \Omega。(\in是属于的意思)
    (P.S. 一个意思,不用太细究区分,硬要说我理解实现realization就是需要进一步计算一下,见下文举例。)
  3. 事件(event) 或叫 随机事件(random event)(AA):Ω\Omega 的一个子集,AΩA \subset \Omega,即一些样本结果的集合。

我们来举一个简单的例子:标普500指数明天的价格
1.样本空间:

  • 最简样本空间只考虑最核心的方向:Ω1={上涨,下跌,持平}\Omega_1= \{\text{上涨}, \text{下跌}, \text{持平}\}.
  • 但是样本空间也可以在复杂一点,考虑方向和幅度。Ω2={ω:ωR}\Omega_2= \{\omega: \omega \in \mathbb{R} \} 这里的 ω\omega代表具体的收益率百分比。例如,ω=+0.5%\omega = +0.5\%ω=1.2%\omega = -1.2\%。但这是一个不可数无限样本空间。
  • 我们还可以将收益率离散来构造样本空间Ω3={..., 大跌(>2%),小跌(2%0%),小涨(0%+2%),大涨(>+2%)}\Omega_3= \{\text{..., 大跌}(> -2\%), \text{小跌}(-2\% \sim 0\%), \text{小涨}(0\% \sim +2\%), \text{大涨}(> +2\%) \}
  1. 结果、实现 或 元素
    这是样本空间中的一个单一、不可再分的基本结果。对应到上面的样本空间的话如下:
  • Ω1\Omega_1 中,一个结果是:上涨。
  • Ω2\Omega_2 中,一个结果(或实现,因为这个东西需要自己定义收益公式,不是直接得到的)是:+0.45%。
  • Ω3\Omega_3 中,一个结果是:小涨(0% to +2%)。
  1. 事件

事件是样本空间的子集,即一个或多个结果的集合。这里在Ω1\Omega_1Ω3\Omega_3中结果就是事件,因为每个结果都是独立的,并不存在同时上涨和下跌,大涨和大跌这种情况。这里举个其他的例子:

  • AA: “标普500指数明日上涨” = {ωΩ2:ω>0}\{ \omega \in \Omega_2 : \omega > 0 \}。这是一个包含无限多个结果(所有正收益率)的集合。
  • BB: “标普500指数明日跌幅超过1%” = {ωΩ2:ω<1%}\{ \omega \in \Omega_2 : \omega < -1\% \}

更多的定义:

  1. 事件 AA补集Ac={ωΩ:ωA}A^c = \{\omega \in \Omega : \omega \notin A\}。这里显然,Ωc=\Omega^c = \emptyset(空集)。

  2. 事件 AABB并集(Or/Union) (我觉得用英文好记)AB={ωΩ:ωA 或 ωB}A \cup B = \{\omega \in \Omega : \omega \in A \text{ 或 } \omega \in B\}, 则有 AB=BAA \cup B = B \cup A,且 AAc=ΩA \cup A^c = \Omega

  3. 事件 AABB交集(And/Intersection):ABAB={ωΩ:ωA 且 ωB}A \cap B \equiv AB = \{\omega \in \Omega : \omega \in A \text{ 且 } \omega \in B\},则有 AB=BAA \cap B = B \cap A,且 AAc=A \cap A^c = \emptyset

  4. 事件序列的并与交(就是有一堆A,他们的交集并集可以用下面的数学符号表示):如果 A1,A2,A_1, A_2, \cdots 是一个事件序列,则:
    Snipaste_20251104_191624.png

  5. 事件 AABB差集(Difference):AB={ωA:ωB}A \setminus B = \{\omega \in A : \omega \notin B\}
    也记作 ABA - B

  6. 包含(Inclusion)关系:如果事件 AA 的发生意味着事件 BB 的发生,则称 ABA \subset B。注意AA发生意味着BB发生,但BB发生不一定意味着AA发生,所以AABB的子集但可能B不是A的子集(B̸AB \not\subset A)。

这个我就不具体举例了,举起来没完,记不住也不用太担心,用个一两回就记住了。


以及更多的定义:(数学是这样的,定义定理一大堆,但不记住的话你看啥都看不懂,所以说数学是语言,数学是文科没毛病)

  1. 互斥不相交 事件: 如果 AB=A \cap B = \emptyset,则 AABB 是互斥的。根据之前定义的,显然 AAAcA^c 就是互斥的。比如,股票涨停和跌停就是互斥的,当然上涨与下跌与持平也是。

  2. 样本空间(Ω\Omega) 的划分:一个不相交的事件序列 A1,A2,A_1, A_2, \cdots,使得
    i=1Ai=Ω.\bigcup_{i=1}^{\infty} A_i = \Omega. 这个上文定义样本空间的时候就展示了,很直观。

  3. AA 的指示函数Snipaste_20251104_192201.png,这是一个定义在 ωΩ\omega \in \Omega 上的函数:
    Snipaste_20251104_192236.png
    指数函数其实到处都是,而且很实用。例如,一个期权如果在交易日结束时股票上涨 (AA) 则支付 1 美元,否则支付 0 美元。其支付函数就是IAI_A。上文中的Ω3\Omega_3就可以通过定义一个指示函数由Ω2\Omega_2得来,i.e. Ω3=IΩ2\Omega_3=I_{\Omega_2}

  4. 单调事件序列及其极限

  • 一个序列 A1,A2,A_1, A_2, \cdots 单调递增,如果A1A2A_1 \subset A_2 \subset \cdots \quad ,那么我们就可以定义limnAn=i=1Ai\lim_{n \to \infty} A_n = \cup_{i=1}^{\infty} A_i
  • 类似的,一个序列 A1,A2,A_1, A_2, \cdots 单调递减,如果 A1A2A_1 \supset A_2 \supset \cdots \quad ,那么我们就可以定义 limnAn=i=1Ai.\lim_{n \to \infty} A_n = \cap_{i=1}^{\infty} A_i.

在两种情况下,我们都可以写作 AnAA_n \to AAnA_n趋近于AA),其中 AA 表示其极限。(我也觉得很抽象)
我们来举一个例子方便理解:(其实不理解也没啥关系,我还没用到过这个)

  • Ω=(,)\Omega = (-\infty, \infty)Ai=[0,1/i]A_i = [0, 1/i]。那么limnAn=i=1Ai=[0,1],i=1Ai={0}.\lim_{n \to \infty} A_n =\cup_{i=1}^{\infty} A_i = [0, 1], \quad \cap_{i=1}^{\infty} A_i = \{0\}.
  • 同样的样本空间下,如果我们改为 Ai=(0,1/i)A_i = (0, 1/i),那么 i=1Ai=(0,1)\cup_{i=1}^{\infty} A_i = (0, 1)i=1Ai=\cap_{i=1}^{\infty} A_i = \emptyset
  • 对于 Ai=(i,i)A_i = (-i, i)i=1Ai=Ω\cup_{i=1}^{\infty} A_i = \Omega

怎么说呢,因为涉及到极限,我想到的现实一点的例子就是债券的久期(Duration)。但债券的久期感觉更难解释,之后要是有机会讲固收的话可以细讲。用个数学上比较常见的例子。先糊弄一下了

P.S. deepseek说: 单调事件序列的极限理论,为金融中分析"随着某个参数变化,风险如何累积或收敛"提供了严谨的框架。无论是评估极端损失(单调递减序列的极限)还是评估最大风险暴露(单调递增序列的极限),这都是至关重要的概念。久期正是衡量这种利率风险暴露的一个核心指标。(这我不懂desuwa,但我感觉应该有的是更常用的理论工具,比如时序time series,疯狂挖坑


概率公理与性质

概率的定义
一个函数PP,它将一个实数P(A)P(A)分配给样本空间中的每个事件,如果满足以下三个条件,则称为概率函数

i. 对任何事件AA,有P(A)0P(A) \geq 0
ii. P(Ω)=1P(\Omega) = 1,且
iii. 对于互斥事件A1,A2,A_1, A_2, \cdots,有Snipaste_20251104_192610.png

举个栗子:
假设根据过去一年数据,AAPL 有 55% 的交易日上涨, 上涨记作事件AA。那么:

  • P(A)=P(“上涨”)=0.55P(A) = P(\text{“上涨”}) = 0.55。这满足P(A)0P(A) \geq 0

  • P(Ω)=1P(\Omega) = 1,表示股票收益率必然落在我们定义的样本空间内,是确定事件。

  • 可加性:假设P(B)=P(“大跌”)=0.35P(B)= P(\text{“大跌”}) = 0.35,并且显然事件“大涨”和“大跌”是互斥的,那么P(AB)=P(“大涨” or “大跌”)=0.55+0.35=0.9P(A \cup B) = P(\text{“大涨” or “大跌”}) = 0.55 + 0.35 = 0.9


一些性质

  1. 空集的概率是0,P()=0P(\emptyset) = 0, 证明:

A1=ΩA_1 = \OmegaA2=A3==A_2 = A_3 = \cdots = \emptyset。根据 (iii) 和 (ii),可得P()=0P(\emptyset) = 0

  1. P(Ac)=1P(A)P(A^c) = 1 - P(A)。证明:

P(A)+P(Ac)=P(AAc)=P(Ω)=1P(A) + P(A^c) = P(A \cup A^c) = P(\Omega) = 1

  1. 如果A是B的子集,ABA \subset B,则P(B)=P(A)+P(BA)P(A)P(B) = P(A) + P(B \setminus A) \geq P(A)

  2. P(AB)=P(A)+P(B)P(AB)P(A)+P(B)P(A \cup B) = P(A) + P(B) - P(A \cap B) \leq P(A) + P(B) 证明:

假设AB=(AB)(ABc)(AcB)A \cup B = (AB) \cup (AB^c) \cup (A^cB),并且右边的 3 个事件是互斥的。根据定义可知:
P(AB)=P(AB)+P(ABc)+P(AcB)P(A \cup B) = P(AB) + P(AB^c) + P(A^cB),
A=(AB)(ABc)A = (AB) \cup (AB^c)
所以P(A)=P(AB)+P(ABc)P(A) = P(AB) + P(AB^c)
类似地P(B)=P(AB)+P(AcB)P(B) = P(AB) + P(A^cB)
因此:
P(AB)=P(AB)+{P(A)P(AB)}+{P(B)P(AB)}=P(A)+P(B)P(AB).P(A \cup B) = P(AB) + \{P(A) - P(AB)\} + \{P(B) - P(AB)\} = P(A) + P(B) - P(AB).

  1. 布尔不等式(是通过重复应用4.得到的):
    P(i=1nAi)i=1nP(Ai)P(\bigcup_{i=1}^n A_i) \leq \sum_{i=1}^n P(A_i)
  2. 如果AnAA_n \to A,则P(An)P(A)P(A_n) \to P(A),这个证明相对复杂,感兴趣的可以自行了解。

我举几个例子你就会发现这些性质其实特别直观,并且一直在用,比如:

  • P(Ac)=1P(A)=10.55=0.45P(A^c) = 1 - P(A) = 1 - 0.55 = 0.45(下跌或持平的概率)。

  • 如果P(C)=P(涨幅>2%)=0.25P(C) = P( \text{涨幅>2\%}) = 0.25,且P(AC)=0.25P(A \cap C) = 0.25(因为CAC \subset A),那么P(AC)=P(A)+P(C)P(AC)=0.55+0.250.25=0.55P(A \cup C) = P(A) + P(C) - P(A \cap C) = 0.55 + 0.25 - 0.25 = 0.55

  • 布尔不等式:P(“上涨”“高交易量”)P(“上涨”)+P(“高交易量”)P(\text{“上涨”} \cup \text{“高交易量”}) \leq P(\text{“上涨”}) + P(\text{“高交易量”})


独立性

定义

kk个事件A1,,AkA_1, \cdots, A_k被称为 独立的,如果对于任何1i1<i2<<ijk1 \leq i_1 < i_2 < \cdots < i_j \leq k2jk2 \leq j \leq k,都有
P(Ai1Ai2Aij)=P(Ai1)P(Ai2)P(Aij)P(A_{i_1} \cap A_{i_2} \cap \cdots \cap A_{ij}) = P(A_{i_1})P(A_{i_2}) \cdots P(A_{ij})

直观理解。 如果AABB是独立的,那么AA的发生不会给我们提供关于事件BB是否发生的任何信息。例如,两家业务毫无关联、地处不同国家的公司(例如,中国的茅台酒和美国的特斯拉)的股票日收益率通常可以被认为是独立的。知道茅台今天涨了,并不能给你任何关于特斯拉今天表现的信息。

举个例子:
投掷一枚标准的硬币10次,假设A=A="至少有一个正面",并定义TjT_j为在第jj次结果是背面,那么我们可以得到公式:
P(A)=1P(Ac)=1P(T1...T10)=1P(T1)P(T2)...P(T10)=10.5100.999P(A) = 1-P(A^c) = 1-P(T_1...T_{10}) = 1-P(T_1)P(T_2)...P(T_{10}) = 1 - 0.5^{10} \approx 0.999


条件概率与贝叶斯公式

条件概率
如果P(B)>0P(B) > 0,给定BB发生时AA条件概率

P(AB)=P(AB)P(B).P(A|B) = \frac{P(AB)}{P(B)}.

注:
如果A和B是独立的,P(AB)=P(A)P(A|B)=P(A)
由公式可以显然得到,如果P(B)0P(B) \neq 0, 那么P(AB)=P(AB)P(B)P(AB)=P(A|B)P(B)

举个例子:
一个盒子里有4个白球和1个黑球,5个人轮流拿,第二个人拿到黑球的概率是多少?
定义P(Wi)P(W_i)为第i个人拿到的是白球,类似P(Bi)P(B_i)就是第i个人拿到黑球,那么第二个人拿到黑球就可以写成,
P(B2)=P(W1B2)=P(W1)P(B2W1)=45×14=15P(B_2)=P(W_1B_2)=P(W_1)P(B_2|W_1)=\frac{4}{5} \times \frac{1}{4} = \frac{1}{5}
所以第二个人拿到黑球的概率和第一个人拿到黑球的概率是一样的。


贝叶斯公式
P(B)>0P(B) > 0P(Ai)>0P(A_i) > 0,对于i=1,,ki = 1, \cdots, k。那么
P(AiB)=P(BAi)P(Ai)i=1kP(BAi)P(Ai).P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^k P(B|A_i)P(A_i)}.

证明.:
A1,,AkA_1, \cdots, A_kΩ\Omega的一个划分。对于任何事件BBP(B)=P(BA1)++P(BAk).P(B) = P(BA_1) + \cdots + P(BA_k). 因为
B=BΩ=B(iAi)=i(BAi)B = B\Omega = B(\cup_i A_i) = \cup_i (BA_i)。由于BA1,,BAkBA_1, \cdots, BA_k是互斥的。根据条件概率定义P(AiB)=P(AiB)/P(B)=P(BAi)P(Ai)/P(B)P(A_i|B) = P(A_iB)/P(B) = P(B|A_i)P(A_i)/P(B)。用全概率公式替换P(B)P(B),我们得到贝叶斯公式。

举个例子:
小明将他的电子邮件分为 3 类:A1=“垃圾邮件”,A2=“低优先级”A_1 = \text{“垃圾邮件”}, \, A_2 = \text{“低优先级”}A3=“高优先级”A_3 = \text{“高优先级”}。根据以往经验,他得出结论:

P(A1)=0.7,P(A2)=0.2,P(A3)=0.1.P(A_1) = 0.7, \quad P(A_2) = 0.2, \quad P(A_3) = 0.1.

BB为邮件包含“免费”一词的事件。再次基于以往经验,

P(BA1)=0.9,P(BA2)=0.1,P(BA3)=0.1.P(B|A_1) = 0.9, \quad P(B|A_2) = 0.1, \quad P(B|A_3) = 0.1.

他收到一封含有“免费”一词的新邮件。这封邮件是垃圾邮件的概率是多少?

根据贝叶斯定理,

P(A1B)=P(BA1)P(A1)i=13P(BAi)P(Ai)=0.9×0.70.9×0.7+0.1×0.2+0.1×0.1=0.630.63+0.02+0.01=0.630.660.955.P(A_1|B) = \frac{P(B|A_1)P(A_1)}{\sum_{i=1}^3 P(B|A_i)P(A_i)} = \frac{0.9 \times 0.7}{0.9\times0.7 + 0.1\times0.2 + 0.1\times0.1} = \frac{0.63}{0.63+0.02+0.01} = \frac{0.63}{0.66} \approx 0.955.

最后一次编辑于 2025年11月04日 0

李不白

厉害

2025-10-20 10:55:39      回复

Mankindevil

多谢捧场

2025-10-22 01:20:19 回复

推荐阅读
  13246844355   2025年10月02日   92   0   0 新手入门