吐槽:
公式我习惯用latex打,但是好像上下角标有问题,编辑界面是正常的, 比如最后一行
,但是实际上网页显示不出来,我用图片替换了一部分,然后我发现图片大小也没法改,看得很丑,已经告诉it了,先凑付看吧,等改完再说吧。
引言
金融世界本质上是一个由不确定性驱动的大规模、实时的“数据实验室”。每一天,全球市场都在产生海量的数据——股票价格如心跳般起伏,宏观经济指标牵动着亿万资金的流向,公司财报则像一次次突然的“压力测试”。在这个充满“噪声”的复杂系统中,一个核心问题始终萦绕在每一位投资者、分析师和风险经理的心中:我们如何从这些随机波动的数据中,提取出有价值的信息,从而做出更明智的决策?统计就是核心。我计划写一个系列,尽可能帮助大家详细理解。(我自己顺便复习一下)
为什么要统计推断(Statistical Inference)?
统计推断是统计学的一个核心分支,它让我们能够利用从样本数据中计算得出的统计量,去对产生这些数据的总体参数做出合理的、量化的推断。我们几乎永远无法获得“总体”(永远无法到达oo的真实,我中了黄金镇魂曲?!)——我们无法知道所有未来可能的股价,无法遍历每一种经济情景,也无法让时间倒流进行无数次重复投资。我们能拥有的,仅仅是历史数据这一个“样本”。因此,我们必须依靠统计推断这把钥匙,来解锁数据背后的深层含义。
概率
先来点基础定义
定义:
- 样本空间(sample space)(Ω):一个实验所有可能结果的集合。
- 结果(outcome)、实现(realization) 或 元素(element)(ω):样本空间中的一个点,记为ω∈Ω。(∈是属于的意思)
(P.S. 一个意思,不用太细究区分,硬要说我理解实现realization就是需要进一步计算一下,见下文举例。)
- 事件(event) 或叫 随机事件(random event)(A):Ω 的一个子集,A⊂Ω,即一些样本结果的集合。
我们来举一个简单的例子:标普500指数明天的价格
1.样本空间:
- 最简样本空间只考虑最核心的方向:Ω1={上涨,下跌,持平}.
- 但是样本空间也可以在复杂一点,考虑方向和幅度。Ω2={ω:ω∈R} 这里的 ω代表具体的收益率百分比。例如,ω=+0.5%或 ω=−1.2%。但这是一个不可数无限样本空间。
- 我们还可以将收益率离散来构造样本空间Ω3={..., 大跌(>−2%),小跌(−2%∼0%),小涨(0%∼+2%),大涨(>+2%)}
- 结果、实现 或 元素
这是样本空间中的一个单一、不可再分的基本结果。对应到上面的样本空间的话如下:
- 在 Ω1 中,一个结果是:上涨。
- 在 Ω2 中,一个结果(或实现,因为这个东西需要自己定义收益公式,不是直接得到的)是:+0.45%。
- 在 Ω3 中,一个结果是:小涨(0% to +2%)。
- 事件
事件是样本空间的子集,即一个或多个结果的集合。这里在Ω1和Ω3中结果就是事件,因为每个结果都是独立的,并不存在同时上涨和下跌,大涨和大跌这种情况。这里举个其他的例子:
- A: “标普500指数明日上涨” = {ω∈Ω2:ω>0}。这是一个包含无限多个结果(所有正收益率)的集合。
- B: “标普500指数明日跌幅超过1%” = {ω∈Ω2:ω<−1%}。
更多的定义:
-
事件 A 的补集:Ac={ω∈Ω:ω∉A}。这里显然,Ωc=∅(空集)。
-
事件 A 与 B 的并集(Or/Union) (我觉得用英文好记):A∪B={ω∈Ω:ω∈A 或 ω∈B}, 则有 A∪B=B∪A,且 A∪Ac=Ω。
-
事件 A 与 B 的交集(And/Intersection):A∩B≡AB={ω∈Ω:ω∈A 且 ω∈B},则有 A∩B=B∩A,且 A∩Ac=∅。
-
事件序列的并与交(就是有一堆A,他们的交集并集可以用下面的数学符号表示):如果 A1,A2,⋯ 是一个事件序列,则:

-
事件 A 与 B 的差集(Difference):A∖B={ω∈A:ω∉B}
也记作 A−B。
-
包含(Inclusion)关系:如果事件 A 的发生意味着事件 B 的发生,则称 A⊂B。注意A发生意味着B发生,但B发生不一定意味着A发生,所以A是B的子集但可能B不是A的子集(B̸⊂A)。
这个我就不具体举例了,举起来没完,记不住也不用太担心,用个一两回就记住了。
以及更多的定义:(数学是这样的,定义定理一大堆,但不记住的话你看啥都看不懂,所以说数学是语言,数学是文科没毛病)
-
互斥 或 不相交 事件: 如果 A∩B=∅,则 A 和B 是互斥的。根据之前定义的,显然 A 和 Ac 就是互斥的。比如,股票涨停和跌停就是互斥的,当然上涨与下跌与持平也是。
-
样本空间(Ω) 的划分:一个不相交的事件序列 A1,A2,⋯,使得
⋃i=1∞Ai=Ω. 这个上文定义样本空间的时候就展示了,很直观。
-
A 的指示函数:
,这是一个定义在 ω∈Ω 上的函数:

指数函数其实到处都是,而且很实用。例如,一个期权如果在交易日结束时股票上涨 (A) 则支付 1 美元,否则支付 0 美元。其支付函数就是IA。上文中的Ω3就可以通过定义一个指示函数由Ω2得来,i.e. Ω3=IΩ2。
-
单调事件序列及其极限:
- 一个序列 A1,A2,⋯ 单调递增,如果A1⊂A2⊂⋯ ,那么我们就可以定义limn→∞An=∪i=1∞Ai。
- 类似的,一个序列 A1,A2,⋯ 单调递减,如果 A1⊃A2⊃⋯ ,那么我们就可以定义 limn→∞An=∩i=1∞Ai.
在两种情况下,我们都可以写作 An→A(An趋近于A),其中 A 表示其极限。(我也觉得很抽象)
我们来举一个例子方便理解:(其实不理解也没啥关系,我还没用到过这个)
- 令 Ω=(−∞,∞),Ai=[0,1/i]。那么limn→∞An=∪i=1∞Ai=[0,1],∩i=1∞Ai={0}.
- 同样的样本空间下,如果我们改为 Ai=(0,1/i),那么 ∪i=1∞Ai=(0,1) 且 ∩i=1∞Ai=∅。
- 对于 Ai=(−i,i),∪i=1∞Ai=Ω。
怎么说呢,因为涉及到极限,我想到的现实一点的例子就是债券的久期(Duration)。但债券的久期感觉更难解释,之后要是有机会讲固收的话可以细讲。用个数学上比较常见的例子。先糊弄一下了 。
P.S. deepseek说: 单调事件序列的极限理论,为金融中分析"随着某个参数变化,风险如何累积或收敛"提供了严谨的框架。无论是评估极端损失(单调递减序列的极限)还是评估最大风险暴露(单调递增序列的极限),这都是至关重要的概念。久期正是衡量这种利率风险暴露的一个核心指标。(这我不懂desuwa,但我感觉应该有的是更常用的理论工具,比如时序time series,疯狂挖坑)
概率公理与性质
概率的定义:
一个函数P,它将一个实数P(A)分配给样本空间中的每个事件,如果满足以下三个条件,则称为概率函数:
i. 对任何事件A,有P(A)≥0,
ii. P(Ω)=1,且
iii. 对于互斥事件A1,A2,⋯,有
举个栗子:
假设根据过去一年数据,AAPL 有 55% 的交易日上涨, 上涨记作事件A。那么:
-
P(A)=P(“上涨”)=0.55。这满足P(A)≥0。
-
P(Ω)=1,表示股票收益率必然落在我们定义的样本空间内,是确定事件。
-
可加性:假设P(B)=P(“大跌”)=0.35,并且显然事件“大涨”和“大跌”是互斥的,那么P(A∪B)=P(“大涨” or “大跌”)=0.55+0.35=0.9。
一些性质:
- 空集的概率是0,P(∅)=0, 证明:
令A1=Ω,A2=A3=⋯=∅。根据 (iii) 和 (ii),可得P(∅)=0。
- P(Ac)=1−P(A)。证明:
P(A)+P(Ac)=P(A∪Ac)=P(Ω)=1。
-
如果A是B的子集,A⊂B,则P(B)=P(A)+P(B∖A)≥P(A)。
-
P(A∪B)=P(A)+P(B)−P(A∩B)≤P(A)+P(B) 证明:
假设A∪B=(AB)∪(ABc)∪(AcB),并且右边的 3 个事件是互斥的。根据定义可知:
P(A∪B)=P(AB)+P(ABc)+P(AcB),
A=(AB)∪(ABc),
所以P(A)=P(AB)+P(ABc)
类似地P(B)=P(AB)+P(AcB)。
因此:
P(A∪B)=P(AB)+{P(A)−P(AB)}+{P(B)−P(AB)}=P(A)+P(B)−P(AB).
- 布尔不等式(是通过重复应用4.得到的):
P(⋃i=1nAi)≤∑i=1nP(Ai)
- 如果An→A,则P(An)→P(A),这个证明相对复杂,感兴趣的可以自行了解。
我举几个例子你就会发现这些性质其实特别直观,并且一直在用,比如:
-
P(Ac)=1−P(A)=1−0.55=0.45(下跌或持平的概率)。
-
如果P(C)=P(涨幅>2%)=0.25,且P(A∩C)=0.25(因为C⊂A),那么P(A∪C)=P(A)+P(C)−P(A∩C)=0.55+0.25−0.25=0.55
-
布尔不等式:P(“上涨”∪“高交易量”)≤P(“上涨”)+P(“高交易量”)
独立性
定义
k个事件A1,⋯,Ak被称为 独立的,如果对于任何1≤i1<i2<⋯<ij≤k和2≤j≤k,都有
P(Ai1∩Ai2∩⋯∩Aij)=P(Ai1)P(Ai2)⋯P(Aij)
直观理解。 如果A和B是独立的,那么A的发生不会给我们提供关于事件B是否发生的任何信息。例如,两家业务毫无关联、地处不同国家的公司(例如,中国的茅台酒和美国的特斯拉)的股票日收益率通常可以被认为是独立的。知道茅台今天涨了,并不能给你任何关于特斯拉今天表现的信息。
举个例子:
投掷一枚标准的硬币10次,假设A="至少有一个正面",并定义Tj为在第j次结果是背面,那么我们可以得到公式:
P(A)=1−P(Ac)=1−P(T1...T10)=1−P(T1)P(T2)...P(T10)=1−0.510≈0.999
条件概率与贝叶斯公式
条件概率:
如果P(B)>0,给定B发生时A的条件概率为
P(A∣B)=P(B)P(AB).
注:
如果A和B是独立的,P(A∣B)=P(A)
由公式可以显然得到,如果P(B)≠0, 那么P(AB)=P(A∣B)P(B)
举个例子:
一个盒子里有4个白球和1个黑球,5个人轮流拿,第二个人拿到黑球的概率是多少?
定义P(Wi)为第i个人拿到的是白球,类似P(Bi)就是第i个人拿到黑球,那么第二个人拿到黑球就可以写成,
P(B2)=P(W1B2)=P(W1)P(B2∣W1)=54×41=51
所以第二个人拿到黑球的概率和第一个人拿到黑球的概率是一样的。
贝叶斯公式:
令P(B)>0且P(Ai)>0,对于i=1,⋯,k。那么
P(Ai∣B)=∑i=1kP(B∣Ai)P(Ai)P(B∣Ai)P(Ai).
证明.:
令A1,⋯,Ak是Ω的一个划分。对于任何事件B,P(B)=P(BA1)+⋯+P(BAk). 因为
B=BΩ=B(∪iAi)=∪i(BAi)。由于BA1,⋯,BAk是互斥的。根据条件概率定义P(Ai∣B)=P(AiB)/P(B)=P(B∣Ai)P(Ai)/P(B)。用全概率公式替换P(B),我们得到贝叶斯公式。
举个例子:
小明将他的电子邮件分为 3 类:A1=“垃圾邮件”,A2=“低优先级” 和 A3=“高优先级”。根据以往经验,他得出结论:
P(A1)=0.7,P(A2)=0.2,P(A3)=0.1.
令B为邮件包含“免费”一词的事件。再次基于以往经验,
P(B∣A1)=0.9,P(B∣A2)=0.1,P(B∣A3)=0.1.
他收到一封含有“免费”一词的新邮件。这封邮件是垃圾邮件的概率是多少?
根据贝叶斯定理,
P(A1∣B)=∑i=13P(B∣Ai)P(Ai)P(B∣A1)P(A1)=0.9×0.7+0.1×0.2+0.1×0.10.9×0.7=0.63+0.02+0.010.63=0.660.63≈0.955.