一、引言
上次介绍过统计学的重要性,还说明了它的词源的和古代国王必修课的背景知识。从这次开始,我们正式进入统计基础部分,现在也是时候换一种思路学习统计学了。
对我而言,因为在学习量化的过程中必须攻克统计学这道难关,所以几年前我强迫自己报名了《中级统计》考试。该考试的教材内容包含统计学与数据、数据描述、参数估计、假设检验等章节。为了快速入门,本次计划简单覆盖所有内容,尽快进入统计思维模式。在自学过程中发现,大多数人都觉得统计学很难,尤其是文科背景出身的人,这种感受会更明显。所以这次我会先分享统计学难学的原因,简单介绍一般统计教材的内容,再梳理基础统计知识,帮助大家快速进入统计思维模式。因为本文的核心目的,就是让我们了解统计学是什么,以及怎样快速培养统计思维。
现在,让我们正式开启统计学的探索之旅吧!
二、文科生的终极难题-统计学
上学时大家经历差不多:学统计只为做题拿分;到大学,不管是经营统计还是一般统计学,课上满是听不懂的术语,考试前还是埋头解题找答案。我们初学者总把统计学当 “要找正确答案的题”,自然觉得难 ——“必须找对答案” 的压力太深,有这感觉很正常。
我刚学量化那几年,也困惑怎么攻克统计,当时只会记笔记、死记硬背。可统计学本就不是死记的学科,后来我少用数字、公式,改用语言和逻辑理解,才慢慢入门。
我既不是统计专家,也没有专业出身的背景,但正因为经历过 “零基础入门” 的困惑,更清楚该怎么给同样零基础的人讲明白。尤其对偏文科、数学基础较弱的人来说,一看到公式就容易产生压力,可这并非能力问题 —— 只是我们从一开始就被引导着 “把统计当数学题学”,却没人像教外语那样教它。
想想第一次学外语:从文字、发音开始,再学单词、语法,慢慢掌握。外语虽难,但和 “怎么听都不懂” 的统计学不一样。其实统计学也是种 “外语”,只是没人像教外语那样教它。统计里的术语、定义和日常脱节,像 “外星语知识”,连逻辑推导都和日常思维完全不同。
下面简单举个例子:
在某券商任职3年的交易员李明,在复盘季度交易业绩时发现,自己新采用的“波段趋势跟踪策略”让账户单季收益比过去5年同期平均收益高出了20个百分点。他认定是这套新策略的有效性推动了收益增长,于是在部门总结会上信心满满地汇报:
李明:王总!我的新交易策略大获成功!本季度收益足足提升了20个百分点!
王总监(快速扫了一眼业绩报表后):小李!把量化分析组的张工叫过来!
张工:总监,您找我?
王总监:你得先给小李补补统计思维的课。
李明:啊?我的汇报有什么问题吗?
坦白说,这种场景是我自己想象出来的案例。但凡收益有增长,多数人都会急着邀功。但从现在起, 我们要学会换个角度思考——那李明的结论到底错在哪?
显然,“收益提升20个百分点”这件事件(event,统计学概念,指随机结果) 是客观事实。可统计学是如何审视这个“事实”?
日常决策 vs. 统计决策
下面要讲的“日常决策”和“统计决策”是我提炼的概念,我们不用在专业教材里死磕它们的定义,重点是理解逻辑差异。
先想想我们平时是怎么思考的:面对市场上成百上千的信息和交易结果,大脑不可能全部深度处理。有些信号会被直接忽略,有些则会被用来支撑判断。这种思考模式的核心是“决定论” ——习惯直观地给“原因”和“结果”画等号。比如:
“因为用了新交易策略,收益才涨了20个点,这策略绝了!”
“上周刚抄了某大V的持仓,这周股票就涨了15%,跟着大V买准没错!”
“昨天清仓了持仓半年的白马股,今天它就跌停了,我这操作 timing(时机)也太神了!”
是不是很熟悉?李明自然会把收益增长归因为新策略,不少投资者也会把盈利归功于“跟对大V”“操作精准”。这种思维在生活里太常见了,它本身不是错,更像是人类进化中为了快速决策形成的“本能”。
但统计决策的逻辑完全不同——它是从“概率” 出发的。我们把上面三个例子改成统计思维的问法:
“用了新交易策略后,收益恰好增长20个百分点的偶然概率有多大?”
“抄大V持仓后,股票恰好上涨15%的偶然概率有多大?”
“清仓后股票恰好跌停的偶然概率有多大?”
是不是突然觉得“别扭”了?这就是统计学像“外语”的地方——它要求你跳出“因果定论”,先问“这件事是不是纯偶然”。这里的“事件(event)”,就是“收益涨20点”、“股票涨15%”、“清仓后跌停”,这些具体结果。请务必记住:统计学的起点,永远是“某件事偶然发生的概率有多大”。
我们觉得统计学难,不是因为我们本身的问题,而是因为它像一门需要“思维翻译”的外语——得把日常的“因果直觉”转换成“概率追问”。过去的统计课要是先讲透这层区别,我们应该不会觉得它难。
统计学从不是“找标准答案的数学题”,它是一门帮你用概率思维拆解市场的工具。要是转不过这个弯,我们永远只能停在“找买卖点答案”的层面。
所以,从今天起,记住这个核心问题:“某笔交易的结果,是策略有效带来的,还是偶然发生的?它的偶然概率有多大?”
三、所有统计书籍第一章都会出现“均值”和“标准差”
均值与标准差
只要是对统计学感兴趣、并尝试学习统计学的人,大概都知道:不管翻开哪本基础统计学教材,最前面几章一定会讲到“平均值”和“标准差”。为什么统计学教材的第一章节,永远会出现平均值和标准差呢?
关键不是 “记住公式”,而是 “看懂公式的含义”。像我这样偏文科的人,刚开始看这公式根本没感觉 —— 因为完全不懂。理工科的人光看公式就能理解,偏文科的不行。对我们来说,得先搞懂 “为什么需要这个公式”,被说服了才能理解公式本身。现在我们就一步步梳理:为什么统计教材要从平均值和标准差讲起?
以当前股市为例
我们来试试描述“当前股市”。想必大家会先在脑海里勾勒出股市的整体表现,然后先描述它最具代表性的特征——比如大盘指数是上涨还是下跌、波动幅度如何、成交量是大是小、主要行业板块的表现怎样,以及市场情绪是乐观还是悲观。为什么会这样描述呢?因为我们描述一个复杂系统时,总会先找出它最典型的特征,比如K线形态、技术指标走势、资金流向特点等等。
现在把话题转回统计学。我们学习统计学,本质上是想更好地分析手头的数据(data)。如果没有数据,我们就没有学习统计学的必要。统计学的起点,并非学习看似复杂的分析方法,而是从"描述数据"开始——也就是说,把"数据长什么样"告诉别人,这才是统计学的第一步。这和描述当前股市的过程完全一样。
那我们该如何向别人描述"数据的长相"呢?答案很简单:用刚才方法就行——找到数据最具代表性的特征,然后描述这些特征。
数据的代表性特征
数据的代表性特征,就是统计量(即描述数据特征的数值)。统计量指的是在一组数据中,最具代表性、能最精准描述数据整体特征的数值。统计学中最常提及的统计量包括:
- 平均值(average; mean)
- 中位数(median)
- 众数(mode)
- 标准差(standard deviation)
- 方差(variance)
- 极差(range)
- 最小值(min; minimum)
- 最大值(Max; Maximum)
正如上面所列,均值和标准差就在其中。到这里我们首先要明确:平均值和标准差的作用,是作为“描述数据特征的统计量”之一存在的。现在大家能理解,为什么翻开统计学教材第一页最先出现的总是平均值和标准差。
现在才刚刚迈出学习统计学的第一步,这个阶段的核心不是掌握复杂的统计方法,而是学习“如何用最简单的方式向别人讲清自己的数据”——这既是最基础的内容,也是统计学的起点,更是至关重要的部分。
平均值
很多人觉得自己懂均值和标准差,可真要细讲,又说不清楚。先从平均值说起。
它的计算公式如下:
公式里,“mean” 是英文 “平均值”,“” 是希腊字母 “缪(mu)”,代表 “总体平均值”;分子 “” 是希腊字母 “西格玛(sigma)”,意思是 “把所有 x 值加起来”;分母 “N” 是 “样本量”(也就是数据的个数),也叫 “数据规模”。最右边的 “(总和 / 个数)” 不是标准写法,是为了方便理解。比如数据 {1,2,3,4,5},平均值就是
平均值是数据的 “中心值”,相当于数据的 “代表选手”。哪怕有 5 亿个数据,要选一个数代表所有数据,选平均值就行 —— 因为它在数据的 “中心位置”。
但这个统计量有个小缺点:只要有一个数值异常偏大或偏小,平均值就会受到严重影响,出现大幅波动。这种异常偏大或偏小的数值,我们称之为异常值(outlier,也译作“离群值”)。当然,某个数值是否属于“异常”,还需要进一步判断,但无论如何,只要存在异常值,平均值就会明显向异常值的方向偏移。
我们稍微修改一下刚才的例子:如果数据变成{1, 2, 3, 4, 5, 99}(比之前多了一个“99”),这时平均值会变成多少呢?计算过程如下:
只是多了一个数值,平均值就从3变成了19,并且明显向“99”这个异常值的方向偏移。其实平均值就像“重心”——只要有一个数值大幅偏向右侧,重心就会跟着移向右侧。
但平均值的作用不止于此。它并非“独自发光”的统计量,反而更像“能在主角和配角之间切换”的核心角色,在统计学中发挥着至关重要的作用:单独看时,它是“主角”;但当它和标准差搭配时,就会扮演“配角”——因为要计算标准差,必须先算出平均值。
标准差
标准差是方差(Variance) 的平方根,所以我们先从方差讲起会更简单。“方差”的英文是“variance”,其中“vari-”来自动词“vary”(变化),所以方差本质上描述的是“数据的变化程度”。
看起来很像,但其实有区别:上面的公式用于计算总体方差(即针对所有数据的方差),下面的公式用于计算样本方差(即针对部分数据的方差)。大家现在不用纠结“总体”和“样本”的区别,先知道有这两种写法就行。
我们还是用之前的例子来计算方差。第一组数据是 {1, 2, 3, 4, 5} ,平均值显然是3。现在我们用上面两个公式中的第二个(样本方差公式)来计算方差:
方差算出来是2.5。为什么要设计成这样的计算方式?
方差是描述“数据围绕平均值分布的平均距离”的统计量。换句话说,它代表“数据与平均值3之间的平均偏离程度约为2.5”。如果我们根据这个结果计算“3±2.5”,会得到0.5和5.5,这看起来有点奇怪——为什么会这样?
原因很简单:计算方差时,我们对“数据与平均值的差值”进行了平方(目的是消除正负号影响),所以结果的单位和原数据不一致。这时只要对 variance 开平方根,把它转换成标准差,就能让单位和平均值保持一致了。对2.5开平方根,结果约为1.58。
因此,这组数据围绕平均值3的分布范围约为“3±1.58”,即1.42到4.58之间。而我们的原始数据是{1, 2, 3, 4, 5},可见平均值和标准差这两个统计量,能很好地描述这组数据的特征。
方差的计算逻辑
我们来仔细拆解方差的计算逻辑。方差的核心是 “衡量数据与平均值的平均偏离距离”,结合之前的数据 {1,2,3,4,5}(平均值为 3)来看公式:先用每个数据分别减去平均值,比如 “1-3=-2”,这个 “-2” 就代表 “数据 1 与平均值 3 的偏离距离是 2”。
但直接计算会出现正负差值 —— 如果把这些差值直接相加,偏离距离的效果会被抵消(比如 - 2 和 + 2 相加为 0)。所以计算方差时,会先对所有差值 “平方”(把正负值都转为正值)再求和,最后除以数据相关数量,得到 “平均偏离程度”。
这里有个常见疑问:数据明明有 5 个,为什么刚才计算时除以 4 而不是 5?因为我们用的是 “样本方差公式”,这类公式的分母是 “n-1”(n 为数据个数)。对初学者来说,“n-1” 不太好理解,最直观的解释是:计算时用 5 个数据分别减去 “同一个平均值 3”,相当于重复使用了 “平均值” 这个已知条件,从 5 个数据中 “损失了 1 个独立信息”,所以分母用 “n-1”(5-1=4)来弥补这种信息损失。
其实 “n-1” 和后续会讲到的自由度(degree of freedom) 密切相关,很多人初学统计时都会被这个概念难住。自由度的具体含义我们之后单独讲,现在先记住 “有这样一个概念”,继续理解方差即可。
方差的本质
再次强调,方差描述的是“数据围绕平均值分布的平均距离”。从计算过程能看出来,分子是“所有数据与平均值的差值的平方和”,分母是“自由度”。所以方差其实就是“平方和除以自由度”的结果。
对 variance 开平方根得到标准差后,它的单位会和平均值保持一致——虽然数值不同,但方差和标准差描述的核心含义是相同的:都是数据的“离散程度”(即数据有多分散)。
为什么要这么强调方差呢?这一点我们会在本章最后说明。
为什么偏偏是平均值和标准差?
前面我们知道,统计学中有很多 “数据代表选手”(统计量)。这就像奥运会或世界杯,总有优秀运动员因名额限制没能入选 —— 从 “追求最优结果” 的目标来看,这是没办法的事,因为我们要的不是 “不错”,而是 “最好”。
统计学也是如此:虽然有能替代平均值的统计量(比如中位数),但它们各有局限。比如中位数,虽能描述数据中心且几乎不受异常值影响,却 “无法通过数学计算直接得出”(需先排序再找中间值);另一中心统计量 “众数”(数据中出现次数最多的数值),同样无法直接计算,且代表性模糊(可能存在多个众数)。
再看描述离散程度的统计量:“极差”(最大值与最小值的差值)虽能反映数据波动,但太简单 —— 只考虑两个极端值,忽略了中间所有数据的分布,能提供的信息很有限,无法替代标准差或方差。
对比下来,平均值和标准差(或方差)的优势很明显。更关键的是,数学家和统计学家还通过研究证明了它们的优越性:
-
高斯(Gauss)的贡献:天才数学家高斯证明了,如果数据的波动符合正态分布,那么用“最小二乘法”计算出的平均值,是最精准的“中心估计值”——也就是说,平均值是描述数据中心最靠谱的统计量。
(大家不用纠结“正态分布”、“最小二乘法”是什么,先记住“高斯证明了平均值是最好的中心代表值”就行,深究下去会陷入复杂的数学推导。)
-
切比雪夫(Chevyshev)的贡献:数学家切比雪夫证明了,无论数据是否符合正态分布,所有数据中,至少有3/4(75%)的数值会落在“平均值±2×标准差”的范围内。
到这里,我们不得不承认:平均值和标准差是统计学中 “名副其实的代表选手”。它们的核心优势很明确:
- 计算方便(可通过明确的数学公式得出);
- 作为“估计真实值的工具”,在统计学中表现最优(能最精准地反映数据特征)。
正因如此重要,所有统计教材才会把它们放在开篇 —— 这是理所当然的。
当然,要是你还觉得统计学难,可能会怀疑 “平均值和标准差真的是最有效的统计量吗?”。就算暂时不信、不喜欢,也请先 “带着这份信任学下去”—— 我们学的统计学,起点和基础就是这两个概念,重要性无需多言。别看它们看似简单,实则是 “能力很强的‘数据代表’”。
两者中谁更重要?
“方差”才是最重要的!
为什么不是标准差,而是方法?—— 方差和标准差本质说的是一回事,只是形式不同。大家以后理解统计的核心,就在于 “方差”:后面学的基础统计知识,只要懂了方差,几分钟就能明白。
所以请大家务必记住这句话:统计学是方差的魔法!
四、为什么是显著的?
p值小于0.05,因此具有统计显著性
哪怕只学过一点统计,大概率也记得 “p 值小于 0.05 就有显著性”。可这话到底啥意思?明明是中文,却像外星语 —— 我们只知道 “小于 0.05”,其他都不懂,还会纳闷:为啥非得是 0.05?p 值是啥?“有统计学意义” 又啥意思?
统计难,就难在这些基础术语像 “外星语”,还没详细解释。我再说明下,我不是统计专业的,接下来的解释,在统计专家眼里可能不严谨,甚至有错。但我不想大家像鹦鹉一样只会背 “p 值小于 0.05 就有显著性”。现在我们就是统计 “新手”,哪怕我解释有点误差,先掌握能在统计里 “活下去” 的基础技能再说 —— 先能入门,之后才能慢慢探索。
什么是p值(p-value)?
有人问p值里的“p”是啥英文缩写,“value”是“值”,“p”其实是“probability”(概率),所以p值就是“概率值”。那这个“概率值”具体指啥呢?先想想:之前总说p值,居然都不知道它是概率值,还一直在算、找答案、做解释。之前说过,统计思维和日常思维不一样,要培养统计思维,就得对每件事都问“这事是偶然发生的概率有多大”。这个“偶然发生的概率”,就是p值。简单说,看到一件事,先算出它的发生概率(也就是p值),再用这个值做统计判断。
当然,从专业统计角度看,这么解释不够完美,但现在先懂这些就行,以后学深了再了解p值更多意思。记住:p值是概率值,就是“某件事偶然发生的概率”。
那这到底啥意思?知道了p值,可为啥说“p值小于0.05就有统计显著性”?首先,概率值范围是0到1(也就是0%到100%),0.05就是5%,所以这话也能说成“概率值小于5%,就有统计学意义”。
也就是说,p值小于5%,我们就觉得“这事有意义”。但大家可能还是不懂:这到底啥意思?为啥非得是5%?10%或者1%不行吗?
什么是“具有显著性”?
统计学里的“显著性”,对应的英文是“significant”,意思是“重要的、有意义的”。回到统计思维上来:之前的核心问题是“某件事偶然发生的概率有多大?”——这个概率就是p值。如果p值小于5%,就说“这件事具有统计显著性”,其实是在说“这件事发生的概率很低”。
因此,我们会这样解读:发生概率低的事件,不是偶然发生的,而是存在某种意义或原因的。这就是为什么我们说“p值小于5%,则具有统计学意义”。
反过来,如果某件事偶然发生的概率大于5%,我们就会判定“这件事是偶然发生的”,认为它的发生没有特别的原因或理由。
通常,当我们想用统计方法验证某个因果关系时,如果p值小于5%,就会得出“是某个原因导致了这个结果”的结论;如果p值大于5%,则会认为“这件事是偶然发生的,和因果关系无关”。
所以要理解“具有统计显著性”,就得先理解统计思维的核心问题——“这件事是偶然发生的概率有多大?”。
为什么偏偏是5%?
理解到这里,大家可能会产生新的疑问:为什么一定要是5%?10%或者1%不行吗?”
我查过资料、问过大模型,这背后有复杂原因和历史,但简单说,p 值 0.05 这个 “标准”,最早是英国统计学家罗纳德·艾尔默·费舍尔(Sir Ronald A. Fisher)在 1925 年在书里提的,后来数学家们约定俗成的规则,不用太纠结。虽然听着有点离谱,但既然多数人都遵守,我们按这个来也没啥问题。
但必须说清楚:“5% 的规则” 不是真理。不能把 “p 值小于 5%” 当成绝对标准,这么想特别危险。我见过有些文章,因为 p 值小于 5%,就觉得 “结果绝对没问题”,甚至觉得 “质疑就是否定真理”,这想法是错的。这里有个最重要的注意点:统计显著性(statistical significance)和实际显著性(practical significance)是不同的。就算统计上说 “这事有意义”,在现实中也未必真的“有实际意义”。
总结下:p 值小于 5%,说明 “这事偶然发生的概率特别低”,所以我们说它 “有统计学意义”,觉得 “这事有因果关系”;要是 p 值大于 5%,就判定 “这事是偶然的”,没啥因果关系。
五、统计学为什么会这么复杂?
统计假设与误差
统计教材的前几章常会提到“统计假设与误差”,但大多数人都觉得“大概懂了”,就直接跳过。可实际上,仔细琢磨会发现,这些内容看似理解,实则容易混淆,只是因为觉得“不影响整体理解统计学”,才勉强略过。教材里常会出现这样的公式:
接下来搞懂统计假设与误差——这到底是什么意思?统计学家为什么要在教材开头设置这么复杂的内容?先一步步拆解这些像“密码”一样的符号。
上面两行公式就是“统计假设”,它们始终同时出现,且处于“相互竞争”的关系。先看第一行:大写字母 H是英文“Hypothesis”(假设)的缩写,下方的小写字母0是数字“0”。这个假设在英文里叫“null hypothesis”,“null”有“空白、无效、等于0”的意思,中文译为原假设 或“零假设”。“原假设”的核心含义是“无意义、无效果”,即“事件的发生没有实际意义”。
第二行的H同样是“Hypothesis”的缩写,后面的小写字母a,有时会换成数字1,“a”是英文“alternative”(替代)的缩写,中文译为备择假设。之所以叫“备择”,是因为它与原假设是竞争关系——原假设认为“无意义”,备择假设就认为“有意义”。统计学家为什么要设置这么复杂的假设?
统计假设的核心逻辑
统计学家先设定两种假设,再基于此做统计决策,目的是更严谨、更安全地得出结论——这其实是一种非常科学的决策方法。单看这套流程背后的思考深度,就能感受到设计者的厉害,但对我们来说,重点是理解并掌握它。结合之前的知识点,我们来梳理统计假设的含义:之前提到,“某件事偶然发生的概率”就是p值,若p值小于5%,说明“事件非偶然发生,存在意义或原因”;若p值大于5%,则说明“事件是偶然发生的,无特殊意义”。
这里的关键关联的是:
- 原假设(H_0):对应“p值大于5%”的情况,即“假设事件是偶然发生的,无意义、无效果”,在统计上就是“假设结果不具有统计学意义”。
- 备择假设(H_a):对应“p值小于5%”的情况,即“假设事件非偶然发生,存在意义或原因”,在统计上就是“假设结果具有统计学意义”。
因此,后续做统计分析时,我们会先计算p值:
- 若p值>5%,则“接受原假设”,判定“事件是偶然发生的,无特殊原因”;
- 若p值<5%,则“接受备择假设”,判定“事件非偶然发生,存在意义或原因”。
交易员李明的业绩案例
我们把统计假设套用到交易员李明的业绩案例中,结合公式就能清晰发现他结论的问题所在:
先解读公式中的符号含义:
- 大写字母D是英文 “difference”(差异)的缩写,可根据场景灵活定义,此处代表 “两组收益的差值”;
- 大写字母B代表 “李明采用新策略的本季度收益”,大写字母A代表 “过去 5 年同期平均收益”;
- 公式中的“”即 “本季度收益与过去 5 年同期平均收益的差值”。
由此可拆解假设:
- 原假设(H_0):,意为 “李明本季度收益与过去 5 年同期平均收益无差异”。若接受原假设,说明 “本季度收益高出 20 个百分点是偶然事件”—— 可能是市场整体行情回暖、短期政策利好等随机因素导致,而非新 “波段趋势跟踪策略” 真的有效。
- 备择假设(H_a):,意为 “李明本季度收益与过去 5 年同期平均收益存在显著差异”。若接受备择假设,才能说明 “本季度收益提升 20 个百分点不是偶然,而是新策略的有效性带来的结果”—— 这也是李明最初自信认定的结论,但他跳过了统计假设的验证环节。
总结来说,选择接受原假设还是备择假设,核心要看p 值—— 即 “本季度收益偶然高出过去 5 年同期 20 个百分点” 的概率。
- 若 p 值<5%(显著性水平):说明 “收益偶然提升 20 个百分点” 的概率极低,我们有理由拒绝原假设,接受备择假设,认定新策略真的有效;
- 若 p 值>5%:说明 “收益提升” 更可能是随机因素导致,我们无法拒绝原假设,不能轻易认定新策略有效。
李明的问题正在于:他只看到了 “收益提升 20 个百分点” 的客观事实,却没通过统计假设验证 “这个事实是否偶然”—— 而这正是王总监让张工给他补统计思维课的核心原因。
第一类误差与第二类误差
接下来我们再看看“5%”这个阈值的另一层含义,以及统计中可能出现的误差。
之前我们提到过“统计显著性与实际显著性”,统计学家深知:无论什么研究或实验,只要用统计方法,就有可能得出错误结论。这种“承认自己可能出错”的态度其实很谦逊——他们不预设“自己的研究一定正确”,而是先假定“结果可能有误”,再展开分析。这些错误在统计中被称为“误差”,结合统计假设,可分为两类,如下表所示:
第一类误差与第二类误差
| 实际情况 | 实验结果 | 分类 |
|---|---|---|
| 原假设为真 | 判定原假设为真 | 无问题 |
| 原假设为真 | 判定原假设为假 | 第一类误差 |
| 原假设为假 | 判定原假设为真 | 第二类误差 |
| 原假设为假 | 判定原假设为假 | 无问题 |
刚开始看可能会混淆,先明确一个前提:原假设与备择假设是对立的——原假设为真,则备择假设为假;原假设为假,则备择假设为真。
先看简单情况:
- 若“实际原假设为真”,且“实验判定原假设为真”,或“实际原假设为假”,且“实验判定原假设为假”,则结果正确,无问题。
关键在“交叉情况”,我们用“新药研发”的例子来理解:
假设我们研发了一种传染病治疗药,想通过实验验证其效果,此时的假设的是:
- 原假设(H_0):药物无效(对应“效果=0”);
- 备择假设(H_a):药物有效(对应“效果≠0”)。
基于此,两类误差的含义如下:
-
第一类误差(Type 1 Error,用 表示):实际原假设为真(药物无效),但实验判定原假设为假(误判药物有效)。
比如“药物其实无效,却被误判为有效”,若据此大量生产并给患者使用,可能导致患者死亡,后果严重。
-
第二类误差(Type 2 Error,用 表示):实际原假设为假(药物有效),但实验判定原假设为真(误判药物无效)。
比如“药物其实有效,却被误判为无效”,虽不会导致患者因用药死亡,但会错失有效的治疗方案,十分可惜。
两类误差的意义与“5%”的本质
为什么要区分这两类误差?核心是“明确风险优先级”。统计学家知道,第一类误差比第二类误差更致命(例如将无效药物误判为有效会危及生命),但人非圣贤,无法完全避免误差——因此他们决定:不追求“完全消除第一类误差”,而是为其设定一个“可接受的上限”。
这个“可接受的第一类误差上限”,就是用希腊字母表示的显著性水平,也就是我们常说的“5%(0.05)”。这是“为什么p值阈值设为5%”的第二个、也是更准确的原因:5%是我们能接受的“误判原假设为假”(即把偶然事件判定为非偶然事件)的最大概率。
用通俗的话讲:“5%的规则”意味着“我们允许自己有不超过5%的概率,把‘偶然发生的事件’错误判定为‘有意义的非偶然事件’”。
不过对刚学统计的人来说,用这种逻辑理解p值和5%,可能会觉得有难度——所以我的建议是:现阶段先记住“p值是事件偶然发生的概率”,对误差的概念先有“知道存在这两类情况”的认知即可,后续深入学习时再慢慢消化细节。但至少要明确:第一类误差更致命,而5%是它的可接受上限。
六、变量与数据
接下来我们来了解变量与数据。在统计学中,“变量”是出现频率高达数千次的核心术语。我们平时经常用到这个词,也觉得自己懂它,但要问两个问题:
- 变量到底是什么?
- 变量的反义词是什么?
我发现很多定义都用了晦涩难懂的表述,但其实我们不需要这些“看似专业却无用”的解释,而是要用自己的话把它说清楚。我是这样理解的:变量,顾名思义,就是“会变化的数值”。
从英文来看,“变量”是“variable”,前缀“vari-”来源于动词“vary”(变化),后缀“-able”表示“能够……的”,所以“variable”的字面意思就是“能够变化的(数值)”。我们举几个例子:
- 量化交易员回测策略时,“策略的年化收益率” 就是变量;
- 风险分析师评估股票组合时,“组合的日波动率” 就是变量;
- 研究员分析期货市场时,“某品种主力合约的日内持仓量” 就是变量。
变量种类
在了解变量种类前,我们先看看变量的基本特征。以“教育程度”这个变量为例,它可以包含“初中/高中/本科/本科以上”4个属性(属性的数量和名称可由研究者根据需求设定)。这些属性是文字形式,计算机难以直接识别,因此需要给每个属性分配一个唯一的数值(比如1=初中、2=高中、3=本科、4=本科以上)。
但要注意:这些数值是否有实际意义、数值之间的间隔是否相等,取决于属性本身的关系——变量的种类,正是根据“属性、数值、关系”来划分的。
变量的特征
变量最核心的分类是分类变量和连续变量(不同教材名称可能略有差异,但概念一致):
| 分类 | 英文 | 核心特征 | 别名/对应概念 |
|---|---|---|---|
| 分类变量 | Categorical Variable | 取值为“类别”(如性别、品牌),数值仅用于区分类别,无实际数学意义 | 定性变量(Qualitative Variable) |
| 连续变量 | Continuous Variable | 取值为“连续的数值”(如身高、体重),数值有实际数学意义,可进行运算 | 定量变量(Quantitative Variable) |
- 分类变量的细分:名义变量与顺序变量
分类变量可进一步分为名义变量和顺序变量,英文分别是“Nominal Variable”和“Ordinal Variable”:
-
名义变量:最基础的分类变量,类别之间没有顺序关系,数值仅用于“给类别命名”,无任何数学意义。
例子:性别(男=1、女=2)、血型(A=1、B=2、O=3、AB=4)——数值1和2仅代表“不同类别”,没有“1<2”或“1比2重要”的含义。
-
顺序变量:类别之间有明确顺序关系,数值的顺序能反映类别的顺序,但数值之间的“间隔不相等”(无法用数学运算衡量间隔)。
例子:教育程度(1=初中、2=高中、3=本科、4=本科以上)——数值1<2<3<4对应“教育程度从低到高”,但“初中到高中”与“高中到本科”的“差距”无法用“2-1=1”或“3-2=1”来衡量。
调查问卷中常用的李克特量表(Likert-scale,如5点量表、7点量表),也属于顺序变量——“非常不满意=1”到“非常满意=5”有顺序,但“1到2”与“4到5”的“满意程度差”无法量化。
- 连续变量的细分:区间变量与比率变量
连续变量可进一步分为区间变量 和比率变量,英文分别是“Interval Variable”和“Ratio Variable”:
-
区间变量:数值之间有相等间隔(可进行加减运算),但没有绝对零点(0无实际意义),无法进行乘除运算(不能说“某数值是另一数值的几倍”)。
例子:温度(摄氏度)——10℃-5℃=5℃,间隔相等,但“0℃”不代表“没有温度”,也不能说“10℃是5℃的2倍热”。
注意:区间变量在实际研究中非常少见,大多数时候我们接触的连续变量都是比率变量。
-
比率变量:满足连续变量的所有特征——数值间隔相等、有绝对零点(0代表“没有”),可进行加减乘除运算。
例子:身高(0cm代表“没有身高”,180cm是90cm的2倍)、体重(0kg代表“没有体重”,60kg是30kg的2倍)、年龄(0岁代表“出生”,20岁是10岁的2倍)。
特殊情况:有些变量看似“不连续”,实则属于比率变量。比如年龄:我们通常说“24岁”而非“24.5岁”,但年龄本质上是连续的(可精确到小数),只是我们按“年”进行了取整,仍属于比率变量。
关键提醒:不要过度纠结变量分类
问卷中的N个变量都采用李克特量表,因此属于顺序变量。后续我们会学习回归分析等方法。
如果严格按“顺序变量只能用特定方法”,问卷数据的分析会受到极大限制,甚至无法进行。虽然从理论上讲,“客户满意度”是无法用“比率”衡量的(不能说“5分满意度是1分的5倍”),但用李克特量表收集的“文字选项”(非常满意/比较满意等),比直接让客户填“0-100分”更客观(不同客户对“分数”的标准不同,比如有人认为“满意”是60分,有人认为是90分,而文字选项的标准更统一)。
最后要强调:积累统计知识很重要,但不要过度纠结“原则对错”——统计学一直在发展,过去的“铁律”可能被新方法突破(比如机器学习、人工智能的出现,让传统统计方法有了更多补充)。像统计学家那样,以“自己可能出错”的谦逊态度学习,才能更好地理解统计的本质。
七、统计学会容易混淆
相关关系与相关系数
现在我们来了解“更有统计学味道”的内容——相关关系。它通常出现在统计教材的前期,会伴随着复杂公式,但很多人都是“大概懂了就跳过”。其实相关关系的定义很简单:“一个变量与另一个变量之间共同变化的函数关系”。从定义能看出,相关关系首先需要两个变量,核心是“两个变量一起变化”。
相关关系分为两类:正相关关系和负相关关系。
1、正相关关系
当两个变量呈正相关时,变化方向一致,可描述为:
- X增加时,Y增加;X减少时,Y减少。
- Y增加时,X增加;Y减少时,X减少。
这四句话本质上是同一个意思:两个变量朝相同方向变化。
2、负相关关系
当两个变量呈负相关时,变化方向相反,可描述为:
- X增加时,Y减少;X减少时,Y增加。
- Y增加时,X减少;Y减少时,X增加。
核心是两个变量朝相反方向变化。
关键:相关系数的“方向”与“强度”
描述相关关系的核心指标是相关系数,它包含两个关键信息:方向和强度。
相关系数的基本特征:
- 取值范围:仅在 1 到 +1 之间(含端点),超出这个范围的数值(如2.5)都是错误的。
- 极端值含义:
- 相关系数 = +1:完全正相关(两个变量变化方向完全一致,数据点完全重合为一条直线);
- 相关系数 = -1:完全负相关(两个变量变化方向完全相反,数据点完全重合为一条直线);
- 相关系数 = 0:无相关关系(两个变量无任何关联,数据点呈随机分布)。
相关系数的“方向”与“强度”
- 方向:由正负号决定——“+”表示正相关,“-”表示负相关;
- 强度:由绝对值大小决定——绝对值越接近1,相关强度越强(数据点越集中);绝对值越接近0,相关强度越弱(数据点越分散)。
理解相关关系的关键不是看公式,而是看散点图——将两个变量(X和Y)分别作为横纵轴,每个数据点对应一组(X,Y)取值,通过点的分布可直观判断相关关系。
正相关关系
| 子图 | 相关系数() | 特征描述 |
|---|---|---|
| (a) | 1.0 | 完全正相关:所有数据点严格重合为一条“右上倾斜”的直线,强度最强; |
| (b) | 0.8 | 强正相关:数据点紧密围绕“右上倾斜”的直线分布,强度较强; |
| © | 0.4 | 弱正相关:数据点较分散地分布在“右上倾斜”的直线周围,强度较弱; |
| (d) | 0.0 | 无相关:数据点呈随机的“圆形分布”,无明显方向,强度为0。 |
负相关关系
| 子图 | 相关系数() | 特征描述 |
|---|---|---|
| (a) | 0.0 | 无相关:数据点随机分布,无方向; |
| (b) | -0.4 | 弱负相关:数据点较分散地围绕“右下倾斜”的直线分布,强度较弱; |
| © | -0.8 | 强负相关:数据点紧密围绕“右下倾斜”的直线分布,强度较强; |
| (d) | -1.0 | 完全负相关:所有数据点严格重合为一条“右下倾斜”的直线,强度最强。 |
常见误区:相关系数与“直线角度”无关
很多人会误以为“散点图中直线的倾斜角度决定相关系数”,我刚入门统计时,也是这么想过,这是错误的。只要数据点完全重合为一条直线(无论倾斜角度如何),相关系数就是+1或-1;但如果直线“平行于X轴”(X变化时Y不变)或“平行于Y轴”(Y变化时X不变),相关系数为0。
相关系数=+1与=0的情况
- (a)(b)©:虽直线倾斜角度不同,但数据点均完全重合为直线,相关系数均为+1;
- (d):直线平行于X轴(X增加时Y不变),相关系数为0。
相关系数=-1与=0的情况
- (b)©(d):虽直线倾斜角度不同,但数据点均完全重合为直线,相关系数均为-1;
- (a):直线平行于X轴(X增加时Y不变),相关系数为0。
重要前提:相关关系基于“线性关系”
我们讨论的相关关系,默认基于线性关系——即两个变量的关系可通过“直线”描述。只有当变量呈线性关系时,相关系数的解读才准确;若变量呈非线性关系(如曲线关系),相关系数会完全失效,不能作为判断依据。
也就是说,数据点呈曲线分布(如先减后增、先增后减),虽相关系数有正有负,但均无法反映真实的非线性关系,结果无效。 因此,仅用统计软件计算相关系数是危险的——必须结合散点图,确认变量为线性关系后,再解读相关系数。
相关关系与因果关系
相关关系本身并不复杂,问题常出在“解读”上——很多人会把“相关”误认为“因果”。
- 因果关系(Causal relationship):指“原因”与“结果”的明确关联——如“吃了晚饭(原因)所以肚子饱(结果)”、“有收入(原因)所以能支出(结果)”,存在“因→果”的明确逻辑;
- 相关关系:仅表示“两个变量一起变化”,不存在“原因”与“结果”的区分。
例如:若“变量X(广告投入)”与“变量Y(销售额)”的相关系数为0.8(强正相关),只能说明“广告投入增加时,销售额也倾向于增加”,但不能说“因为广告投入增加,所以销售额增加”——可能存在其他因素(如季节、竞品活动)同时影响两者,导致它们呈现相关。
很多研报或者论文会犯“将相关解读为因果”的错误,比如“相关系数为0.8,因此X是Y的原因”。解读相关系数时,必须明确:相关≠因果,绝不能强加“因→果”的逻辑。
八、总结
我们已经了解到,统计学并非一门关于寻找标准答案的数学题,而是一种需要掌握的核心思维方式。它要求我们通过理解均值、标准差等基本概念,并运用以p值为代表的概率工具来审视数据、辨析相关与因果,从而做出更明智的决策——这门独特的“语言”与我们日常的思维模式截然不同。
在完成上述“统计思维的转变”后,我们便成功奠定了坚实的基础,真正理解了统计学与直觉判断之间的核心差异。接下来,我们将开始探讨统计推断中的重要工具——“T检验”。