文科生の量化闯关记:第一关,从零开始的挑战
  我是宽客 27天前 399 2

一、背景

谁是西蒙斯?

夜景001.jpg

2019 年,我天天对着堆成山的财务报表加班,眼睛都快看花了。Excel 和财务软件上跳动的数字突然变得陌生 —— 难道我的人生就要永远困在这些冰冷的账目里?难道我就这样替人做利润表一辈子,自己的财务人生却还是空白?

想起大学时炒股的 “黑历史”,看了两本技术指标书后,啥也不懂就瞎买,最后被割得干干净净,成了妥妥的韭菜。但心里一直藏着个梦想:总有一天成为厉害的投资者。

直到有天深夜在油管刷视频,刷到西蒙斯老爷子。这位量化投资界的传奇,靠着数学模型和代码,把文艺复兴科技公司做成了 “赚钱机器”,年化收益率高得吓人!

西蒙斯照片.jpg

“量化投资” 这四个字一下就抓住了我,就像在黑暗里突然照进来一束光。当时就想:原来投资还能这么玩?我当场决定,必须试试这个!

可真学起来才知道有多难。Python 代码看得我直挠头,金融术语听得我晕头转向,AI 知识和数理知识更是让我怀疑人生,感觉脑子都要烧糊了。

不过我始终记着:“每天进步 1%,一年认知积累将会达 37 倍。” 这几年,我硬着头皮啃书、考相关证书,终于在 2022 年转行做了 IT。

即便遇到不少挫折,我也一直坚持摸索,因为我知道,不拼尽全力,永远摸不到量化投资的大门。

2025 年初,偶然在网上看到 “量变学院” 的线下课程,果断报名参加。在课上经过一系列学习,我才真正摸到了量化投资的门槛,开始慢慢理解什么才是真正的量化。

这些年踩过的坑、走过的弯路,都成了我的独家经验包。接下来,我将从代码、数理、金融、交易这 4 个关键板块,把自己的闯关心得全掏给你,准备了这个《文科生の量化闯关记》系列,帮你少走些冤枉路!

二、量化交易纵览与概论

(一)、量化投资

接下来分享的量化知识,是我结合‘量变学院’课程体系与《量化李不白》自媒体内容,系统整理的学习笔记。

1、什么是“量化”?

量化投资是一种基于数学模型、统计学方法及算法的投资方式,核心是通过数据分析驱动决策,而非依赖个人经验或直觉。其本质是将投资逻辑转化为可验证的量化规则,通过回测、优化、实盘的闭环流程,实现系统化交易。具体特点包括:

  • 数据驱动决策:基于公开数据(如财务、量价、文本等)构建模型,通过统计推断预测市场走势,例如用因子投资框架挖掘有效指标(如财务因子、动量因子),并通过多因子模型生成交易信号。

  • 系统化流程:涵盖“数据获取-清洗-因子挖掘-策略构建-回测验证-模拟交易-实盘落地”全流程,每个环节需严格遵循量化逻辑,例如回测时需关注收益率、最大回撤等指标,规避过度拟合。

  • 多学科交叉:涉及编程(Python工具栈,如pandas处理数据、matplotlib可视化)、数理(线性代数、概率论、机器学习)、金融(资产定价模型、因子投资)等领域,例如用 Python 的 pandas 处理财务数据,结合线性代数构建因子矩阵,再通过 CAPM 模型完成多因子选股策略的回测与验证。

  • 核心在于统计与算法:真正的量化并非简单的程序化交易(如用麦语言自动选股),而是通过算法优化(如高频交易中控制延迟在微秒级)和统计分析(如相关性检验、假设检验),实现策略的可持续性,例如中低频交易中通过截面维度和时间序列预测构建策略。

2、量化交易与主观交易的核心区别

对比维度 量化交易 主观交易
决策依据 基于数学模型、统计规律和历史数据,通过因子分析、回测等科学方法验证策略有效性。例如用Barra风险模型控制因子暴露,或通过多因子检验筛选有效指标。 依赖个人经验、直觉、市场观察及主观判断,例如根据K线形态、均线金叉死叉或“盘感”决策,易受情绪(如恐惧、贪婪)影响。
试错成本 成本低,可通过历史数据回测、模拟交易提前发现策略缺陷,无需实盘亏损。例如用100万资金回测,亏3%即可定位因子失效或风控漏洞,快速优化。 成本高,需通过实盘交易亏损“悟道”,且难以确定方法论是否正确。例如亏20%-30%才意识到策略失效,且纠错依赖个人顿悟,效率低。
策略逻辑 截面策略为主,核心是“排序”(如对股票按因子得分排序,选择高分标的),注重多因子组合与风险分散,例如趋势跟踪策略通过量化指标判断市场高波动环境并开仓。 时序策略为主,聚焦个股买卖点优化(如寻找“最佳买点”),依赖单一品种或技术形态,例如主观认为某股票突破均线即买入,忽视整体市场环境。
标准化与复制性 有相对标准化的方法论,例如因子投资流程(挖掘-检验-组合)、风险控制框架(如行业集中度限制),策略可复现。例如同一套量化模型,不同人使用结果差异小。 无标准答案,策略依赖交易员个人认知、经历,难以复制。例如优秀主观交易员的决策融合个股、行业、甚至社交信息,其“盘感”无法通过数据量化。
收益与风险特征 收益相对稳定,因风控严格(如限制单一品种仓位),难以实现几十倍高收益,但长期复利效应显著。例如量化基金年均收益15%-25%,最大回撤可控。 可能通过单一品种重仓获取高收益(如某年份收益几十倍),但风险极高,易受市场波动影响,收益随机性强,例如某主观交易员今年赚300%,明年可能亏损50%。
执行力与干预 依赖代码执行,减少人工干预,策略纪律性强。例如回测验证后的策略自动运行,避免“犹豫不卖”等心态问题。 易受心态影响,执行力不稳定,例如计划止损但因侥幸心理扛单,或因贪婪提前止盈。
数据分析能力 依赖庞大的数据分析框架,例如用Python处理TB级量价数据,通过机器学习挖掘非线性关系,例如用神经网络预测股价趋势。 依赖肉眼观察和人脑分析,难以处理复杂数据,例如无法快速计算数百只股票的因子相关性,易忽略隐性风险。
市场适应性 擅长处理可量化的规则化市场(如高波动、因子有效环境),例如量化定义“高波动”为价格突破历史标准差极限,此时策略盈利概率高。 擅长处理无法量化的突发信息(如政策突变、产业动态),例如主观交易员通过调研某公司产能变化,提前布局股票。

类比说明:

  • 量化像赛车:依靠标准化的机械结构(模型)、精准的参数调校(因子优化)和严格的规则(风控),在大多数情况下稳定行驶,虽难瞬间爆发,但持续复利;
  • 主观像赛马:依赖骑手的经验(盘感)和马匹的临场状态(个股突发消息),可能某段赛程一骑绝尘,但难以持续,且受骑手状态(心态)影响大。

二、量化学习路线图

4个维度.png
在 “量变学院” 学习量化投资期间,我以课程的《量化投资进阶知识图谱》为指引,系统梳理编程、数理、金融、交易等核心技能点,最终串联成清晰的学习路线图。

1、金融(因子投资 + 金融应用 )

  • 因子投资全流程:多维度因子挖掘(财务/量价/文本 )→ 单/多因子检验筛选 → 技术分析融合生成交易信号 → 构建趋势跟踪、均值回归等策略 → 回测验证(收益率、最大回撤等指标 )→ 仓位动态管理(固定/风险平价等策略 )→ 模拟交易演练 → 实盘落地,强调因子配置优化与风险控制闭环。
  • 金融模型与应用:资产定价模型(CAPM、APT、Fama - French 三因子 )、蒙特卡洛模拟(期权定价等场景 )、事件研究法(分析事件对资产价格影响 ),支撑金融场景实操。

因子投资全流程如同找股票的 “加分项”—— 先从财报、量价数据、新闻中挖掘线索(因子),再逐一测试其有效性(如 “该因子能否预测股价上涨”),通过后组合成策略(如均值回归策略),接着用历史数据回测验证(检验策略历史收益),动态调整仓位并实盘验证,全程需做好风险控制。

金融模型与应用好比 “金融操作手册”。例如 CAPM 模型用于计算股票合理估值;蒙特卡洛模拟通过计算机模拟 100 种股价走势,测算期权价值;事件研究法分析财报等事件对股价的具体影响。这些模型能将主观判断转化为有据可依的投资决策。

2、代码编程(Python 工具栈 )

  • 基础语法:覆盖 Python 数据类型(字符串、列表等 )、函数(def、lambda )、模块管理,搭建编程基础。
  • 金融专属库:数据处理(numpy、pandas )、可视化(matplotlib、seaborn )、网络请求(requests )、爬虫(scrapy、selenium )、并发处理(threading、multiprocessing、asyncio ),为量化流程提供工具支撑。

Python 是 “能听懂人话的电脑语言”,你告诉它 “做什么”(如 “对比 A、B 股票收盘价”),它就能执行。基础语法就是学 “如何指挥它”——“字符串” 存文字,“列表” 装数据,“函数” 是 “一键完成任务的快捷方式”。

金融专属库是量化的 “工具箱”:pandas 像 “智能 Excel”,能整理杂乱数据;numpy 是 “计算加速器”,可快速处理大量数值;matplotlib 是 “绘图铅笔”,能将涨跌趋势可视化;requests 是 “数据快递员”,可自动爬取新闻或股价。这些工具能帮你轻松处理海量数据,告别手动计算。

3、数理(数学 + 统计 + 计量 )

  • 数学基础:线性代数(矩阵运算、特征值 )、概率论(概率分布、随机变量 )、微积分(导数、积分刻画金融变量关系 )、运筹学(线性规划 ),构建底层逻辑 。
  • 统计与计量:假设检验、回归分析(经典线性回归模型假设/检验/拟合优度 )、异方差/自相关/季节性/正态性处理、动态模型(AR/MA/ARMA/ARIMA ),为金融建模与策略开发提供统计方法。
  • 机器学习延伸:聚类、分类、神经网络,及深度学习/强化学习基础,拓展策略算法维度。

数学基础是量化的“底层逻辑”。例如线性代数是“处理多变量的工具”——若同时分析市盈率、成交量、新闻情绪三个因素对股价的影响,需通过矩阵运算“合并分析”;概率论是“计算涨跌概率的标尺”——如“明日股价上涨概率为60%”;微积分是“衡量变量变化速率的显微镜”——例如“股价每上涨1元,成交量同步增长的幅度”;运筹学是“优化资源分配的艺术”——比如“用10万元资金投资股票时,如何分配仓位能实现收益最大化”。

统计与计量是“验证市场规律的核心工具”,也是我个人认为最为关键的部分。比如假设检验用于“验证投资猜想的真伪”——当你猜想“月线收红的股票下月更易上涨”时,可通过统计方法检验该猜想是否成立;回归分析旨在“探寻变量间的关联”——如“广告投入每增加1万元,产品销量相应增长5万元”的量化关系;ARIMA模型是“预测时间序列的利器”——可依据过去3个月的股价数据,推断下月走势;而机器学习(如神经网络)则是“让计算机自主挖掘规律的引擎”——向其输入海量股票数据后,能自主“学习”出一套判断涨跌的逻辑。

4、交易(全流程闭环 )

  • 数据与信号:因子数据全链路(获取 - 清洗 - 存储 - 配置 )→ 交易信号生成(因子 + 技术分析融合 )。
  • 策略与验证:趋势跟踪、均值回归等策略构建 → 回测(指标计算、过度拟合规避 )→ 模拟交易(流程熟悉、策略打磨 )。
  • 实盘与风控:实盘交易(接口对接、订单执行、成本控制 )→ 仓位管理(金字塔加减仓等 )→ 止损/止盈风控,实现从策略到落地的完整闭环。

数据与信号:先准备 “原材料” 和 “信号灯”。比如做 “均线金叉” 策略(短期均线上穿长期均线即买入),需先获取股票收盘价数据,补全缺失日期并存储,再配置金叉条件。条件满足时,系统会生成 “买入” 信号。

策略与验证:先 “纸上模拟”,再 “实战演练”。有了 “时序买入” 信号后,用历史数据回测:“过去 5 年按此信号买卖,收益如何?最大回撤是多少?” 若发现 “部分该涨行情亏损”,可能是过度拟合(策略仅适配历史特定行情),需调整。回测通过后,用模拟盘练习,熟悉交易流程。

实盘与风控:最后 “真刀真枪” 入场。实盘交易需对接券商接口(如 QMT、PTrade)实现自动下单,同时控制交易成本(如手续费)。仓位管理要到位(如 10 万资金分批次投入),设置止损线(如亏损 10% 清仓)和止盈线(如盈利 20% 落袋)。整个过程如同开车 —— 既要追求收益(踩油门),也要控制风险(踩刹车)。

这份知识图谱或许无法让你立刻精通量化,但至少能帮你理清学习路径,少踩我当年踩过的坑。遇到不懂的地方,不妨多向 DeepSeek 等大模型 “请教”,直到把知识点吃透为止。

日后我们一起按照这张地图,带着你逐个攻克这些知识点!

三、总结

回顾这四年的学习历程,我深知自己仍在量化投资的道路上不断探索,目前尚未开启实盘操作。但这些年积累的经验与教训,或许能为刚入门的你提供一些参考。我明白作为外行人踏入量化领域时的迷茫与无助,所以真心希望能用自己走过的路,帮你避开一些不必要的阻碍。

接下来,我将从代码、数理、金融、交易这四个核心维度,分享自己学习过程中的经验与思考。先从最基础的 Python 安装与配置开始讲起,这些看似琐碎的步骤,却是搭建量化学习框架的重要基石。如果你在阅读过程中有任何疑问,欢迎随时留言交流。

让我们一起在量化投资的世界里稳步前行!

最后一次编辑于 9天前 5

AlphaSmith

写的不错!!

2025-06-28 00:45:15      回复

普洱咖啡

沙发

2025-06-27 16:56:17      回复

推荐阅读