Deep Research

算法交易中的深度学习与强化学习（2018–2025）：哪些有效、哪些会失效，以及如何更稳健地落地

Kaizhi Tang

17 Feb 2026 • 6 min read

2018–2025 年，深度学习（DL）和深度强化学习（DRL）在量化交易里的位置发生了变化：从“论文里很强”逐步走向“可以进入生产体系的工具箱”。但真正被反复验证的，不是“神奇的 Alpha”，而是一些更朴素、也更残酷的结论：

预测不等于交易：方向准确率提升，并不必然转化为扣除成本后的净收益。
风险调整目标更可迁移：Sharpe、回撤等目标往往比“最大化收益”更接近真实约束。
泛化才是难点：很多失败来自市场状态切换（regime shift）、数据泄漏、以及过于理想化的回测假设。

下面按模型家族（LSTM/CNN/Transformer）与 DRL 家族（DQN、PPO/A2C/DDPG/SAC）总结关键经验，并给出一个更“可落地”的实践清单。

1）深度学习真正擅长的地方

LSTM / GRU：时间序列强基线

LSTM 仍然常见于 收益/波动预测，然后用交易规则与风控层把预测“变成仓位”。更稳健的做法通常包括：

用 收益率/对数收益 而不是原始价格
严格正则化 + 走步（walk-forward）验证
明确的风险覆盖（仓位上限、波动率缩放、“不交易区间”）

一些代表性工作表明：当把问题表述为组合再平衡而不是单资产择时，风险调整表现可能更好（当然仍需严谨验证）。

CNN：抓“局部形态”（尤其是微观结构）

CNN 适合处理局部模式明显的输入：

限价单簿/微观结构特征（DeepLOB 思路）
技术指标矩阵化输入
CNN→LSTM 混合（CNN 抽特征，LSTM 建模时间依赖）

但 CNN 对数据量和数据清洗更敏感，如果验证不够严格，很容易被噪声“喂胖”。

Transformer：多资产、长上下文、以及多模态融合

Transformer 的优势常出现在：

需要更长的时间依赖
多资产联合状态表示
融合价格 + 宏观 + 新闻/情绪等替代数据

近年一个重要方向是 Transformer + RL 的组合配置：attention 改善状态表示，有机会在同等设定下得到更好的平均收益/风险表现。

2）DRL 的价值：不是魔法，而是“联合优化”

DRL 将交易视为序列决策：在每一步选择动作（做多/做空/空仓、仓位大小、组合权重），以最大化奖励。更可信的解释是：DRL 提供了一个框架，用于同时优化：

决策规则
仓位/权重
交易频率
风险限制
对交易成本的敏感性

价值型方法：DQN 及其变体

DQN 更适合 离散动作空间（买/卖/观望）。在金融非平稳环境中，它对奖励设计高度敏感。

较新的变体（Double/Dueling/多层 DQN 等）在一些设定下更稳，常见成功要素是：

奖励中显式惩罚波动/回撤
加入交易成本惩罚
更丰富的状态（例如情绪/舆情特征）

策略梯度 / Actor-Critic：PPO、A2C/A3C、DDPG、SAC

Actor-Critic 更适合：

连续动作（仓位大小、组合权重）
多资产组合配置

在开源框架与对比研究里，PPO 常被当作“相对稳的默认选项”。但不同算法在持仓周期、换手率、资产集中度上差异明显，意味着“最优算法”很可能依赖于市场结构与约束条件。

3）不同市场的经验：股票 vs 期货 vs 加密

股票（Equities）

数据充足，但受新闻跳跃与因子切换影响明显。
DL 擅长表征/特征融合；RL 擅长做组合层面的配置。
常见失败模式：regime 过拟合 + 验证不严谨。

期货/多资产宏观（Futures）

对 DRL 更友好：跨资产结构更强、历史更长。
很多“有效”的研究会把 波动率缩放与风险约束 作为策略核心，而不是回测之后再补。

加密（Crypto）

非平稳最极端，但高频数据丰富。
DRL + 情绪特征在模拟里可能很漂亮，但真正难点仍然是跨周期的稳健性。

4）论文有效、实盘失效的三大缺口

最常见的三类断层是：

摩擦缺失（滑点、价差、冲击成本被忽略或过低）
数据泄漏（特征对齐错误、幸存者偏差、lookahead）
regime 过拟合（训练与测试太相似）

一些综述类研究也明确指出：不少 DRL 交易策略在加入现实约束后仍停留在“概念验证”阶段。

5）落地清单（更接近生产的版本）

数据与特征

用 收益/对数收益，避免直接喂原始价格。
采用滚动窗口标准化，避免全局统计带来的泄漏。
股票场景尽量控制幸存者偏差。
替代数据只有在能严格时间对齐时才引入。

验证

用 walk-forward（滚动起点）而不是随机打乱。
危机窗口 + 震荡窗口都要测。
做超参敏感性；如果只在“针尖超参”上有效，基本不稳。

RL 奖励设计

显式加入交易成本惩罚。
优先考虑风险调整奖励（Sharpe/Sortino 类），或收益减去波动/回撤惩罚。
即便“智能体应该能学会”，也建议加硬约束（杠杆/仓位上限）。

回测现实性

建模价差/滑点。
日内策略加入延迟/部分成交假设。
做 what-if：成本上升、流动性下降、漏单。

部署

先 paper trade，再小仓位上线，配硬风控。
监控分布漂移（distribution shift），并定义客观的停用/退休规则。
再训练要像“发布版本”一样有闸门（evaluation gates），而不是看到回撤就立刻重训。

结论

2018–2025 年的经验更像是在提醒我们：

深度学习更适合作为表征/特征引擎；
DRL 更适合作为把成本与风险纳入目标函数的策略优化层；
真正决定生死的是：数据是否干净、回测是否诚实、以及面对 regime 变化时是否有制度化的风险管理。

References

Deep Reinforcement Learning in Quantitative Algorithmic Trading: A Review (arXiv:2106.00123) — https://arxiv.org/abs/2106.00123
Deep Reinforcement Learning for Trading (2019) — https://ideas.repec.org/p/arx/papers/1911.10107.html
Survey on the application of deep learning in algorithmic trading (AIMS) — https://www.aimspress.com/article/doi/10.3934/DSFE.2021019?viewType=HTML
Portfolio Management Strategy Based on LSTM (ResearchGate) — https://www.researchgate.net/publication/376131658_Portfolio_Management_Strategy_Based_on_LSTM
Multi-level deep Q-networks for Bitcoin trading strategies (Scientific Reports) — https://www.nature.com/articles/s41598-024-51408-w
FinRL-style comparative results / contests (arXiv:2504.02281) — https://www.arxiv.org/pdf/2504.02281
Financial Transformer Reinforcement Learning (FTRL) (Decision Support Systems, 2025) — https://www.sciencedirect.com/science/article/abs/pii/S0925231225011233