内容提要
本文主要运用XGBoost机器学习模型,选取外汇、债券及商品市场的关键特征变量作为训练集,分别对其中具有代表性的资产走势进行预测,进而观测并比较机器学习在三大市场中的预测效果。结果表明,模型整体拟合效果较好,但在不同市场与资产间存在显著差异。整体而言,机器学习在平稳的市场环境下表现相当优异,但在极端环境中仍存在一定的局限性。
一、研究背景及意义
随着人工智能与大数据技术的飞速迭代,机器学习作为人工智能的核心分支,已深度渗透至金融领域的各个环节,成为优化市场预测、辅助投资决策的核心工具。近年来,全球金融市场联动逻辑已经有所改变,波动特征日益复杂,传统预测方法难以精准捕捉市场动态,而机器学习模型在预测精度与稳健性上的优势不断凸显,其在金融市场的应用场景持续拓展、预测效果不断提升,为多资产市场预测研究提供了坚实的技术支撑。
目前围绕机器学习应用于金融市场预测的现有研究大多局限于单一资产类别。然而,外汇、债券、商品三大核心资产市场受宏观经济、地缘格局、跨境资金流动等多重变量共同驱动,而各市场在定价逻辑、波动特征与影响因子上又存在显著差异,这使得机器学习模型在不同品类市场中的适配程度与预测表现天然存在分化。基于此,本文对比分析机器学习在外汇、债券及商品市场中的预测效果,具有一定的理论与实践意义。理论层面,本文完善了机器学习在金融市场领域的研究框架,明确了不同机器学习模型在各类资产市场中的适配特性与应用边界。实践层面,本文能够为投资者开展跨资产预测分析提供参考依据,助力其优化投资组合、提升投资决策效率;同时可为金融机构健全风险管控体系、研发精准预测工具提供实践指引,推动机器学习技术在金融多资产领域的规范化、精细化落地应用。
二、模型构建与预测思路概述
(一)机器学习模型的选择
长短期记忆网络(LSTM)作为一种特殊的循环神经网络,能够有效捕捉市场波动的时序特征,是处理时间序列数据的经典机器学习模型。而极端梯度提升(XGBoost)则是一种基于梯度提升决策树的集成学习算法,它通过串行生成多个弱学习器,并通过不断纠错来提高准确率,在需要综合考虑多维度指标的领域中运用较为广泛。
由于金融市场中的各类资产预测都具有较强的时序特征,又受到多维度变量的影响,因此初步选用上述两个模型,分别对每种资产的价格走势进行预测。但在实际测算过程中发现,LSTM模型的预测效果远不如XGBoost模型,因此下文仅使用XGBoost模型对三类资产价格进行预测和比较。
(二)目标变量及特征变量筛选
目标变量方面,针对外汇市场,笔者选取了最具有代表性的美元指数作为研究及预测的目标变量。美元指数涵盖欧元、日元、英镑、加元等一篮子货币,是综合衡量美元在国际外汇市场汇率变化的一项重要指标。针对债券市场,考虑到国内市场研究的普适性以及特征变量的易得性,选取1年期及10年期中国国债作为目标变量。由于商品市场中各类资产的定价逻辑差异较大,历史表现的相关性较小,因此针对商品市场,选取黄金、原油、铜及大豆四种主流商品分别进行预测。
特征变量选取层面,鉴于本研究采用日度高频数据,而传统基本面指标多为月度低频更新数据,不仅样本容量不足,还易引发模型估计偏差。据此,统一选取日频数据并辅以少量周频指标构建测试数据集,三大资产市场的特征变量筛选均遵循这一原则。针对每个目标变量,其初始特征变量集如表1所示。
表1 目标变量及其特征变量集因子

(三)特征变量有效性检验及预测方法
1. 导入初始特征变量集并确定训练集及测试集的时间范围
由于各类资产的历史数据跨度存在差异,商品与国债市场部分核心特征变量的起始统计时间相对滞后;同时,伴随量化交易快速发展,不同时期的资产定价逻辑、市场参与结构均发生明显分化,故而模型训练集时间区间不宜选得过长。
经过综合考量,针对每个资产类别,将测试集年份选定为2021至2025年,即分别生成5个测试集结果;对于训练集,时间范围选定为(T-7)至(T-1)年,T为测试集年份。
2. 使用TOP-N和嵌入法构建XGBoost模型并进行训练
TOP-N主要思路是:从数据集中选取排序后的前N个最优结果。该方法计算复杂度低、处理效率高,可显著减少数据量与资源消耗;输出结果精简直观,可有效避免信息过载,便于快速聚焦关键信息。
嵌入法主要思路是:从全部特征开始反复训练,多次随机采样数据,统计特征被选中的频率,并逐步删去最不重要的特征变量。多次进行训练,直到剩下最优子集为止。
首先,对于特定的特征变量集,使用过去一个月的特征变量预测未来1天的目标变量,并运用TOP-N和嵌入法筛选有效的特征变量集。
然后,在所有可能的特征变量集中,找到使得训练集时间范围内MSE值(残差项,每一个预测值与实际值之差的平方和)最小的特征变量组合,使用该特征变量组合训练XGBoost模型。
3. 使用训练后的模型,预测测试集时间范围内的目标变量,并观察效果
经过上一步的筛选,运用已经选出的最优特征变量集,形成连续的时长为11个月的测试集结果(每年第一个月的数据集需要作为特征变量输入,因此最终测试集结果略少于一年时间),作为最终的预测结果。
经过对比,尽管TOP-N引入的特征变量个数少于嵌入法,但是在所有品种中,其预测结果的MSE均小于嵌入法,且R²(预测值序列与真实值序列的相关系数)大于嵌入法,表明TOP-N预测效果更好。后续结果分析部分将基于2025年测试样本,对比TOP-N与嵌入法两种特征筛选方式的预测表现;对于2021—2025年全周期结果,仅列示TOP-N方法的预测效果。
三、三大市场的机器学习预测结果
(一)外汇市场
1. 美元指数——仅2022年预测出现短暂偏离
以训练集为2025年的预测结果为例,TOP-N引入的特征变量极少,仅有美元指数本身,而嵌入法则使用了美元指数的技术指标、发达国家之间的股指利差及债券收益率利差等11个变量。但最终结果显示,TOP-N筛选法下,三个维度的残差项均小于嵌入法,且R²更大,表明TOP-N拟合效果更好。将2021年至2025年的训练集结果整合后,得出美元指数的预测结果,如图1所示。除2022年4月至12月出现严重的偏离之外,其他年份的拟合程度均较高,R²均在90%以上。
图1 美元指数预测结果(2021-2025年)

结合基本面情况来看,2022年全球宏观经济环境出现了较多黑天鹅事件,引发美元单边升值行情,这可能是机器学习预测短暂失效的主要原因。首先,2022年2月底俄乌冲突爆发引发全球避险情绪上升,叠加欧洲能源危机持续恶化,非美货币普遍承压贬值。此外,美国通胀水平持续走高,美联储自2022年3月以来实施了40年来最为激进的紧缩货币政策,美债收益率快速上行并推动跨境资本回流美国,进一步支撑美元指数超预期走强。从数据结果来看,以上黑天鹅事件发生的时间点与美元指数预测结果偏离的时间区间也高度吻合。
(二)债券市场
1. 1年期中国国债收益率——拟合效果较好
1年期中国国债收益率方面,TOP-N引入的特征变量仅有3个,除其本身以外,还引入了DR001及DR007两个特征变量,但预测表现同样好于嵌入法,这表明短期资金市场对1年期国债收益率的解释力极强。将2021年至2025年的训练集结果整合后,得出1年期中国国债收益率的预测结果,如图2所示。可以看出在绝大多数时间内,模型预测效果极好,进一步佐证美元指数在2022年的大幅偏离是由全球的黑天鹅事件引起。
图2 1年期国债收益率预测结果(2021—2025年)

数据来源:Wind资讯
2. 10年期中国国债收益率——拟合程度高且稳定
10年期中国国债收益率方面,TOP-N引入的特征变量与1年期相似,除其本身以外,同样仅引入了DR001及DR007两个特征变量。与嵌入法相比,TOP-N筛选法的MSE和RMSE更大,但MAE更小,且R²显著变大,整体拟合效果仍然占优。同样地,10年期国债收益率的预测表现在2021至2025年均较好,未出现大幅偏离的时间区间,具体预测情况如图3所示。
图3 10年期国债收益率预测结果(2021—2025年)

数据来源:Wind资讯
(三)商品市场
1. 黄金——2024至2025年大幅偏离
由于黄金在2024—2025年出现少见的单边上涨行情,2025年两种方法的预测效果均较差。但在此极端情况下,TOP-N引入的特征变量仍然秉持“少而精”的原则,且预测的整体表现好于嵌入法。与前述几种资产类别不同,黄金的预测在2024—2025年几乎完全失效,甚至在2024年大部分时间里,其预测值均保持同一数值不变,具体结果详见图4。
究其原因主要有两点:其一,特朗普政府政策反复无常,引发全球去美元化趋势,加之央行持续购金,黄金与美元、实际利率等核心因子的传统相关性大幅弱化甚至反转,定价逻辑发生根本性的改变;其二,中东冲突、美联储利率转向超预期等突发事件密集出现,地缘政治的不稳定性助推金价呈现跳跃式波动,机器学习模型难以捕捉这种动态博弈与极端情绪放大效应。
图4 黄金价格预测结果(2021—2025年)

数据来源:彭博资讯
2. 原油——2022年预测结果出现偏离
2025年,TOP-N针对原油价格的预测只选用了其价格本身作为特征变量,且拟合程度较高;而嵌入法依旧选用较多变量,但效果反而全面逊色于TOP-N筛选法。纵观2021—2025年的预测集(见图5),可以发现原油的预测同样在2022年出现了较大的偏离,与美元指数出现偏离的时间区间一致。前述的基本面分析也可以大致解释这一偏离现象,即俄乌冲突叠加激进的“补偿式”加息带来的全球能源危机,致使当年油价出现快速的单边上涨行情,与历史规律短暂背离。
图5 油价预测结果(2021—2025年)

数据来源:Wind资讯
3. 铜——除2025年四季度外,整体模拟表现较好
在铜价的特征变量筛选方面,TOP-N罕见地引入了VIX、原油矿石等商品价格以及股债汇市场的关键指标,最终选择的特征变量个数达到7个,但最终的拟合效果仍然只能达到50%左右,而嵌入法表现更差。由于初始特征变量中,LME铜库存量这一指标存在时间长度限制,因此对于铜价的预测,仅能够生成2022—2025年数据,详见图6。除2025年9—12月出现短暂偏离外,铜价整体的模拟表现也较好,主要偏离原因仍然是黑天鹅事件的冲击。2025年9月以来,全球多个铜产区集中爆发停产、不可抗力等供给端扰动事件,叠加美国关税政策频繁调整、下游需求预期快速切换,多重因素共同推动铜价呈现跳跃式上行。
图6 铜价预测结果(2021-2025年)

数据来源:彭博资讯
4. 大豆——整体拟合度高,但2021、2022年出现短暂失效
对于2025年的大豆价格,TOP-N方法最终采用2个变量:其本身和VIX指数,预测结果的R²达到93%,拟合效果较好。需要说明的是,由于大豆价格的绝对数值较高,导致其MSE等残差项的量级与其他品种不同,但并不表明其拟合效果差,预测的准确程度主要以R²为准。
综合来看,大豆的预测在2021年4—6月、2022年2—6月分别出现了较大偏离,其余时间拟合度较高,详见图7。2021年4—6 月、2022年2—6月大豆实际价格均显著偏高,主要原因是:全球供给端超预期收缩、终端需求具备较强韧性,前期预测未能充分纳入极端天气及各类突发性冲击因素。如2021年拉美大豆减产,叠加国内生猪存栏稳步修复,豆粕消费需求大幅扩张,低库存与高需求形成共振,推动大豆价格短期快速冲高;2022 年南美遭遇极端干旱,叠加俄乌冲突加剧全球粮食安全担忧、美国大豆播种进度持续不及预期,多重黑天鹅事件共同发酵,致使大豆价格持续偏离合理估值区间。
图7 大豆价格预测结果(2021—2025年)

数据来源:Wind资讯
四、结论
综上所述,机器学习整体对金融产品价格走势的拟合程度较好,但综合考察其在不同金融市场和资产类别中的应用表现,可归纳得出以下三个结论:
(一)中国国债的预测效果最优、最稳定
将三类市场的预测结果横向比较可见,仅有中国国债在2021—2025年R²稳定在80%~99%,表明机器学习模型对该品种适用性最强。其余的几个品种均受到不同程度的扰动,导致机器学习模型短暂失效,预测值大幅偏离。
(二)商品市场的各类资产表现差异较大
在商品市场维度,本文选取黄金、原油、铜、大豆四类大宗商品,各类品种在特征变量筛选、模型搭建及预测表现上均存在明显差异。这表明,即便处于同一市场,不同商品的定价逻辑分化,也会形成差异化的数据处理与分析框架。
(三)黑天鹅事件仍然显著影响预测结果
预测过程中出现的数据异常值,绝大部分由市场黑天鹅事件引发,其本质在于历史样本无法覆盖全新危机场景、数据分布出现结构性断裂,原有定价因子与运行逻辑集体失效。由此可见,极端行情下金融市场的历史规律将阶段性失灵,黑天鹅事件仍是机器学习模型难以有效捕捉的短板。
作者:徐牧阳、王家祺,江苏银行资金营运中心
