第1章人工智能在量化金融中的应用与趋势¶

1.1 金融机构加速布局大模型技术¶

近年来，以大型语言模型（LLM）为代表的生成式人工智能技术，正逐步渗透华尔街的交易与投资流程。从对冲基金到投行，多家金融机构纷纷尝试将大模型引入策略研发、风险管理与市场预测等关键环节。已有报告指出，某顶级科技公司开发的模型在解析财报、预测企业盈利能力方面已经显示出超越人类分析师的水平。基于其预测结果构建的交易策略，不仅跑赢大盘，还取得了更高的夏普比率和显著的超额收益。这一切表明，大模型有潜力成为金融领域的新一代"超额收益"的引擎。

早在生成式人工智能引发行业热潮之前，多家头部量化对冲基金便已秘密布局此项技术。据该公司联合主席 David Siegel 透露，团队多年前即开始将生成式人工智能应用于投资研究，并在过去十余年持续深化自然语言处理（NLP）方法在宏观与微观研究中的应用。在实际操作中，研究人员将美联储会议纪要、企业财报电话会等海量文本喂入模型，通过精心设计的提示工程自动提取关键信号。例如，可让模型"统计过去二十年所有美联储会议发言，并映射其后的利率波动"，以量化政策动向与市场反应的隐性关联，从而挖掘出人力难以全面梳理的特征，为投资决策提供有力支撑。与此同时，其他大型对冲基金也在积极拥抱大模型。某家著名基金创始人Ken Griffin曾公开表示，公司正在为全员采购企业级人工智能工具，并肯定生成式人工智能技术在业务层面的实质性影响。他认为，人工智能不仅能协助开发人员编写与转换代码，还能自动化处理日常海量信息，从而全面接管当前由人力承担的繁琐任务，涵盖交易策略的设计、交易系统的开发与运维等多个环节。值得注意的是，该该基金曾凭借科学化的数据挖掘方法，在大宗商品交易中实现了约 80 亿美元的收益。如今，性能更强的 LLM 将进一步放大这一竞争优势。

近年来，多家国际顶级投行已在内部大规模部署大语言模型（LLM），以优化日常业务流程。例如，某投行于2024年向约一万名员工推出了一款企业级人工智能助手，用于邮件处理、代码生成和内部知识检索等场景。该行首席信息官 Marco Argenti 将其比作"经验丰富的资深员工"，能够辅助决策而非取代人力。该助手背后灵活集成了多款大模型：根据任务需求，它可调用某一头部科技公司模型、Google Gemini 或 Meta Llama，并结合行内专属数据进行二次微调与推理。例如，在撰写投资报告时启动一款擅长文本生成的模型；在开发交易算法时，则切换至代码优化能力更强的模型。借助这一平台，传统需数周完成的 IPO 文件初稿，现在可在数分钟内生成 95% 以上内容，极大提升了合规与文书工作的效率。此外，其他投行也相继推出基于 LLM 的内部问答系统，帮助财富管理团队在海量研究报告中快速定位、提取关键见解。同样，大型对冲基金也将LLM深度融入投资研究流程。某顶尖基金早于2023 年成立 "AI A Labs"人工智能投资实验室，汇聚投资经理、数据科学家与技术专家，用机器学习与生成式人工智能重塑研究范式。该团队的目标是将其一切投资研究活动都通过机器学习技术再现。在AWS云服务的支持下，该基金构建了一套内部人工智能协同平台。最初，它仅支持简单问答和自动化数据提取，比如投资团队提出一个问题，人工智能会自动生成代码从数据库中提取相关数据并给出结果。这相当于一个能写代码的智能助手，帮助分析师快速获取他们需要的数据，节省了大量重复劳动。如今，已发展为一组分工明确的智能体协同完成复杂投资分析。例如，面对一个涉及宏观经济的投资命题，平台可能会派出一个智能体去分析"利率变化对组合回报的影响"，另一个智能体去核对相关资产的财务数据，第三个智能体总结整个策略的风险特征。各智能体各司其职，然后将发现汇总，提供给投资团队参考。通过限定每个人智能体的职责领域，该基金确保了每个子任务都有针对性的分析，从而提高可靠性。CIO Greg Jensen表示，这一系列人工智能工具并非为了取代投资人员，而是为了加速他们的研究过程。当前这些智能体已经显著节省了分析师的时间，使分析师无需频繁麻烦工程师提取数据，而能更专注于高层次的分析思考。某头部基金公司的案例表明，大模型驱动的智能体协作可以应用于复杂的投资决策，进一步提升金融机构的研究效率。

除公开案例外，多家金融机构对 LLM 基础设施的投资也在低调进行。据悉，一家知名量化交易公司已斥资逾 10 亿欧元在芬兰建成数据中心，以满足大规模模型训练与推理的算力需求；另一批金融巨头则通过战略入股人工智能科技公司、在其资产管理平台（如 Aladdin 风险系统）中试点 LLM 风险监测模块。无论对冲基金、投行，还是资管机构，都在悄然将大型模型技术融入核心业务，以期在新时代的量化金融竞争中抢占先机。

1.1.1 Transformer在金融数据建模中的优势（数学解析）¶

大语言模型背后的核心技术是Transformer神经网络，它采用自注意力机制（Self-Attention）对序列数据进行建模。这种架构相较于传统的循环神经网络（RNN）和长短期记忆网络（LSTM），在处理金融序列数据时具有显著优势。下面通过数学推导解释Transformer为何擅长建模金融时间序列。

自注意力机制原理：给定输入序列 $$x_{1},\, x_{2},\, \ldots,\, x_{T}$$

例如按时间排列的价格序列或文本单词序列，Transformer首先将其映射为$d$维的向量表示 $$h_{1},\, h_{2},\,\ldots,\, h_{T}$$ （通过嵌入向量或上一层输出）。对于序列中的第i个位置，Transformer计算查询向量 $$q_{i} = W^{Q}h_{i}$$ ，键向量 $$k_{j} = W^{K}h_{j}$$ 以及值向量 $$v_{j} = W^{V}h_{j}$$ ，其中 $$W^{Q},W^{K},W^{V}$$ 是可训练的参数矩阵。然后针对第i个位置的查询向量，计算它对序列中每个位置j的键向量的注意力得分 $$e_{ij}$$:

$e_{ij} = q_{i} \cdot k_{j}dk,\, e_{ij} = \frac{q_{i} \cdot k_{j}}{\sqrt{d_{k}}}$,

其中 $d_{k}$ 是键向量的维度。接着，对所有 $j = 1,\ldots,T $ 的注意力得分做Softmax归一化以获得注意力权重 $\alpha_{ij}$ ：

\[\alpha_{ij} = \frac{\exp\left( e_{ij} \right)}{\sum_{m = 1}^{T}{\exp\left( e_{im} \right)}}\]

这些权重反映了位置j对位置i相对重要性。最后，计算第$i$位置的输出为所有值向量的加权和： $z_{i} = \sum_{j = 1}^{T}\alpha_{ij}v_{j}$ 。向量 $z_{i}$ 就是通过注意力机制融合了序列中其他各位置信息的表示。由于 $\alpha_{ij}$ 能够根据数据内容动态调整，模型可以自适应地捕捉重要信息而忽略次要信息。直观来说，如果当前i位置与某一过去时刻j的信息（价格波动、文本词句等）具备依赖关系， $e_{ij}$ 就会较高， $\alpha_{ij}$ 也就较大，模型由此强调该关联信息对i位置的影响。这种机制使Transformer能够灵活建模长程依赖：即使两个事件在序列中相隔很远（例如价格序列中相隔多日，或者文本中隔了好几段），注意力机制也能直接建立它们之间的联系，而不会像RNN那样因距离远而遗忘衰减。

对于金融时间序列数据（股票价格、交易量、经济指标序列等），自注意力机制带来了多方面优势：针对捕捉长期依赖和突发事件，金融市场的数据往往存在长周期趋势和短期波动并存的特点。Transformer能够通过注意力机制在任意两个时间点之间建立关联，这意味着它可以同时关注近期的市场波动和久远的历史模式。例如，在预测股票价格时，模型既可以参考前几日的走势，也可以捕捉几个月前类似走势出现后的结果。传统的时间序列模型（如ARMA或LSTM）虽然也能利用部分历史信息，但要么假定固定的滞后阶数，要么在长序列上难以有效训练，导致对长期依赖的捕获有限。Transformer则没有固定的回看窗口限制，理论上可以利用整个历史序列的信息，从而在面对长周期经济变化、季节性效应时具有优势。

另外，考虑到处理非同步和非连续性，金融事件往往不是同步发生的，例如宏观新闻的冲击可能在不定期的时间点影响市场。自注意力机制允许模型在需要时跳过中间无关信息，直接把注意力放在那些关键事件发生的时刻上。这比起滑动窗口模型强制使用连续的过去n天数据更为灵活。模型可以自动忽略某些平静期的数据，将注意力权重集中在异常波动的时段，从而降低噪声干扰。研究表明，注意力机制能提高模型对重要信息的敏感度，进而提升预测准确度。Transformer通常使用多头注意力（Multi-Head Attention），即并行地执行多组注意力计算。每个注意力头可以看作在关注不同性质的模式。例如，在交易数据上，一个头也许专注于短期价格反弹模式，另一个头关注长期均值回复迹象，第三个头侧重交易量突增信号。这样模型的不同部分可以学习到不同频率和尺度的特征，然后将这些信息整合，提高对复杂市场行为的建模能力。这种多角度的观察能力远超单一规则或指标所能提供的视野。

除此之外，Transformer的自注意力机制可以并行计算序列中各位置之间的关系，而不需要像RNN那样按时间步迭代。这使得模型能够利用GPU等硬件加速对海量金融数据的训练。在大型金融数据集上训练Transformer成为可能，从而诞生金融预训练模型。例如，研究者受LLM在NLP领域成功的启发，提出了针对金融时间序列的预训练Transformer模型PLUTUS，使用包含千亿级观测的数据集进行训练，取得了多项预测任务的最新性能。又如2023年提出的TimeGPT模型，在包含金融、经济等广泛领域的海量时间序列上训练通用模型，结果显示其预测精度（以相对MAE衡量）略优于传统的决策树模型和深度学习模型。这些进展预示着，通过Transformer架构的大模型，有望建立起金融序列数据的基础模型，捕捉过去难以察觉的规律，为风险预测和投资决策提供新工具。

综上，Transformer的大模型通过注意力机制赋予了模型在金融数据建模中的强大表示能力。它能够从嘈杂的市场数据中自主聚焦关键讯息，整合长短期信息来改进预测表现。这也是为什么近年来越来越多金融机构选择将LLM应用于投资交易领域的原因。Transformer架构让模型更好地理解金融市场的复杂序列行为，帮助机构在竞争中占得先机。

1.1.2 代码示例：使用大模型进行金融时间序列预测¶

下面通过一个简化的代码示例，演示如何使用Transformer来进行金融时间序列预测。假设希望利用过去若干天的价格数据，预测下一天的收盘价。将构建一个基于PyTorch的Transformer模型，对历史序列进行训练并给出预测结果。

首先，导入必要的库并准备数据集（这里为了演示，使用正弦波加噪声模拟金融时间序列）。在实际应用中，你可以替换为真实的股票或指数价格数据：

import torch
import torch.nn as nn

生成模拟的时间序列数据: 例如正弦波作为价格信号¶

import numpy as np

t = np.arange(0, 100, 0.1)  # 时间轴
prices = np.sin(t) + 0.1 * np.random.randn(len(t))  # 正弦波 + 噪声，模拟价格

构造数据集，用前 seq_len 个价格预测下一步¶

seq_len = 20
X_train, y_train = [], []

for i in range(len(prices) - seq_len):
    X_train.append(prices[i : i + seq_len])
    y_train.append(prices[i + seq_len])

X_train = torch.tensor(X_train, dtype=torch.float32)  # 形状: [样本数, seq_len]
y_train = torch.tensor(y_train, dtype=torch.float32)  # 形状: [样本数]

接着，定义一个简单的时间序列Transformer模型。为了简化，使用PyTorch内置的TransformerEncoder层，并将输入的序列转换为模型需要的维度。这个模型包含位置编码、若干层自注意力Encoder和最后的全连接输出层：

class TimeSeriesTransformer(nn.Module):
    def __init__(self, seq_len=20, d_model=32, nhead=4, num_layers=2):
        super(TimeSeriesTransformer, self).__init__()

        # 将标量价格映射到 d_model 维向量的线性层，相当于 embedding
        self.input_fc = nn.Linear(1, d_model)

        # 位置编码：为每个时间步添加一个可学习的偏置向量
        self.pos_embedding = nn.Parameter(torch.zeros(1, seq_len, d_model))

        # Transformer Encoder，由 num_layers 个编码器层组成
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=d_model,
            nhead=nhead,
            dim_feedforward=128
        )
        self.transformer_encoder = nn.TransformerEncoder(
            encoder_layer,
            num_layers=num_layers
        )

        # 输出层，将 Transformer 的输出映射回标量
        self.output_fc = nn.Linear(d_model, 1)

    def forward(self, x):
        """
        参数 x: 张量，形状 [batch_size, seq_len] 或 [batch_size, seq_len, 1]
        """

        # 如果 x 是二维的 (batch, seq_len)，先在最后加一维
        if x.dim() == 2:
            x = x.unsqueeze(-1)

        # 线性映射到 d_model 维，并添加位置编码
        x_embed = self.input_fc(x) + self.pos_embedding  # [batch, seq_len, d_model]

        # 将序列维度和批次维度对调，Transformer 期望输入为 [seq_len, batch, d_model]
        x_embed = x_embed.transpose(0, 1)

        # 通过 Transformer Encoder
        encoded = self.transformer_encoder(x_embed)  # [seq_len, batch, d_model]

        # 取最后一个时间步的编码结果作为整个序列的表示
        last_feat = encoded[-1]  # [batch, d_model]

        # 输出层得到预测值
        out = self.output_fc(last_feat)  # [batch, 1]

        return out.squeeze(-1)  # 返回形状 [batch]

现在，初始化模型并进行训练。由于示例数据规模不大，可以使用均方误差损失（MSE）来训练模型，使其输出尽可能逼近真实的下一个价格：# 初始化模型和优化器

model = TimeSeriesTransformer(
    seq_len=seq_len,
    d_model=32,
    nhead=4,
    num_layers=2
)

optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
loss_fn = nn.MSELoss()

# 简单训练循环（实际应用中应增加 epoch 次数并加入验证集监控）
for epoch in range(50):
    model.train()
    optimizer.zero_grad()

    preds = model(X_train)
    loss = loss_fn(preds, y_train)

    loss.backward()
    optimizer.step()

    if epoch % 10 == 0:
        print(f"Epoch {epoch}, Loss: {loss.item():.6f}")

训练过程中，可以看到损失在逐步降低（实际运行时会输出每10个epoch的损失）。训练完成后，用模型对最后seq_len天的数据进行预测，得到下一天的价格预测值：

model.eval()

# 最近 seq_len 天的数据

last_sequence = torch.tensor(
    prices[-seq_len:], dtype=torch.float32
).unsqueeze(0)

pred_next = model(last_sequence).item()
print(f"Predicted next price: {pred_next:.4f}")

在实际应用中，上述 Transformer 模型通常以真实市场数据进行训练，并通过增加训练轮次与精细化超参数调优，不断优化其预测性能。训练完成后，该模型能够基于近期市场走势，精准预测未来价格或关键指标的变化。由于 Transformer架构擅长捕捉长短期时序模式，其预测结果在准确性与稳健性方面均优于传统统计或机器学习模型。在高频交易场景下，同样的模型结构可用于预测分钟级别的价格波动；而在低频量化策略中，则可用于预测下月甚至更长期的资产回报率，应用范围十分广泛。

值得注意的是，预训练的大型语言模型也可用于时间序列预测，但方法略有不同。一种创新做法是将数值序列"语言化"输入LLM，由其生成后续走势的预测；更为成熟的路径则是将金融领域预训练语言模型与传统数值时序模型相结合。例如，可利用LLM自动解读宏观经济报告、新闻舆情等非结构化文本，以洞察宏观指标趋势，再将这些定性洞见与数值模型的量化预测结果融合，从而构建更全面、准确的市场预测体系。总之，大模型在量化金融中的应用已经从幕后走向台前。顶尖金融机构投入巨资部署LLM来增强投研能力，而Transformer架构赋予了模型强大的金融数据建模优势。随着研究和实践的深入，将看到更丰富的大模型在金融领域的创新应用，从高频交易到长期投资策略，都可能因人工智能大模型的加入而产生变革性的提升。

1.2 量化交易的门槛变化与人工智能时代新趋势¶

1.2.1 传统量化交易的门槛解析¶

长期以来，量化交易被视为高门槛的领域，只有掌握复杂数学模型和高超编程技能的专业团队才能涉足。然而，在人工智能时代，这一状况正在改变。人工智能正大幅降低量化交易的技术门槛，让个人投资者和小型基金也有机会利用先进算法参与市场。

首先，技术基础设施的平民化使得开发量化策略不再是华尔街专利。云计算和开源工具的兴起提供了廉价而强大的计算资源。过去，只有大型金融机构负担得起昂贵的服务器和数据，现在个人也能通过云服务获得所需算力。更重要的是，各类现成的人工智能工具包触手可及。一份行业报告指出，云端工具和人工智能模型的普及正在降低算法交易的进入壁垒，曾经只有拥有雄厚资源的大型机构才能驾驭的技术，如今连散户投资者都可以在人工智能驱动的平台上开发并部署自己的交易策略。例如，QuantConnect、Numerai、聚宽等线上量化平台为用户提供了从数据获取、策略编写到回测执行的一站式环境，使个人开发量化策略变得和写Python脚本差不多简单。

其次，人工智能赋能策略开发让缺乏金融编程背景的人也能尝试量化交易。传统量化策略往往需要专业人才根据金融理论设计指标和模型，而现在自动化机器学习（AutoML）和代码生成人工智能可以帮助完成许多繁琐工作。个人投资者可以利用大语言模型来生成交易策略的代码框架、调试程序错误，甚至从自然语言描述直接产出可运行的交易算法。这极大地方便了缺少编程训练的交易爱好者。有人做过实验，让大语言模型根据简单的交易想法编写Python策略代码，再拿去历史数据上回测，能够省去大量编码细节工作。当然，人工智能生成的策略仍需谨慎验证，但确实降低了编程门槛。

在策略思想层面，人工智能也在拓宽个人投资者的视野。过去，小型交易者常局限于简单的技术指标或基本面规则，而现代人工智能模型可以从海量数据中自动学习复杂模式。传统量化策略通常依赖人类预先设定规则和特征。例如，一个均值回归策略可能由人指定"当价格高出均值两个标准差时卖出"这样的规则，又或者基本面量化会选取市盈率、债务率等由研究员挑选的因子构建模型。这些方法对人的经验依赖很大。而人工智能驱动的策略则倾向于数据驱动，通过机器学习，模型可以自己从历史数据中找出能够预测未来收益的信号。比如，深度学习模型可能自动发现某种特殊的K线形态在次日上涨概率较高，或者某些新闻情绪的组合暗示着行业拐点。很多这样的微妙关系过去只埋藏在海量数据里，个人投资者难以发现，如今借助人工智能也有机会挖掘。当然，这并非意味着随便按个键人工智能就能吐出策略，投资者仍需对模型输出进行经济含义的验证，并防止过度拟合虚假相关性。但总体来说，人工智能减轻了繁重的特征工程工作，降低了开发复杂策略的知识壁垒。

一个明显的新趋势是自动化量化交易平台的兴起和策略交易的社区化。越来越多的平台提供了可视化界面或简单脚本，让没有深厚编程功底的人也能设计交易策略。例如，有的平台提供拖拽组件来构建交易逻辑，有点类似搭积木：用户可以选取技术指标组件、逻辑判断组件来拼出一套策略，然后一键回测。在人工智能时代，这些平台进一步集成了机器学习功能，用户可以选择让人工智能基于历史数据自动优化策略参数，或者直接使用平台内置的智能策略模板。甚至一些加密货币交易平台允许用户直接复制跟单所谓的人工智能策略，使普通投资者能够方便地参与。据报道，一些对冲基金还将自己的人工智能策略打包发行，让买不起整个研究团队的小型基金可以订阅使用，从而实现人工智能成果的共享。这种模式类似于"策略即服务"，潜在地大幅降低了量化投资的门槛。

与此同时，强化学习（Reinforcement Learning, RL）在交易中的应用成为人工智能时代量化的新亮点。强化学习通过智能体与环境的交互学得最优策略，非常契合交易这种决策序列问题。在交易领域，RL被用于训练自动交易代理，使其能根据市场状况实时调整操作。与传统策略的静态规则不同，RL智能体可以在不断试错中自适应地优化交易策略。例如，有研究让RL智能体在模拟的市场环境中交易股票或合约，通过奖励函数鼓励其累积利润、控制回撤。经过大量训练后，智能体学会了类似"逢低买入、逢高卖出"或"趋势追踪"的策略，而且会根据市场波动自动调节仓位和止损。强化学习还被应用于投资组合管理，智能体可以动态再平衡资产配置，以适应市场变化和风险偏好。在高频交易中，RL智能体能够学会如何在订单簿中下单以获得最佳成交价格，即所谓最优执行（Optimal Execution）问题。一些大型券商据报道用RL技术改进了大宗订单的执行算法，使其比人工算法更好地减少冲击成本。学术研究也证明了RL在最优执行和动态资产配置等领域的潜力。

虽然很多细节属商业机密，但有迹象表明，多家顶尖对冲基金和交易公司已成功应用RL来提升业绩。例如，据业内人士透露，Two Sigma、Citadel等都有内部项目研究用RL优化交易决策。不过，需要注意的是，金融市场中的RL面临特殊挑战：市场环境非平稳且存在噪声，直接让智能体"试错"真实市场显然不可行，只能在模拟环境训练；而且过度探索会带来真金白银的损失风险。因此，业界常采用离线训练加在线微调的方式，即用历史数据训练智能体，再在实时交易中小心地让智能体少量试单，从反馈中学习。目前来看，RL在量化交易中仍属于前沿探索，但它代表了人工智能量化的一个重要方向：让策略能够自我进化，适应瞬息万变的市场。

综合而言，人工智能时代的量化交易正在朝着门槛更低、智能更高的方向发展。个人和小型机构如今可以借助开放的平台和工具，利用人工智能开发并执行原本只有大机构才能完成的策略。当然，降低门槛并不等于轻松盈利：市场竞争依然激烈，拥有人工智能工具的投资者也需要正确的理念和风险管理，才能真正立足。可以预见的是，随着人工智能技术的进步，"人人做量化"的时代正徐徐到来。

1.2.2 代码示例：构建一个基于机器学习的量化策略¶

下面通过代码示例展示如何使用机器学习模型构建一个简单的量化交易策略。假设有一支股票的历史价格数据，将基于技术指标预测股票明日的涨跌，并据此制定交易信号。

为简化演示，选择移动平均线交叉策略的思路：计算短期和长期的移动平均作为特征，当短期均线上穿长期均线时预示上涨（作为买入信号），反之下穿时预示下跌（卖出信号）。利用这些特征训练一个机器学习模型来预测明天股价相对于今天是涨还是跌。

首先，假设已经获取了股票的历史日线价格数据（例如通过pandas_datareader或其他数据源）。代码中用df表示包含日期索引和收盘价Close的DataFrame：

import pandas as pd
# df 为股票历史数据的 DataFrame，包含日期和收盘价 'Close'

# 计算技术指标：5 日和 20 日移动平均线
df['MA5'] = df['Close'].rolling(window=5).mean()
df['MA20'] = df['Close'].rolling(window=20).mean()

# 去除前面不足窗口的行
df.dropna(inplace=True)

# 构造特征和标签
df['feature1'] = df['MA5'] - df['MA20']   # 短期均线与长期均线之差
df['feature2'] = df['MA20']              # 使用长期均线作为辅助特征

# 标签：明日收盘价相对今日是上涨(1)还是下跌(0)
df['y'] = (df['Close'].shift(-1) > df['Close']).astype(int)

df.dropna(inplace=True)

在以上代码中，计算了5日均线和20日均线，并据此定义了两个简单特征：均线差值和长期均线水平。标签y为1表示明天涨，0表示跌。接下来，将数据集划分为训练集和测试集（例如最后100天作为测试集，其余为训练集）：

# 划分训练集和测试集

train = df.iloc[:-100]
test = df.iloc[-100:]

X_train = train[['feature1', 'feature2']].values
y_train = train['y'].values

X_test = test[['feature1', 'feature2']].values
y_test = test['y'].values

现在，选择一个机器学习模型来学习特征与股票涨跌的关系。这里使用随机森林分类器（它是集成了多棵决策树的模型，在金融预测中也很常用）。训练模型并在测试集上生成预测的信号：

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(
    n_estimators=100,
    max_depth=5,
    random_state=42
)

# 训练模型
model.fit(X_train, y_train)

# 在测试集上预测明日涨跌（1 表示预测上涨）
pred_signals = model.predict(X_test)

现在pred_signals就是模型预测的买卖信号序列（1表示看涨买入，0表示看跌空仓）,可以评估策略在测试集上的表现。例如，计算策略的累积收益：当预测上涨时持有股票，否则空仓（为简单起见不做空，仅在有信号时做多，无信号时持币）。累积收益可通过将每日涨跌幅乘以上述信号来计算：

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(
    n_estimators=100,
    max_depth=5,
    random_state=42
)

# 训练模型
model.fit(X_train, y_train)

# 在测试集上预测明日涨跌（1 表示预测上涨）
pred_signals = model.predict(X_test)

上述代码通过将模型预测信号与实际次日涨跌幅相乘，得到策略的日收益率，并进一步计算出了测试期内策略的总收益率。可以同时计算一下相同期内标的股票本身的涨跌幅作为对比。如果策略总收益明显高于标的涨幅，说明模型捕捉到了有效信号，反之则可能是无效或过拟合。

需要注意，此处只是一个简单示范。现实中要获得稳健的量化策略，需要更丰富的特征（例如加入交易量、动量指标、宏观变量等）、更复杂的模型（如XGBoost、神经网络）、以及充分的交叉验证和稳定性检验。特别地，数据漏泄和过拟合是两大陷阱，所以必须确保模型训练时不能使用未来的数据（如本例已正确划分训练测试），并避免使用当期无法获取的信息做特征。此外，还应该设置交易成本模型来评估策略净收益，许多纸上盈利的策略加上买卖手续费后可能无利可图。强化学习模型的评估也类似，需要在模拟环境中包含滑点、冲击成本等因素。

这个例子表明了机器学习在量化策略开发中的基础流程，包括数据处理、特征提取、模型训练、信号生成、绩效评估。人工智能模型可以帮助在特征提取和模型训练这两步大大扩展能力，从而降低人工门槛。以前需要金融工程师手工设计指标，现在算法可以帮试遍成百上千种特征组合；以前需要资深交易员凭经验制定规则，现在机器学习模型可以从历史中学习规则。在人工智能时代，量化交易更像是一门"数据科学"：谁能更好地利用数据和算法，谁就可能在市场中胜出。这门槛相比过去的金融学和编程技巧，确实在逐步降低，让更多人能够参与其中。

1.3 大语言模型与传统机器学习的比较¶

大语言模型（LLM）近年来在各行各业大放异彩，金融领域也不例外。与传统的金融机器学习模型相比，LLM展现出一些独特优势，使其在情绪分析、市场预测等任务中表现出色。当然，两者各有适用场景，需要具体问题具体分析。

LLM的独特优势主要在于对自然语言和复杂语境的理解能力，这是传统模型难以企及的。在金融行业，大量有价值的信息以非结构化文本形式存在，例如新闻报道、财报公告、分析师研报、社交媒体讨论等等。以往，要从这些文本中提取有用信息，往往需要开发专门的自然语言处理NLP模型（比如情感分析模型、主题模型）或者依靠人工阅读摘要。LLM的出现改变了这一局面：它们经过在海量语料上的训练，具备了近似人类的语言理解和推理能力，可以直接读取并"理解"金融文本的含义。举例来说，LLM可以阅读一篇财经新闻或社交媒体帖子，判断其中对相关资产的情绪倾向是正面、负面还是中性。例如，当某公司发布盈利预警时，LLM能够综合措辞和背景判断这是利空消息，情绪偏负面，并据此预测股价可能下跌。相比之下，传统情感分析可能仅靠词典或简单分类器，未必能识别复杂的语境（比如有时措辞委婉的负面新闻）。

LLM还可以信息抽取与归纳，并从冗长的年报或公告中提炼关键信息。LLM可以回答诸如"公司管理层对下一季度业绩展望如何？"、"财报中提到了哪些主要风险？"这类问题，相当于一个智能分析师快速浏览文档后给出要点总结。这依赖于LLM强大的阅读理解和总结能力，是传统机器学习（例如基于关键词的检索系统）无法实现的。

除此之外，LLM在训练中接触了广泛的通识和专业知识，包括金融历史事件、经济学原理等。这使得它在需要综合背景知识进行推理时表现突出。例如，它知道历史上美联储加息通常会如何影响股债市场。当问及类似问题时，LLM可以运用这种知识给出合理的分析。传统的专用金融模型（比如一个违约率预测的XGBoost）就不具备这样的常识库。从给定数据或分析结果，LLM可以用人类可读的语言生成解释报告。例如，基于一系列财务比率让LLM写出对公司财务健康状况的评价，或者让它根据模型信号草拟一份交易策略说明。这种语言生成能力是传统模型所不具备的（传统模型输出的是数值或类别，需要人去诠释）。在实际工作中，LLM可以担任助理撰稿人的角色，减轻金融从业者的文案负担。

举一个具体例子来比较LLM与传统模型，假设想判断某条新闻对股价的影响是正面的还是负面的。传统方法可能是收集大量已标注情感的金融新闻，用机器学习模型（例如逻辑斯蒂回归、支持向量机，或后来流行的金融BERT模型）来学习文本特征与情感标签之间的关系。如果用到深度学习，可能是一个训练好的LSTM或小型Transformer来分类正负面。这类模型通常需要上千甚至上万条标注数据才能有不错效果，且只能做单一的情感分类任务。LLM方法则可以零样本完成任务：因为它在训练语料中已经看过无数带有情感倾向的语句，只需提示它"这条新闻是利好还是利空？"它就能给出合理判断。例如，一条新闻"CEO因丑闻辞职，公司股价暴跌5%"不用特地训练，LLM模型可以直接判断这是明显的负面消息。而且LLM还能进一步解释原因，如"因为CEO丑闻，市场对公司失去信心导致股价下跌"，这种解释能力是普通分类模型做不到的。

这样的优势使得LLM在许多金融NLP任务上表现超群。2023年彭博发布了金融专用的大模型BloombergGPT（500亿参数），在金融领域的任务上显著超越了以前的模型。例如在财经问答、新闻分类、情感分析等多个基准上，BloombergGPT的准确率都领先于传统金融NLP模型。该模型在金融任务上相对于通用模型提升明显，同时在常规语言任务上不输给同规模的通用LLM。这说明，将LLM引入金融能够带来质的飞跃。模型不但懂金融语言的术语和行话（因为在训练中读了大量专业文档），还能利用通用语言能力处理从计算到总结的各种复杂要求。

再看2025年的一项研究，芝加哥大学的团队发现GPT-4在阅读上市公司财报、预测盈利变化方面胜过专业分析师。他们用链式思考（Chain-of-thought）的提示引导GPT-4解读财报要点、计算财务比率，然后预测下一期盈利是否增长或下降。结果显示GPT-4的预测准确率约60%，显著高于人类分析师低于50%的水平。而且基于GPT-4预测构建的多空投资组合获得了显著的超额收益和更高的夏普比。这是一个令人瞩目的成果：LLM不仅在文本理解上超过人类，在将其应用于实际投资决策时也展现了Alpha。这背后的原因，可能在于LLM可以更客观、一致地处理信息。人类分析师会受情绪和偏见影响，而GPT-4不会；同时LLM能快速纵览多家公司历年财报，从海量信息中捕捉细微信号，这是人力很难做到的。

相比之下，传统金融机器学习模型有其长处也有短板。以XGBoost等为代表的树模型和以LSTM为代表的深度学习模型，过去主导了很多量化应用。树模型擅长处理结构化的数值特征，训练和预测速度快，在信贷风控、量化选股的因子模型等任务上至今仍是主力工具。它们的优势是可解释性较好，通过特征重要性和决策路径可以理解模型依据了哪些因素，并且对于中小规模的数据非常高效。但它们无法直接处理文本或序列数据，往往需要人工提取特征后才能输入模型。例如，要用XGBoost处理新闻，需要先把新闻变成情感分数或话题指标等结构化数据。而LSTM等序列模型能处理时间序列和文本序列，但训练需要大量标注数据，而且序列模型建模能力有限。与Transformer相比，LSTM更难捕捉长程依赖，并行化困难导致无法利用超大数据集训练，尽管门控结构对其有所缓解。此外，像LSTM或经典序列CNN通常是专门针对某任务训练的，它不会像LLM那样在训练时就储备大量通用知识。LLM相当于预先学习了一个"常识+专业知识"的大脑，可以用很少的新数据来适应新任务；而传统模型则往往需为每个小任务从零开始学，而且缺乏通用知识的支撑。

值得一提的是，Transformer这种架构并非LLM独享，许多新型传统模型也开始引入注意力机制来提升性能。比如有研究比较了Transformer和LSTM在高频交易预测中的表现，发现Transformer模型在预测绝对价格序列方面有些微优势，而LSTM在预测涨跌方向上表现更稳定。在某些纯数值序列任务上，增加注意力未必明显胜过精调的LSTM。但在需要跨领域信息融合的任务上，LLM级别的Transformer模型胜出是大势所趋。总的来说，LLM擅长的领域是包含丰富语义、需要综合理解的任务，比如新闻分析、报告解读、问答推理等。而传统ML擅长的是结构化数据建模、特定指标预测，比如给定财务指标预测违约率、依据历史价格做短期量化交易决策等。在实际应用中，这两类模型并非互斥，而是各展所长，甚至可以结合：LLM提取文本情报、生成结构化信号、交由传统模型与数值信号一起决策，这种混合系统可能是效果最好的。

1.3.1 注意力机制为何在金融预测中有效？¶

前面提到，大语言模型采用的Transformer架构之所以功能强大，关键在于注意力机制。本节进一步探讨为什么注意力机制对金融序列和金融文本的预测任务格外有效，从原理上理解LLM相较传统模型的优势所在。

在Transformer一节已经给出了注意力计算的公式。其核心思想是，模型在对某个目标进行预测或计算时，不是盲目地考虑所有输入，而是赋予其中某些部分更高的权重。这个权重分配是根据输入数据内容自适应决定的。例如，在做机器翻译时，注意力可以让译文在翻译某个词时特别参考原文中对应的相关词语。在金融预测中，类似的道理同样适用。

对于金融时间序列，想象用过去100天的市场数据预测今天的资产价格走势。传统模型（如线性回归、移动平均)可能固定地使用最近几天的数据做预测，即隐含分配了一个窗口内均等或预设的权重。而注意力机制允许模型动态决定在这100天里哪些天的重要性更大。例如，在100天里可能有某几天出现了重大利好消息引发股价剧烈上涨，这对今天的走势影响深远；注意力机制可以学到在预测今天时，应对那几天给予较高权重，因为它们代表了一种市场正向冲击的延续。反之，一些平淡波动的日子可能几乎不影响大局，模型会给它们很低的权重。这样，模型相当于在进行一种加权分析，强调了关键事件的作用。通过注意力机制模型可以动态学习各点的权重，更关注重要信息并提升预测精度，这正是上述过程的注解。

传统的序列模型如LSTM虽然也能在一定程度上记忆重要时刻（通过隐藏状态携带信息），但它记忆的方式不够直观，也容易被后来输入冲淡。而注意力机制每次计算输出时都重新全局审视一遍整个历史，哪怕重要事件发生在遥远的过去仍不会被遗忘。这对金融数据里的长期效应至关重要。例如2008年的金融危机对之后数年的市场都有影响，如果建一个长期宏观预测模型，注意力机制可以让模型在预测2030年的经济指标时适当地参考2008-09年的数据，而不用担心"太久远记不住"。

对于金融文本数据，注意力机制同样有效。一份上市公司年报可能有上百页，其中真正决定股价的关键信息可能只在某几处，例如业绩指引展望、风险因素章节。一个训练有素的分析师在阅读年报时，会快速浏览大篇幅的常规内容，并把注意力集中在重点段落。Transformer也是类似，当LLM需要回答"这家公司前景如何"时，它会对全文做注意力权重分配，把展望段落和风险段落赋予高权重，而对那些会计政策、业务描述等通篇套话给予低权重。如此一来，模型的输出更有针对性，抓住了要点。这种能力比起以前的Bag-of-Words模型或LSTM顺序读文本要智能得多。正因为Transformer能模拟人阅读的注意力分配，在长文档的理解和问答上效果极佳，这直接促进了LLM在金融问答、报告解析任务上的性能。

另一个细节是多头注意力提供了类似多人讨论、多角度审视的效果。例如在分析一篇新闻时，不同注意力头可以关注新闻的不同方面，一个头关注数字和百分比（提取业绩增长幅度等），一个头关注情绪词汇（如"亏损""增长"），还有一个头可能关注主体对象（公司名、人名）。最终将这些头的信息融合，相当于模型综合了多方面因素来判断新闻影响。这种多视角综合极大提高了模型对复杂文本的理解深度。

可解释性也是注意力机制的加分项。在高度监管的金融行业，模型的可解释性很重要。注意力权重可以在事后用于解释模型的决策，例如模型预测某股票会下跌，可以检查注意力发现模型高度关注了昨天下午2点的一条新闻以及上周的一份财报声明，那么可以推测这两条信息在模型决策中起了主要作用。这种透明度是黑箱的深度神经网络难以提供的，对于赢得监管和风控团队的信任很有帮助。因此，一些研究将注意力权重可视化，用来辅助投资经理理解人工智能策略的依据，从而更安心地采纳模型建议。

概括而言，注意力机制赋予LLM一种高效提炼信息的能力，能够在海量嘈杂的数据中找到关键线索并放大其作用。这在金融预测中格外宝贵，因为市场信号本就如大海捞针，稍纵即逝。LLM通过注意力机制抓住了这些信号，使其在许多任务上胜过传统模型。这也是LLM与传统ML本质差异的技术根源：前者有能力"阅读"和"理解"，而后者更多是"计算"和"拟合"。

1.3.2 代码示例：使用LLM进行金融新闻情感分析¶

为了更加直观地对比LLM与传统模型，下面演示如何利用预训练的大模型来进行金融新闻的情感分析。这里采用两种方法：一种是使用金融领域的BERT模型（这属于较传统的预训练模型，用于情感分类任务）；另一种是使用GPT类的大语言模型API做零样本情感判断。

假设有一条新闻报道："XYZ公司CEO卷入丑闻被迫辞职，股价应声下跌5%。" 人类读者会判断这明显是负面消息，预计会对股价产生负面影响。下面让模型来判断。

1.方法一：使用金融情感分析预训练模型（FinBERT）

FinBERT是BERT在金融文本上微调得到的专门用于金融情感分类的模型。可以通过Hugging Face的pipeline接口加载它，然后输入新闻文本让模型输出情感类别：

from transformers import pipeline

# 加载金融情感分析模型（ProsusAI/finbert）
classifier = pipeline(
    "sentiment-analysis",
    model="ProsusAI/finbert"
)

text = "XYZ Corp CEO embroiled in scandal resigns; shares tumble 5% on the news."
result = classifier(text)

print(result)

如果运行成功，result可能会返回类似[{\'label\': \'negative\', \'score\': 0.998}]的结果，表示模型判断新闻情绪为负面，置信度几乎99.8%。这个输出和的直觉一致，CEO丑闻导致股价暴跌，是利空消息。FinBERT这样的模型本质上还是一种传统NLP模型，它有固定的输出标签（positive/negative/neutral三类）且不能生成其它内容。

2.方法二：使用GPT-4 API进行情感分析

利用某头部科技公司的GPT-4来做同样的任务。即使GPT-4没有专门为金融情感分类微调过，它强大的语言理解能力也允许它以零样本方式胜任。通过设计提示（prompt），可以要求GPT-4阅读新闻并给出情感判断：

import openai

openai.api_key = "YOUR_OPENAI_API_KEY"

prompt = (
    "以下是一则金融新闻：\n"
    "XYZ公司CEO卷入丑闻被迫辞职，股价应声下跌5%。\n"
    "请判断这则新闻对于XYZ公司的影响情绪是正面、负面还是中性？"
)

response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": prompt}]
)

sentiment = response["choices"][0]["message"]["content"]
print(sentiment)

在这个例子里，它很可能会返回"负面"两个字，甚至可能进一步解释理由（取决于提示中是否要求解释）。GPT-4的回答不局限于标签，它可以给出更详细的分析，比如："负面。因为CEO丑闻导致管理层震荡，市场对公司信心下降，所以股价下跌，这是利空情绪。" 这一点是GPT这类LLM的强项，包括输出富含信息。而如果只需要结构化的输出，也可以在提示中要求只给"正面/中性/负面"三个词之一，模型通常会遵循指令。

以上两种方法的对比凸显了LLM与传统模型的差异，FinBERT专注于情感分类，速度快，输出直接，但功能单一，而基于LLM的模型灵活多才，不仅能判断情感，还能解释原因，处理不同语言，甚至可针对不同公司给出具体化的分析。但是零样本的模型调用需要互联网服务且成本较高，而本地FinBERT模型则可以离线运行，计算成本也低很多。因此，在实际业务中，需要根据需求选择。如果只是批量处理海量新闻、快速打标签用于量化策略，Fine-tuned的小模型如FinBERT可能足够用了；但如果需要深入的洞察、或者处理从未见过的新事件，LLM的价值就更大。

最后，从最新的发展看，LLM和传统模型的界限也在逐渐模糊。许多研究致力于将数值数据和文本数据结合，这可能需要将传统机器学习融入LLM。例如，用LLM读取新闻和研报、同时用经典模型处理财务指标，把两边的结果交给另一个模型融合，或者直接开发能同时处理文字和数字的多模态模型。这些探索都有望进一步提升金融预测的效果。可以肯定的是，大语言模型为金融人工智能带来了前所未有的机遇，也为传统量化注入了新的活力。在未来相当长一段时间内，LLM与传统模型将协同共存。将用LLM去做"读、思考、解释"的工作，用传统模型做"算、优化、执行"的工作，两者结合，打造更聪明、更高效的金融决策系统。

第1章 人工智能在量化金融中的应用与趋势¶