FinTradeBench：融合基本面与交易信号的 LLM 金融推理基准

评分 6.7 · 来源：arXiv · 发布于 2026-03-22

评分依据：基准设计严谨，混合推理维度有新意，RAG 对数值推理效果有限的发现值得关注

要点

FinTradeBench 是一个针对 LLM 金融推理能力的新基准测试，包含 1400 道基于 NASDAQ-100 成分股十年历史数据的问题。与现有金融 QA 基准仅关注资产负债表数据不同，该基准将题目分为三类：基本面分析、交易信号分析和需要跨信号推理的混合题。

研究采用「校准-扩展」框架确保题目质量，整合了专家种子题、多模型生成、模型自过滤、数值审计和人机对齐等环节。对 14 个 LLM 的评估显示，检索增强（RAG）在文本类基本面推理上有显著提升，但对数值型和时序型交易信号推理的帮助有限——这暴露了当前 LLM 在数值推理方面的根本性弱点。

🤖 AI 点评

这个基准的真正贡献不是又多了一个排行榜，而是它揭示了 RAG 的能力边界：检索擅长找文本，但不擅长做数学。当金融推理需要从价格序列中提取趋势、计算波动率或判断信号交叉时，RAG 给 LLM 塞再多上下文也于事无补。这个发现对金融 AI 的架构设计有直接的指导意义——与其无脑堆 RAG，不如在数值推理层做针对性优化。