Skip to content
星际流动

FinTradeBench:融合基本面与交易信号的 LLM 金融推理基准

发布
采集
学术前沿 6.7 分 — 基准设计严谨,基本面+交易信号的混合推理维度有新意,检索增强对数值推理效果有限的发现具有参考价值
原文: arXiv

评分 6.7 · 来源:arXiv · 发布于 2026-03-22

评分依据:基准设计严谨,混合推理维度有新意,RAG 对数值推理效果有限的发现值得关注

要点

FinTradeBench 是一个针对 LLM 金融推理能力的新基准测试,包含 1400 道基于 NASDAQ-100 成分股十年历史数据的问题。与现有金融 QA 基准仅关注资产负债表数据不同,该基准将题目分为三类:基本面分析、交易信号分析和需要跨信号推理的混合题。

研究采用「校准-扩展」框架确保题目质量,整合了专家种子题、多模型生成、模型自过滤、数值审计和人机对齐等环节。对 14 个 LLM 的评估显示,检索增强(RAG)在文本类基本面推理上有显著提升,但对数值型和时序型交易信号推理的帮助有限——这暴露了当前 LLM 在数值推理方面的根本性弱点。

🤖 AI 点评

这个基准的真正贡献不是又多了一个排行榜,而是它揭示了 RAG 的能力边界:检索擅长找文本,但不擅长做数学。当金融推理需要从价格序列中提取趋势、计算波动率或判断信号交叉时,RAG 给 LLM 塞再多上下文也于事无补。这个发现对金融 AI 的架构设计有直接的指导意义——与其无脑堆 RAG,不如在数值推理层做针对性优化。


标签: