Diagnosing CFG Interpretation in LLMs

发布

2026年04月23日

采集 2026年04月23日 06:32

学术前沿 6.5 分 — RoboGrid框架系统化解构语法、行为和语义三个维度来评估LLM作为上下文解释器的能力，对Agent接口可靠性研究有参考价值。

评分 6.5 · 来源：arXiv cs.AI · 发布于 2026-04-23

评分依据：RoboGrid框架系统化解构语法、行为和语义三个维度来评估LLM作为上下文解释器的能力，对Agent接口可靠性研究有参考价值。

随着LLM日益集成到Agentic系统中，它们必须遵守动态定义的、机器可解释的接口。本研究评估LLM作为上下文解释器的能力：给定一个 novel 上下文无关文法，LLM能否生成语法有效、行为功能正确、语义忠实的输出？

RoboGrid框架三维度解构：

通过递归深度、异常输入等压力测试全面诊断LLM的接口解释可靠性。