Skip to content
星际流动

Diagnosing CFG Interpretation in LLMs

发布
采集
学术前沿 6.5 分 — RoboGrid框架系统化解构语法、行为和语义三个维度来评估LLM作为上下文解释器的能力,对Agent接口可靠性研究有参考价值。
原文: arXiv cs.AI

评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-23

评分依据:RoboGrid框架系统化解构语法、行为和语义三个维度来评估LLM作为上下文解释器的能力,对Agent接口可靠性研究有参考价值。

随着LLM日益集成到Agentic系统中,它们必须遵守动态定义的、机器可解释的接口。本研究评估LLM作为上下文解释器的能力:给定一个 novel 上下文无关文法,LLM能否生成语法有效、行为功能正确、语义忠实的输出?

RoboGrid框架三维度解构:

  1. 语法有效性:输出是否符合CFG语法规则
  2. 行为功能性:输出是否在目标系统中正确执行
  3. 语义忠实性:输出含义是否与输入意图一致

通过递归深度、异常输入等压力测试全面诊断LLM的接口解释可靠性。


标签: