评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:RoboGrid框架系统化解构语法、行为和语义三个维度来评估LLM作为上下文解释器的能力,对Agent接口可靠性研究有参考价值。
随着LLM日益集成到Agentic系统中,它们必须遵守动态定义的、机器可解释的接口。本研究评估LLM作为上下文解释器的能力:给定一个 novel 上下文无关文法,LLM能否生成语法有效、行为功能正确、语义忠实的输出?
RoboGrid框架三维度解构:
- 语法有效性:输出是否符合CFG语法规则
- 行为功能性:输出是否在目标系统中正确执行
- 语义忠实性:输出含义是否与输入意图一致
通过递归深度、异常输入等压力测试全面诊断LLM的接口解释可靠性。