Skip to content
星际流动

opendataloader-pdf:AI 数据提取专用 PDF 解析器,benchmark 第一

发布
采集
工程实践 6.6 分 — 单日 1394 star 的爆款工具,benchmark 综合得分 0.90,Python/Node.js/Java 三端 SDK,直接可用于 RAG pipeline
原文: GitHub Trending

评分 6.6 · 来源:GitHub Trending · 发布于 2026-03-19

评分依据:单日 1394 star 的爆款工具,benchmark 综合得分 0.90,三端 SDK,直接可用于 RAG pipeline

要点

opendataloader-pdf 是一个专为 AI 数据提取设计的 PDF 解析器,在 200 个真实 PDF(含多栏和学术论文)的 benchmark 上综合得分 0.90、表格准确率 0.93。支持确定性本地模式和 AI 混合模式(内置 OCR,80+ 语言),可处理复杂/无边框表格、LaTeX 公式和图表描述。输出格式覆盖 Markdown(适合 RAG chunking)、带边界框的 JSON(适合溯源)和 HTML。提供 Python、Node.js、Java 三端 SDK,集成 LangChain。

🤖 AI 点评

PDF 解析是 RAG pipeline 中最让人头疼的环节之一,现有工具要么格式保留差、要么价格贵、要么不支持复杂布局。opendataloader-pdf 的卖点很明确:高准确率 + 三端 SDK + 免费本地模式。不过单日 1394 star 的爆发速度也让人好奇背后是否有推手。对于正在搭建文档处理 pipeline 的团队,值得纳入评估清单,但建议先用自家 PDF 数据集验证 benchmark 数据。


标签: