記事一覧へ
これ、めっっっっっっっちゃいいかもしれん。
ベンチマーク1位のPDF読み取りOSSが海外で話題になってる。
「OpenDataLoader PDF」:
PDFをMarkdown、JSON、HTMLに変換します。表や数式も崩れずに構造化してくれます。
できること:
・PDFの見出し・表・リスト・画像を正確に抽出する
・読み順を自動判定するので、2段組みのPDFでも正しく読める
・スキャンしたPDFもOCRで80以上の言語に対応
・複雑な表やLaTeX数式もそのまま変換
・AIと組み合わせると表の読み取り精度が90%超え
・LangChainとの公式連携あり
・Python、Node.js、Javaから使える
精度ベンチマークで総合1位(0.907)。docling、marker等を上回っています。
https://
github.com/opendataloader
-project/opendataloader-pdf
…
AI
OpenDataLoader PDFがPDF読み取りOSSでベンチ1位
♥ 1,804↻ 204🔖 2,346👁 230,000
原文を表示 / Show original
これ、めっっっっっっっちゃいいかもしれん。
ベンチマーク1位のPDF読み取りOSSが海外で話題になってる。
「OpenDataLoader PDF」:
PDFをMarkdown、JSON、HTMLに変換します。表や数式も崩れずに構造化してくれます。
できること:
・PDFの見出し・表・リスト・画像を正確に抽出する
・読み順を自動判定するので、2段組みのPDFでも正しく読める
・スキャンしたPDFもOCRで80以上の言語に対応
・複雑な表やLaTeX数式もそのまま変換
・AIと組み合わせると表の読み取り精度が90%超え
・LangChainとの公式連携あり
・Python、Node.js、Javaから使える
精度ベンチマークで総合1位(0.907)。docling、marker等を上回っています。
https://
github.com/opendataloader
-project/opendataloader-pdf
…