AIFCC
記事一覧へ
AI

OpenDataLoader PDFがPDF読み取りOSSでベンチ1位

AI駆動塾@L_go_mrk
1,804204🔖 2,346👁 230,000
これ、めっっっっっっっちゃいいかもしれん。 ベンチマーク1位のPDF読み取りOSSが海外で話題になってる。 「OpenDataLoader PDF」: PDFをMarkdown、JSON、HTMLに変換します。表や数式も崩れずに構造化してくれます。 できること: ・PDFの見出し・表・リスト・画像を正確に抽出する ・読み順を自動判定するので、2段組みのPDFでも正しく読める ・スキャンしたPDFもOCRで80以上の言語に対応 ・複雑な表やLaTeX数式もそのまま変換 ・AIと組み合わせると表の読み取り精度が90%超え ・LangChainとの公式連携あり ・Python、Node.js、Javaから使える 精度ベンチマークで総合1位(0.907)。docling、marker等を上回っています。 https:// github.com/opendataloader -project/opendataloader-pdf …
原文を表示 / Show original
これ、めっっっっっっっちゃいいかもしれん。 ベンチマーク1位のPDF読み取りOSSが海外で話題になってる。 「OpenDataLoader PDF」: PDFをMarkdown、JSON、HTMLに変換します。表や数式も崩れずに構造化してくれます。 できること: ・PDFの見出し・表・リスト・画像を正確に抽出する ・読み順を自動判定するので、2段組みのPDFでも正しく読める ・スキャンしたPDFもOCRで80以上の言語に対応 ・複雑な表やLaTeX数式もそのまま変換 ・AIと組み合わせると表の読み取り精度が90%超え ・LangChainとの公式連携あり ・Python、Node.js、Javaから使える 精度ベンチマークで総合1位(0.907)。docling、marker等を上回っています。 https:// github.com/opendataloader -project/opendataloader-pdf …

AIFCC — AI Fluent CxO Club

読み書きそろばん、AI。経営者が AI を自分で動かせるようになるコミュニティ。

OpenDataLoader PDFがPDF読み取りOSSでベンチ1位 | AIFCC