要点
- IBMの新しいオープンソースツールキット、DoclingはPDF、マニュアル、スライドデッキを専門データに変換することを可能にし、エンタープライズAIモデルをカスタマイズし、信頼できる情報に基づいて構築することができる。
- Doclingは、非構造化ドキュメントをJSONやMarkdownファイルに変換し、大規模言語モデル(LLM)などが処理しやすくするためのプロセスを簡略化し、AIアプリケーションのための情報を発掘することを目的としている。
- DoclingはコマンドラインインターフェースとPython APIを備え、標準的なラップトップで実行可能であり、LlamaIndexやLangChainなどのオープンソースLLMフレームワークとシームレスに統合される。
- DoclingはOCRを避け、コンピュータービジョンモデルを使用してページ上の視覚要素を認識・分類することでエラーを減らし、解決までの時間を短縮する。
- IBMの研究チームはDoclingを使用して情報を抽出し、AIモデルをトレーニングするためにInstructLabプロジェクトに組み込んだ。
考察
Doclingは、非構造化データを処理し、エンタープライズAIアプリケーションのための貴重な情報を容易に利用可能にする革新的なツールキットである。OCRを回避し、コンピュータービジョンモデルを活用することで、エラーを削減し、処理時間を短縮するという特長がある。また、IBMの研究チームによって設計され、オープンソースで提供されており、開発者がコラボレーションし、プロジェクトを拡大することが可能である。
元記事: https://research.ibm.com/blog/docling-generative-AI