- RAGsにおいて、チャンキング、埋め込み、インデックス付けは重要
- 適切なチャンキングテクニックを使用するRAGアプリは、出力品質と速度に優れる
- LLMパイプラインのエンジニアリングでは、テキストを分割するために異なる戦略を使用
- 再帰的な文字分割は最も一般的なテクニックであり、固定トークン長のスライディングウィンドウアプローチを使用
- ただし、この方法ではウィンドウサイズ内にテーマを十分に保持できることを保証しない
- また、文脈の一部が異なるチャンクに落ちるリスクがある
- もう一つの好きなテクニックは意味的分割で、2つの連続する文の間で重要な変化がある場合にテキストを分割する
- 長さ制約がないため、多くの文または非常に少ない文を持つことができる
- しかし、異なるテーマをより正確に捉える可能性が高い
- 意味的分割アプローチにも問題がある
- 遠く離れた文同士が意味的に近い場合、どうするか
考え: テキストを分割する際に、チャンキングや意味的分割といった異なるアプローチがあり、それぞれに利点と課題があることが分かる。テーマを適切に保持しつつ、異なるテーマを正確に捉えるためには、適切な分割技術の選択が重要であると感じる。
元記事: https://towardsdatascience.com/agentic-chunking-for-rags-091beccd94b1