• UMBC学生として、内部クエリに特定の回答にアクセスすることが困難だと気づきました。
  • UMBC固有の内部ドキュメントに特化したRetrieval-Augmented Generation(RAG)モデルを構築することに決定しました。
  • このプロジェクトは、高度な検索と生成技術を組み合わせて、学生のクエリに正確でコンテキストに即した回答を提供します。
  • 検索の効果的な実行は、適切に前処理されたデータから始まります。
  • 検索システムは、RAGモデルの基盤となります。
  • sentence-transformers/all-mpnet-base-v2を使用して、チャンクを密な埋め込みに変換しました。
  • 検索が完了すると、クエリ処理ワークフローが始まります。
  • 生成モデル(GPT-3.5)は選択したチャンクをコンテキストとして取り、詳細な回答を生成します。
  • GPT-3.5による生成は、Flan-T5などの他のモデルよりも品質が大幅に向上しました。
  • BM25はキーワードの一致に優れ、FAISSは意味の微妙なニュアンスを捕捉しました。
  • 最終的なランキングの関連性が大幅に向上しました。
  • Flan-T5や他のモデルを凌駕し、詳細で正確な回答を生成しました。
  • このプロジェクトは、UMBC固有のクエリに特化したRetrieval-Augmented Generation(RAG)システムを実装しました。
  • ハイブリッド検索、BERTの再ランキング、GPT-3.5の生成を活用することで、高い精度と関連性を実現し、教育の文脈で効率的で正確なクエリ応答システムの道を切り開きました。

この技術的な記事は、UMBC学生が内部クエリに特定の回答にアクセスする際に、密な文書をナビゲートする必要があることに気づいたことから始まりました。その課題に対処するため、UMBC固有の内部ドキュメントに適したRetrieval-Augmented Generation(RAG)モデルを構築しました。このプロジェクトでは、高度な検索と生成技術を組み合わせて、学生のクエリに正確でコンテキストに即した回答を提供することに成功しました。検索の効果的な実行は、適切に前処理されたデータから始まり、検索システムはRAGモデルの基盤となります。さらに、生成モデル(GPT-3.5)が選択したチャンクをコンテキストとして取り、詳細な回答を生成します。これにより、他のモデルよりも品質が大幅に向上しました。また、BM25はキーワードの一致に、FAISSは意味の微妙なニュアンスを捕捉し、最終的なランキングの関連性が大幅に向上しました。このプロジェクトは、UMBC固有のクエリに特化したRAGシステムを実装し、教育の文脈で効率的で正確なクエリ応答システムの道を切り開いたことが示されています。

元記事: https://medium.com/%40madishetty8/building-a-retrieval-augmented-generation-rag-model-for-umbc-internal-queries-f00128366c3a