要約:

  • ケンブリッジ大学を中心に、コンピュータサイエンティスト、エンジニア、数学者、認知科学者からなるチームが、ChatGPTなどのAIチャットボットの対話型評価プラットフォームを開発
  • 研究者は、CheckMateと呼ばれるオープンソースの評価プラットフォームを開発し、人間ユーザーが大規模言語モデル(LLMs)のパフォーマンスを評価できるようにした
  • 25人の数学者が3つのLLMs(InstructGPT、ChatGPT、GPT-4)を使用し、大学レベルの数学問題を解決するためのアシスタントとして評価
  • LLMsは便利なアシスタントであるが、ユーザーは出力を注意深く検証すべき

考察:

LLMsは人間のユーザーを支援する際には有用であるが、その出力には誤りが含まれることがあり、ユーザーは注意深く検証する必要がある。CheckMateの結果から、新しい世代のLLMsは大学レベルの数学問題において人間ユーザーと協力し、正確なサポートを提供する能力が向上していると報告されている。LLMsは柔軟性があり、従来の検索エンジンよりも入出力において優れているが、現行形態の検索エンジンを置き換えるべきではない。将来的にはCheckMateのフィードバックをLLMs自体に組み込むことが可能であり、これらのツールは研究コミュニティにモデルの強みと弱みを理解する手助けとなるだろう。


元記事: https://www.miragenews.com/open-source-platform-evaluates-ai-chatbot-1248997/