• AIパワードチャットボットの対話評価プラットフォームが開発される
  • LLMを使用する際は常に出力に注意し、自分で検証するべき
  • ケンブリッジ大学を中心に、コンピュータサイエンティスト、エンジニア、数学者、認知科学者によるチームがオープンソースの評価プラットフォームCheckMateを開発
  • CheckMateを使用して、人間の参加者が3つのLLM(InstructGPT、ChatGPT、GPT-4)を数学の問題を解くためのアシスタントとして利用

研究者たちはLLMsが参加者を問題解決の手助けをする際にどれだけ優れているかを調査。チャットボットの正確性と役立ち度の間に一般的に正の相関がある一方、LLMsが間違っていても参加者にとって役立つ場合があることを発見。ただし、特定の間違ったLLMの出力は、参加者が正しいと誤解することがあった。これは、チャット向けに最適化されたLLMsで最も顕著であった。

元記事: https://www.miragenews.com/open-source-platform-evaluates-ai-chatbot-1248997/