- 大規模な言語モデルを使用するChatGPTのようなチャットボットの大きな問題の1つは、信頼性がわからないことです。
- OpenAIの最新の取り組みは、AIシステムの目標を人間のものと一致させるための取り組みの一環です。
- 新しい取り組みは、人間からのフィードバックに基づく強化学習(RLHF)に焦点を当てており、より正確で人種差別的でなく、礼儀正しく、生物兵器のレシピを提供する傾向が少ないモデルを作成するのに役立っています。
- OpenAIはCriticGPTというモデルを訓練し、ChatGPTの応答を評価するために使用しました。
- OpenAIの実験結果によると、CriticGPTは人間よりも多くのバグを検出し、人間トレーナーと組み合わせることでより包括的な批評を提供します。
この研究は、AIモデルのトレーニングに向けた重要な進展であり、人間とAIシステムの組み合わせは新たな問題を生む可能性があると指摘されています。
私の意見:
この研究は、AIモデルにおける信頼性と正確性の向上に向けた重要な取り組みであると考えられます。人間とAIシステムの組み合わせにより、より包括的なフィードバックが可能となり、モデルのトレーニングが効果的に進むことが期待されます。ただし、人間とAIシステムの連携には新たな課題も生じる可能性があり、慎重な取り組みが求められると感じます。
元記事: https://spectrum.ieee.org/openai-rlhf