• OpenAIは、ChatGPTによるコードエラーをキャッチするために、人間のAIトレーナーを利用してモデルを改善しようとしている。
  • OpenAIは、人間のトレーナーを支援するために、CriticGPTという別のAIモデルを開発した。
  • 一般的に、GPT-4oなどの生成AIモデルは大量のデータで訓練され、人間のフィードバックによる強化学習プロセスを経る。
  • RLHFは、モデルがより優れたパフォーマンスを発揮するように好ましい回答を教えることを目指している。
  • OpenAIはCriticGPTというモデルを作成し、ChatGPTのコード出力のエラーをキャッチするように訓練した。
  • CriticGPTによるAIトレーナーの支援は、人間の助けを受けない場合よりも60%の成功率で成果を上げる。

この記事では、OpenAIが生成AIモデルを改善するために人間のトレーナーとCriticGPTを活用していることが紹介されています。CriticGPTによる補助は、モデルのパフォーマンス向上に効果的であり、人間のトレーナーがより良いフィードバックを提供できることが示されています。AIの支援はコストがかかるものの、適切なバランスを見つけることが重要であることが指摘されています。

元記事: https://www.theregister.com/2024/06/28/openai_criticgpt_ai/