AIはより優れたAIになるためにAIによって訓練されている

6月 30, 2024

OpenAIは、AIアシスタントであるCriticGPTを開発し、GPT-4モデルをさらに洗練させるための人材を支援しています。
CriticGPTは、人間が見落とす可能性のある微妙なコーディングエラーを検出します。
GPT-4などの大規模言語モデルが初期トレーニングを終えると、人間のフィードバックからの強化学習プロセスが継続的に行われます。
ヒューマントレーナーはシステムと対話し、さまざまな質問への応答を注釈付け、異なる応答を評価することで、システムが好ましい応答を返すよう学習し、モデルの応答精度を向上させます。
CriticGPTは、システムのコード生成能力を洗練する際に特に役立ちます。

私の考え: 人間とCriticGPTが協力することで、AIの幻覚的な応答率が低下することがわかりました。ただし、依然として単独で作業を行うよりも幻覚的な応答率が高いことが示されました。このようなAIと人間の協力は、AIの開発およびエラー検出において重要であると考えられます。