• 言語モデル(LMs)は幅広い声を反映するよう設計されており、一つの視点と完全に一致しない出力を生み出す
  • LLMsを一般的な回答から避けるために、教師付きファインチューニング(SFT)や人間のフィードバックを用いた強化学習(RLHF)が使用できる
  • これらの手法は膨大なデータセットが必要であり、新しい特定のタスクには非現実的である
  • Stanford大学の研究者らは、Demonstration ITerated Task Optimization(DITTO)を導入し、LLMの出力を直接ユーザーの行動と一致させる方法を提案した
  • DITTOは、ユーザーのデモンストレーションを重視し、中間チェックポイントからの出力よりもユーザーのデモンストレーションを優先する

自己改善戦略やオンライン模倣学習などの手法があるが、DITTOは他の自己プレイ手法や教師付きファインチューニングよりも平均19%ポイント勝率が高いことが示されている

DITTOは、ニュース記事、メール、ブログ投稿などの領域で、細かいスタイルとタスクの整合性を学習することができる

DITTOの結果はGPT-4 evalで評価され、CMCC(71.67%)とCCAT50(82.50%)の平均勝率は他の基準値を上回っている

研究者らは、デモンストレーションをフィードバックとして使用する重要性を強調し、少数のデモンストレーションでも個々の特定の嗜好の強い信号を提供できることを証明している

元記事: https://www.marktechpost.com/2024/06/07/demonstration-iterated-task-optimization-ditto-a-novel-ai-method-that-aligns-language-model-outputs-directly-with-users-demonstrated-behaviors/