• オンライン政治討論におけるスタンス検出のためのSQBC:LLM生成合成データを活用したアクティブラーニング
  • 作者:Stefan Sylvius Wagner、Maike Behrendt、Marc Ziegele、Stefan Harmeling
  • スタンス検出はオンライン政治討論を分析または支援する多くのアプリケーションにとって重要なタスクである
  • 一般的なアプローチには、トランスフォーマーベースのモデルのファインチューニングが含まれるが、これらのモデルには大量のラベル付きデータが必要であり、利用可能でない可能性がある
  • この研究では、LLM生成の合成データを活用してオンライン政治討論のスタンス検出エージェントを訓練および改善するための異なる2つの方法を提示する
  • まず、少量のファインチューニングデータセットに合成データを追加することで、スタンス検出モデルのパフォーマンスを向上させることを示す
  • 次に、「Query-by-Comittee」アプローチに基づく新しいアクティブラーニング手法であるSQBCを提案する
  • 主要なアイデアは、LLM生成の合成データを使用して情報量の多い未ラベルのサンプルを特定し、手動でラベリングするために選択することである
  • 包括的な実験は、両方のアイデアがスタンス検出のパフォーマンスを向上させることを示している
  • 興味深いことに、アクティブに選択されたサンプルでのファインチューニングは、全データセットを使用するパフォーマンスを上回ることが観察された

この論文では、LLM生成の合成データを活用してスタンス検出モデルをトレーニングおよび改善する方法が提案されています。少量のファインチューニングデータセットに合成データを追加することや、SQBCという新しいアクティブラーニング手法を使用することで、スタンス検出のパフォーマンスが向上することが示されています。実験結果から、アクティブに選択されたサンプルでのファインチューニングが全データセットを使用する場合よりも優れた性能を示すことが観察されました。

元記事: https://medium.com/%40monocosmo77/how-synthetic-data-generation-is-evolving-part11-generative-ai-f7be32155971