• Generative large language models (LLMs) are used for automated text annotation in social media research.
  • LLMs show strong performance on annotation tasks, but evaluation is limited and may be biased by public benchmark datasets.
  • A human-centered framework is proposed to evaluate AI tools for annotation tasks.
  • GPT-4 was used to replicate 27 annotation tasks across 11 password-protected datasets from computational social science articles.
  • Comparison was made between GPT-4 annotations, human-annotated labels, and annotations from supervised classification models.
  • LLM labels are generally of high quality, but performance varies significantly across tasks and datasets.
  • Human-centered workflow and careful evaluation are crucial as automated annotations can diverge from human judgment.
  • Validation labels generated by humans are essential for responsible evaluation of automated annotation.

この論文では、社会メディア研究における自動テキスト注釈のために生成的大規模言語モデル(LLMs)が有用であることが示されました。LLMsは注釈タスクで強力なパフォーマンスを示すが、評価は限定されており、公開ベンチマークデータセットによるバイアスがある可能性があります。人間中心のフレームワークを使用して、AIツールの責任ある評価を行うことが提案されました。この研究では、GPT-4を使用して、高インパクトジャーナルに掲載された計算社会科学論文からの11のパスワード保護データセットにおいて、27の注釈タスクを複製しました。各タスクについて、GPT-4の注釈を人間が行った正解ラベルと、人間が生成したラベルでファインチューニングされた別の教師あり分類モデルの注釈と比較しました。LLMのラベルの品質は一般的に高いですが、タスクやデータセットによってパフォーマンスが大きく異なります。自動注釈は人間の判断から大きく外れる可能性があるため、人間中心のワークフローと慎重な評価が重要です。自動注釈の責任ある評価には、人間が生成した検証ラベルを基にすることが不可欠です。

元記事: https://www.microsoft.com/en-us/research/publication/keeping-humans-in-the-loop-human-centered-automated-annotation-with-generative-ai/