要約:

  • データサイエンティストのMike Thelwallが大規模言語モデル(LLM)を使用して研究論文を評価する能力を試す実験を実施
  • Thelwallは、カスタムバージョンのChatGPTに研究評価枠組み(REF)の基準を与え、自身の51件の研究論文をモデルにフィードし、ChatGPTが人間と区別がつかないレポートを生成する驚異的な成果を達成
  • 一方、研究評価に基づくスコアを適用することができなかったことが判明し、AIが品質を評価する能力には限界があると結論づけられた
  • AIの急速な発展により、研究評価にAIがどのように適合するかについての議論が増加しており、AIが研究品質や影響を理解し、測定する新しいメカニズムに組み込まれる機会があるが、問題を悪化させる可能性もある
  • AIの利用は研究評価の効率化を可能にする可能性があり、機関や国家システムの評価において大きな効果が期待される

感想:

AIの発展が研究評価において新たな可能性をもたらす一方で、品質評価や影響測定などの重要な要素において、AIが引き起こす潜在的な問題について慎重に考える必要があると感じます。AIの活用は効率向上につながる可能性がありますが、人間の判断や倫理的な側面を考慮しながら、バランスを保ちながら進めることが重要だと思います。


元記事: https://www.nature.com/articles/d41586-024-02989-z