• 大量言語モデル(LLMs)の能力を評価するために、データサイエンティストのMike Thelwallが独自のChatGPTに研究評価フレームワーク(REF)の基準を与え、51の研究論文をモデルにフィードした。
  • モデルは妥当なレポートを生成できることが驚くべき成果であるとされる。
  • 一方、スクリル(リス)手術医の論文はモデルを混乱させた。
  • モデルは研究品質を評価する能力が不十分であることが示された。
  • AIの急速な台頭により、研究評価にAIがどこに適合するかについての議論が増えている。

AIの進展は、研究評価の新たなメカニズムに取り込む機会を提供する一方、AIが研究評価を完全に支援できるか、問題を悪化させる可能性があることについて重要な問題を提起している。

元記事: https://www.nature.com/articles/d41586-024-02989-z