新しい研究によると、学術界、特にコンピューターサイエンスの分野で LLM の使用が急増しています。これは研究者や査読者にとって何を意味するのでしょうか?
今年 3 月、ある学術論文に関するツイートが、まったく間違った理由で急速に広まりました。エルゼビア社の Surfaces and Interfaces に掲載された論文の序論部分は、次のような一文で始まっています。「確かに、これがあなたのトピックの序論としてあり得るものです。」
ChatGPT のユーザーであり、その能力をコンテンツ生成の目的で活用しているのであれば、そうなるはずです。LLM は執筆作業の支援にますます利用されていますが、学術界におけるこのような例は主に逸話的であり、これまで定量化されていませんでした。
「これはひどい例ですが、多くの場合、それほど明白ではありません。だからこそ、LLM の使用頻度と規模を推定するために、より詳細で堅牢な統計手法を開発する必要があります。現時点では、身の回りのどのコンテンツが AI によって書かれたのかを知りたいのです。これは、研究の文脈では特に重要です。私たちが執筆して読む論文や、論文に対するレビューなどです。だからこそ、それらのどれだけが AI の助けを借りて書かれたのかを調べたいと思ったのです」と、スタンフォード大学のバイオメディカル データ サイエンスの准教授であり、コンピューター サイエンスと電気工学の助教授でもあるジェームズ ゾウ氏は言います。
ゾウ氏と彼のチーム*は、科学出版物における LLM の使用を調査した 2 つの論文で、コンピューター サイエンス論文の 17.5% と査読テキストの 16.9% に少なくとも一部のコンテンツが AI によって作成されていることを発見しました。査読における LLM の使用に関する論文は、国際機械学習会議で発表される予定です。
科学論文における法学修士課程の使用増加のマッピングと AI で修正されたコンテンツの大規模な監視: ChatGPT が AI カンファレンスのピアレビューに与える影響に関するケーススタディを読む
ここでゾウ氏は、スタンフォード HAI ホフマン・イー研究助成金を通じて支援されたこの研究の調査結果と意味について論じています。
AI が論文やレビューの一部を書いたかどうかをどのように判断しましたか?
まず、称賛に値する、革新的、綿密、極めて重要、複雑、領域、展示など、ChatGPT のリリースに合わせてレビューでの出現頻度が急上昇した特定の世界があることに気付きました。さらに、これらの単語は人間よりも LLM によって使用される可能性がはるかに高いことがわかっています。これがわかっている理由は、実際に多くの論文を取り上げて、LLM を使用してレビューを作成し、それらのレビューを同じ論文の人間の査読者が書いたレビューと比較するという実験を行ったからです。次に、LLM と人間でどの単語がより使用される可能性が高いかを定量化しました。そして、リストに挙げられた単語はまさにそれらでした。これらの単語が LLM によって使用される可能性が高く、LLM のリリースに合わせて急上昇したことは強力な証拠です。
一部のジャーナルでは、その旨を明記すれば、学術論文執筆に LLM の使用を許可していますが、Science や ICML カンファレンスなどの他のジャーナルでは禁止しています。学術界では倫理はどのように認識されているのでしょうか?
これは重要かつタイムリーなトピックです。さまざまなジャーナルのポリシーが急速に変化しているからです。たとえば、Science は当初、投稿論文に言語モデルを使用することは著者に許可しないと発表していましたが、後にポリシーを変更し、言語モデルは使用できるが、著者は言語モデルが使用されている場所を明示的に記載する必要があると発表しました。すべてのジャーナルが、これをどのように定義し、今後どのようにするのが正しいのかを模索しています。
学術論文、特にコンピューターサイエンス論文における LLM の使用が増加していることがわかりました (最大 17.5%)。一方、数学や Nature 系の論文では AI テキストの使用率は約 6.3% でした。これらの分野間の相違の原因は何だと思いますか?
人工知能とコンピュータサイエンスの分野では、ICLR や NeurIPS などの会議に提出される論文の数が爆発的に増加しています。そして、それが査読者と著者にさまざまな意味で大きな負担を強いていると思います。そのため、今では、これらすべての論文を査読する時間のある資格のある査読者を見つけることがますます難しくなっています。また、著者の中には、遅れを取らずに、より多く、より速く論文を書き続けなければならないという競争を感じている人もいるかもしれません。
2020 年 1 月から 2024 年 2 月までの間に、arXiv、bioRxiv、Nature に掲載された 100 万件近くの論文を分析しました。これらのジャーナルには人文科学の論文や社会科学の論文が含まれていますか?
私たちは主に、CS やエンジニアリング、生物医学分野、そして社会科学論文も掲載している Nature ファミリー ジャーナルのような学際分野に重点を置きたいと考えていました。この場合、入手可能性は重要でした。そのため、arXiv、bioRxiv、Nature からデータを取得するのは比較的簡単です。多くの AI カンファレンスでもレビューが公開されています。人文科学ジャーナルではそうではありません。
ChatGPT のリリースから数か月後、学術論文執筆での使用パターンが急速かつ直線的に増加し始めました。これは、これらの LLM 技術がコミュニティに急速に浸透し、研究者に採用されるようになったことを示しています。最も驚くべき発見は、言語モデルの使用の増加の大きさと速度です。論文と査読テキストの約 5 分の 1 で LLM 修正が使用されています。また、締め切りに近い時期に提出された査読や、著者の反論に応じる可能性が低い査読では、LLM を使用する可能性が高いこともわかりました。
これはいくつかのことを示唆しています。おそらく、これらの査読者の中には、論文の査読にそれほど熱心ではない人がいて、そのため AI に作業の一部を任せているのでしょう。査読者が完全に関与していないと、問題が発生する可能性があります。科学的プロセスの柱の 1 つとして、客観的で厳密な評価を提供する人間の専門家の存在は依然として必要です。これが薄れつつあるとしたら、それは科学界にとって良いことではありません。
あなたの研究結果は、より広範な研究コミュニティにとってどのような意味を持つのでしょうか?
LLM は研究のやり方を変えています。私たちの研究から、私たちが読む論文の多くが LLM の助けを借りて書かれていることは明らかです。透明性を高める必要があり、LLM がどのように使用されているか、また、それが大幅に使用されているかどうかを人々は明示的に述べるべきです。LLM を使用することが常に悪いことだとは思いません。多くの分野で、これは非常に役立ちます。英語を母国語としない人にとっては、モデルに文章を磨いてもらうことは有益です。研究プロセスで LLM を使用する建設的な方法があります。たとえば、草稿の初期段階で使用できます。外部からのフィードバックを得るために何週間も何ヶ月も待つのではなく、LLM からリアルタイムで有用なフィードバックを得ることができます。
しかし、人間の研究者が提出し発表するすべての内容に責任を負うことは、依然として非常に重要だと私は思います。彼らは「はい、私はこの論文に書かれた内容に責任を持ちます」と言える必要があります。
*協力者: Weixin Liang、Yaohui Zhang、Zhengxuan Wu、Haley Lepp、Wenlong Ji、Xuandong Zhao、Hancheng Cao、Sheng Liu、Siyu He、Zhi Huang、Diyi Yang、Christopher Potts、Christopher D. Manning、Zachary Izzo、Yaohui Zhang が含まれます、Lingjiao Chen、Haotian Ye、ダニエル・A・マクファーランド。
スタンフォード HAI の使命は、AI の研究、教育、ポリシー、実践を推進し、人類の状態を改善することです。詳細はこちらをご覧ください。
見逃さないでください。Stanford HAI の最新情報をあなたの受信箱に直接お届けします。
元記事: https://hai.stanford.edu/news/how-much-research-being-written-large-language-models