ロサンゼルスのCedars Sinai Medical Center のComputational Biomedicine学科が2023年にBMC誌に発表した論文によると、米国では理系のポスドクや博士号のかなりの部分が留学生に授与されています。留学生にとって、第二言語あるいは第三言語である英語を論文執筆に使用することは困難です。このような状況において、生成AIサービスは非常に有用です。しかし、この論文では、生成AIサービスで事前に書かれた文章は剽窃の問題を引き起こす可能性は低いものの、 prompt-based text generation(プロンプトとテキスト生成機能。言語モデルが与えられたプロンプトや入力に基づいてテキストを生成する技術)を使用すると、個人の貢献と剽窃の境界線が曖昧になる可能性があると述べています。
参考:Meyer JG, Urbanowicz RJ, Martin PCN, O'Connor K, Li R, Peng PC, Bright TJ, Tatonetti N, Won KJ, Gonzalez-Hernandez G, Moore JH. ChatGPT and large language models in academia: opportunities and challenges. BioData Min. 2023 Jul 13;16(1):20. doi: 10.1186/s13040-023-00339-9.
2024年4月、スタンフォード大学の研究チームは、大規模言語モデルの力を借りて書かれた学術論文の程度について包括的な分析を行いました。2020年1月から2024年2月までに発表された、さまざまな学術プラットフォームやジャーナルにまたがる950,965本の論文を分析した結果、コンピュータサイエンス論文の17.5%、査読論文の16.9%に、AIによって起草された内容が含まれていることが明らかになりました(参考:Mapping the Increasing Use of LLMs in Scientific Papers)。
生成AIサービスの公開によって使用頻度が増加した「pivotal」や「realm」などの単語の使用頻度を評価することで、AIが論文のある部分を書いたかどうかを調べているようです(参考:Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews)。
この研究を実施したチームのメンバーであるスタンドフォード大学のジェームス・ズー准教授(生物医学データサイエンス)は、研究者は大規模言語モデルの使用についてもっと透明性を高めるべきだと述べました。(インタビューの続きはこちら)
ズー准教授によると、論文草稿の初期段階でAIを使用することは、研究者にとってより建設的であるそうです。また、最も重要なことは、人間の研究者は提出され発表されたものすべてに責任を持つべきだということだと述べています。