AI捏造の参考文献が生物医学論文に3年で12倍 — 277本に1本が偽引用の知の汚染時代

生物医学論文に紛れ込む「存在しない参考文献」が、2023年から3年でおよそ12倍に膨れ上がった ― そんな調査結果が公開された。250万本の論文を機械的に検証したところ、2,810本に偽引用が含まれ、2026年時点では 約277本に1本 の割合に達しているという。AI が研究の現場に浸透した副作用が、エコシステムの根幹である「引用の連鎖」を蝕み始めている。

「ハルシネーション」は脆弱性そのものだ #

LLM が存在しない論文タイトル・DOI・著者名を平然と返す現象は、もはや珍事ではなく、LLM の構造的な仕様 に近い。次トークン予測モデルは「もっともらしいパターン」を確率的に出力するだけなので、引用フォーマットが整っていれば、内容が虚構かどうかを判定する内的な検証機構を持たない。

セキュリティの観点で見ると、これは 入力サニタイズなしで外部データを取り込むのと同じ構造の脆弱性 だ。研究者が ChatGPT や Gemini に「先行研究を提示せよ」と問い、出力をそのまま貼り付け、査読も DOI 解決もスキップする。SQL インジェクションが「ユーザ入力を信頼した」結果なら、今回の事案は「LLM 出力を信頼した」結果である。攻撃者が能動的に注入したわけでもないのに、研究データベース全体の整合性が劣化していく。

攻撃者にとっては「Citation Poisoning」の絶好の温床 #

ここで気になるのは、悪意ある第三者が 架空の DOI をプレプリントサーバや SEO 経由で先回りして配置し、LLM のクロールに食い込ませる手口だ。ある領域に偏った偽引用を「事実として」 LLM に学習させれば、後続の論文や政策文書が誤った前提を引用しあう incestuous citation が起きる。医療領域なら、ガイドライン改定や薬剤承認まで偽情報が浸潤しうる。サプライチェーン攻撃が依存パッケージを汚染するように、研究の引用網は「知のサプライチェーン」として攻撃面になりつつある。

防衛側は「DOI レゾルバを叩く」習慣を取り戻せ #

技術的な対策は単純だ。doi.org/ を curl で叩けば実在チェックは秒で済む。Crossref API や OpenAlex の API を経由すれば、著者名・誌名・年号の三点照合も自動化できる。出版社側は投稿時の自動 DOI 検証を必須化すべきだし、査読者は「LLM が提示しそうな曖昧な引用」(著者2名・短い表題・誌名なし、など) に警戒シグナルを持つべきだ。

そして読者の我々も、論文を引用する前に DOI を 1 度はクリックする という当たり前の検証を取り戻す必要がある。AI で楽になった分のコストを、検証側にきっちり振り戻すこと ― それが「277分の1」を確実に縮めていく唯一の道だ。

AI捏造の参考文献が生物医学論文に3年で12倍 — 277本に1本が偽引用の知の汚染時代

「ハルシネーション」は脆弱性そのものだ #

攻撃者にとっては「Citation Poisoning」の絶好の温床 #

防衛側は「DOI レゾルバを叩く」習慣を取り戻せ #

COMMENTS 0

Post a comment

「ハルシネーション」は脆弱性そのものだ #

攻撃者にとっては「Citation Poisoning」の絶好の温床 #

防衛側は「DOI レゾルバを叩く」習慣を取り戻せ #

COMMENTS 0

Post a comment

RELATED

YouTube Studio の AI 機能にプロンプトインジェクション、非公開動画のタイトルが漏洩する恐れ

LLM に冷戦戦略会議をさせたら核兵器を選んだ — King's College London 実験が示す AI 軍事利用の致命バイアス

エストニア政府が LLM のロシア宣伝耐性ベンチマークを公開、首位は Claude Opus 4.7

オープンウェイト LLM の安全装置は数分で剥がせる ― FT 検証が示す『公開モデルの根本問題』