「情報戦に強い AI」を国家が測る時代 #
2026 年 6 月、エストニア言語研究所が大規模言語モデル (LLM) のロシア宣伝への耐性を測る公開ベンチマーク 「Propaganda Resistance」 を発表した。3 言語で 75 問、中立的な質問から「誤った前提を含む偏った質問」「明示的に偽情報を引き出そうとする悪意ある質問」までを 1〜5 点で採点し、ロシア連邦が戦略的ナラティブで用いる 14 種類の宣伝テーマ に対する耐性を可視化する設計だ。
総合首位は Anthropic の Claude Opus 4.7。100 点満点で平均 94.9 点、質問の 77% で最上位評価を得たという。GPT-5.4 は 5 位 (88.9 点)、NVIDIA や Alibaba のモデルも上位に食い込んだ。テーマ別の応答ログまで一次データが公開されている。
政府機関が直接 LLM を評価する意味 #
注目すべきは 「ロシアと国境を接する国」がベンチマークを主導した点だ。情報戦の最前線にいるエストニアにとって、住民や行政が日常的に使う AI が偽史観・偽情報をそのまま再生産するリスクは現実の安全保障課題と言える。今回の試みは、政府機関が AI を国家インフラの一部として審査する時代に入ったことを象徴している。
これまで LLM の安全性指標は「ハルシネーション率」「個人情報漏えい」「ジェイルブレイク耐性」が中心だった。ここに 「政治的ナラティブの混入に対する耐性」 が加わった意味は大きい。
ハッカー視点で見る攻撃面 #
このベンチマークが照らし出すのは、「学習データと出典こそが攻撃面」 という構図だ。
- データセット汚染: 微量の偽情報を訓練データに紛れ込ませて応答を偏らせる
- RAG ソース操作: SEO や Wikipedia 編集で「権威ある一次ソース」を装う
- プロンプト・インジェクション: 中立な問いに「歴史的経緯を踏まえて」等の前提を埋め込み、誤った文脈を強要する
LLM をプロダクトに組み込む側は、モデル選定だけでなくソース層の防衛まで考える必要がある。社内 RAG なら参照ドメインのホワイトリスト化や出典タイムスタンプの検証など、従来の情報セキュリティでは扱わなかった層の設計が要る。
エストニアの試みは「AI の中立性」を技術指標として可視化した最初の事例の一つだ。「うちの AI はプロパガンダ耐性スコア何点ですか」 という問いが、近い将来 RFP の標準項目になる可能性は十分ある。
COMMENTS 0
No comments yet — be the first to leave one.