Gemma 4 が 0.84GB で動く時代 — Google の QAT がオンデバイス AI の閾値を一段下げた

Google は 6 月 8 日、軽量 LLM「Gemma 4」に QAT (Quantization Aware Training) を適用した派生モデル群を公開した。テキスト版の最小モデル E2B はわずか 0.84GB のメモリで動作 する。オリジナルの 11.4GB から 13 分の 1 まで圧縮され、スマートフォンの空きメモリにそのまま収まるサイズになった。

モデル	メモリ	想定デバイス
`E2B (テキスト)`	0.84 GB	スマホ / 軽量ノート
`E2B (Q4_0, マルチモーダル)`	2.9 GB	一般ノート PC
`モバイル最適化版`	1.1 GB	Android / iOS

QAT は「後から削る」量子化と何が違うか #

従来の量子化は、学習を終えたモデルを後から低 bit に削るアプローチだ。手軽だが、4-bit 化すると応答精度がガクッと落ちることが多い。QAT は順序が逆で、学習段階から「最終的に 4-bit になる」前提で勾配を流す。重みが量子化されることを織り込んで育つため、Q4_0 にしても性能劣化を最小化できる、というのが Google の主張だ。バリエーションは E2B / E4B / 12B / 26B A4B / 31B のフルラインが揃い、Ollama / LM Studio / llama.cpp が既にサポート済み。ollama pull 一発で誰でも試せる。

オンデバイス LLM はセキュリティ問題を 1 つずつ消す #

ローカル LLM の意義は性能ではなく、構造的に消える脅威 にある。API キー流出、プロンプト履歴の外部保存、推論ログからの機密漏えい、レート制限を逆用した DoS — これらはすべて「クラウドに投げる」ことの副作用だった。0.84GB で実用 LLM が動くなら、社内文書要約・コードレビュー補助・インシデント初動メモは「外に出さずに済ませる」選択肢が現実的になる。

一方で別の論点も生じる。監査ログが残らない、配布されたモデルの改ざんを検出しにくい、端末紛失時の影響範囲が広がる、社員が業務外で同じモデルに機密を流しても止められない。クラウド AI の脅威モデルを、そのまま端末側の脅威モデルへ置き換える 設計が、社内 AI 統制の次フェーズになる。

COMMENTS 0

No comments yet — be the first to leave one.

QAT は「後から削る」量子化と何が違うか #

オンデバイス LLM はセキュリティ問題を 1 つずつ消す #

COMMENTS 0

Post a comment

RELATED

iPhone単体で270億パラメータAIが動く時代 ― "Bonsai 27B"が突きつける新たな攻撃面

Google、脆弱性を自律的に発見・修正するAIエージェント「CodeMender」プレビュー公開

Googleの「自撮り動画」ログイン、ディープフェイク時代の本人確認は万全か

Samsungの新型AIスマートグラス、Gemini統合の裏に潜む「常時カメラ」のリスク