🌐 This article hasn't been translated yet — showing the Japanese version.
Gemma 4 が 0.84GB で動く時代 — Google の QAT がオンデバイス AI の閾値を一段下げた thumbnail

Gemma 4 が 0.84GB で動く時代 — Google の QAT がオンデバイス AI の閾値を一段下げた

Importance: Medium
⏱ approx. 2 min views 43 likes 0 LOG_DATE:2026-06-09
TOC

Google は 6 月 8 日、軽量 LLM「Gemma 4」に QAT (Quantization Aware Training) を適用した派生モデル群を公開した。テキスト版の最小モデル E2B はわずか 0.84GB のメモリで動作 する。オリジナルの 11.4GB から 13 分の 1 まで圧縮され、スマートフォンの空きメモリにそのまま収まるサイズになった。

モデルメモリ想定デバイス
E2B (テキスト)0.84 GBスマホ / 軽量ノート
E2B (Q4_0, マルチモーダル)2.9 GB一般ノート PC
モバイル最適化版1.1 GBAndroid / iOS

QAT は「後から削る」量子化と何が違うか #

従来の量子化は、学習を終えたモデルを後から低 bit に削るアプローチだ。手軽だが、4-bit 化すると応答精度がガクッと落ちることが多い。QAT は順序が逆で、学習段階から「最終的に 4-bit になる」前提で勾配を流す。重みが量子化されることを織り込んで育つため、Q4_0 にしても性能劣化を最小化できる、というのが Google の主張だ。バリエーションは E2B / E4B / 12B / 26B A4B / 31B のフルラインが揃い、Ollama / LM Studio / llama.cpp が既にサポート済み。ollama pull 一発で誰でも試せる。

オンデバイス LLM はセキュリティ問題を 1 つずつ消す #

ローカル LLM の意義は性能ではなく、構造的に消える脅威 にある。API キー流出、プロンプト履歴の外部保存、推論ログからの機密漏えい、レート制限を逆用した DoS — これらはすべて「クラウドに投げる」ことの副作用だった。0.84GB で実用 LLM が動くなら、社内文書要約・コードレビュー補助・インシデント初動メモは「外に出さずに済ませる」選択肢が現実的になる。

一方で別の論点も生じる。監査ログが残らない、配布されたモデルの改ざんを検出しにくい、端末紛失時の影響範囲が広がる、社員が業務外で同じモデルに機密を流しても止められない。クラウド AI の脅威モデルを、そのまま端末側の脅威モデルへ置き換える 設計が、社内 AI 統制の次フェーズになる。

𝕏 Post B! Hatena

COMMENTS 0

No comments yet — be the first to leave one.

Post a comment