Google は 6 月 8 日、軽量 LLM「Gemma 4」に QAT (Quantization Aware Training) を適用した派生モデル群を公開した。テキスト版の最小モデル E2B はわずか 0.84GB のメモリで動作 する。オリジナルの 11.4GB から 13 分の 1 まで圧縮され、スマートフォンの空きメモリにそのまま収まるサイズになった。
| モデル | メモリ | 想定デバイス |
|---|---|---|
E2B (テキスト) | 0.84 GB | スマホ / 軽量ノート |
E2B (Q4_0, マルチモーダル) | 2.9 GB | 一般ノート PC |
モバイル最適化版 | 1.1 GB | Android / iOS |
QAT は「後から削る」量子化と何が違うか #
従来の量子化は、学習を終えたモデルを後から低 bit に削るアプローチだ。手軽だが、4-bit 化すると応答精度がガクッと落ちることが多い。QAT は順序が逆で、学習段階から「最終的に 4-bit になる」前提で勾配を流す。重みが量子化されることを織り込んで育つため、Q4_0 にしても性能劣化を最小化できる、というのが Google の主張だ。バリエーションは E2B / E4B / 12B / 26B A4B / 31B のフルラインが揃い、Ollama / LM Studio / llama.cpp が既にサポート済み。ollama pull 一発で誰でも試せる。
オンデバイス LLM はセキュリティ問題を 1 つずつ消す #
ローカル LLM の意義は性能ではなく、構造的に消える脅威 にある。API キー流出、プロンプト履歴の外部保存、推論ログからの機密漏えい、レート制限を逆用した DoS — これらはすべて「クラウドに投げる」ことの副作用だった。0.84GB で実用 LLM が動くなら、社内文書要約・コードレビュー補助・インシデント初動メモは「外に出さずに済ませる」選択肢が現実的になる。
一方で別の論点も生じる。監査ログが残らない、配布されたモデルの改ざんを検出しにくい、端末紛失時の影響範囲が広がる、社員が業務外で同じモデルに機密を流しても止められない。クラウド AI の脅威モデルを、そのまま端末側の脅威モデルへ置き換える 設計が、社内 AI 統制の次フェーズになる。
COMMENTS 0
まだコメントはありません。最初のコメントを投稿しよう。