diary-shadow PoC #7 — WebGPU + Qwen/Gemma ローカル LLM 翻訳

PoC #7 — WebGPU + 量子化 LLM ローカル翻訳 v3 (COEP + rep_penalty)

transformers.js v4.2.0 + WebGPU で Qwen 2.5 / Gemma 3 をブラウザ内で実行。MarianMT (PoC #4) 単独の品質限界を、ローカル LLM 直接翻訳で超えられるかを実機検証する。
v1 (v3.1.2) → v2 訂正: v3 は gemma3_text 未対応 (F13)。v2 → v3 (2026-05-24): モバイル Chrome JS Heap 1GB 上限 (F14) 対策で COEP=credentialless ヘッダ + repetition_penalty デフォルト 1.3。

📚 PoC #7 の狙い: シナリオ 2 (WebGPU LLM 統合・推定実現確率 40%) の実機検証。ローカル + 高品質 + ¥0 を同時に満たせるかを Qwen / Gemma で計測する。

🟡 仮説: 0.5B-1.5B 級 LLM (Qwen) は MarianMT 74M を構造的に上回るが、Gemini 2.5 Flash 校正 (PoC #5・91.7% 改善) に届くかは未検証。プロンプト + 量子化次第。

F5 (実装前確認・✅ HF Hub HEAD 実測):

onnx-community/Qwen2.5-0.5B-Instruct q4f16 = 483 MB / q4 = 786 MB (Apache-2.0)
onnx-community/Qwen2.5-1.5B-Instruct q4f16 = 1.22 GB / q4 = 1.79 GB (Apache-2.0)
onnx-community/gemma-3-270m-it-ONNX q4f16 = ~273 MB / q4 = ~323 MB (Gemma Terms)
📚 transformers.js v3: pipeline('text-generation', model, { dtype, device: 'webgpu' })
📚 旧見立て (deep-analysis ~300MB) は q4f16 採用前提でも実際は 483MB → サイズ感を訂正

⚠ 想定リスク (F1/F6/F9):

🟡 モデルサイズが大きい: 初回 DL は Wi-Fi 強推奨。3G/低速回線では破綻 (PoC #2 F9 同根)
🟡 モバイル WebGPU 未対応端末: iOS 25 以下 / 旧 Android では動かない (約半数のシェア除外見込み)
🟡 0.5B / 270M の日記翻訳品質: MarianMT を上回る保証なし → これを実測するのが本 PoC
🟡 モバイル熱問題: 連続推論で発熱・電池消耗・throttling の可能性 (要観察)
🟡 F6 教訓: モデルが「動く」と「品質が出る」は別問題。出力を必ず人の目で評価する

0. 環境検出 (WebGPU / Adapter / メモリ)

⏳ 検出中...

1. 入力 (日本語日記) 原文

0 字

プリセット:

📌 PoC #5 でも使った 12 種類の不自然箇所 (MarianMT 出力)

🟡 これらが WebGPU LLM 直接翻訳 でどこまで改善されるか、回帰テストとして観察。Gemini Flash 校正 (PoC #5 = 91.7% 改善) との比較が判断軸。

2. 目標言語

英語 (EN) フランス語 (FR)

3. WebGPU LLM モデル選択

🟡 量子化 (dtype) は q4f16 既定 (品質保持 + サイズ最小寄り)。q4 はサイズ大だが速度高い場合あり。

量子化 (dtype)

4. モデル準備 (初回のみ DL)

未準備

📚 モデルファイルは OPFS にキャッシュされる (transformers.js v3)。2 回目以降は再 DL 不要。

5. プロンプト (編集可)

原文は実行時に末尾へ自動付加されます。

max_new_tokens temperature (低い=保守的) repetition_penalty (1.0=無効・1.3 推奨で Gemma 270M ループ抑制)

6. 並列比較 (任意) MarianMT (ローカル・PoC #4 同一) も実行 Gemini 2.5 Flash 校正 (PoC #5 と同等・API キー必要) も実行

7. 翻訳実行

9. 診断ログ

このページについて (PoC #7 詳細)

PoC #7 WebGPU + 量子化 LLM ローカル翻訳: ローカル LLM (Qwen 2.5 / Gemma 3) を WebGPU で実行し「ローカル + 高品質」革命の実機検証。

事前調査 (✅ 検証済 / 2026-05-23 F5 遵守 + 2026-05-24 F13 訂正):

onnx-community/Qwen2.5-0.5B-Instruct q4f16 = 483 MB (HF Hub 実測)
onnx-community/Qwen2.5-1.5B-Instruct q4f16 = 1.22 GB (HF Hub 実測)
onnx-community/gemma-3-270m-it-ONNX q4f16 = ~273 MB (HF Hub 実測)
transformers.js v4.2.0 (本 PoC 採用): device: 'webgpu' + dtype: 'q4f16' サポート / v4.0.0 で Gemma 3 対応追加 (GitHub Releases #1601)
WebGPU 対応: Chrome 113+ (デスクトップ) / Chrome Android 121+ / Safari iOS 26+ / Firefox 141+
Qwen 2.5 ライセンス: Apache-2.0 (商用可)
Gemma 3 ライセンス: Gemma Terms of Use (商用可・追加条件あり・要確認)

F1 警告 (楽観煽らない): 「WebGPU LLM で全部解決」と断定しない。0.5B モデルでは Gemini Flash の文脈推論には届かない可能性が高い。

F6 警告 (動く ≠ 効く): モデルが推論を完了するだけでなく、出力が MarianMT 単独より自然な英語になっているかが本質。主観評価必須。

F9 警告 (モバイル OOM): 1.22GB モデルはモバイルで OOM 危険。Qwen 0.5B (483MB) / Gemma 3 270M (273MB) から実機テスト推奨。

PoC #7 — WebGPU + 量子化 LLM ローカル翻訳 v3 (COEP + rep_penalty)

原文日本語

WebGPU LLM Qwen/Gemma

MarianMT PoC #4

Gemini 校正 PoC #5

主観評価

PoC #7 — WebGPU + 量子化 LLM ローカル翻訳 v3 (COEP + rep_penalty)

原文 日本語

WebGPU LLM Qwen/Gemma

MarianMT PoC #4

Gemini 校正 PoC #5

主観評価

原文日本語