transformers.js v3 + WebGPU で Qwen 2.5 / Gemma 3 をブラウザ内で実行。MarianMT (PoC #4) 単独の品質限界を、ローカル LLM 直接翻訳で超えられるかを実機検証する。
pipeline('text-generation', model, { dtype, device: 'webgpu' })PoC #7 WebGPU + 量子化 LLM ローカル翻訳: ローカル LLM (Qwen 2.5 / Gemma 3) を WebGPU で実行し「ローカル + 高品質」革命の実機検証。
事前調査 (✅ 検証済 / 2026-05-23 F5 遵守):
device: 'webgpu' + dtype: 'q4f16' サポートF1 警告 (楽観煽らない): 「WebGPU LLM で全部解決」と断定しない。0.5B モデルでは Gemini Flash の文脈推論には届かない可能性が高い。
F6 警告 (動く ≠ 効く): モデルが推論を完了するだけでなく、出力が MarianMT 単独より自然な英語になっているかが本質。主観評価必須。
F9 警告 (モバイル OOM): 1.22GB モデルはモバイルで OOM 危険。Qwen 0.5B (483MB) / Gemma 3 270M (273MB) から実機テスト推奨。