PoC #3 — Whisper LRC生成 v1
音声WAV → Whisper transcribe → タイムスタンプ付き字幕 (LRC) 生成。Piper TTS で作った音声に時刻情報を付与する用途。
🟡 PoC段階: モバイル WASM で Whisper が実用速度・精度で動くかは未検証。
実機テストで「動く」「効く」を判定する。F1〜F9遵守: 楽観煽らない・実データで判定する。
環境別の所要時間目安 (1分音声 × tiny モデル) 🟡 実測前の予想:
| PC デスクトップ | 5〜20秒 |
| Android Chrome (WASM) | 20〜90秒 |
| iOS Safari (WASM) | 30〜120秒 |
📚 出典: ebook-audio・Piper PoC#2 実測との比較推定。Whisper モバイル実速は
本PoCで実測する。
F1〜F9 遵守状況 (技術的セルフチェック)
- F1: モバイル WASM 実用速度の楽観なし・所要時間目安バナーで事前明示
- F2: LRC 単体 PoC・プレーヤー統合は未着手
- F3: PoC #2 v5 の診断UI/心拍/ログコピー全継承
- F4: モデル切替 (tiny/base) で精度比較可能
- F5: transformers.js v3.1.2 ソースで return_timestamps / chunks 構造を実コード確認済
- F6: 「動く」と「シャドーイング LRC として実用」を分離評価
- F7: 診断UI完備 (status-board, stage pill, err banner, log copy)
- F8: 心拍ドット+経過秒で推論段階のサイレント化排除
- F9: モバイル NoGo 判定は実機テスト結果まで保留