diary-shadow PoC #3 v2.1 — Whisper + forced alignment LRC生成 (1センテンス=1行)

PoC #3 — Whisper + forced alignment v2.1

音声WAV → Whisper transcribe → 原文との forced alignment → タイムスタンプ付き字幕 (LRC) 生成。Whisper の誤認識・幻覚を吸収して原文ベースの正しい字幕を作る。
v2.1 (2026-05-23): オーナー指示で 1センテンス = 1 LRC 行に統一 (カンマ副分割を廃止)。

🟡 v1 → v2 の進化: v1 では Whisper 出力をそのまま LRC 化 → 「I knew up around 7」のような誤認識・幻覚が字幕に混入。 v2 では 既知の原文 (Piper TTS の入力) と Whisper 出力を Needleman-Wunsch DP でアラインし、原文の各文に Whisper の時刻を付与する。シャドーイング教材として正確な字幕を目標。

✅ アルゴリズム単体検証: 376字 5文 / 1119字 13文で DP < 400ms・マッチ率 99% / 幻覚 3 つを gap で吸収 (PC Node 実測)
✅ v2.1 単体検証: EN-XXL-A 1119字 → 13セグメント / 各セグ信頼度 95-99% / 1文 = 1 LRC 行 (PC Node 実測)

環境別の所要時間目安 (1分音声 × tiny モデル) 🟡 実測前の予想:

PC デスクトップ	5〜20秒
Android Chrome (WASM)	20〜90秒
iOS Safari (WASM)	30〜120秒

📚 出典: ebook-audio・Piper PoC#2 実測との比較推定。Whisper モバイル実速は 本PoCで実測する。

1. Whisper モデルモデル選択 (初回は HuggingFace から DL・OPFS にキャッシュされる) 言語ヒント (auto なら Whisper が自動検出)

2. 入力 WAV 📁 WAVファイルを選択 (またはクリック)
Piper PoC #2 でダウンロードした連結 WAV を試すのが理想

3. 字幕モード選択

A. Whisper 認識テキスト (v1 動作)

Whisper 出力をそのまま LRC 化。誤認識・幻覚がそのまま出る。

B. 原文 + forced alignment (v2 新規・推奨)

原文と Whisper を DP アラインし、原文ベースで時刻を付与。シャドーイング教材向き。

📝 原文 (Piper TTS に入れた文章をここに貼る)

0 字

4. transcribe + LRC生成

🟡 推論はキャンセル中断不可 (transformers.js の AbortSignal 限定対応・要ソース確認)。キャンセル＝ページリロード。OPFS キャッシュは消えません。

ログ (実機テストで秘書へ送付するための診断情報)

F1〜F9 遵守状況 (v2 セルフチェック)

F1: 「forced alignment で完璧」と楽観しない。誤認識ペナルティ・幻覚吸収は DP の限界内で動作
F2: LRC 単体 PoC・プレーヤー統合は未着手 (アルゴリズム単体検証 PASS してから UI 実装)
F3: v1 の診断UI/心拍/Whisper パイプライン・JFK サンプル機能を全継承。モード切替で v1 動作も残す
F4: Whisper 認識 vs 原文 + alignment を並列表示し、改善度が見えるよう設計
F5: Needleman-Wunsch DP を Node 単体で 376字/1119字パターンで検証してから実装。アルゴリズムの境界条件 (gap/match/mismatch スコア・幻覚吸収) を文書化
F6: 「DP が走る」と「シャドーイング教材として効く」を分離。アラインメント信頼度を行ごとに可視化
F7: 既存の status-board/err banner/log copy 全維持
F8: 推論心拍 + DP 段階の経過秒も追加
F9: forced alignment の精度判定は実機テストの実 LRC を見るまで保留 (PC Node 検証 = アルゴリズム動作確認のみ・実機 Whisper 出力での実用度は別評価)

v2 で新たに気にしている限界 (🟡):

🟡 Whisper の幻覚率が原文の 30% を超える場合 (極端な誤認識) は DP のマッチ率が低下 → 信頼度低い行が増える可能性
🟡 仏語 transcription の品質が低いと alignment 信頼度も連動して低下する
🟡 文字レベル DP は語順入れ替えに弱い (Whisper が文を順序入れ替えで認識した場合)
🟡 1500字超では DP メモリ ~10MB+ で iOS Safari の WASM-不要メモリ枠でもマージン要確認

PoC #3 — Whisper + forced alignment v2.1

A. Whisper 認識テキスト (生)

B. 原文 (forced alignment 入力)