その後、いくつか(音声の)ディレイを違えて試してみました。
①当初: -410ミリ秒 ディレイ →大元より、約10ミリ秒早くなった
②映像の差分の、-466ミリ秒 ディレイ →大元より、約77ミリ秒早くなった
③修正版 of ①: -396ミリ秒 ディレイ →①とほぼ同じ。
④修正版 of ①: -390ミリ秒 ディレイ →大元より、約16ミリ秒遅くなった
これから分かるように、指定した値に対して、結果は「とびとびの値」をとる
ようです。
大元より早くなった、遅くなったと書いているのは、映像を抽出した動画に
付属していた大元の音声よりも、早くなった/遅くなった、という意味です。
再度聴き直してみると、なんとなく「ステレオの音声を抽出した動画」では、
映像よりもやや音声が早いような気がします。 かすかに違和感があります。
上記①~④の、映像と音声を結合した動画を見て、良さそうなのは
①(≒③)、④
でした。 ①と④を比べると、①の方が自然かなーという印象を受けました。
微妙な違いを聞き分けようとして、
「How Will I Know」の文句を聞きすぎて、ちょっとうんざりしてきました。(笑)
いっぱい聞いていると、どれも「それなり」に思えて来ました。疲れたか?
最後に、音声のタイミングの比較結果を示しておきましょう。
A=「Whitney Houston - How Will I Know.flv」=映像を抽出した動画
B=「x1v1e2.mp4」=音声を抽出した動画
として、
A B
①当初: -410ミリ秒 ディレイ ④修正版 of ①: -390ミリ秒 ディレイ
の順に配置してあります:
何かの参考になったかな?