另一方面是 google cloud speech to text 有 timestamp,可以用來計算相關段落的 time coverage