Voice os proposal(1)

語音系統報告

  • 近兩天,從數位時代、科技趨勢網站、科學月刊、Amazon Alexa, SiriKit的介紹,甚至還有Voice report,更進一步來說,還有去其他實驗室瞭解相關的技術書名,他給也我一些方向與指引,

  • 不過,接下來總不能一直浸泡在這些資料海中,要更有系統去組織這些data,變成有用的information,回到最終問題,

參考資料:

Signal recognition

  • 首先我們會將從麥克風收集來的聲音,進行一些訊號處理,將語音訊號轉化到頻域,從每 10 毫秒的語音中提出一個特徵向量,

  • 提供給後面的聲學模型。

  • 聲學模型負責把聲訊分類成不同音素。

  • 接下來就是解碼器,可以得出概率最高的一串詞串,

  • 最後一步是後端處理,就是把單詞組合成容易讀取的字檔。 在這幾個步驟中,或多或少都會用到機器學習和深度學習。

我今天主要講聲學模型的部分。

  • 聲學模型就是一個分類器(classifier),匯入向量,匯出語音類別的概率。

  • 這是一個典型的神經網路。 底部是匯入資訊,隱藏層將向量轉化到最後一層裡的音素概率。

  • 這是一個美式英語的 Alexa 語音辨識系統,所以會匯出美式英語中的各個音素。

  • 在 Echo 初發表時,我們錄了幾千個小時的美式英語語音來訓練神經網路模型,這成本很高。

  • 當然,世界上還有很多其他語言,比如我們在 2016 年 9 月發行德語版 Echo,如果重頭來一遍用幾千個小時德語語音來訓練,成本還是很高。

所以,這個神經網路模型一個有趣的地方,就是可以「遷移學習」,你可以保持原有網路中其他層不變,只把最後一層換成德語。

Alexa 裡的語音合成技術,

也用在 Polly 裡。語音合成的步驟一般包括:

  • 第一步,將字檔規格化。如果你還記得,這一步驟恰是對「語音辨識」裡的最後一個步驟的逆向操作。

  • 第二步,把字素轉換成音素,由此得到音素串。

  • 第三步是關鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。

  • 最後,就可以把聲訊播放出來了。

以台灣來講,如何在亞洲市場,發展出自己的語音os?

Last updated