Voice os proposal(1)
語音系統報告
近兩天,從數位時代、科技趨勢網站、科學月刊、Amazon Alexa, SiriKit的介紹,甚至還有Voice report,更進一步來說,還有去其他實驗室瞭解相關的技術書名,他給也我一些方向與指引,
不過,接下來總不能一直浸泡在這些資料海中,要更有系統去組織這些data,變成有用的information,回到最終問題,
參考資料:
Signal recognition
首先我們會將從麥克風收集來的聲音,進行一些訊號處理,將語音訊號轉化到頻域,從每 10 毫秒的語音中提出一個特徵向量,
提供給後面的聲學模型。
聲學模型負責把聲訊分類成不同音素。
接下來就是解碼器,可以得出概率最高的一串詞串,
最後一步是後端處理,就是把單詞組合成容易讀取的字檔。 在這幾個步驟中,或多或少都會用到機器學習和深度學習。
我今天主要講聲學模型的部分。
聲學模型就是一個分類器(classifier),匯入向量,匯出語音類別的概率。
這是一個典型的神經網路。 底部是匯入資訊,隱藏層將向量轉化到最後一層裡的音素概率。
這是一個美式英語的 Alexa 語音辨識系統,所以會匯出美式英語中的各個音素。
在 Echo 初發表時,我們錄了幾千個小時的美式英語語音來訓練神經網路模型,這成本很高。
當然,世界上還有很多其他語言,比如我們在 2016 年 9 月發行德語版 Echo,如果重頭來一遍用幾千個小時德語語音來訓練,成本還是很高。
所以,這個神經網路模型一個有趣的地方,就是可以「遷移學習」,你可以保持原有網路中其他層不變,只把最後一層換成德語。
Alexa 裡的語音合成技術,
也用在 Polly 裡。語音合成的步驟一般包括:
第一步,將字檔規格化。如果你還記得,這一步驟恰是對「語音辨識」裡的最後一個步驟的逆向操作。
第二步,把字素轉換成音素,由此得到音素串。
第三步是關鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。
最後,就可以把聲訊播放出來了。
以台灣來講,如何在亞洲市場,發展出自己的語音os?
Last updated