Advanced-Software-Engineering

CtrlK

Voice os proposal(1)

語音系統報告

近兩天，從數位時代、科技趨勢網站、科學月刊、Amazon Alexa, SiriKit的介紹，甚至還有Voice report，更進一步來說，還有去其他實驗室瞭解相關的技術書名，他給也我一些方向與指引，
不過，接下來總不能一直浸泡在這些資料海中，要更有系統去組織這些data，變成有用的information，回到最終問題，

參考資料：

Signal recognition

首先我們會將從麥克風收集來的聲音，進行一些訊號處理，將語音訊號轉化到頻域，從每 10 毫秒的語音中提出一個特徵向量，
提供給後面的聲學模型。
聲學模型負責把聲訊分類成不同音素。
接下來就是解碼器，可以得出概率最高的一串詞串，
最後一步是後端處理，就是把單詞組合成容易讀取的字檔。在這幾個步驟中，或多或少都會用到機器學習和深度學習。

我今天主要講聲學模型的部分。

聲學模型就是一個分類器（classifier），匯入向量，匯出語音類別的概率。
這是一個典型的神經網路。底部是匯入資訊，隱藏層將向量轉化到最後一層裡的音素概率。
這是一個美式英語的 Alexa 語音辨識系統，所以會匯出美式英語中的各個音素。
在 Echo 初發表時，我們錄了幾千個小時的美式英語語音來訓練神經網路模型，這成本很高。
當然，世界上還有很多其他語言，比如我們在 2016 年 9 月發行德語版 Echo，如果重頭來一遍用幾千個小時德語語音來訓練，成本還是很高。

所以，這個神經網路模型一個有趣的地方，就是可以「遷移學習」，你可以保持原有網路中其他層不變，只把最後一層換成德語。

Alexa 裡的語音合成技術，

也用在 Polly 裡。語音合成的步驟一般包括：

第一步，將字檔規格化。如果你還記得，這一步驟恰是對「語音辨識」裡的最後一個步驟的逆向操作。
第二步，把字素轉換成音素，由此得到音素串。
第三步是關鍵的一步，也是最難的一步，就是將音素生成波形，也就是真正的聲音。
最後，就可以把聲訊播放出來了。

以台灣來講，如何在亞洲市場，發展出自己的語音os?

PreviousData manipulation examples in javascript-PPT NextVoice os proposal(2)

Last updated 6 years ago

Was this helpful?