谷歌稱語音合成系統(tǒng)Tacotron 2已達人類說話效果

發(fā)布時間：2024-04-29 來源：3DMgame 作者：小程序開發(fā) 瀏覽：1734

眾所周知，谷歌近年來在人工智能領域進行了大量實驗。今天，谷歌在這個領域中又前進了一步。谷歌方面宣稱，旗下AI驅動語音合成系統(tǒng)Tacotron 2的最新版本已經(jīng)基本達到人類說話的效果。谷歌還上傳了一些Tacotron 2的語音小樣，來讓大家體驗一下這個最新科技。

Tacotron 2是谷歌的第二代語音文字轉換技術，結合了兩大深度神經(jīng)網(wǎng)絡，實現(xiàn)了近乎完美的輸出效果。第一層神經(jīng)網(wǎng)絡負責將文字轉化為頻譜圖（pdf），用視效來渲染聲音頻率。轉換為頻譜圖之后，將其提交給WaveNet，也就是由Alphabet的AI研究實驗室DeepMind開發(fā)的系統(tǒng)。WaveNet讀取頻譜圖表，并生成與之相近的聲音元素。
語音文字轉換技術當然不是什么新科技了。但谷歌方面宣稱其文字轉換語音技術高于市面上大部分類似的技術，并與人類發(fā)音幾無二致。廣州網(wǎng)站建設公司
Tacotron 2的發(fā)音將與上下文進行結合，有別于現(xiàn)在市面上一個詞一個詞蹦的朗讀方式。另外該系統(tǒng)還會對標點符號作出反應，并會對句子中的大寫單詞進行強調。
玩家想要體驗這段對比音頻的話，可以點此鏈接。其中有兩段語音小樣，而且谷歌并未標明哪一段是由Tacotron 2朗讀，哪一段是人類朗讀的。但如果你深扒一下文件來源，就能發(fā)現(xiàn)哪段音頻出自Tacotron 2。
在聽完語音小樣并通過源代碼模式找到哪段出自Tacotron 2之手之后，我們可以發(fā)現(xiàn)谷歌確實交出了一份讓人驚嘆的答卷。這個聲音確實與人類發(fā)音非常接近，雖然并不是完全一致，但也已經(jīng)非常接近。相比市面上那些機器味十足的技術來說已經(jīng)好了很多。而且我們還能聽出文本中的標點以及相應的節(jié)奏變換。

上一篇：蘋果經(jīng)典電腦Lisa源代碼修復完成，將于2018年開源

下一篇：科普：無處不在的二維碼

国产极品在线观看-久久国产一区-HD免费看,国产精品欧美久久,富豪们的玩物宴会np全肉小说,色婷婷精品国产一区二区三区

谷歌稱語音合成系統(tǒng)Tacotron 2已達人類說話效果