智能家居

【峰會演講】科大訊飛：無語音不智能

14年12月01日千家網

[導讀]2014年11月20日，由千家品牌傳媒策劃舉辦的2014年“第15屆中國國際建筑智能化峰會”于神旺大酒店隆重舉行。本屆上海站峰會的主題是“智能建筑創新技術與應用趨勢論壇”，現場著名專家、知名品牌廠商分別圍繞現今的智能建筑創新技術與應用作精彩演講……

　　——科大訊飛云平臺事業部產品總監王磊第十五屆中國國際建筑智能化峰會上海站演講

　　2014年11月20日，由千家品牌傳媒策劃舉辦的2014年“第15屆中國國際建筑智能化峰會”于神旺大酒店隆重舉行。本屆上海站峰會的主題是“智能建筑創新技術與應用趨勢論壇”，現場著名專家、知名品牌廠商分別圍繞現今的智能建筑創新技術與應用作精彩演講，同時，一起展望智能建筑新趨勢與發展前景。科大訊飛云平臺事業部產品總監王磊本次峰會演講主題是：無語音不智能。

　　科大訊飛云平臺事業部產品總監王磊

　　以下是科大訊飛云平臺事業部產品總監王帶來的主題為《無語音不智能》演講實錄：

　　王磊：今天非常榮幸有這個跟大家分享的機會，今天的我演講主題是語音云助力語音開發的騰飛，這個開發者不僅僅是指語音開發者還有合作伙伴和集成運營商。

　　首先，我們跟大家介紹歷史上的交互一些演變過程，上世紀60、70年代的鍵盤加鼠標，然后蘋果發布的觸摸技術的普及，以及語音的爆發和視覺的交互。這張圖里面說明的就是語音云從2010年到現在2014年整個發展的趨勢，大家可以看到，整個語音云的服務是服務于互聯網化爆發式的增長的，這個增長的速度是非常快的。這是建立在我們語音云上的合作伙伴，我們現在的合作伙伴已經達到了5萬個，每日活躍數達到了3000，市面上主流的應用或是廠商都是應用了我們的語音技術。包括QQ、小米、滴滴打車等都用到我們的語音服務。這也是科大訊飛的一個愿景，希望所有的設備都能夠具備能聽、會說能理解這樣的能力。

　　我們平常所說的智能語音交互技術包含了三個方面，第一個語音合成。什么是語音合成呢?語音合成就是將任意文字轉換成語音相當于給機器一個嘴巴。還有就是說我們的語音識別，就是將你說的話或是文字裝了人工的耳朵。還有進一步理解，就是把你的語音和文字進行深層次的理解。

　　這個人大家認識嗎?這個人就是舌尖上的中國配音人，通過對他的語調進行了收集合成了他的語音音庫。下面有一段合成聲音給大家聽一下。接下來，我為大家演示科大訊飛的語音合成的能力。今年年初的時候，如果你們裝了高德地圖，就會聽到一個女神的聲音，這就是我們跟高德的合作，去了臺灣從林志玲那邊錄了她的聲音合成的聲音。

　　這就是科大訊飛語音識別技術的發展態勢。科大訊飛的語音云是從2010年10月28日發布的，那時候的準確率只有60.2%，而我們現在達到了95%。我們也相信，科大訊飛可以把準確率達到99%的第一家公司。這是我們最新推出一個多方言識別的技術，因為我們跟很多廠商聊的時候，他們的產品是全國發布的，他們需要語音的時候會遇到地方有方言問題，這時候語音的識別準確率會受影響。

　　這就是我們的語音理解技術，為什么要語音理解技術呢?如果你把他的一句話或是一段文字來進行理解，比如大家攜程訂票的時候比較麻煩，我們跟他們合作，里面有一個語音的按紐，你跟他說幫我定一張從北京到上海的飛機票，那邊檢索就會出來。我們可以看到，從最早的20領域的85.21%到現在的30多個領域的94.43%，語音云的用戶積累達到了這樣效果。

　　這是科大訊飛整個OVS的一個使用場景，這個OVS什么意思呢?剛才說的這種是攜程里面需要這種語音的服務，但是它有一些沒有的，比如攜程沒有天氣的一些后續的服務，如今天上海幾度，是不是多云，穿衣指數是多少。這些信息我們在后臺把它也開放出來了，供我們廣大的用戶使用。大家可以看到，從我們的語音合成、語音的識別，到語音理解，這是一整套的服務，這服務在我們很多的產品里面也得到體現。

　　今天我也帶來我們最新的一個產品。這就是我們的智能音響，這里有一個語音按紐，你們聽歌的時候并不是需要通過手機端控制它，而只要按這個按紐給它說話。比如我可以說我想聽劉德華的命運之類的，它就可以把劉德華的歌放出來給你聽，十分方便。這是我們第一代產品。在下一代的產品里面我們不僅有這些東西，還有更智能的技術。這是語音喚醒，什么意思呢?比如說這樣的音響有語音的按紐，你可以給它起名字，比如給它的名字叫小志，然后你只要叫小志它就會給你交互。

　　我們現在整個喚醒技術所占的資源比較小，這都是我們的一些參數。我們在小米上用了我們的喚醒服務，每小時是40MIPS，97%是我們的成功喚醒率，我們RAM和ROM都是比較小的，都是6K和40K非常輕的級別。如果我沒有叫小志但是你啟動了這是6小時一次。還有喚醒加識別技術，我可以智能交互。比如這樣的音響，我說小志給我放劉德華的歌它就放出來了。這種喚醒服務在一款最新的產品上大家可以看到，這款產品就是我們之前和北京的公司做的一款智能機器人。他們就是用了科大訊飛的技術加喚醒加識別和云服務。大家昨天看到魅族最新的發布會的話就會注意到，它就用了這樣的喚醒技術，軟件方面的服務就是我們科大訊飛提供的。

　　還有就是聲紋識別，它分兩個方面，一個是聲紋確認，一個是聲紋鑒別。比如你到你家門口了，你說我回來了，這個識別就可以識別出你，什么叫聲紋鑒別呢，比如林志玲到你家門口了，說一句話說我要進來，從我們后臺，因為我們收到這樣的信息，通知到手機這邊說林志玲到你家門口了，你是不是讓她進來。這個圖是我們識別的準確率達到了95%。

　　這是科大訊飛一整套自然語言的交互方案，從最左邊的身份確認，喚醒，聲紋，做確認和交互的形態，一整套的解決方案形成一個閉環，包括里面的人臉識別和手勢也是我們研發的。而且準確率達到了99.3%以上，已經超越了正常人對這件事的識別。但是我們會遇到一些其他的問題，比如你網絡未覆蓋。舉個例子，比如在銀行或是一些私人的別墅，往往不希望自己的網絡進入到管網里面來，這時候的語音服務也可以做到。

　　大家知道4G出來了，4G的口號是移動改變生活。它比較消費流量，我們也推出了我們最新的解決方案。我們離線合成、離線聽寫都可以為你服務，這樣的離線的合成跟離線聽寫技術，這種合成的自然度遠遠超過了我們人類的自然度，我們現在說是4.2，準確率達到95%以上。舉個例子來說，你在公園里面跑步的時候有一款這樣的手表，或是家里的時候床頭有這樣的一個交互的家電，你需要用語音技術跟它進行交互。這也是我們所認為的極致的交互，是融合云和端的解決方案，給你最好的服務。我們希望給你們更多的一些選擇，讓你們能夠從中獲得更多的我們語音的能力。這是我們另外的一些語音識別準確率的介紹，大家可以看到，我們語音識別準確率在WIFI上相應速度已經達到了140毫秒左右。2014年科大訊飛把它整個語音識別相應速度提高，這是我們一個關鍵的要素。然后大家都知道，現在除了科大訊飛以外還有一些小的廠商也做這方面的服務。

　　所以在這里給大家介紹科大訊飛的優勢在什么地方?首先是，我們擁有大量用戶的數據，從2010年發布語音云以來，現在每天我們的數據幾個T的在增長，這可以讓我們語音合成、識別的自然度和準確度方面有一個自然的提升。第二個我們是個性化的團隊。為什么這很重要呢?我們每天交互次數是達到了億級別，但是我們現在需要的服務器的級別是非常低的，因為我們現在有一個非常出色的工程優化團隊，我們通過這個資源可以做各種各樣的有意的事情。比如聽寫模型，可能就是某一個方面垂直領域的一個應用或是一個服務。我不需要你下面的一些其他的服務，你就可以用我們這個專業的模型了。第三個就是提供完整的解決方案。現在訊飛提供的不僅僅是在線的方案，還有芯片級的方案，通過整套的解決方案給你們提供更多的選擇。第四個就是說我們是最有力的資源整合。現在科大訊飛不僅僅是跟國內的清華大學建立聯合工作室，還跟國外的大學成立了識別方面的實驗室。通過這樣的優質資源整合，給我們帶來更多的研究力量，幫助我們更快的前進。

　　最后告訴大家，你并不是一個人在戰斗，大家都在做智能家居和智能樓宇的話，都會下載一個APP。你如果想做一款很精致的產品是很難的，我們建立了一個伙伴團隊，基本上每天晚上10點都有在線支持你們做一些事情。最后告訴大家一下，我們整個平臺聯系的方式，科大訊飛也希望通過這樣更加友好的在線交互方式跟我們的廠商、合作伙伴建立更加好的合作伙伴關系，將智能樓宇或是智能產業更往前走一步們，謝謝大家。

聲明：凡注明為其它來源的信息均轉自其它平臺，目的在于傳遞更多信息，并不代表本站觀點及立場。若有侵權或異議請聯系我們。

千家智客微信公眾號

掃描下方二維碼，關注千家智客微信公眾號（qianjiacom），隨時隨地知曉智能行業天下事！