訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
巨頭混戰,百箱爭鳴:雙十一“火拼“下的智慧音箱行業趨勢
獲取產業訊息零時差!立即訂閱電電公會電子報。
智慧音箱市場跌宕起伏,越來越多的人認為該市場將會在熱潮與唱衰的博弈之間不溫不火的走完今年。不料,當我們真正開始以謹慎的態度重新看待智慧音箱市場時,阿裡、京東等巨頭圍繞雙十一展開的智能音箱銷量“拼殺”則再度點燃了即將熄滅的戰火,在針對入口的卡位與角逐下,眼下如火如荼的“雙十一”大促銷則成為了智慧音箱市場全面爆發的又一個關鍵節點。而且隨著格局的突變,整個智慧音箱產業也將開始圍繞市場及技術展開全方位的“進擊”。

2017年中國銷量將遠超35萬 300-600元成主流價格區間
對中國的智慧音箱市場而言,2017年無疑是一個真正意義上的“大團圓”,從過去的京東獨大到如今的巨頭混戰,智慧音箱市場的格局發生了翻天覆地的變化。2016年,中國該領域的玩家還只有叮咚、JBL和飛利浦少數幾個玩家,其中叮咚音箱由於進入市場早及產品線豐富,整體上呈現出壟斷的態勢,全年的市場占比達到65%左右,而飛利浦與JBL占比分別為14%和20%;到了2017年,小米和天貓等廠商開始佈局智慧音箱市場,紛紛推出新產品,天貓精靈更是在上市後兩個月內搶佔了15%的市場份額,而小米智慧音箱則更是將價格定在299元的超低水準,叮咚音箱的市場份額也因此被逐步削減至38%左右,小米緊隨其後占比32%,天貓佔據15%;但隨著此次雙十一促銷期智慧音箱“決戰”的到來,預計整個市場會出現阿裡與京東雙分天下的格局,而小米則會由於產能以及價格難降等問題,市場份額會出現稍許下滑。
 
從銷量方面來看,2015年起智慧音箱市場就在高速增長,但今年可能會是該市場的最快的增長期,未來幾年的增速將逐步放緩。據主流研究機構披露的資料顯示,2015年中國智慧音箱整體零售量僅1萬台左右,2016年銷量則增至6萬台,銷售管道也以線上為主,線上月平均銷量大概3000台左右,整年銷售規模達1.36億元;而今年的1-8月,中國智慧音箱累計銷量已超過10萬台,隨著市面上不斷湧現的新品以及電商巨頭的大力助推,雙十一期間中國國產智慧音箱產品達到了銷售頂峰。據供應鏈調查得到的資料,當前幾個主要的智慧音箱巨頭玩家累計備貨或正在加班加點量產的智慧音箱備貨量接近百萬台,這場引爆智慧音箱血戰的各方都在緊鑼密鼓儲備糧草。以阿裡為例,為迎戰雙十一阿裡為天貓精靈下了約70萬台的訂單,目前已經生產了40多萬台左右,其餘30萬台則在加班加點的生產中,再加上上一批量產的10萬台產能,阿裡為此次雙十一大約準備了80萬台的供給量。在這些巨頭的瘋狂推進下,預計年底中國智慧音箱的總體銷量將超過市場機構所預期的35萬台,但高峰期過後,2018年整個市場的增速將逐漸放緩,預計到2020年銷售規模可超10億元。
 
此外,受制于中國應用場景及消費者認知度等問題,智慧音箱的主流價格區間也正逐步向300-600元範圍靠攏。目前,中國智慧音箱市場中產品價格段主要集中在1000元以下,例如在2017年下半年發售的喜馬拉雅小雅和出門問問均定價在999元,然而一些廠商為了搶佔智慧家居入口,不以盈利為導向,產品定價偏低,比如天貓精靈和小米“小愛同學”的零售價分別為499元和299元,這必然會進一步拉低整個市場的標準價格。而縱觀整個中國智慧音箱市場,200元以下產品占比在不斷降低,主要以300元至600元價格段為主的產品占比為80%,且隨著高端新品的發售,600元至1000元的產品將逐漸擠佔中間價格段。同時,隨著市場價格的逐漸走高,低價產品的占比也會逐步降低,300-600元將逐步成為主流的價格區間段。

多麥克風方案佔據主流 成本及體積加速蛻變
出於產品定位、供應鏈以及成本等多方位的綜合考量,目前市面上主流的智慧音箱所採用的麥克風陣列方案主要分為雙麥和多麥混合兩大陣營,比如Amazon Echo採用的“6+1”麥環形陣列結構、Echo Show的8麥橢圓陣列、蘋果HomePod的環形6麥以及Google Home獨樹一幟的雙麥。中國市場基本上也是如此,比如科大訊飛和雲知聲就主推雙麥技術,其核心是基於美國科勝訊的雙麥降噪晶片實現,成本相對較高;另外一些企業則主推多麥克風陣列,包括科大訊飛、思必馳和聲智科技,但麥克風陣列成本稍高也是問題。
 
不過,具體來講,各方案之間也有著自身的優劣勢。比如,如果想更好的去除部分雜訊,雙麥克風方案則會更具優勢,這種方案比較折衷,主要優點就是ID設計更簡單,在通話模式下可以去除某個範圍內的噪音,但在語音辨識的效果上和單麥的效果卻沒有實質性區別,如果再考慮語音交互必要的回聲抵消功能,成本上還會上升不少。且雙麥方案最大的弊端在於聲源定位的能力太差,聲源定位只能定位180°內的範圍,這在實際的應用場景當中會體現出不少問題,比如編者自己使用的“Eufy Genie”就經常存在“聽不見、“反應延遲”以及“語意識別率差”等問題,實際上這會給用戶體驗造成很大的影響,而相對來講目前環形多麥克風陣列(不管是4Mic、6Mic還是8Mic)基本上都可以做到360°全角度範圍內的定位。

有業內人士也對編者表示:“由於雙麥克大多是用在手機和耳機等設備上實現通話降噪的效果,這種降噪效果可以採用一個指向性麥克風來類比,這實際上就是雙麥之中的EndFire結構,也就是1個麥克風通過原理設計類比了2個麥克風的功能,而指向性麥克風的不便之處就是ID設計需要前後開兩個孔,十分麻煩,比如京東和科大訊飛合作的叮咚1代智慧音箱採用的就是這種指向性方案,因此運用了周邊一圈的懸空設計。但從產品的角度來看,雙麥克風方案簡單更易落地,多麥克陣列最大的問題就是,無論線性或是環形陣列,其對於產品的外觀、結構設計都有極為嚴苛的要求,因為麥克風要求必須在空間上是均勻分佈的,比如需要建立陣列最優化模型、考慮寬頻信號、非平穩信號以及混響等的處理能力等,而雙麥克顯然就不必考慮這些因素。”

但如果更注重使用者體驗,希望產品能夠適應更多的使用者場景以及更好的用戶體驗, 4麥以上的麥克風陣列方案則更可靠,在回聲抵消及噪音去除等多個方面表現更佳。而且隨著更多新產品及新技術的湧現,麥克風陣列的體積和成本也會得到進一步的優化,雙麥與多麥陣列之間的差異正日趨縮小。比如,在體積方面,麥克風陣列受制於半波長理論的限制,現在的口徑還是較大,雖然現在有的產品可以做到2cm-8cm的間距,但是結構佈局仍然還是限制了ID設計的自由性,很多產品採用2個麥克風其實並非成本問題,而是ID設計的考慮,比如Google Home。但實際上,借鑒雷達領域的合成孔徑方法,可以將麥克風陣列做的更小,而且這種方法已經在軍工領域成熟驗證,移植到消費領域相信只是時間問題。而在價格方面,雙麥克陣列的目前的成本也要60元左右,這其中還不包含進行回聲抵消的硬體成本,雖然4麥以上在硬體成本上相對會稍高一些,但綜合成本其實差距並不大,而且今年多麥克風陣列之間的成本差異也在不斷減小,成本下降非常明顯,未來隨著該產品的快速起量,預計麥克風陣列的成本問題將逐步被解決。

深度神經網路成演算法標配 全面提升語音系統整體能力
對於提升智慧音箱整體的使用者體驗而言,麥克風陣列還僅是物理入口,它只是負責完成了物理世界的聲音信號處理,但想要實現語音辨識率的提升還需要依靠軟體演算法技術的支援,比如蘋果HomePod在硬體的基礎上採用了大量的音效演算法,其中包括自動低音均衡、聲學動態建模等,更強大的演算法支援也令其成為迄今為止速度最快且音效最棒的智慧音箱。

對於語音辨識演算法系統而言,總體的處理流程相對硬體來說更為複雜,主要包括語音啟動檢測、特徵提取、識別建模及模型訓練、解碼得到結果以及遠場語音優化等幾個步驟,具體如圖2所示。其中,各個環節的匹配演算法也都有出現一些新的演變趨勢。
 
1、VAD(語音啟動檢測)
實際上,語音辨識後續的操作都是在VAD截取出來的有效片段上進行,從而能夠減小語音辨識系統雜訊誤識別率及系統功耗。在近場環境下,由於語音信號衰減有限,信噪比(SNR)比較高,只需要簡單的方式(比如過零率、信號能量)來做啟動檢測。但是在遠場環境中,由於語音信號傳輸距離比較遠,衰減比較嚴重,因而導致麥克風採集資料的SNR很低,這種情況下,簡單的啟動檢測方法效果很差。目前來說,使用深度神經網路(DNN)來做啟動檢測是基於深度學習的語音辨識系統中常用的方法(在該方法下,語音啟動檢測即為一個分類問題),比如MIT的智慧語音辨識晶片中使用了精簡版的DNN來做VAD,該方法在雜訊比較大的情況下也具有很好的性能,但是更複雜的遠場環境中,VAD仍然是當下及未來研究的主流以及重點。

2、特徵提取
特徵提取方面,目前最主流的是梅爾頻率倒譜系數(MFCC)特徵,梅爾頻率是基於人耳聽覺特徵提取出來的。MFCC主要由預加重、分幀、加窗、快速傅裡葉變換(FFT)、梅爾濾波器組、離散余弦變換幾部分組成,其中FFT與梅爾濾波器組是MFCC最重要的部分。但是近年研究表明,對於語音辨識而言,梅爾濾波器組不一定是最優方案。受限的玻爾茲曼機(RBM)、卷積神經網路(CNN)、CNN-LSTM-DNN(CLDNN)等深度神經網路模型作為一個直接學習濾波器代替梅爾濾波器組被用於自動學習的語音特徵提取中,並取得良好的效果。

目前已經證明,在特徵提取方面,CLDNN比對數梅爾濾波器組有明顯的性能優勢。基於CLDNN的特徵提取過程可以總結為:在時間軸上的卷積、pooling、pooled信號進入到CLDNN中三個步驟。而遠場語音辨識領域由於存在強雜訊、迴響等問題,麥克風陣列波束成形仍然是主導方法,因此現階段,基於深度學習的波束成形是自動特徵提取方面的主流方法。

3、識別建模及訓練
語音辨識本質上是音訊序列到文字序列轉化的過程,即在給定語音輸入的情況下,找到概率最大的文字序列。基於貝葉斯原理,可以把語音辨識問題分解為給定文字序列出現這條語音的條件概率以及出現該條文字序列的先驗概率,對條件概率建模所得模型即為聲學模型,對出現該條文字序列的先驗概率建模所得模型是語言模型。

而識別建模方面主要分為聲學模型和語言模型兩大類。在聲學模型當中,目前最常用的聲學建模方式是隱瑪律科夫模型(HMM),在HMM下,狀態是隱變數,語音是觀測值,狀態之間的跳轉符合瑪律科夫假設。其中,狀態轉移概率密度多採用幾何分佈建模,而擬合隱變數到觀測值的觀測概率的模型常用高斯混合模型(GMM)。基於深度學習的發展,深度神經網路(DNN)、卷積神經網路(CNN)、迴圈神經網路(RNN)等模型也被應用到觀測概率的建模中,並取得了非常好的效果。而在語言模型方面,最常見的是N-Gram,隨著近年深度神經網路的建模方式逐步被應用到語言模型中,深度神經網路未來將在該領域得到更進一步的普及和發展,比如基於CNN及RNN的語言模型。

目前階段,端到端的建模方式是聲學模型建模的重點研究方向,但是相比於其它的建模方式,其還沒有取得明顯的性能優勢。如何在端到端建模的基礎上,提升訓練速度及性能,並解決收斂問題是聲學模型的重要課題。

4、解碼
基於訓練好的聲學模型,並結合詞典、語言模型,對輸入的語音幀序列識別的過程即為解碼的過程。傳統的解碼是將聲學模型、詞典以及語言模型編譯成一個網路。解碼就是在這個動態網路空間中,基於最大後驗概率,選擇一條或多條最優路徑作為識別結果(最優的輸出字元序列)。而目前來看,語音搜索最常用的方法是Viterbi演算法,而對於端到端的語音辨識系統,最簡單的解碼方法則是beam search演算法。

5、遠場語音優化
遠場語音優化是嵌入到整個演算法處理流程中的,由於語音輸入信號衰減比較嚴重,為了增強對語音信號的處理,不少公司常常採用麥克風陣列的波束成形技術來做核心支援,這顯然提高了硬體的整體成本。如今,隨著深度學習演算法向該領域的縱深發展,該方法開始被應用到語音增強及分離處理當中,核心思想是把語音增強與分離轉化成一個監督學習的問題,即預測輸入聲音源的問題。目前已有研究認為使用DNN來全面替代波束成形技術來實現語音增強,並在一定場景下取得了比較理想的效果,但是在背景雜訊很大的環境中,該方法性能還有較大提升空間。

而在智慧音箱的常用環境中,多人說話的情況下,如果不對輸入信號做分離處理,而進行語音辨識的話,識別效果會很差。對於該問題,在多個說話人距離較遠的情況下,波束形成是一個比較好的解決方案,但是當多個說話人距離很近的時候,波束形成的語音分離效果也很差。為了避開波束形成所帶來的場景分類問題,傳統的方法多是在單通道下嘗試解決該問題,常用演算法有computational auditory scene analysis、非負矩陣分解、deep clustering 等,但是這些方法只有當雜訊信號(除聲源外的其他信號)與聲音源信號有明顯不同的特徵時,這些技術才取得比較好的效果。其它情況下,這些方法在語音分離中取得的效果一般。2016年,俞棟博士提出了一種新的深度學習訓練準則-- permutation invariant training,巧妙地解決了該問題,並取得了不錯的效果。

總結
經過多年的推廣和發展,智慧音箱已經開始起量,且在巨頭之間的“雙十一火拼”助推下,2017年有望真正成為中國國產智慧音箱市場的爆發年,但產品普及過快與技術不成熟之間則構成了矛盾,因此預計明年該市場增長率將逐步放緩,行業真正步入“冷靜期”。技術方面,多麥克風陣列方案必然會持續佔據主流(相信穀歌新一代產品也會使用麥克風陣列),隨著麥克風陣列產品的走量以及價格、成本的優化,未來的技術比拼將更看重麥克風陣列的佈局形式以及更核心的軟體演算法的整體實力。因此,編者認為市場份額的確十分重要,但整個產業的健康發展還需要理性,過早催熟一個產業必將為將來種下苦果。(責編:包永剛)
訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。