首頁|台灣區電機電子工業同業公會

如果說語音延時是TWS智慧耳機產品體驗的“頭號殺手”，那麼語音回饋品質可能就是產品體驗最直接的“形象代言”。眾所周知，無論當今任何一款AI語音交互設備，使用者最終接收到的語音資料回饋效果都極大程度地依賴於設備及雲端語音平臺對使用者所發出的語音資料接收、識別以及處理的精准度。實際應用場景中，難免會遇到各種環境音、環境波以及語言、語音甚至語意千變萬化所致的干擾，縱使是當今全球最接近人類語音能力的Google Assistant也並不能達到用戶的期許，因此提升TWS智慧耳機端的語音回饋品質終將是一場“持久戰”。

褚文才對此表示贊同，他強調：“目前的語音交互系統，還僅停留在能夠適應它們所得到的訓練資料集的水準，而一旦當你把它介紹給它從未聽過的東西時，其語音辨識的品質就會大幅下降。例如，如果你的訓練資料集是會話語音，那麼在繁雜的現實環境中你的識別語音效果和最終回饋效果就不會太好，甚至可能很差，而且在有回聲、噪音甚至重音等情況下，演算法也很容易出錯。”

那麼，通過積累更多的各類資料集，是否就能夠有效解決該問題呢?褚文才並不這麼認為：“其實，積累資料也有其不利的一面，雖然一般情況下，表現最好的神經網路還是那些擁有最多資料集的網路。但由於這些資料通常需要在CPU上進行處理，CPU的壓力也會隨著信息量的增多而增加。今天，可能我們能夠在市場上看到不少性能強大的AI晶片，但事實上這些晶片還遠未達到能夠與移動設備完美集成的程度，很多潛藏的AI能力尚未得到有效挖掘，這就使得即時語音處理這類功能在今天依然無法成為現實。實際上，每次使用Google Assistant時，語音資訊都還是會被發送到資料中心進行外部處理，然後再發送回用戶的手機上。這些計算工作都不是在本地完成的，因為現有的手機都無法存儲神經網路處理語音所需的龐大資料，更別說TWS無線耳機這類更小型的設備上了。”

所以，要想做好TWS無線耳機終端側的語音交互和回饋體驗，軟體演算法和硬體晶片端的共同發力十分必要。褚文才補充到：“中國其實已經有不少比較好的語音演算法技術提供商，產品也做的非常不錯，但實際應用場景是變幻莫測的，從技術落地的角度來看其實還需要做很多針對場景端的演算法優化，就如TWS無線耳機領域除了普遍存在的降噪、濾波等各種需求外，還會存在不同場景的客制化需求，比如運動場景。”而硬體側，編者認為在現有AI晶片的基礎上做更多針對性的語音處理技術集成以及演算法適配尤為關鍵，讓晶片即使處在極端複雜的音訊環境下，仍然能通過特定且對應的軟體演算法輔助做好語音交互過程中的各種資料處理，當然這一切還是要以低成本為前提。

總之，智慧耳機內置語音助手已成當下全球TWS耳機市場的潮流。不過，從當前的市場需求來看，編者認為業界廠商還需要做到“有的放矢”，因為據相關調查顯示，現在中國外幾乎大部分人仍然是不習慣對著耳機自言自語的，即使是蘋果通過取消手機耳機插孔的強制性方式逐步引導消費者購買Airpods，也是經過了一段相當長時間的市場磨合期。所以，目前廠商還是不要過分抬高消費者對TWS耳機智慧化的市場預期的好，可以採取先入為主，即主動為消費者打造剛需的方式，不斷磨合軟硬體技術，一定程度上解決耳機端AI語音交互痛點之後放開市場，才是讓TWS智慧耳機市場走上“健康”可持續發展的正道。