首頁|台灣區電機電子工業同業公會

上文提到聲紋作為生物識別的一些優勢，但事實上，在實際應用過程中，還有不少問題需要面對。聲紋作為一種生物特徵，相比於指紋、虹膜等其他生物特徵而言，在識別過程中更容易受到外界或者人自身身體狀況的影響，比如錄音環境噪音，在編者體驗微信聲紋鎖時，在馬路上或是在茶餐廳等帶噪音場景下，識別率就會大幅度降低。除噪音之外，聲音的時變性、錄音通道多樣性、語音時長等變數較大的因素。那麼，針對這些影響聲紋資料的因素，目前對於提升系統魯棒性都有哪些解決辦法？

在錄音獲取的過程中，不同設備在聲源取樣速率、聲學信號處理法、壓縮編碼演算法等方面都可能存在一定程度的差異。古擘表示：“這些差異會導致來自不同設備的錄音資料存在不同程度上的失真和資訊損失，其中就包括蘊藏在錄音資料裡的聲紋資訊的損失，尤其是在一些低信噪比的遠場環境下，這種損失影響可能會被放大，進而導致聲紋識別的準確定波動比較大，這對聲紋識別模型的穩定性和魯棒性提出了很高的要求。”

針對從獲取錄音的流程中所存在的影響，目前主要在演算法和硬體兩方面著手進行改進。古擘補充道：“為了解決這些問題，我們通過資料增強或者通道補償的演算法使得訓練資料豐富多樣化，這樣模型在訓練階段就能得到較好的穩定性和魯棒性。同時，我們還可以針對各個場景下採集設備的特點，配合特定應用場景提供更細化、更適配的演算法模型。另外，聲智還提供軟硬一體的整體解決方案，比如給公安行業研發的聲紋採集終端，採用4麥克風和6麥克風的陣列，每台設備出廠都會做麥克風一致性的校準，從硬體設計上減少語音採集的失真，再配合強大的麥克風陣列演算法，為後端的聲紋識別提供高品質的信號採集。同時，聲智也在與協力廠商晶片和硬體合作夥伴緊密合作，不斷進行用戶體驗的優化。”

李稀敏也有著類似看法，他認為當前針對噪音環境，可以從聲紋感測器方面著手，從聲紋的錄製環節解決噪音問題。部分廠商開發了指定區域和距離內有效的聲紋感測器，從而達到抑制噪音的目的。比如快商通的“智慧聲紋感測器及ASIC處理晶片協同開發與產業化”專案中，自研的聲紋感測器就可以在指定區域和距離內有效拾音。除了硬體方面的改進，也會從語音增強演算法方面部分解決複雜噪音環境的問題。

而針對個人聲音的時變性，李稀敏表示，目前主要從研究提取更能表徵個人特徵的聲紋資訊著手，基於海量資料，利用深度神經網路模型挖掘穩定性特徵。對於錄音通道的多樣性，則更多地是使用資料驅動的方式，利用更大規模的資料庫來提取多種通道間的共性特徵。與此同時，也有一些傳統的方式，包括常規的無監督自我調整技術、DAT、PDLA等方法，但李稀敏認為，未來趨勢還將會是資料驅動。

作為一種生物識別技術，聲紋識別除了識別率外，其安全性更加值得關注。比如聲音模仿、錄音重放都是此前對聲紋識別系統常見的攻擊手段，但隨著語音合成技術的不斷發展，也會極大影響聲紋識別系統的安全性。目前，最優秀的語音合成技術可以使用非常少的資料訓練出近似人類說話的聲音，技術上完全可能通過機器語音合成來攻擊聲紋識別系統。

對此，古擘表示：“對於各種可能的攻擊手段，聲智科技的做法是，對聲紋模型採用多種靈活的檢測策略，同時結合前端語音處理，語音端點檢測，語音合成檢測，語音轉錄檢測，說話人分離等多種技術手段，通過一系列的語音處理方法來保證聲紋識別的安全性。”

針對聲紋識別安全性的問題，李稀敏向記者介紹了快商通參加ASVspoof自動聲紋識別欺騙攻擊與防禦對策挑戰賽的一些情況。ASVspoof挑戰賽的主要目標是提高聲紋識別系統的防止欺騙攻擊的能力，特別是來自虛假錄音的攻擊。而2017年的挑戰主題是“重放攻擊”，例如同一段虛假錄音在與訓練資料不同的重放環境、播放設備等條件下，考驗聲紋識別系統的鑒偽穩定性，而在聲紋認證的攻擊中，錄音重放是最難檢測的。快商通在首席科學家李海洲院士的帶領下獲得了ASVspoof 2017的第一名，據介紹，除了演算法和系統外，解決方案還需要資料驅動，大量的錄音樣本、設備測試、不同取樣速率、不同時長、不同環境的訓練。經過長時間的積累，快商通的聲紋識別防欺騙攻擊已經全面覆蓋到不同場景，因此安全方面也有所保證。

同時，在如今智慧家居等使用場景下，經常會遇到離線的使用環境，這對於較為依賴算力與資料庫的聲紋識別而言，是一個不小的挑戰。對於線上與離線識別的區別，古擘表示：“一般來說，線上識別與離線識別的區別就是看模型部署在雲端還是本地，模型部署在雲端的叫做線上識別，部署在本地的叫做離線識別，聲紋也是類似。在智慧家居的家居設備控制場景下，受到終端設備的計算資源限制，通常可以定制從十幾個到幾十個不等的離線命令詞，具備泛化能力則支援上百個離線命令詞。在移動端場景下，因為手機的計算資源和存儲較大，也能夠安裝接近通用識別的離線語音辨識模型。”

“離線聲紋識別相比線上聲紋識別，一般說來相對較少的計算資源使得離線識別需要考慮參數，計算量，定點量化的等一系列的優化，使得離線聲紋模型的性能會低於線上模型。其次離線聲紋識別的安全性也會低於線上聲紋識別，因為計算資源的限制，使得在有限的資源上難以集成包含前端信號處理，語音端點檢測，語音合成檢測，語音轉錄檢測，說話人分離等一種或多種處理方式。”古擘補充到。

因此，從市場需求來看，不同場景下對於聲紋識別的要求會有所差異，比如部分智慧家居場景下的聲紋識別是區分不同的用戶，基於短命令的離線聲紋可以滿足這類要求。而據古擘透露，聲智科技已經有成熟的離線聲紋識別技術，並且已經成功應用在智慧電視、智慧音箱等智慧家居的產品上。

聲紋識別作為一項新興的生物特徵識別技術，市場應用還在開拓和培育當中，其應用場景非常廣泛，但是單個應用場景尚未形成足夠大規模的市場。但可以看出，在演算法、硬體的配合，以及資料積累的説明下，目前聲紋識別技術的識別率和安全性已經得到長足發展，這為其未來在更多領域中的廣泛應用打下了夯實的基礎。雖然以市場需求驅動技術發展的層面看，無論從公安、金融，還是智慧家居等領域，當前都已經到了聲紋識別技術全面爆發的臨界點。不過，要想實現真正的普及，聲紋識別廠商們除了在開拓應用領域投入之外，還需要繼續注重底層技術的開發。相信在現有應用落地的基礎上，包容和不斷優化聲紋識別技術上的不足，將會持續推進這項技術的發展，聲紋識別在未來或將會在我們生活中隨處可見。