訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
AI定義新時代——當人類的眼睛、耳朵,不再是唯一可思考和探索世界的工具
68翁書婷
獲取產業訊息零時差!立即訂閱電電公會電子報。

「這是『第一次』,人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。

「這是『第一次』,人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。寒武紀大爆發(Cambrian Explosion)是動物演化史中的劃時代事件,在5億4,100萬年前至4億8,500萬年前,其間動物種類大量出現,幾乎所有動物的祖先都在這時期現身。寒武紀大爆發的原因成為科學的謎團,一派學者認為是因為眼睛——這個形成圖像的器官所驅動的。久遠之後,另一個劃時代來臨:沒有生命的機器也可以看到甚至理解這個世界。

近60年來,電腦視覺(Computer Vision,CV)科學家一直努力讓機器具備與人類相同的視覺,教導機器像人一樣理解所見之物,如辨識物品、辨認人臉、推論物體幾何形態,進而理解其中的關聯、情緒、動作及意圖,如1963年麻省理工學院研究生羅伯茲(Lawrence Roberts)的博士論文概述了電腦如何將3D物體分解成簡單的2D圖形,是現代電腦視覺研究先驅;1970年代晚期,麻省理工學院教授馬爾(David Marr)結合神經生理學和電腦科學後,提出電腦視覺的理論架構,又讓電腦視覺發展向前邁進一步。在應用端,電腦視覺最先被應用在「工業影像檢測」上,做機械或標籤檢測,幫助產業自動化,後來到延伸到車牌、指紋以及人臉辨識,但是,「過去半世紀從最初的『規則式專家系統』到近年『統計機器學習』,電腦辨識能力雖有長足進步,卻仍比不上可分辨貓狗的三歲孩童。」台大資工系教授林守德在〈深度學習的深度〉一文中指出。

真正讓電腦視覺領域有了大躍進,能力超越孩童的是深度學習(Deep Learning)技術,其中深度學習演算法:卷積神經網絡(Convolutional Neural Network,CNN)讓電腦辨識研究更上一層樓。有了新技術的加持,這些沒有生命的機器不僅可以看到世界、分辨貓狗,甚至還超越了人類的視覺能力,2015年微軟研究團隊在圖像辨識系統測試標竿ImageNet中系統錯誤率已降低至4.94%,超越人類視覺能力,此前同樣的實驗中,人眼辨識的錯誤率約為5.1%。

點圖可放大。
沈佑穎/製作

自駕車、安防監控與醫學影像等「視覺+X」領域正熱

「電腦視覺的下一個發展重點,我認為是『視覺 + X』,不論是生物學可視化也好,還是醫療圖像等,視覺在這裡面都有巨大機會。」李飛飛說。在醫療領域,IBM Watson Health正努力成為放射科醫師的助手,給予醫師最後的診斷建議。在自駕車領域,電腦視覺技術成為自駕車之眼,2017年3月Intel以153億美元併購以色列公司Mobileye,Mobileye就是以電腦視覺技術聞名,從ADAS系統(Advanced Driver-Assistance Systems)切入自駕車系統,Intel執行長柯再奇(Brian Krzanich)就直言,「收購Mobileye真正意義在於電腦視覺技術,其技術不僅可用在汽車,也可用在直升機、高端無人機與機器人等設備。」

而在安防監控領域,人臉辨識成為重心。中國的人工智慧獨角獸曠視科技,也是從電腦視覺技術起家,應用在1:N的人臉辨識技術中,協助中國警方過濾人潮抓逃犯,目前估值超過20億美元。而影音內容辨識層面,台灣新創公司創意引晴贏得騰訊與搜狐等平台信賴,幫助平台搜尋非結構化的影音內容。

人們會忘記不能和機器對話的時代

除了電腦視覺領域,聽聲辨語的語音辨識以及閱讀並翻譯文字的自然語言處理(Natural Language Process,NLP)也是非常活躍的感知智慧領域。自然語言處理主要是讓電腦能夠妥善處理文字、語言,最終讓電腦可以理解自然語言。「再過幾年,使用語音與機器對話將成為非常自然的事情,人們甚至會忘記不能和機器對話的時代。」接受《華爾街日報》專訪的前百度首席科學家、現任Deeplearning.AI創辦人吳恩達指出。

而智慧語音助理成為兵家必爭之地,自從亞馬遜以語音服務Alexa Voice Service後為核心,推出智慧音箱Echo後,Google與微軟等大廠也紛紛起而效尤,台灣威盛也推出中文語音平台歐拉蜜。甫被微軟併購的加拿大公司Maluuba則把觸角延伸到機器閱讀,要讓電腦也能像十歲孩童般讀懂《哈利波特》。除了科技巨頭,中國科大訊飛與美國Nuance在語音辨識領域表現優異,台灣則有賽微科技

翻譯是自然語言處理的重要應用領域。2016年11月,Google藉由導入神經機器翻譯技術(Google Neural Machine Translation),讓Google翻譯僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本,Google翻譯產品經理卡蒂奧(Julie Cattiau)強調「神經機器翻譯降低相對誤差,讓機器翻譯的品質更接近譯者。」

Google自2012年以來已收購11家人工智慧新創企業,在所有公司排行的第一,蘋果以七個併購案緊追在後。其中Google先後併購深度學習技術團隊DNNresearch與Moodstock在圖像搜尋領域有很大進展,蘋果則併購VocalIQ、Perceptio、Faceshift與Emotient等新創企業,取得語音和電腦視覺領域技術,而Facebook則併購了人臉辨識技術Face.com,語音辨識及機器翻譯技術Mobile Technologies等。
沈佑穎/製作

人工智慧、大數據與物聯網之間的關係

點圖可放大;資料來源:微軟全球資深副總裁與微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文。
沈佑穎/製作

大數據、物聯網與人工智慧本質都指同一件事。物聯網強調「觸動器與感測器」,人工智慧強調「分析與決策」(分析依賴人工智慧,但決策還是操之在人),串流其中的是「數據」。以河川防洪為例,先有水位感測器蒐集數據,而人工智慧根據數據提出分析報告,人類依據報告做出防洪決策,啟動觸動器如水閘門做出改變,完成一個系統迴圈。

不用擔心泡沫化,人工智慧已創造真正的市場價值

不過,就在語音與視覺等人工智慧應用欣欣向榮之際,市場傳出泡沫論。

趨勢科技全球資深研發副總暨人工智慧加速計畫主持人周存貹就指出,「AI領域的確出現投資過熱的吹捧現象,泡沫一定會發生。」台大電機系教授暨AI新創優拓資訊共同創辦人黃鐘揚也這麼指出,「兩年內AI產業可能會泡沫化,這是全球市場性的。」

在技術層面上來看,先討論語音領域,由於人類對於語音不僅有辨識需求而已,更有語言理解需求,但機器在語言理解的進展,還不夠聰明,無法像真人般對話,因此,在商業應用發展上速度沒有圖像領域來得迅速。舉例來說,現行人工智慧在語音互動層面,還沒有辦法突破雞尾酒會效應(Cocktail Party Effect)等挑戰,不像人類在吵雜的雞尾酒會中,還是可以將注意力集中在某個音樂或與某人的談話上。而電腦視覺目前進展最大的是辨識層面,但要理解圖像的關聯,甚至是情緒、動作或意圖也還有一段路要走。而在投資層面,在中國與美國都出現團隊估值過高的現象。

點圖可放大。
沈佑穎/製作

不過,我們不用擔心這次的泡沫化來臨,因為人工智慧已經創造真正的價值,和2000年的網際網路泡沫化有很大差異,而過去人工智慧雖然也經歷兩次泡沫階段,這次的應用爆發和過去兩次也明顯不同。「前兩次人工智慧熱潮是學術研究主導的,這次是現實商業需求主導的;前兩次多是市場宣傳層面的,這次是商業模式層面的;前兩次是學術界遊說政府和投資人投錢,這次是多是投資人主動向學術和創業專案投錢;前兩次熱潮多是提出問題,這次更多是解決問題。」創新工場董事長李開復在《人工智慧來了》一書的論述就是最好的註解。

點圖可放大。
翁羽汝/製作
點圖可放大。
沈佑穎/製作;資料來源:微軟亞州研究院、經濟學人

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。