訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
你上傳的Instagram照片,正免費幫Facebook訓練AI模型?
數位時代高敬原
獲取產業訊息零時差!立即訂閱電電公會電子報。

為了打造出方便厲害的AI機器學習模型,Facebook運用Instagram上35億張公開照片、無數的Hashtag,成為訓練模型的素材。

要訓練機器學習辨識圖片中的物件,往往需要耗費人力、時間標註出名稱、類別,才能讓機器順利訓練,為打造出方便厲害的AI機器學習模型,Facebook有一項超級秘密武器── 35億張的Instagram公開照片,以及無數的Hashtag。

 

Instagram公開照片,成免費訓練模型素材

如果你習慣在發文時替照片加上幾個Hashtag,那麼你有可能正在幫Facebook訓練機器學習模型。

過去要訓練機器學習辨識物件,必須耗費相當多的人力,舉例來說,如果希望電腦能理解「馬克杯」這個東西,人類必須先標記出這個東西是「馬克杯」,接著機器才能夠有依據學習,現在Facebook找到了一個用少量人力就能訓練機器學習的方法。

在第二天的開發者大會F8上,首席技術長邁克·施羅普佛(Mike Schroepfer)表示,Facebook研究人員與工程師,利用平台上35億張公開照片、超過17,000個Hashtag為基礎,透過上百個GPU解析資料,來訓練自家的圖片辨識模型,目前在ImageNet(圖像數據庫)上已經可以達到85.4%的準確度。

但過程中也面對不少挑戰,邁克·施羅普佛(Mike Schroepfer)談到,許多用戶常常用錯標籤,像是用戶雖然在照片上標記「花枝」,但其實是「魷魚」。另外,Facebook也必須訓練那些Hashtag是同義詞,並將具體描述的Hashtag,排序優於其他同類型Hashtag,最終變成一套「大規模Hashtag預測模組」,來訓練圖像辨識模組。

Facebook 利用Instagram上35億張公開照片,加上用戶標註的Hashtag,來訓練機器學習模型。
Facebook

Hashtag訓練模型,會有隱私問題嗎?

不過現階段大家更關心的還是「隱私」問題,當用戶發布一張Instagram照片時,可以清楚知道自己正在提供資料,訓練深度學習模型嗎?

Facebook表示,圖像資料只會用來辨別與Hashtag之間的關聯性,使用的資料都是公開的,且就算照片本身沒有標籤,就算機器再怎麼厲害,也無法辨識出照片中的物件。簡單來說,在Instagram上傳公開照片,不論用戶是否願意,都正在為Facebook的深度學習技術做出貢獻。

首席技術長邁克·施羅普佛(Mike Schroepfer)表示,過程中也面臨不少挑戰,像是許多用戶常常用錯標籤。
Facebook

但Hashtag仍是訓練的關鍵,如果用戶不想要自己的照片變成訓練機器學習的素材,就不要在公開的貼文中加上Hashtag。 Facebook強調,團隊只會在公開的Hashtag中,擷取與圖像有關的素材,不會從照片內容推斷用戶行為。

Facebook建構訓練機器模型的方法,比起辨識精準度本身更有趣,將龐大、雜亂的素材整理成整齊、有依據的資料,未來可以幫助用戶更精準、快速的搜尋資料,甚至用AI自動生成圖片說明、協助審核平台內容。

資料來源:TechCrunchEngadgetThe Verge

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。