訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
AI世界面臨新難題 互聯網資訊不夠用
經濟部國貿局陳組長愛蘭
獲取產業訊息零時差!立即訂閱電電公會電子報。

據媒體報導,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們訓練更先進的AI系統。

科技巨頭的AI系統,比如能與人類聊天的ChatGPT,是通過學習網上的資訊變得越來越聰明的。但現在,高品質、有用的資訊日益緊缺,同時,一些網站開始限制AI公司訪問他們的數據。據業界一些高管和研究人員表示,AI行業對高品質文本數據的需求可能在兩年內超過供應,這將可能減緩AI技術的發展速度。

面對資訊不足的問題,AI公司正在嘗試各種方法來尋找新的資訊源。比如OpenAI正在考慮用YouTube視頻\xf9堛犒儭雰荌V練它們的下一代智能模型GPT-5。有的公司甚至創造合成數據來學習,儘管這種方法被許多研究人員認為可能會導致系統發生嚴重故障,但不失為克服數據短缺的一種潛在途徑。

據悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨著數據需求不斷增長,找到新的學習材料、與數據所有者的合作,讓AI系統變得更加聰明,就成了這個行業的重要備戰區。

AI語言模型的構建依賴於從互聯網上收集的大量文本數據,這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成「tokens」,tokens可以是完整的單詞或單詞的一部分。

AI模型通過分析和理解這些tokens之間的關係和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創作詩歌。

OpenAI通過為其GPT系列模型提供海量訓練數據,不斷提升性能,借此成為世界頂尖AI公司。這展示了大數據訓練對於AI發展的重要性。但隨著GPT-4模型的不斷擴大,OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓練涉及的數據量高達12萬億tokens,而未來模型如GPT-5,可能需要60萬億到100萬億tokens。

因此,即便是利用所有可用的高品質語言和圖像數據,研發GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至於如何彌補這一巨大的數據缺口,目前尚無明確方案。

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。