首頁|台灣區電機電子工業同業公會

據媒體報導，隨著OpenAI、Google等企業不斷深入發展AI技術，科技巨頭們遇到了一個新問題：現有的互聯網信息量可能不足以支撐他們訓練更先進的AI系統。

科技巨頭的AI系統，比如能與人類聊天的ChatGPT，是通過學習網上的資訊變得越來越聰明的。但現在，高品質、有用的資訊日益緊缺，同時，一些網站開始限制AI公司訪問他們的數據。據業界一些高管和研究人員表示，AI行業對高品質文本數據的需求可能在兩年內超過供應，這將可能減緩AI技術的發展速度。

面對資訊不足的問題，AI公司正在嘗試各種方法來尋找新的資訊源。比如OpenAI正在考慮用YouTube視頻\xf9堛犒儭雰荌V練它們的下一代智能模型GPT-5。有的公司甚至創造合成數據來學習，儘管這種方法被許多研究人員認為可能會導致系統發生嚴重故障，但不失為克服數據短缺的一種潛在途徑。

據悉，這些努力大多保密進行，因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨著數據需求不斷增長，找到新的學習材料、與數據所有者的合作，讓AI系統變得更加聰明，就成了這個行業的重要備戰區。

AI語言模型的構建依賴於從互聯網上收集的大量文本數據，這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成「tokens」，tokens可以是完整的單詞或單詞的一部分。

AI模型通過分析和理解這些tokens之間的關係和模式，學會了如何生成流暢、自然的語言，從而能夠回答問題、撰寫文章甚至創作詩歌。

OpenAI通過為其GPT系列模型提供海量訓練數據，不斷提升性能，借此成為世界頂尖AI公司。這展示了大數據訓練對於AI發展的重要性。但隨著GPT-4模型的不斷擴大，OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計，GPT-4訓練涉及的數據量高達12萬億tokens，而未來模型如GPT-5，可能需要60萬億到100萬億tokens。

因此，即便是利用所有可用的高品質語言和圖像數據，研發GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至於如何彌補這一巨大的數據缺口，目前尚無明確方案。