隨著Chat GPT於2022年11月推出和Meta於2023年3月將Llama開源,大型語言模型(LLM)的風潮迅速在全球興起,推動了技術創新與發展的新浪潮。基於LLM的應用工具,例如Microsoft Copilot與Runway ML Gen-2,展示了LLM在程式碼生成與影片製作方面的應用潛力,相關創作如雨後春筍般涌現,代表著技術邁出一大步。
生成式AI應用分為7大類,內容生成與編輯占一半
根據2024年3月a16z對全球生成式AI工具進行了統計與分類,將其分為7大類分別為:內容生成(Content Generation)、內容編輯(Content Editing)、陪伴(Companion)、生產力提升(Productivity)、智慧助理(General Assistant)、模型庫(Model Hub)與搜尋(Search)。值得注意的是,內容生成與內容編輯這兩大類共佔50%,顯示出它們在當前的重要性。
LLM在內容生成與內容編輯時,主要是根據訓練集的資料與生成的能力執行任務,這也意味著模型會受限於訓練資料集或因為語意而偏重於某一個方面的回答。正因為如此,在外部加入額外的知識或資料輔助LLM可以更精確的回答問題是一個重要的議題。
RAG技術革新,拓展LLM知識範圍
進一步探討,2020年的神經資訊處理系統國際會議(NIPS’20)中所發表的” Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” 論文中,對Retrieval-Augmented Generation(RAG)技術的有效應用於自然語言處理(NLP)任務上有清楚的論述。RAG運用到LLM中透過結合檢索與生成的能力,不僅提高內容的準確性和相關性,還大幅拓展了模型的知識範圍。此一技術革新,讓LLM不再僅依賴於預訓練數據集,而是能夠動態地從廣泛的資料源中檢索資訊,進而生成更精確豐富的內容。
Cohere於2024年3月提出了Command-R技術,這一突破性的技術旨在進一步增強大型語言模型在基於私人知識庫進行搜尋時的準確度。Command-R技術透過對檢索機制的優化,使LLM能夠更精準地理解與回應基於特定知識庫的查詢,進而提升了基於私人或專業知識庫的資訊檢索和內容生成的品質與效率。這項技術不僅代表了對RAG技術的一大進步,也為個性化和專業化的應用場景提供了更為強大的支持。
GraphRAG知識圖譜提升LLM準確度
在這樣的技術演進背景下,2024年7月FB提出了GraphRAG(RAG+知識圖譜)的方法,大幅提升LLM對於知識檢索的準確度,並且GraphRAG已進行開源。GraphRAG在面對複雜的資訊進行詢答時有顯著的提升,尤其是在處理私有資料的時候。同時,Neo4j 公司 CTO菲利普·拉斯勒(Philip Rathle)發表了一篇"The GraphRAG Manifesto: Adding Knowledge to GenAI"的文章,內容用較為淺顯易懂方式介紹GraphRAG與傳統的RAG的不同與其優勢。

圖1: GraphRAG檢索流程圖(使用者在使用LLM時可結合GraphRAG進行知識檢索)
圖片來源: neo4j
封面圖片來源:GPT4圖片生成
參考資料來源:
1. a16z:The Top100 Gen AI Consumer Apps
2. NeurIPS:神經信息處理系統國際會議(NIPS’20)
3. Cornell University: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
4. Cohere:Command-R: Retrieval Augmented Generation at Production Scale)
5. neo4j:The GraphRAG Manifesto: Adding Knowledge to GenAI
6. 電腦王:生成式 AI 的資料救星!GraphRAG 知識圖譜革命,大幅提升 LLM 準確度!