蘋果發布 DataComp-LM 開源模型：引領人工智慧新時代

《愛瘋日報》報導，蘋果公司的 Apple Intelligence 研究團隊最近宣布推出兩個全新的語言模型，這些模型雖然體積小巧，但性能卻非常強大。

這些模型屬於 DataComp 計劃的一部分，目的是與其他領先的訓練模型，如 Llama 3 和 Gemma 競爭，甚至超越它們。

這些語言模型提供了標準的訓練框架，專門用於提升人工智慧生成器（如 ChatGPT）的性能。

這包括模型架構設計、參數設定及資料集過濾技術，確保人工智慧引擎獲得高品質的訓練資料。

蘋果提交給 DataComp 計劃的文件中包含了兩個模型：一個擁有 70 億參數的大模型，另一個則是 14 億參數的小模型。

根據基準測試結果，70 億參數模型的性能比之前的頂尖模型 MAP-Neo 高出 6.6%。

DataComp-LM 模型在完成基準測試所需的運算能力降低了 40%。

在使用開放資料集的模型中，這些新模型的表現最佳，甚至在與使用私有資料集的模型相比時也具有很強的競爭力。

蘋果公司完全開放了這些模型的所有資料，包括資料集、模型權重和訓練程式碼，供其他研究人員使用。

在大規模多任務語言理解基準測試（MMLU）中，這兩個模型都取得了優異的成績，足以媲美商業模型。

在今年 6 月舉行的 WWDC 大會上，蘋果首次發布了 Apple Intelligence 和 Private Cloud Compute，這讓那些質疑蘋果在人工智慧應用上的進展的聲音消失無蹤。

蘋果的機器學習團隊在大會前後發布的研究論文，進一步證明了蘋果在人工智慧領域的領導地位。

蘋果推出的這些新模型並不打算用於任何未來的蘋果產品，而是作為社群研究項目的一部分，旨在展示小型和大型資料集在訓練人工智慧模型上的改進效果。

蘋果的機器學習團隊一向與更廣泛的人工智慧社群分享研究成果，這些資料集、研究筆記和其他資產都可以在 HuggingFace.co 上找到，這是一個專注於推動人工智慧社群發展的平台。

蘋果公司透過發布 DataComp-LM 開源模型，再次展示了其在人工智慧研究領域的領導地位。

這些新模型不僅提升了訓練效率和性能，還進一步推動了人工智慧社群的發展，為未來的人工智慧應用奠定了堅實的基礎。

《愛瘋日報》表示，蘋果公司將繼續致力於創新與研究，為全球用戶帶來更多突破性的技術成果。

愛瘋日報