如何阻止AI“胡言亂語”？

admin · 发表于前天 02:26

訓練中加入一條真實數據就可能阻止AI“胡言亂語”
如何阻止AI“胡言亂語”？

當AI不斷用自己生成的數據“餵養”自己，它就可能逐漸失去準確性，最終輸出越來越多錯誤資訊，甚至“胡言亂語”。英國倫敦國王學院領導的研究團隊發現，只需在訓練過程中加入哪怕一條來自真實世界的數據，就可能有效阻止這種被稱為“模型崩塌”的現象。相關成果發表於新一期《物理評論快報》。
“模型崩塌”這一概念於二○二四年提出，指的是AI模型如果長期依賴自身生成的數據進行訓練，模型性能會不斷退化，最終輸出失真內容。隨着高品質人類文本數據逐漸接近枯竭，越來越多AI系統開始使用合成數據訓練，這讓模型崩塌風險進一步上升。
此次，團隊通過分析一類被稱為“指數族”的統計模型發現，在封閉循環訓練（模型完全依賴自身生成數據學習）中，模型崩塌幾乎不可避免。
研究顯示，解決方法異常簡單：只需在訓練過程中加入一條來自外部世界的真實數據，哪怕其數量遠遠少於AI生成數據，也足以阻止模型性能持續退化，這種作用即使在機器生成數據數量無限增加時依然有效。
過去關於模型崩塌的研究多集中在大語言模型等複雜系統，由於其內部機制難以解釋，錯誤來源也難以追蹤，這也成為AI產生“幻覺”的原因之一。通過研究更簡單的統計模型，科學家能夠從數學上解釋為何少量真實數據就能打破模型崩塌，從而為未來更複雜AI系統提供設計原則。
類似現象也存在於另一類名為“受限玻爾茲曼機”的機器學習模型中，表明這一規律可能具有更廣泛適用性。下一步，他們計劃將這一理論擴展到神經網絡等更複雜的系統，以驗證其在大語言模型中的實際效果。

月比

		自动登录	找回密码
密码			立即注册

如何阻止AI“胡言亂語”？

浏览过的版块