熱門資訊> 正文
2025-10-30 12:09
谷歌DeepMind再出重拳,集結全球五大頂尖機構,以AI之力直指數學界聖盃!同時,陶哲軒也發出冷靜警示:須警惕AI濫用帶來的潛在風險。
今天,谷歌DeepMind重磅發起「AI賦能數學計劃」,集結了全球五大頂尖機構。
他們將用上谷歌最強數學AI,去探索發現新的疆域。
這其中,有奪下IMO金牌的Gemini Deep Think,有算法發現AI智能體AlphaEvolve,還有形式化證明自動補全AlphaProof。
目前,首批合作機構陣容,堪稱豪華:
倫敦帝國學院
普林斯頓高等研究院(IAS)
法國高等科學研究所(IHES)
西蒙斯計算理論研究所(加州大學伯克利分校)
塔塔基礎科學研究所(TIFR)
這五大機構有着一個共同的使命,發掘可以被AI點亮的數學難題,加速科學發現。
然而,陶哲軒擔憂的是,「當前AI在數學研究中應用加深,除了負責任的使用,AI濫用的案例也屢見不鮮」。
因此他認為,現在正是時候,啟動關於如何最佳融入AI、透明披露其作用,並緩解風險的討論。
或許,這不僅能守護數學研究的嚴謹性,還將為AI+數學融合鋪就道路。
數學,是宇宙最基礎的語言。
在谷歌DeepMind看來,AI可以作為強大工具,與數學家合作,激發其創造力。
「AI賦能數學計劃」的誕生,就是爲了:
發掘有望藉助AI獲得深刻見解的新一代數學難題;
構建支持這些前沿探索所需的基礎設施與工具;
最終加速科學發現的步伐。
這項計劃,將由Google.org提供資金支持,以及谷歌DeepMind的頂尖技術。
幾個月來,谷歌DeepMind自身的研究,取得了飛速進步。
2024年,AlphaGeometry和AlphaProof在IMO競賽中,拿下了銀牌。
而搭載Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表現,完美破解5題拿下35分。
今年5月,谷歌DeepMind又發佈的AlphaEvolve,堪稱最強通用AI智能體。
在數學分析、幾何學、組合數學和數論領域50個公開難題上,20%題目中,AlphaEvolve取得了最優解。
而且,在數學與算法發現領域,它發明了一種全新的、更高效的矩陣乘法方法。
具體來説,在4x4矩陣乘法這一特定問題上,它發現了僅需48次標量乘法的算法。
這一結果,打破了1969年由Strassen算法,創下長達50年的歷史紀錄。
不僅如此,在計算機科學領域,AlphaEvolve協助研究員發現了全新的數學結構。
同時,它還發現了有些複雜問題的求解難度,其實比人們過去想的還要高,這讓研究者對計算邊界看得更清楚、更精準,為未來的研究探明方向。
以上這些進展,都是當前AI模型快速發展的有力證明。
對於AI的全部潛力,還有它怎麼搞定思考最深奧的科學問題,人類的理解纔剛剛開始。
一直以來,陶哲軒是「AI+數學」領域應用的看好者,也是最佳實踐者。
他曾多次聯手GPT-5 Pro等頂尖AI,破解了許多數學領域的難題,大大提升了效率。
毋庸置疑,在數學領域,LLM和證明助手等AI工具,正悄然改變研究範式。
最近,一些頂尖論文開始融合AI,推動了從形式化證明到複雜計算的創新。
論文地址:https://borisalexeev.com/pdf/erdos707.pdf
然而,隨着AI的深度介入,也引發了一個關鍵問題:
如何確保這些工具的使用,不損害論文的嚴謹性和價值?
藉此契機,陶哲軒在公開平臺上發起了討論,在長帖中,他提出了三大建議。
以下,AI一詞,它不僅涵蓋LLM,也包括神經網絡、可滿足性求解器、證明助手以及任何其他複雜的工具。
1 AI使用聲明
論文中,所有對AI實質性的使用,超出其基礎功能,比如自動補全、拼寫檢查,或搜索引擎AI摘要,都必須明確聲明。
2 AI風險討論與緩解措施
論文中,應討論所用AI工具可能帶來的一般性風險,並説明為緩解這些風險已採取的措施。
以下將舉例説明:
2.1. 內容虛構,出現了「幻覺」
AI可能會編造參考文獻、證明過程或文本,導致事實錯誤。
建議不要在論文正文中,使用AI生成的文本;若必須使用AI輸出,則用不同字體或標記清晰標註。
2.2. 缺乏可復現性
專有AI或高計算成本的結果難以復現。解決方案是,開源提示詞、工作流程、認證數據等,讓他人能低成本驗證。
2.3. 缺乏可解釋性
AI輸出往往晦澀,其解釋可能站不住腳。建議為每個AI輸出配以人類撰寫的、可讀性強的對應內容。
比如,一個定理可以同時包含一個由人類撰寫、易於閲讀的非形式化證明,以及一個由AI生成但不易閲讀的形式化證明。
2.4. 缺乏可驗證性
AI易藏細微錯誤,檢查耗時。
形式化驗證,一致性檢查,都有助於緩解這一問題,並採用多層次方法。
關鍵是標註驗證範圍,在定理旁加「校驗標記」,未驗證部分則明確説明。
2.5. 目標形式化不當
AI可能精確解決「錯位」目標,即形式化后的命題偏離作者意圖。為此,應從獨立來源獲取形式化目標,或由人類深入審視形式化過程。
2.6. 可能利用漏洞達成目標
與上一問題相關聯,AI可能會鑽形式化表述的空子,如添加任意公理「證明」命題。
應對方法是,列出已知漏洞,並討論排除機制確保過程嚴謹。
2.7. AI生成代碼有Bug
AI生成代碼bug更加隱蔽,難以用傳統標準方法來檢測修復。
為此,建議採用大量單元測試、外部驗證,或將AI使用限於簡單場景,複雜任務需由人類修改適配。
3 責任歸屬
最終,論文的所有作者,必須為AI貢獻內容承擔責任,包括任何不準確、疏漏或虛假陳述。
除非明確標記為「未經覈實」,否則作者不能推卸。
以上這些,僅是陶哲軒的拋磚引玉,他希望加入更多的討論,和業界研究人員進一步完善這份清單。
評論下方,一位研究者John Dvorak直戳痛點——
除非我們能跨過臨界點,讓所有數學證明都用Lean做形式化驗證,成為學界的標配,否則這個問題基本無解。
説到底,在Lean普及之前,這些法子雖然治標不治本。
對此,陶哲軒拋出了最近看到的一個觀點,即用AI審稿質量是可以的,但它並非是主要的篩選工具質之一。
否則就會觸發「古德哈特定律」(Goodhart's law),AI工具就會找到漏洞,用一些異常、分佈之外的文本字符串就能繞開審覈。
說白了,AI評估器頂多給人類審覈當個輔助,而不能完全取代人類評估者。
參考資料:
https://blog.google/technology/google-deepmind/ai-for-math/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=
https://ai-math.zulipchat.com/#narrow/channel/539992-Web-public-channel---AI-Math/topic/Best.20practices.20for.20incorporating.20AI.20etc.2E.20in.20papers/near/546518354
本文來自微信公眾號「新智元」,作者:新智元,編輯:桃子,36氪經授權發佈。