熱門資訊> 正文
2025-09-02 17:33
(來源:機器之心)
在這場以大型語言模型(LLM)為核心的 AI 浪潮中,蘋果似乎一直保持着低調,很少出現在技術報道的前沿。儘管如此,時不時地,該公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接運行的高效視覺語言模型 FastVLM。
近日,蘋果與牛津大學和香港城市大學合作的一項新研究吸引了不少關注。其中提出了一種名為 BED-LLM 的新方法,能讓 AI 解決問題的能力直接提升 6.5 倍(成功率從 14% 暴增至 91%),而整個過程無需微調或重新訓練,直接在當前模型上運行即可。
而實現這一突破的關鍵,便是讓 AI 學會問出完美的問題。
那麼,究竟該如何做到這一點呢?
論文標題:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
論文地址:https://arxiv.org/abs/2508.21184
這要從 LLM 的一個不足之處説起,即難以智能且自適應的方式主動從用户或外部環境中獲取信息。這就像是 LLM 的「多輪遺忘症」。
具體而言,雖然現代 LLM 通常能夠一次性生成連貫且富有洞察力的問題(或其他外部查詢),但它們通常難以根據先前在交互式任務中收集到的答案進行適當的調整。比如,已有研究證明,LLM 在多步猜謎遊戲、任務澄清、IT 任務自動化以及迭代式外部工具使用等問題上表現不佳。
因此,提高 LLM 自適應地提出問題和有針對性地收集信息的能力是很有必要的。
簡單來説,LLM 僅僅基於其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據用户的實時反饋,動態調整策略,精準地提出下一個最有價值的問題 。
BED-LLM:讓提問成為一門科學
牛津、蘋果和香港城市大學的這個聯合團隊提出,可以使用序貫貝葉斯實驗設計(Bayesian experimental desig/BED)框架來解決這一問題。
該框架提供了一種基於模型的信息論機制,可用於在給定實驗的生成模型的情況下做出自適應設計決策。
具體而言,該團隊展示瞭如何將使用 LLM 進行交互式信息收集的問題表述為一個序貫實驗設計問題,其中有一個迭代過程:
每次選擇要問的問題(query),都要儘量最大化預期信息增益(Expected Information Gain, EIG)。
根據用户的回答更新信念(belief)。
再基於新的信念選擇下一步要問的問題。
這就像科學實驗:一步步設計實驗、收集數據、更新假設,而不是一次性問到底。
這里,構成序貫 BED 程序的底層生成模型源自 LLM,該團隊特別展示了該模型的構建方式,併爲關鍵設計決策提供了廣泛的見解。
該團隊將這種方法命名為 BED-LLM,即 Bayesian Experimental Design with Large Language Models。
這種名為 BED-LLM 的方法之所以高效,源於其背后三重智慧的巧妙設計:
智慧一:追求真正的信息增益,而非表面上的不確定性
過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題,但這並非最優解。BED-LLM 的核心是精確計算 EIG,確保問題能帶來最大價值。
論文中一個生動的例子可以説明這一點 :假設 AI 想了解你的電影偏好,它有兩個問題可選:
問題 A:「你最喜歡什麼口味的冰淇淋?」
問題 B:「你最喜歡哪種電影類型?」
對於問題 A,AI 可能完全猜不到答案(即預測熵很高),但這個答案對於瞭解你的電影品味毫無幫助(EIG 為 0) 。而問題 B 的答案雖然也不確定,但無論你回答「科幻」還是「喜劇」,都能極大地幫助 AI 縮小猜測範圍,因此它的 EIG 非常高 。BED-LLM 正是基於這種原則來選擇問題的。
智慧二:強制邏輯自洽,糾正 LLM 的遺忘症
研究發現,即便是 GPT-4o 這樣頂尖的模型,在多輪對話中也常常會忘記之前的約束,提出與歷史回答相矛盾的假設 。
BED-LLM 引入了先採樣后過濾(sample-then-filter) 策略來解決這個問題。
它首先讓 LLM 生成一批可能的答案(例如,在猜名人遊戲中生成多個候選人),然后用一個「邏輯過濾器」逐一檢查這些答案是否與用户之前的所有回答都兼容,將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。
智慧三:生成問題有的放矢,而非天馬行空
在生成候選問題時,BED-LLM 採用了一種更具針對性的條件生成(Conditional generation) 策略 。它會先參考當前已經過篩選、邏輯自洽的假設池,然后讓 LLM 提出能夠最高效「切分」這些假設的問題 。這使得提問從一開始就目標明確,直指核心。
結果如何?
爲了驗證 BED-LLM 的效果,研究團隊將其與兩種主流基準進行了對比:
Naive QA:完全依賴 LLM 的「直覺」來提問。
Entropy:採用簡化的 EIG 版本,即只考慮預測不確定性的方法 。
結果顯示,無論是在「20 個問題」猜謎遊戲還是電影偏好推薦任務中,BED-LLM 的表現都全面超越了基準方法 。
具體而言,該團隊首先發現,BED-LLM 在各種 LLM 和目標數量下,顯著提升了 20 個問題問題的成功率。例如,在使用 Mistral-Large 預測名人時,該團隊觀察到成功率從 14% 提升至 91%。
其次,該團隊展示了 LLM 在電影推薦方面取得的顯著改進,表明即使 LLM 的預測模型與回答者的預測模型不同,這些優勢依然有效。
更具現實意義的是,研究團隊還進行了一項「模型跨服聊天」的壓力測試:讓提問的 AI 和回答的 AI 使用完全不同的模型(例如,提問方是 Qwen,回答方是 GPT-4o-mini)。
這種設置更貼近真實世界,因為用户的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下,BED-LLM 的性能優勢依然穩固,展現了其強大的穩健性。
總而言之,這項研究為我們展示瞭如何通過嚴謹的數學框架,將 LLM 從一個被動的知識問答庫,轉變為一個主動、高效、且具備邏輯推理能力的信息收集者。這或許預示着,未來的 AI 交互將不再是簡單的一問一答,而是真正意義上的「智慧對話」。