熱門資訊> 正文
2025-01-13 12:10
大模型幾乎成了工作、學習的必備助手,但其本質仍然只是一個統計模型,無論生成的內容再怎麼流暢,也難改其胡說八道的老毛病。
在大部分應用場景下,用户也並不知道自己所提問的答案,也就不具備檢查模型輸出在「事實準確性」(Factuality)上的能力。
一般來説,關於「模型幻覺」的自動化評估研究可以分為兩類:
1、給定上下文(用户輸入文檔)的情況下,檢查模型輸出是否完全基於輸入的內容,比如文本摘要任務;
2、用户直接提出一些與「外部來源」(新聞)或「常識知識」相關的問題。
目前研究大多關注第一類,比如先要求模型進行文本摘要,再進行事實評估,但如何自動評估模型的事實準確性仍然非常有挑戰性。
最近,谷歌的研究人員發佈了一個全新的基準測試FACTS Grounding,可以評估語言模型在給定上下文的情況下,生成事實準確文本的能力,其中每條數據的輸入都包括一個用户請求和一個完整的文檔,最大長度為32k個token,模型輸出需要完全基於上下文文檔,且滿足用户需求。
數據鏈接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples
文中提出的自動化評估分為兩個維度:
1. 如果模型回覆沒有滿足用户需求,則直接判定為無效;
2. 如果模型的回覆完全基於給定的文檔,則被判定爲準確。
FACTS Grounding在Kaggle上有一個在線排行榜,實時維護,目前gemini以較大優勢領先。
數據構建
FACTS Grounding的樣本被劃分爲Public集合(860條)和Private集合(859條),爲了防止基準污染和排行榜作弊問題,在競賽期間只公開Public集合,並且榜單分數是兩個集合的平均性能。
系統提示1:僅使用上下文中提供的信息回答問題,不要依賴外部知識或來源。
上下文文檔描述:文章主要討論可以清潔摩天大樓窗户的自主機器人系統的開發與部署,強調了它的技術進步、安全影響以及對窗户清潔行業的潛在影響。
用户請求:我的姐姐和她的狗住在紐約市。我去過那里,一直對那里的高樓大廈感到着迷。然后我想到...一定有人要清潔這些大樓的窗户!接着,我在我的信息流中看到了關於窗户清潔機器人的內容。這些機器人是如何工作的?這對那些從事這項工作的人來説意味着什麼?
標註流程
研究人員僱傭第三方人工標註員,根據長篇輸入和問答、摘要、文檔改寫任務,撰寫長篇輸出。
每個樣本還包括一個系統指令,指導模型僅從給定的上下文中生成其迴應,而不包含外部知識。
爲了確保輸入的多樣性,FACTS Grounding包含了各種長度的文檔(最長32k個token,約2萬個單詞),涵蓋金融、技術、零售、醫學和法律等領域,沒有引入那些需要創造力、數學或複雜推理的樣本。
數據質量保證
研究人員在標註后手動驗證了所有數據,並去除了與指令不一致的樣本和創意寫作任務。
用户請求必須是非平凡的,並且不需要領域專業知識、數學知識或複雜推理;移除了來源為PDF的文檔,避免光學字符識別(OCR)帶來的影響。
最終數據集包含的上下文文檔平均長度為2.5k個token,最大長度為32k個token
數據污染(data contamination)
由於用户文檔是從互聯網上公開下載的,可能包含在其他模型的預訓練語料庫中,但研究人員認為:
用户請求和系統指令,特別是只遵循上下文文檔中的信息的指令,是沒有被污染的。對非新穎文檔的新穎請求做出回覆是語言模型的一個重要用例,而事實grounding也是其中不可或缺的一部分。目前可用的事實性基準測試只是重新利用了可能已經被污染的學術任務。
事實性得分評估了在預訓練期間沒有被優化的、不同維度的模型性能。具體來説,指標測量了模型僅基於提供的上下文生成迴應的能力,即模型不能包含外部知識,即使與上下文文檔相沖突,還應避免利用任何預訓練知識來滿足用户的請求。
由於所有最先進的語言模型都是在大量網絡數據的語料庫上訓練的,所以在排行榜的中也很公平。
評估指標
未調整的事實性得分(Unadjusted Factuality Score)
研究人員使用一個語言模型智能體來生成一個二元分類標籤,以識別完整的模型回覆是否基於給定指令中的用户請求和上下文文檔。
如果迴應中的所有claims都是基於提示的內容,則標記為positive(準確);如果某個包含信息的claim被認為沒有基於提示的內容,迴應就會被標記為negative(不準確)。
大模型普遍會偏向於自己的輸出,所以研究人員選擇使用三種不同的大模型來減少特定模型的偏見,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet
研究人員測試了七種不同的提示模版,然后與人工判斷的一致性進行評估,再選擇具有最高準確率的模版。
你將被提供一段文本上下文和一個模型生成的迴應。你的任務是逐句分析迴應,並根據其與提供上下文的關係對每個句子進行分類。
1. 將回複分解成單個句子。
2. 對於每個句子,分配以下標籤之一:
supported:句子由給定的上下文推導而來。提供一個支持性的上下文摘錄。支持性摘錄必須完全推導出句子。如果你需要引用多個支持性摘錄,只需將它們連接起來。
unsupported:句子不是由給定的上下文推導而來。這個標籤不需要摘錄。
contradictory:句子被給定的上下文證偽。提供一個與句子相矛盾的上下文摘錄。
no_rad:句子不需要事實歸屬(例如,意見、問候、問題、免責聲明)。這個標籤不需要摘錄。
3. 對於每個標籤,提供一個簡短的理由來解釋你的決定。理由應該與摘錄分開。
4. 對於supported和contradictory的決定要非常嚴格。除非你能在上下文中找到直接、無可爭議的證據摘錄,證明一個句子是supported或contradictory,否則認為它是unsupported。除非你真的認為世界知識是微不足道的,否則不要使用世界知識。
因為有三個智能體參與評分,所以每個智能體的個體事實性得分是準確回覆的百分比,而未調整的事實性得分是所有智能體模型得分的平均值。
排除無效回覆
如果模型只關注於生成文本的事實性,有可能會無法遵循用户的指令意圖,並通過給出較短回覆以規避錯誤事實。
爲了防範這類回覆,研究人員同樣使用上述三個大模型進行檢測,將指令遵循視為一個獨立任務,輸出為二元分類,以區分模型回覆是否充分滿足了用户的請求。
將不合格的回覆排除后,最終事實性得分會得到調整。
研究人員設計了兩個提示模版,針對不同評估模型選擇與人工評估一致性最高的提示詞。
實驗結果
在Fused Rank指標中,研究人員採用了一種排名聚合方法Condorcet,對每個模型的六個指標進行融合,合併成最終的排名,與使用最終事實性得分排名完全一致。
與之前的研究一致,模型通常會將自己的輸出評分高於其他模型,平均提高了+3.23%。
排除無效回覆會導致最終事實性得分降低1%至5%,還會引起模型排名的輕微變化,比如Gemini 1.5 Flash從排名第1降至排名第2
(聲明:本文僅代表作者觀點,不代表新浪網立場。)