繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

大語言模型誰最會「睜眼説瞎話」?最新報告揭示答案

2023-08-18 09:01

財聯社8月18日訊(編輯 卞純) 隨着ChatGPT火爆全球,很多科技公司都相繼推出了自己的大語言模型。大語言模型的應用範圍非常廣泛,可以為各種行業提供智能化解決方案,但有時這些大模型也會憑空捏造答案,這一點成為人們最大的擔憂之一。

根據機器學習監控平臺Arthur AI的研究人員周四發佈的一份報告,在頂級AI模型中,Cohere的大語言模型最能「説瞎話」,並且「能夠自信地給出不正確的答案」。

image

報告比較了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2,以及Cohere的Command「產生幻覺」的能力。

Cohere是一家位於加拿大的初創公司,6月剛獲2.7億美元的融資,英偉達、甲骨文、Salesforce Ventures等公司參與投資。而Anthropic是一家美國創業公司,幾天前剛獲韓國SK電信的1億美元融資,谷歌也是其投資人。

這兩家公司均以OpenAI為主要競爭對手。

總體而言,OpenAI的GPT-4在所有測試模型中表現最好,研究人員發現,它的幻覺發生率比之前的版本GPT-3.5少——在數學問題上,它的幻覺發生率減少了33%到50%。

研究人員還發現,Meta的Llama 2比GPT-4和Anthropic的Claude 2更易產生幻覺。

在實驗中,研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察AI模型,「旨在包含導致大語言模型犯錯的關鍵因素,需要它們對信息進行多個推理步驟。」

Arthur的聯合創始人兼首席執行官Adam Wenchel表示,這是第一份「全面研究(AI模型)幻覺發生率的報告」。

報告發布之際,隨着AI進入發展快車道,人們比以往任何時候都更關注AI系統產生的錯誤信息。

「AI幻覺」(hallucinations)指的是大型語言模型完全捏造信息,並表現得好像他們在滔滔不絕地講事實。

舉例來説,在谷歌 2 月份為巴德拍攝的宣傳視頻中,這個聊天機器人對詹姆斯・韋伯太空望遠鏡做出了不真實的陳述;今年6月,ChatGPT 在紐約聯邦法院的一份文件中引用了「虛假」案例,涉案的紐約律師可能面臨制裁。

其它能力對比

這份報告還對AI模型的其它「能力」進行了對比,發現OpenAI的GPT-4最擅長數學,Meta的Llama 2各方面能力較為中規中矩,Anthropic的Claude 2最擅長了解自身侷限性。

在另一個實驗中,研究人員還測試了AI模型會在多大程度上用警告短語來「對衝」它們給出的答案的風險,常見警告語包括「作為一個人工智能模型,我無法提供意見」。

研究人員發現,GPT-4比GPT-3.5的警告語相對增加了50%。而Cohere的AI模型在任何迴應中都沒有提供規避風險的警示語。相比之下,Anthropic的Claude-2在「自我意識」方面最可靠,即能夠準確地判斷自己知道什麼、不知道什麼,並且只回答有訓練數據支持的問題。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。