熱門資訊> 正文
2025-08-28 22:13
OpenLev的BRAID框架在推理基準方面優於OpenAI最新的GPT模型,同時也使人工智能決策更加透明和可審計。
根據該公司分享的結果,在廣泛使用的GSM 8 K基準測試上進行測試時,BRAD在多個GPT模型類別中實現了更高的準確性。例如,在使用BAID時,GPT-5的得分為64.34,而在不使用BAID時,GPT-5的得分為54.41。
GPT-4 o、GPT-5 mini和GPT-5 nano也出現了類似的改進。
OpenLev首席技術官Armağan Amcalar表示:「BRAD提高了從最大到最小的每個模型類別的性能,使強大的推理變得負擔得起,並可供更多開發人員和更多用例使用。」
與自由形式推理不同的是,BAID引入了結構化的兩階段流程,可以減少錯誤並生成記錄模型邏輯每個步驟的流程圖。
這使得產出可審計,Amcalar表示,這對於金融和醫療保健等驗證至關重要的行業特別有價值。
另請閲讀:Fundstrat的Tom Lee表示以太坊有「50%的機會」翻轉比特幣
首席執行官蒂姆·哈夫納(Tim Hafner)在接受Benzinga採訪時解釋説,收益超出了基準水平。
他説:「在包含定價、分配和風險平衡等步驟的財務工作流程中,BAID在標準模型出現分歧時保持了推理的一致性。」
他還指出,該框架將測試中每個正確答案的有效成本降低了25%至40%。
該方法已得到英偉達深度學習研究所研究員兼講師Eyup Cinar博士的獨立驗證。
據OpenLev稱,完整結果將發表在同行評審期刊上。
哈夫納承認,其他實驗室正在探索結構化推理,但他認為,BAID通過將規劃與執行分開並將流程嵌入到OpenServv的平臺中走得更遠,每個代理都可以默認生成「推理證明」。
BRAD目前正在OpenLev的平臺上推出,該平臺支持開發人員為財務、治理和其他可靠性和可互換性至關重要的工作流程構建人工智能代理。
閲讀下一步:
圖片:Shutterstock