繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

破解AI「胡說八道」,這家公司要給大模型投喂好原料|產品觀察

2024-07-29 09:30

作者|黃楠

編輯|袁斯來

大模型今天所展示出的強大能力,源於背后海量數據,為其注入了豐富的人類知識。如果將大模型視為正在疾馳的科技列車,數據語料便是珍貴的「燃料」。其中,語料質量的提升對模型性能取得階段性突破至關重要。

然而一個現實情況是,高質量語料正在被急速消耗。國內大模型廠商所面臨的語料短缺問題十分嚴峻。

以中文語料為例。中國工程院院士高文指出,當前全球通用的50億大模型數據訓練集中,中文語料佔比僅為1.3%,其數量和質量上同英文等其他語言相比存在明顯不足。「沉睡」在報告、論文、報紙等文檔內的大批高價值語料數據,由於其複雜的版面結構,制約了大模型的訓練語料處理能力,無法被輕易解析並提取。

解決中文數據不足和質量問題,處理多樣化數據,仍是各廠商面臨的一大挑戰。

爲了幫助企業應對數據侷限問題,日前,合合信息在WAIC 2024上發佈了用於大模型語料訓練的「加速器」產品——TextIn智能文檔處理平臺。 

在訓練前期階段,使用「加速器」文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓練與應用輸送純淨的「燃料」;同時,「加速器」搭載了文本向量化模型,以解決大模型「已讀亂回」的幻覺問題。

合合信息的思路是,從「煉丹」源頭的燃料出發,通過標準化平臺進行語料結構化,提高數據預訓練效率,幫助大模型廠商達成有效的模型性能提升和迭代。

處理複雜語料

合合信息此次發佈的大模型「加速器」TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數據模型)以及OpenKIE三大工具組成。

目前,無線表、跨頁表格、公式等複雜元素的處理,仍是大模型語料清晰的「攔路虎」。 

以銀行常見的基金對賬單託管業務為例,市面上基金公司眾多,各家企業的賬單樣式都不相同,加上覆雜的表格呈現形式,要將數據從非結構化圖文信息中抽取,並整理成模型訓練需要的形式,往往十分耗費人力和時間。

失之毫釐、差之千里,一個單元格的理解問題,可能導致表格整體識別的結果發生巨大誤差;同時,表格的還原準確率,也直接影響了模型問答的效果。

TextIn文檔解析在文本、表格、圖像等非結構化數據的表現上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閲讀順序。

大模型使用文檔解析引擎之前(左)和之后(右)的效果對比。結果表明,使用后大模型具備了更快速、優秀的文檔要素分析、表格內容識別能力。

面對多類型樣本問題,合合信息在TextIn文檔解析的算法階段,就很注重圖表數據訓練。當前,TextIn文檔解析工具可以將柱狀圖、折線圖、餅圖、雷達圖等十余種常見圖表,以及任意格式文件 「還原」,並其拆解為Json(輕量級的數據交換格式)或Markdown(輕量級標註語言)格式。

經拆解后的數據語料清晰易懂,可以讓大模型更好地理解圖表數據,進而學習商業研報和學術論文等專業文檔中的論證邏輯。同時,在圖表不顯示具體數值的情況下,TextIn文檔解析也可以僅依據座標軸區間,估算出具體數值。

文檔解析引擎基於座標軸區間,對不顯示具體數據的圖表進行數值估算。

另一方面,大模型或許在通用問答中生成表現很好,但就現階段來看,面對專業領域問題,大模型仍存在侷限性,容易出現「一本正經地胡說八道」的幻覺,稍不注意,便可能帶來嚴重的影響。

經測試,使用合合信息的TextIn Embedding模型(文本向量數據模型)后,能提高大模型信息搜索和問答的質量、效率和準確性。

TextIn Embedding模型是一個acge_text_embedding模型(以下簡稱:acge模型)。就像「指南針」一樣,通過大量中文語料的深入學習,acge模型可以迅速對全文進行查找,找到目標信息定位,並將有效的文本特徵提取出來,準確完成分類和聚類任務。

與其他開源模型相比,acge模型體量較小,佔用資源少,1024輸入文本長度能滿足絕大部分場景的需求。

雖然大模型支持的token數量在持續增加,令其具備了「短暫記憶」的能力,但仍會出現災難性遺忘的問題。針對這一問題,acge模型引入了持續學習訓練方式。

相較之下,acge模型支持可變輸出維度,讓企業能夠根據具體場景去合理分配資源,從而提升了模型系統的性能和體驗。 

以大模型廠商實際引用場景為例,在未引入向量數據庫時,如果廠商採用的是分佈式系統的開源方案,其缺點在於,隨着語料增長到一定規模時,分佈式存儲很快就會遇到瓶頸;同時,每天上億的數據處理量,按照傳統單線程序處理方式速度有限。引入acge模型后,其文檔的整體處理速率可得到顯著提升,同時在數據齊備的情況下,還能消除部分幻覺、多文檔元素識別、版面分析等問題。

OpenKIE是一個可用於圖像文檔的信息抽取工具,其中包括了字段抽取、列表抽取和元素抽取三種模式。 

客户只需創建好文檔類型,設置需要提取的字段並上傳文件,OpenKIE就能自動抽取文檔中所需信息,並直接應用、或導入到其他系統中使用。

合合信息文檔解析引擎與常規OCR引擎適用對比

比如在大模型文檔處理場景中,合合信息與百川智能合作,共同破解困擾大模型產業已久的多文檔元素識別、版面分析難題,將對百頁文檔的整體處理速率提升超過10倍。 

合合信息智能創新事業部總經理唐琪告訴硬氪,目前,TextIn智能文檔處理平臺可覆蓋金融、醫學、財經、媒體等47個場景,共3200余類文檔;已被用於百川智能等多家頭部大模型廠商的預訓練流程,同時也積累了小批量開發者用户。

泛場景、通用的工程化能力

就目前來看,幾乎大模型每一次能力提升,其預訓練數據的數量、語料質量、領域類型等多維度都起到了關鍵性作用。

在數據處理方面,國內大部分廠商選擇的方案主要有兩類:一類是交給提供基礎設施服務的第三方公司,例如合合信息的TextIn智能文檔處理平臺、Amazon Textract文本提取服務;另一類是以銀行、券商等垂直賽道企業為代表,在傳統OCR算法基礎上疊加訓練內部模型。

唐琪告訴硬氪,「從調研來看,企業選擇供應商的標準無非就三個維度——快、穩、準。」

快,即文檔解析引擎的速度要快;根據合合信息測算, TextIn智能文檔處理平臺保持在1.5秒內的解析時長,而當前市場上部分同類型工具的速度在其3-5倍。穩,指面向大批量、複雜格式的語料,例如PDF文件、表單等,是否都能兼容並進行高準確度的解析工作。準,即能否將文檔信息精準還原為表格。

當前,高質量、經梳理過的語料短缺是一大問題,「特別是中文數據更是稀缺,」唐琪説到。

國內外大模型數據集主要為英文,均源於許多開源數據集進行訓練,如Common Crawl、RedPajama、BooksCorpus、The Pile、ROOT等。這部分數據雖然量多,但質量上卻良莠不齊。一大優質的中文語料數據,沉睡在報告、論文、報紙等文檔里。 

從獲得海量數據到高價值數據,預訓練階段的語料處理十分關鍵。這意味着,作為一個平臺型產品,向大模型廠商和開發者「遞鏟子」,其基礎的工具能力是否足夠紮實,關係到種子用户的購買意願。 

唐琪經歷過這樣一件事。有位從事二手奢侈品貿易的商家手上積攢了大量小票,爲了計算利潤,他每次需要人工將售價減去原始價格后,將最終結果錄入后臺,整個過程涉及的公式計算很複雜,包括數額差價、各款式的庫存等問題,傳統OCR模型無法應用。對方找到唐琪后,通過在加速器平臺上調節了小參數,很快需求得以解決了。

這只是一個細分場景中極為精細的小問題。在大模型時代,平臺工具的本質形態,不同於單層的私有化部署邏輯,更強調面向泛場景、通用的工程化能力。 

基於這一思路,合合信息在產品設計階段提前做了幾件事。首先是場景前置,在未個性化階段提前給模型補充大量優質的垂直領域Know-how,比如金融、法律、教育等,關注特定行業中的普遍痛點,基於用户訴求在產品設計時提供解決方案,進而提高大模型加速器在覈心應用場景中表現能力。

二是專注產品化,不只對客户提供通用場景的API,而是提供更多工具型產品,降低應用門檻,做到開箱即用,這對技術資源較為薄弱的傳統企業、中小創業公司或個人開發者來説非常友好。

大模型變革的浪潮里,以數據為中心,成為行業人士從事大模型研發和應用的共識。具體到實踐層面,大模型上游階段在文本解析、邏輯版面、文檔問答等方面,仍有很多的提升工作可以做。

未來,合合信息將重點瞄準金融、醫療等行業推出垂直領域產品,同時面向開發者推進內測計劃,吸納更多用户參與到產品共創和優化中去。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。