熱門資訊> 正文
2023-10-30 13:04
10月30日,崑崙萬維宣佈開源 百億級大語言模型「天工」Skywork-13B系列,並罕見地配套開源了600GB、150B Tokens的超大高質量開源中文數據集。
崑崙萬維「天工」Skywork-13B系列目前包括130億參數的兩大模型: Skywork-13B-Base模型、Skywork-13B-Math模型 ,它們在CEVAL, GSM8K等多個權威評測與基準測試上都展現了同等規模模型的 最佳效果 ,其 中文能力 尤為出色,在中文科技、金融、政務等領域表現均高於其他開源模型。 下載地址 Skywork-13B下載地址 (Model Scope) : https://modelscope.cn/organization/skywork Skywork-13B下載地址 (Github) : https://github.com/SkyworkAI/Skywork 除模型開源外,Skywork-13B系列大模型還將開源600GB、150B Tokens的高質量中文語料數據集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文數據集之一。 同時,崑崙萬維「天工」Skywork-13B系列大模型即將全面開放商用——開發者無需申請,即可商用。 Skywork-13B系列大模型的開源將為大模型的場景應用和開源社區發展提供最佳技術支持,降低大模型商業門檻,推動人工智能技術落地千行百業,為人工智能生態建設添磚加瓦,攜手開源社區探索未知世界、創造美好未來。 兩大模型 領先行業 崑崙萬維「天工」Skywork-13B系列包括兩大模型及150B Tokens高質量中文數據集。 Skywork-13B-Base模型 Skywork-13B-Base模型是Skywork-13B的基礎模型,其經由3.2萬億個多語言高質量數據訓練,在CEVAL, CMMLU, MMLU, GSM8K等評測與基準測試上都展現了同等規模模型的最佳效果。 Skywork-13B-Math模型 Skywork-13B-Math模型經過專門的數學能力強化訓練,在GSM8K等數據集上取得了同等規模模型的最佳效果。 Skypile/Chinese-Web-Text-150B數據集 該數據集是根據我們經過精心過濾的數據處理流程從中文網頁中篩選出的高質量數據。本次開源的數據集大小約為600GB,總token數量約為150B,目前開源最大的中文數據集之一。除此之外,Skywork-13B系列還公開了模型中使用的評估方法、數據配比研究和訓練基礎設施調優方案等。 希望這些開源內容能夠進一步啓發社區對於大型模型預訓練的認知,並推動人工智能通用智能(AGI)的實現。
五大特點 全面超越 崑崙萬維「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,其中文能力尤為出色,在中文科技、金融、政務等領域表現均高於其他開源模型。 Skywork-13B系列模型的五大特點: 1.最強參數表現:全面超越同等規模大模型 本次開源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等幾大權威評估基準中全面超越LLaMA2-13B等開源大模型,在同等規模大模型間取得最佳效果。(截止至10月25日數據) 2.最多訓練數據:3.2T高質量的多語言訓練數據 Skywork-13B系列大模型擁有130億參數、3.2萬億高質量多語言訓練數據。在模型的生成能力、創作能力和數學推理能力提升明顯。 3.最強中文語言建模能力:中文語言建模困惑度評測,超越所有中文開源模型 Skywork-13B系列大模型在中文語言建模能力方面表現出色,具有很出色的中文文創能力。在中文文本創作領域的評測中,Skywork-13B系列大模型展現出了卓越的能力,尤其在科技、金融、政務、企業服務、文創、遊戲等領域均表現高於業內其他開源模型。 ▲ 上圖為不同領域數據下評估模型的困惑度,越低代表模型在該領域建模能力越強。結果顯示天工13B在技術文章、電影、政務報告、遊戲、金融,以及通用領域均表現出色 4.最大中文開源數據集之一:150B Tokens高質量中文語料 Skywork-13B系列將配套開源600GB、150B Tokens的高質量中文語料數據集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文數據集之一。開發者可以最大程度地借鑑技術報告中大模型預訓練的過程和經驗,深度定製模型參數,有針對性的進行訓練與優化。 5.最有誠意的開源商用:無需申請,即可實現商用 目前開源社區中的中文大模型多數並非是完全可商用,一般開源社區用户通常需要進行復雜的商用授權申請流程,在某些情況,甚至有對公司規模、所在行業、用户數等維度有明確規定不給予商業授權。 崑崙萬維對Skywork-13B系列開源的開放性和可商用性高度重視,將授權流程做到極簡,取消對行業、公司規模、用户等方面的限制,目的是幫助更多對中文大模型感興趣的用户和企業在行業中不斷探索和進步。 此次Skywork-13B系列大模型將全面開放商用許可,用户在下載模型並同意並遵守《Skywork模型社區許可協議》后,無需再次申請授權即可將大模型進行商業用途。希望用户能夠更便捷地探索Skywork-13B系列大模型技術能力,探索在不同場景下的商業化應用。 推動開源生態繁榮,讓更多開發者們參與到AIGC的技術發展中,在共創和共享中推動技術的提升。 面向AI的時代,蓬勃發展的開源生態建設是構建AI和應用融合的重要一環。降低模型的研發門檻,使用成本,最大化的共享技術能力和經驗,讓更多的企業和開發者們參與到此次AI引領的科技變革中去。崑崙萬維董事長兼CEO方漢是最早參與到開源生態建設的開源老兵,也是中文Linux開源最早的推動者之一,開源的精神和AIGC技術的發展將會在崑崙萬維戰略中完美融合。 All in AGI與AIGC All in AGI與AIGC是崑崙萬維的戰略。 4月17日,崑崙萬維發佈了中國第一個真正實現智能涌現的國產大語言模型——「天工3.5」,並啟動邀請測試。 5月19日,北京市經濟和信息化局公佈第一批《北京市通用人工智能產業創新夥伴計劃成員名單》。崑崙萬維憑藉在AIGC領域的前沿探索和投資佈局,成為第一批模型夥伴和投資夥伴。 8月23日,崑崙萬維發佈國內第一款AI搜索產品——天工AI搜索。 9月1日,計算機視覺和機器學習領域的國際頂級專家顏水成教授正式加盟崑崙萬維,與崑崙萬維創始人周亞輝一起出任天工智能聯席CEO,併兼任崑崙萬維2050全球研究院院長,負責前沿技術的研究。 9月5日,崑崙萬維天工大模型在騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型測評中,綜合得分排名第一。 9月25日,崑崙萬維正式控股艾捷科芯,佈局AI芯片。 今天,天工Skywork-13B系列大模型的開源標誌着崑崙萬維持續投資AGI生態的決心。 關於崑崙萬維崑崙萬維於2008年成立,2015年深交所上市,從遊戲起家到AII In AGI與AIGC, 全面構建多元化的業務生態,至今十余年的發展,我們始終致力於為全球用户提供領先的互聯網產品與服務。 現今,崑崙萬維還在不斷探索AI領域的無限可能。 目前崑崙萬維逐漸構建了AGI與AIGC、海外信息分發與元宇宙、投資三大業務板塊,業務覆蓋全球一百多個國家和地區,全球平均月活躍用户近4億。
憑藉對科技發展趨勢的超前預判,崑崙萬維早在2020年便已開始佈局AIGC領域。至今,已積累近三年的相關工程研發經驗,並建立了行業領先的預訓練數據深度處理能力,崑崙萬維也在人工智能領域取得了重大突破,目前已形成AI大模型、AI搜索、AI遊戲、AI音樂、AI動漫、AI社交六大AI業務矩陣, 是國內模型技術與工程能力最強,佈局最全面,同時全身心投入開源社區建設的企業之一。
●永遠Day One的企業家周亞輝 ● 崑崙萬維與華為雲簽署戰略合作 基於昇騰雲算力領域展開全面深入合作 ● 崑崙萬維控股芯片公司艾捷科芯 完成AGI與AIGC全產業鏈佈局●崑崙萬維天工通用大模型推理能力大幅超過GPT-3.5和LLaMA2,達到全球領先水平 ● 顏水成加入崑崙萬維 出任天工智能聯席CEO和2050全球研究院院長●用大模型重塑搜索 崑崙萬維發佈國內第一款AI搜索產品 ●崑崙萬維成為北京市首批模型夥伴和投資夥 伴 ●官宣|「天工」大模型4月17日啟動邀測(崑崙萬維)