熱門資訊> 正文
2025-07-06 20:56
(轉自:老司機駕新車)
1、GPT5模型升級與發佈分析
·技術升級方向:GPT5在技術層面有多處升級。推理鏈條上,會根據用户提問和歷史習慣,使推理更個性化,解決回答囉嗦或簡單的問題。模型編排方面,以agent形式合併相關模型,為用户提供全能體驗。多模態層面,提升理解能力,因OpenAI正拓展B端業務,B端對理解能力需求更高。參數規模從接近2萬億提升至3 -4萬億(原目標5萬億)。此外,GPT5強調通用推理能力,從理工科邏輯拓展至更泛化層面,應對Grok等模型競爭。
·發佈時間推測:奧特曼曾預計2025年夏天發佈GPT5,但結合技術討論和進展,暑期發佈可能性低。推測2025年下半年發佈概率60%,更可能在10-12月,11月底至12月初概率最大,或與2022年底發佈節奏類似。日常小版本會陸續更新,底座模型發佈更傾向下半年。
·C端策略與行業影響:GPT5基礎版或免費開放,將降低C端門檻,拉大與其他公司差距。當前類似研究和報告功能月費超千元,免費策略或倒逼國內模型調整收費模式。
2、Grok 4模型表現與挑戰
·模型評分與爭議:Grok 4在AGI測評中得分45%,為Gemini 2.5的兩倍以上。但部分評分參考意義有限:其代碼評分雖效果較好,但所用數據集已非業內通用;奧賽評分結果突出(跑至第一),但奧賽題目數量少。綜合來看,當前模型評分的可靠性存疑。
·模型特性與迭代需求:Grok 4被認為是全球輸出最自由的模型,其受限少的能力在海外推廣中被依賴。但正式版本仍需一輪次迭代調整,以完善功能。
·未來發展方向:Grok 4后續將保留當前輸出特性,推進多模態升級,提升推理速度。
3、谷歌VIVO 3視覺模型分析
·技術創新與用户體驗:VIVO 3視覺模型有顯著技術創新,改變了傳統視頻生成流程。傳統做法需經圖像生成、動畫配置、配音及口型匹配等多步驟完成視頻製作,而VIVO 3支持文字輸入生成音畫同步視頻,能精確匹配聲音細節,如切胡蘿卜聲、雨滴聲等,文字細微變化均可在視頻中體現。其底層依賴對大量物理規則的學習,且對Youtube數據的收集和處理較此前谷歌系列模型有明顯提升。該模型雖未達世界模型的複雜程度,但能為其提供基礎,有望在此基礎上拓展深化。
·推廣限制與國內跟進:VIVO 3模型推廣受限,一是價格高,會員月費前幾個月約1500元,后續漲至2000元以上,成本過高;二是使用障礙,該模型封鎖全球大部分國家IP,翻牆也難訪問。國內阿里、字節等廠商有望在3-6個月內推出效果接近VIVO 3(約90%效果)的產品。
·算力與數據需求:VIVO 3模型訓練對算力需求大。按三個月左右迭代一個大版本估算,訓練所需算力折算為A100卡約2-3萬張。國內不缺視頻數據,字節、快手等平臺有豐富視頻生態,可提供大量真實、雜亂的視頻用於訓練。但國內廠商算力分配受限,如字節雖卡充足,但要研發十幾款模型,分到該模型的卡數可能不足谷歌一半。因此,國內廠商可能需優化模型架構,在卡數少的情況下實現接近VIVO 3的性能。
4、英偉達Cosmos世界模型進展
·全棧技術佈局:英偉達在物理AI領域採取全棧式技術路徑,從硬件到軟件實現縱向整合。硬件層面,其邊緣算力平臺持續升級,早期算力不足100TOPS,當前已接近1000TOPS,下一代將接近2000TOPS,為物理AI向物理世界部署提供強大支撐。軟件層面,涵蓋系統、仿真引擎及模型,既提供與機器人仿真相關的框架,也包括從支架到機器人底層機動(更多實時紀要加微信:aileesir)模型等技術(部分對外提供,部分不對外提供)。同時,其技術路徑與Omniverse結合,形成芯片、邊緣芯片、系統、軟件、仿真引擎、模型的協同佈局,具備覆蓋硬件 軟件 生態的綜合優勢,被認為是當前物理AI技術發展的核心方向。
·平臺生態與應用進展:Cosmos平臺呈現動態更新特性,平臺上的模型家族及定製化數據集豐富,覆蓋自動駕駛、機器人操控、摩擦力等場景,且每隔一兩周便有新變化,已從單一框架或軟件發展爲生態體系。在工業場景應用中,英偉達針對搬運、分揀、存放等需求,開發了N1.5底層模型架構,提升了相關場景在不同車間(如汽車車間、紡織車間)的適應性。目前,弗列耶、波士頓動力等企業已使用該技術進行驗證、開發和部署。
·數據生成與規則學習:Cosmos在物理AI數據生成上有兩大創新。其一,針對仿真數據難以覆蓋所有物理規則(如數學、物理、化學、生物規則)的問題,通過集成基礎物理規則模塊(如運動力學、流體力學相關模塊),利用強化學習讓模型自主探究未知規則,生成更符合現實環境的數據。其二,開發Brooklyn框架,通過將人類觀察世界的視頻輸入,使機器人能將視頻畫面轉換為與機器操作相關的運動軌跡數據,解決了物理AI訓練數據缺乏的問題。
5、國內外大模型技術趨勢對比
·技術迭代驅動因素:國內外大模型技術迭代驅動因素存在差異。國外在DeepSeek之后,因面臨Cloud、Google等競爭壓力,重新進入比拼底層模型技術的迭代過程,此前部分躺平的廠商如Meta也加速投入。國內在DeepSeek之前,產業界和學術界認為受算力、數據等限制,難以在各領域做出原始創新,通常晚於國外3 6個月實現同類模型(達80% 90%能力)並針對本土優化。DeepSeek之后,國內企業分化:部分企業因資源有限,將重點轉向底層技術,減少對應用端的關注;部分企業則放棄底層技術,轉向應用與商業化。預計國內「六小龍」到2026年可能僅剩3 -4家。
·未來技術展望:未來技術與應用趨勢需認清自身技術能力及應用適配性。當前領域難點在於明確技術能力邊界及可支撐的應用類型,基於此推進不算彎路。應用層面,B端因結構化數據優勢成為發力重點(此前B端表現弱於C端,易被其他廠商藉助資源搶佔),其數據更易支持垂直應用迭代加強。技術層面,期待大模型底層能力出現90-95分的模型(如Grok系列、GPT最新模型、國內DeepSeek模型、字節模型等),若在2025年或2026年上半年出現,行業發展將較為順暢,前景光明。
6、端側AI應用場景與模型進展
·端側模型技術突破:端側模型技術在小參數優化方面取得突破,主要路徑包括通過蒸餾技術將強能力大模型以小參數形式表達,以及對原本較弱的小參數模型先進行強化學習使其具備一定能力,再通過大模型增強,從而提升小參數模型性能。技術突破顯著提升了開發效率,以往手機端AI應用從立項到驗收需半年至大半年,目前僅需幾周即可完成。此外,2025年模型發佈形式發生變化,各家以模型家族形式發佈,單次發佈模型數量通常達5個以上,甚至超10個,其中多為針對端側場景的小參數模型。
·典型應用場景:端側AI重點應用場景主要集中在智能穿戴和智能家居領域。智能穿戴方面,眼鏡自2024年底至2025年在使用舒適度上有顯著提升,實際體驗較以往改善明顯;耳機等其他穿戴設備的落地也需重點關注使用舒適度。智能家居方面,以小米智能家庭面板為例,其此前依賴雲端AI能力時已供不應求,集成大模型功能后,價格預計從歷史穩定的300元(最低290 295元)漲至450元左右,目前預定數量及市場關注度仍較高,體現出AI功能對產品價值感知的提升。此外,包括字節等涉及硬件的企業相關需求也較大,AI能更直接地影響生活和家庭場景。
·產業鏈發展趨勢:端側AI產業鏈呈現延伸發展趨勢,相關企業業務範圍逐步拓展。以往僅專注芯片研發的企業,開始涉足模組生產,部分企業進一步跨越到整機產品製造,國內也已形成一批表現突出的端側AI解決方案企業,部分企業與大模型平臺合作推進相關開發,產業鏈條正逐步完善。
7、大模型幻覺率問題與解決
·幻覺率分類與現狀:大模型幻覺分三類:存在性幻覺,即判斷物體是否存在;屬性幻覺,即判斷物體顏色、形狀等屬性;關係幻覺,即判斷物體間關係(如桌子上有杯子、車在路上開)。前兩類幻覺較易解決,過去在大模型發展中受較多關注,國內模型前兩類幻覺率平均在5%-15%,部分表現好的模型可降至5%以下。第三類關係幻覺問題突出,缺乏權威測試工具,依賴學術研究(如香港科技大學等機構發佈的數據集)。部分主流模型(如阿里、Google的模型)關係幻覺率達40%-50%,且不易發現,未來可能在支架、機器人領域引發災難。
·降低幻覺率方法:降低幻覺率方法有訓練階段干預和生成時圍欄機制(如英偉達提出的機制)。針對關係幻覺,需大量圖文描述數據(全球相關數據集不足10個)。篩選分類此類數據,結合訓練干預與生成圍欄機制,可降低感知和認知層面的關係幻覺。可參考香港科技大學關於關係幻覺的研究工作深入探索。
8、垂類模型應用方向與進展
·醫療領域應用:醫療垂類模型進展較快,需求可聚焦細分場景,如針對乳腺癌、婦科相關癌症等,前五大癌症需求佔比達99%,甚至可僅針對第一大癌症在全國婦科相關醫院推廣。自2025年3月起進展加速,目前多數結果未公佈,預計2025年底至2026年上半年集中公佈成果。醫療領域對AI的核心需求是減輕醫生負擔的診斷類模型,如解決罕見病、胃病的診斷模型,對導診、問診等應用興趣較低。
·工業與教育應用:工業領域中,視覺質檢進展快,邏輯清晰,關鍵指標為未知故障檢出率、檢出速度及已知故障檢出率。年產值500億以下的鋼鐵企業,每年AI預算約2億元。教育領域,解題及為教師、學校減負的應用推進良好;面向C端的教育產品雖在京東等平臺有銷售,但實際買單程度有差距。
·辦公與ToB場景:辦公場景中,AI PPT工具進展快,使用體驗每月變化,能提升生產力。ToB場景中,電商客服、企業財務(如發票處理)、招聘等領域應用效果好,如客服解釋回答、財務發票處理等場景表現不錯。
Q&A
Q: 基於當前信息及奧特曼此前訪談內容,后續可能推出的新模型將有哪些升級及核心看點?
A: GPT5目前技術層面仍處於訓練階段,主要升級方向包括:優化推理鏈條,根據用户提問及歷史使用習慣實現個性化推理,提升用户體驗;通過agent編排形式整合系列相關模型,向用户呈現全能使用體驗;聚焦多模態理解能力提升;參數規模計劃從接近2萬億提升至3-4萬億;推理性價比較7月10日左右的新版本更突出。核心看點包括:強化通(更多實時紀要加微信:aileesir)用推理能力;基礎版能力免費開放。發佈時間預計今年下半年或明年春節前。
Q: 馬斯克披露將於7月4日發佈Grok 4模型,其官方提到該模型在AGI測評中得分為45%,如何評價這一得分,以及該水平對Grok模型出圈和應用可能產生的影響?
A: Grok 4模型雖此前已計劃發佈,但當前版本仍需進一步訓練,正式版本或缺少一輪迭代調整。評分方面,其代碼評分使用的數據集已非業內通用標準,參考意義有限;奧賽題目數量較少,高分結果參考價值亦不突出。實際應用中,Grok模型因輸出限制較少的特性被大規模使用,目前僅其能滿足部分產品的特定能力需求,該特性后續或持續保留。未來Grok模型將推進推理模型升級、多模態功能優化及推理速度提升。綜合來看,當前Grok 4模型宣稱的全球第一評分可靠性不足,對其評分持中立態度。
Q: 谷歌5月發佈的vivo三個視覺模型相較於此前的動態模型具體有哪些維度的升級?目前谷歌在該最新視覺模型上的投入、算力及數據情況如何?
A: 該模型未廣泛爆火的主要原因包括高定價及IP限制。在體驗升級方面,模型突破傳統流程,將圖像生成、動畫配置、配音及口型匹配等環節整合為一體,支持用户僅通過文字輸入即可生成包含圖像、聲音、文字的多模態視頻,並能精確呈現文字描述的細節,底層依賴對物理規則等大量規則的學習。數據層面,模型在YouTube相關數據的收集與處理能力上較此前谷歌系列模型有顯著提升,其定位為世界模型的基礎,未來將在此框架下進一步拓展深化。當前該模型在視頻模型領域局部維度排名第一,綜合維度位列前二。國內廠商因模型架構複雜度有限,預計3-6個月內可推出具備該模型90%效果的產品。
Q: 谷歌該產品定價較高是否與算力成本相關?VIVO3在數據維度是否依賴特定數據源或算法?國內相關模型研發進展如何?
A: 此類模型算力消耗較大,按三個月迭代一個大版本的常規節奏,算力需求約為2萬至3萬張A100規模。數據層面,谷歌具備優勢,但國內並不缺乏VIVO3訓練所需的真實視頻數據,字節、騰訊、快手等平臺擁有豐富視頻生態。國內主要缺口在於算力資源,儘管字節算力儲備充足,但需分配至多個研發項目,實際用於此類模型的算力可能不足谷歌的一半。國內可能通過調整模型架構,在有限算力下實現接近性能;當前算力規模具備研發可行性,快手、字節已開展相關研發,但產品尚未發佈。
Q: 今年底層技術升級的主要原因是什麼?對后續技術升級及模型能力提升有何判斷?
A: 今年底層技術升級的主要觸發點源於DeepSeek事件后的行業格局變化。此前國內普遍認為受限於算力與數據差距,技術領域多以追趕國外為主,難以實現原始創新;國外則因資源豐富,部分廠商存在技術投入放緩現象。DeepSeek事件后,國內外發展路徑分化:國內企業因資源有限,難以兼顧技術與應用,部分六小龍企業預計明年縮減至不超過四家,部分轉向專注技術研發或聚焦應用商業化;國外廠商因競爭壓力重新加速底層模型技術迭代,恢復技術投入。這一分化推動國外模型發佈節奏與能力自今年三四月份起出現顯著變化。
Q: 當前國內外大模型領域技術與應用策略調整的變化,對后續技術發展及應用落地的趨勢將產生何種影響?是更健康推進還是會經歷更多彎路?
A: 短期內可能會經歷一定彎路,主要因領域投入大,需基於現實因素做出權衡選擇。但核心難點在於認清自身技術能力邊界及可支撐的應用範圍,只要以此為基礎推進,路徑均屬有效探索。當前行業重心向B端傾斜,因B端數據更結構化,便於開發垂直應用及迭代優化。若今年或明年上半年能出現90-95分的大模型底層能力,則整體發展前景將較為光明。
Q: 如何看待后續端側場景與底層模型融合的升級進展?未來端側應用場景中,哪些業內進展有望落地,或可能成為媒體關注重點?
A: 端側場景涵蓋機器人、家居、戒指、眼鏡、耳機等,其落地關鍵在於使用舒適度。底層模型升級方面,今年通過小參數模型實現強能力已形成明確路徑:以DeepSix為起點,行業掌握了將R1、OpenAI O1/O3 Mini等強模型能力遷移至小參數模型的方法,並通過先蒸餾、再用大參數增強小參數模型的方式,使弱小模型達到O1 Mini效果,大幅提升開發效率。模型發佈形式從去年單次1-3個轉向今年家族式發佈。應用層面,小米智能家庭面板接入大模型后,價格從300元漲至約450元,預定熱度與品(更多實時紀要加微信:aileesir)牌關注度極高,反映硬件端對AI價值的強需求。此外,模型側開發慢、集成難問題已解決,眼鏡、耳機等設備舒適度與能力同步提升;國內端側AI解決方案企業發展迅速,產業鏈從芯片向模組、整機延伸,形成完整鏈條。