熱門資訊> 正文
2025-10-29 18:22
當大模型的認知能力與具身智能的控制能力相融合,AI便從數字世界走進物理世界,機器人不再是「冰冷的機械」,而是成為我們「會思考、懂情緒的夥伴」。
10月28日,2025科大訊飛全球1024開發者節「AI+機器人」專場中,訊飛機器人超腦平臺煥新升級,帶來多人多模態降噪技術、高情商智能對話體驗、連續指令精準響應、軟硬件一體低門檻接入、具身智能全棧解決方案等核心技術突破。
同時,多位行業專家與大賽團隊來到1024直播間,共同探討機器人產業的創新機遇與應用前景,展示具身智能開發者的最新實踐,釋放AI賦能機器人生態的澎湃動能。
從「能動」到「能懂」
機器人交互的未來猜想
從春晚舞臺上的靈巧舞者,到工廠生產線上的24小時「打工人」,機器人正以前所未有的速度滲透到公眾視野和產業肌理之中。具身智能浪潮下,一個更深層次的挑戰已然浮現:如何讓機器人從「能動」真正進化到「能懂」?
當天,在一場關於機器人產業的深度對話中,36氪資深媒體人王玉陽(主持人)與訊飛機器人超腦平臺負責人劉可為、杭州飛闊科技聯合創始人劉炳政、北京人形/天工機器人大模型負責人鞠笑竹三位行業專家,共同探討了這一產業熱點背后的現實圖景與未來路徑。
從「能動」到「能懂」已成為人機交互的現實瓶頸。整個機器人產業正處於關鍵的行業探索期,核心命題是實現從實驗室里的技術可行,跨越到實際場景下的穩定可用。過去的機器人,如工廠里的噴漆臂,只是執行固定、重複的指令。而現在的人形機器人,本質區別在於具備了自主決策的能力。它不再是簡單地執行編碼,而是要像人一樣,實現感知、認知、決策、行動的完整閉環。
然而,在機器人運動能力飛速發展的同時,人機交互的體驗卻遠遠滯后。大眾時常覺得機器人聽不清,或者根本沒發現用户在對它説話。
劉可為介紹,出現這一問題的原因仍是技術成熟度和場景適配的不足。要實現順暢對話,機器人必須攻克至少四大難關:能在多人中精準判斷誰在説話;能在嘈雜環境中聽清説的是什麼;能深度理解用户的真實意圖;最后還要能做出高情商的回覆。
僅僅是「能聽得清」這第一步,就已困難重重。傳統麥克風陣列技術高度依賴人與設備間相對固定的位置,一旦機器人與人一起移動,這套方法便會失效。劉炳政表示,機器人自身高速運動產生的噪聲,以及它自己發聲形成的回聲干擾,都是業界亟須解決的難題。
從願景到落地,打造機器人交互生態。在機器人產業中,交互是所有廠商的核心需求。但機器人廠商往往各自聚焦於本體、運控或場景落地,很少有精力去攻克人機交互這個既枯燥又具有極高技術挑戰的領域。
訊飛機器人超腦平臺正是在這一產業背景下應運而生。平臺的理念是推動一個良性發展的產業格局,讓大家做各自最擅長的事情。為此,平臺提供了完整的一體化解決方案:
全鏈路能力一體化:平臺將語音降噪、識別、理解、合成等全鏈路能力進行一體化集成。開發者無需再自行串聯複雜的技術鏈路,同時平臺保持開放,支持客户接入定製化的技能或第三方模型。
軟硬一體化交付:針對機器人複雜的聲學結構與集成難題,平臺提供軟硬一體的服務方式。例如通過智能語音揹包等方案,機器人本體廠商無需進行復雜的聲學結構改造,即可快速具備強大的交互能力,極大降低了接入成本。
作為平臺語音交互鏈路的第一批用户,鞠笑竹表示,北京人形機器人創新中心深度集成了科大訊飛的交互鏈路,雙方在合作中共同解決問題,推動技術落地。通過這種方式,科大訊飛正作為生態底座,幫助機器人產業真正邁過交互鴻溝,實現從「能動」到「能懂」的智慧進化。
展望未來,機器人的形態將呈現底層趨同、表層分化的趨勢。人形機器人作為「皇冠上的明珠」,將持續牽引產業技術進步。個性化、情感化的交互體驗將迎來質的飛躍,機器人有望自主探索學習,進化為聰明、有温度的智能夥伴。
機器人超腦平臺全新升級
重構人機交互新體驗
訊飛機器人超腦平臺以訊飛超腦2030為技術底座,面向機器人廠商提供以多模態感知交互能力和大模型大腦為核心的AI服務,通過軟硬件一體的形式助力廠商快速集成,讓機器人快速具備能聽會説、能理解、會行動的能力。目前,平臺已服務122家整機機器人廠家和400家泛機器人企業,廣泛應用於服務、工業、特種等多個領域。
基於已有的產業基礎與技術沉澱,本次平臺升級聚焦真實場景交互痛點與行業發展需求,帶來多項核心進展:
多人多模態降噪技術突破:從單人多模態交互升級至開放場景下的多人多模態降噪,在-10信噪比、三人三米外多點噪聲環境中,交互成功率達90%,三人語音分離率達87%。
高情商智能對話體驗:從語音識別、對話理解到語音合成,通過情緒數據針對性訓練,實現細膩情緒感知與表達,打造高情商的對話體驗;區別於語音單模態理解,多模態理解結合了語音、手勢行為和情緒等信息,任務理解準確性相對提升20%,交互延迟控制在1.6秒。
連續指令精準響應:支持單輪交互中多個連續指令的拆分與理解,響應延迟≤1.2秒,可適配客户定製指令集,無需強命令詞即可控制機器人。
具身智能全棧解決方案:聯合安徽聆動通用機器人科技有限公司推出LDT系列產品,搭建1:1真實場景訓練場,提供從數據採集、模型訓練到推理部署、效果評測的全流程服務。
軟硬件一體低門檻接入:推出錄音、語音交互、多模態交互及機器人主控的全系列模組,含智能語音揹包等產品,適配人形機器人、機器狗等不同形態,大幅降低開發門檻。
從技術升級到場景落地,訊飛機器人超腦平臺以多人多模態降噪技術升級與具身智能全棧方案為核心,賦能機器人快速實現自然高效的人機交互與物理世界適配能力,攜手生態夥伴共推機器人產業智能化發展。
從思考到行動
具身智能開發者應用實踐
從技術探索到應用落地,機器人加速推動AI走進物理世界。在行業實踐中,將會遇到哪些挑戰和困難?
杭州飛闊科技創始人李一言與聯合創始人郭雲飛來到1024直播間,分享了他們關於機器人創業的故事。作為高中同學,他們從拼裝高達積木結識,並共同決定在具身智能領域打造一家有影響力的企業。飛闊的目標是賦予機器人會思考的大腦,讓它從被動執行,走向主動感知和預判,從看懂場景聽懂需求到交付結果。
通過大模型的智能決策能力,與本體制造商形成能力互補。憑藉機器人頭部安裝的深度相機,擁有看見世界的能力。更為關鍵的是,多模態融合的天樞小揹包則為他們提供了「聰明的大腦」,在直播間,安裝了天樞智能揹包的機器人,展示瞭如何成為展廳專屬智能向導。
智元機器人語音交互負責人蔡文聰來到直播間,與科大訊飛產品專家共同探討如何讓人形機器人實現聽懂與做到的技術話題。從語音識別、語音理解和動作控制的打通,機器人要求保證低延迟和高準確。科大訊飛致力於讓機器人聽懂,而智元專注讓機器人做得到,具備天然的技術互補。
針對展廳、展會等高噪場景,如何去除噪聲影響,精準識別用户指令?蔡文聰分享了與科大訊飛聯合打造的技術方案 —— 通過攝像頭拍攝到用户的脣形變動,結合麥克風陣列的語音識別,實現多模態語音識別與交互,提升機器人語音交互準確性。同時,結合真實場景下的噪音採集和數據訓練,進一步優化降噪效果,打造在商場等開放環境,也能絲滑交互,表演唱跳RAP的效果。
AI開發者大賽路演
探索人機共生新未來
自2018年首屆賽事至今,科大訊飛AI開發者大賽見證了AI創新從算法突破到產業落地的躍遷。今年,在「AI+機器人」的賽道上,參賽團隊們將大模型能力注入具身智能、智能物流等領域,讓AI真正賦能機器人,使人機共生的願景,從概念走向現實。
杭州飛闊科技是面向早教與陪伴場景的AI兒童硬件賽道的冠軍團隊,作為人工智能具身領域的場景化解決方案提供商,自主研發的「FLY·天樞系統」具備自動建圖、自主導航、自主避障、多模態語音交互和視覺識別等功能,支持多品牌機器人快速接入、無需改動硬件即可部署。同時,他們也是訊飛的生態投資企業,雙方共同開發了語音揹包系列產品。
金大智能創新科技是「基於情感感知與個性化陪伴的AI產品創新與應用賽道」冠軍團隊,他們堅持以AI技術為核心,專注人工智能機器人產品的研發與創新。基於自有的技術中心和生產工廠,實現從「創意到爆品」的高效轉化,加速產品上市節奏,致力於成為機器人企業的「研產銷合夥人」。目前團隊已在AI教育、虛擬人、寵物機器人等領域推出多款產品。
合肥煥智科技作為科大訊飛江蘇產業加速中心聯合推優團隊,致力於智能物流系統的研究,專注工業車輛的無人駕駛控制器,物流機器人,多車調度系統,自動化倉儲,物流控制系統及智能物流整體解決方案的研發、生產銷售和服務。依託訊飛AI技術,真正實現「AI+物流」,為工業企業構建「超腦」系統,讓AI技術在智能物流領域實際落地。
精彩繼續 共赴AI的星辰大海
10月30日—11月1日,2025科大訊飛全球1024開發者節將持續通過線上直播帶來更多精彩內容,圍繞大模型在教育、企業出海等領域的落地應用,分享行業前沿觀點,展示產業生態創新實踐。
11月2日—11月6日,線下盛會將正式開啟,2025科大訊飛全球1024開發者節主論壇、開發者生態發佈會、科博展、行業論壇、城市峰會、AI開發者大賽十佳團隊展演及年度頒獎盛典等活動將如期舉辦。
以開源共建生態繁榮,科大訊飛正與全球開發者攜手共創共享,共同見證「更懂你的AI」持續解放生產力、釋放想象力!
*文中數據來源於實際應用
(科大訊飛)