繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

一小時翻譯整部《甄嬛傳》,AI面試官發offer……在杭州看AI落地的1000種玩法

2024-09-21 09:00

文|周鑫雨

製圖|況澤宇

拍攝|周鑫雨 鄧詠儀

編輯|蘇建勛

2024年9月19日開幕的阿里云云棲大會上,近300家涵蓋算力、模型、應用的AI企業,和近1000種AI產品,構成了一幅全行業的活地圖。

多模態和具身智能,兩個今年最熱的AI風口,在雲棲佔據絕對的C位——

雲棲大會「人工智能+」館。

走進匯聚了近60家模型企業的「人工智能+」館,能明顯感受到,如果不加點音視頻相關的多模態能力,光拼參數的大模型已經不夠看了。

而具身智能,是「前沿應用館」最「City」的存在。一進場館,就能看到20多家機器人企業,攜着或仿真人、或仿狗子的產品,給你來上一段取貨、翻跟頭、猛踹不倒的炫技表演。

不過,無論是多模態,還是具身智能,再高大上和先鋒的科技,能在雲棲引起圍觀的,只有「接地氣」。

這屆雲棲,參觀者中第一次出現了「義烏老闆團」。面對同聲傳譯、數字人主播和可一鍵生成商品圖的應用,他們替用户提出了最為現實的問題:能幫我賺多少錢?

當紅大模型獨角獸月之暗面的展臺,大概是「班味」最濃的一個。不少白領、IT都聚了過來,激辯字節的「豆包」和月暗的「Kimi」,哪個辦公更好使。

在最具未來感的具身智能展臺,被暴力踹踢而不倒的「小強」——逐際動力的雙足機器人,引得不少路人圍觀。這款用於展示機器「小腦」研究成果的機器人,目前還待在實驗室里,供力學研究。

逐際動力雙足機器人。

這也擋不住觀眾對此發出靈魂一問:

「推不倒,到底有啥用?」

多模態,模型的標配

通義千問:沒有不想落地短視頻的多模態應用

一進模型扎堆的「人工智能+」體驗館,很難不被「通義大模型」展區的AI太極寫真生成體驗區吸引。

通義AI太極寫真。

體驗者只要比劃對應的姿勢,在鏡頭中與簡筆畫合上——幾十秒后,一張太極寫真就出爐了。

當然,圖生圖的AI寫真功能,只是阿里雲模態版圖中的一小塊。作為東道主,阿里不僅發佈了最新的視頻生成模型,還搬來了文生圖、圖生視頻、圖+音頻生視頻的多模態全家桶。

全民舞王。

比如,在通義千問App內,阿里上線了10秒左右的短視頻生成應用「全民舞王」。

用户只需上傳人或寵物的照片,以及一段説話音頻,就能在1-2分鍾內生成舞蹈視頻、對嘴唱歌視頻,或者動態表情包。目前,這還是個免費的功能。

人像動態視頻生成技術EMO(Emote Portrait Alive)。

「全民舞王」的背后,是阿里巴巴智能計算研究所在2024年2月發佈的人像動態視頻生成技術EMO(Emote Portrait Alive)。僅需一張肖像照和一段音頻,EMO就能讓人物按照音頻內容張嘴唱歌、説話。

據現場工作人員介紹,自2024年4月25日上線以來,「全民舞王」的使用人數已經突破了10w+。多數用户的使用方式是

「這太適合I人做短視頻了吧!」有參觀者感嘆。

「沒有不想落地短視頻的多模態應用!」

智譜:視頻拍到哪,作業講到哪

讓家長紛紛駐足的展臺中,一定有智譜。

2024年8月29日,智譜將「類GPT-4o」的視頻通話功能,搬上了自己的C端應用「智譜清言」。

這款融合了視頻理解、語音對話能力的功能,就好比AI突然有了五感。用户可以用智譜清言學穿搭、識別物品,也可以把它當成賽博閨蜜。

當然,更適合中國人「活到老學到老」體質的玩法,就是AI教師。

對着作業打開攝像頭,手機鏡頭拍到哪,智譜清言就能解答到哪。並且,智譜清言的講解,質量甚至和真人教師有的一拼,不僅循循善誘,還有問答互動。

比如講解「雞兔同籠」,智譜清言不會直接給出答案,而是先引導孩子列出二元一次方程組。

智譜清言視頻通話功能。

孩子再也不怕難題,家長也解放了雙手。

生數Vidu:給我一張劇照,我還你一段新海誠

同樣是「清華系」出身的生數科技,展出了自研的視頻生成模型Vidu。2024年4月發佈時,Vidu因為性能優秀,還一度出圈,被稱作「中國版Sora」。

但即便是OpenAI的Sora本尊,也很難解決視頻的前后一致性問題。不難發現,大多AI視頻中,每一幀的臉都不一樣。

爲了解決一致性難題,生數的解決辦法是,給Vidu找個「模特」。

2024年9月11日生數科技發佈的「主體參照」(Subject Consistency)功能,讓Vidu根據給出的參考圖,確定視頻主體的形象和風格。

「主體參照」(Subject Consistency)功能。

現場,作者上傳了一張新海誠電影《鈴芽户締》的女主角「鈴芽」的劇照,Vidu就根據鈴芽的形象,生成了一段秋日公園視頻。

VAST Tripo:3D生成也有Scaling Law

「我們有全球最大的3D數據庫。」

這是我們在展區唯一聽到過的帶有「最」字的判斷。這句話,來自3D生成領域的明星企業VAST。

國內不少人可能會覺得VAST面生,原因在於,這家由前MiniMax和商湯成員創立的公司,第一天就做了出海的生意。

據工作人員介紹,VAST在海外主打面向遊戲、XR開發者的C端應用,在國內則主打B端應用,「並且我們在海外商業化不錯」。

不少圈內人對VAST的3D生成模型Tripo的評價是:高性能,操作友好。根據輸入的文字或者圖片,Tripo僅8秒就能生成3D原型圖,並且支持市面上所有的3D原型編輯軟件,還能直接3D打印。

Tripo現場3D打印。

Tripo文字生成3D素材。

當下,3D生成模型的訓練,也沿用堆參數的暴力美學Scaling Law。2024年初,VAST發佈的Tripo 1.0,參數就達到了數十億,在訓練數據稀缺的3D模型中是相當龐大的存在。

提高參數,相應的也要增加模型的訓練數據。

工作人員透露,在獲取稀缺的高質量3D數據過程中,團隊花了不少時間在「犄角旮旯」中獲取數據。而在訓練過程中,模型也用了不少AI合成3D數據。

就在2024年9月19日,VAST還發布了生成質量更好的Tripo 2.0,實現10秒⽣成形狀⼏何、10秒⽣成紋理及PBR(一種模擬光與材質相互作用的渲染技術)。

音瘋:AI玩音樂照樣瘋

2024年7月,網紅秦新宇因整容失敗發佈的名為《還我媽生鼻》的魔性歌曲,突然衝上了微博熱搜。

而這首歌的譜曲者,不是秦新宇,也不是專業音樂團隊,而是一個上線不到兩月的AI音樂生成平臺「音瘋」。

音瘋AI音樂體驗區。

音瘋展臺。

這款由崑崙萬維推出的音樂製作平臺,特點在:長。工作人員表示,音樂生成的難點在於保持前后一致性,一旦歌曲超過1分鍾,前后的曲風很難保持一致。

因此,音瘋的賣點在於,將AI音樂生成的時長拉到了4分鍾,並且能夠相對保持前后風格的一致性。用户只需要輸入歌詞,並且在曲庫和人聲庫中選擇喜歡的風格,就能生成一段歌曲。

當然,工作人員告訴作者,目前音瘋使用最高頻的場景,也是短視頻:)。

HiDream.ai:為電商量身定製的AI生圖

HiDream.ai(智象未來)的展臺,駐足了一批批的義務商家。

這家由前京東探索研究院副院長梅濤成立的AIGC公司,基因里就帶着「電商」兩個字。雖然同樣是圖片生成,HiDream.ai的AIGC創作平臺「秩象」,就像集佈景、拍攝、后期於一身的商品圖工作室。

HiDream.ai的AIGC創作平臺「秩象」。

比如,商家只要輸入商品圖,就能靈活切換背景、模特。在為服裝生成模特圖的過程中,商家甚至能夠選擇模特姿勢、性別、膚色、人種。

月之暗面:視頻功能,Kimi懷胎中

人工智能+館人氣最旺的展館,有Kimi的一席之地。

在一眾把圖片、音頻、視頻、3D等模態玩出花的模型中,仍然主打文本、表格和代碼任務的Kimi就稍顯朴素。

當然,這並不影響Kimi展臺的人氣——或者準確來説,是「班味」。

現場不乏有上班族,直接向工作人員詢問文字轉excel、文件生成報表、文書撰寫的方法。甚至還有企業IT,直接來諮詢Kimi API如何接入釘釘、企微和飛書。

Kimi展臺。

不過,這款打工神器,也免不了朝着更多模態迭代。工作人員對作者透露,Kimi的視頻功能,已經在路上!

機器人炸場,虛擬人扎堆

銀河通用:松弛感拉滿的機器人售貨員

擅長「抓」的銀河通用機器人Galbot G1,這次走進了未來的無人商超。

消費者在平板上下單后,Galbot G1機器人就會前往貨架,準確拿取下單的商品。

Galbot G1。

不過,這位機器人售貨員的取貨速度,有些太慢了——從下單到接到冰紅茶,差不多用了1分鍾。想要進商超,機器人還是得先戒掉這絕佳松弛感。

當然,無人售貨只是銀河通用展示的其中一個場景。目前,Galbot G1已經能夠精準抓取礦泉水、雨傘等隨機放置的物品,還能夠熟練開櫃門、抽屜和晾衣服。

工作人員表示,2024年Q4,就有希望看到機器人進入真實的商業場景。

清寶:仿真機器人,上流水線搬磚

和披着人皮的機器廠友做同事,馬上就要成為現實了。

在清寶機器人的展臺,幾名不斷變換pose的仿真機器人構成了門面——然而,由於眼珠轉動過於靈活,但表情麻木,這幾名機器人還是產生了一些恐怖谷效應。

清寶機器人。

而這幾名仿真機器人的作用,既不是陪伴,也不是做智能導遊、機器人主播之類的「文職」,而是直接進工廠!

目前,由於流水線SOP(標準操作流程)比較固定單一,且整機機器人成本較高,投入真實流水線使用的機器人,大多是單一的機械臂。

據工作人員介紹,目前簽單的整機人形機器人,在流水線上主要做的是質檢和零件分配,客户給出的理由也很別緻:「想讓產線有點温度」。

當然,對於客户而言,機器人帶來的温暖,還得在降本增效上。工作人員對作者表示,機器人一年可以節省20%左右的人工成本。

酷開:雲電視,抓住AI稻草

「這幾年電視行業太難了!」雲電視廠商酷開的員工,上來就倒了滿滿的苦水。隨着電視機大盤被移動智能產品擠壓,雲電視廠商的日子也不好過。

不過,2024年以來,酷開算是守得雲開見月明——AI是他們抓住的稻草。

酷開在雲電視上線的AI OS,支持語音搜索電視劇、電影,以及網絡諮詢,還能向Chatbot等智能助手一樣,給用户推薦片單。

比如用語音輸入「陳道明演皇帝的電視劇是什麼?」酷開立刻顯示了搜索結果:《慶余年1、2》《楚漢傳奇》《康熙王朝》。

酷云云電視 AIOS。

值得一提的是,搜索結果顯示的演員照片、電視劇劇照,全都是由AI在后台生成的。酷開工作人員告訴作者,這是爲了能夠精準貼合用户的搜索需求,「比如你的偶像是鹿晗,你想看他的劇,肯定也想看到搜索結果全都是他的照片。」

不僅如此,酷開也能根據用户的個人喜好,用AI生成片單推薦視頻。

上線AI OS一個月,酷開就吃到了AI帶來的甜頭。工作人員表示,內嵌大模型能力后,使用語音交互功能的用户數量和時長有了明顯的提升;與此同時,技術成本的增加還能控制在10%以內。

阿里雲視頻團隊:一鍵給《甄嬛傳》配英文字幕

一部成熟的電視劇,就應該學會自己給自己配多語言字幕。

這個美好的願景,已經被阿里雲視頻團隊實現了。

阿里雲視頻團隊的視頻字幕翻譯功能。

以往給電視劇配外語字幕,是個大工程。你需要先把臺詞轉錄成中文字幕,再翻譯成外語。與此同時,配字幕還免不了用剪輯工具。

如今,基於通義實驗室自研的算法,用户已經可以實現「端到端」翻譯甄嬛傳:不需要給字幕,直接扔視頻文件,就能自動配英文字幕。

獵聘「多面·doris」:未來,AI給你發offer

第一批數字人面試官,已經上崗了。

獵聘旗下的AI產品「多面·doris」,就是一位在24小時內,面試400多人的AI面試官。

目前,獵聘AI面試有設定問題、智能問答等多種模式。比如在智能問答環節,AI首先會基於簡歷,分析出應聘者的潛在風險點,比如「頻繁跳槽」「任職時間不長」,后續的面試,也大概率會圍繞這些問題展開。

獵聘AI面試產品「多面·doris」。

不過,不少面試者反饋,由於缺乏即時交互,以及難以從AI面試官的撲克臉中獲得反饋,和AI面試反而更緊張了。

最后,工作人員貼心提醒,數字人面試官比較適合一面、二面等人才的初篩環節。如果企業想要聘請高端人才,還是由人出馬更顯誠意!

Motiff 妙多:設計師救星,一句話也能生成UI了

目前國內最懂UI設計的大模型,源自一個叫做Motiff 妙多A的團隊。

至少需要一周的UI設計,現在被簡化成了輸入一段話。

用户只需文字輸入所需的界面類型、組成部分,以及定製化的描述,20秒左右,就能生成兩版UI設計稿。

Motiff AI生成UI。

與此同時,基於自研的UI大模型對佈局的理解能力,原有Cmd+V、Cmd+C的重複動作,被Motiff簡化成了一步到位的下拉動作。

狼人殺不盡,AI吹又生

除了機器人和數字人,前沿應用館最容易找到的,應該就是AI狼人殺。

遊戲公司巨人網絡,就將AI狼人殺,作為投放在抖音、B站上的季節性用户活動。

這些AI NPC的「攻擊性」還挺高,玩家發言一旦有邏輯漏洞,就會被「羣起而攻之」。

巨人網絡AI狼人殺。

這些24小時無休、永遠在線的AI NPC,將巨人季節性活動的用户時長,增加了10倍多。

在2018年上線的劇本殺App「百變大偵探」,近一個月也基於通義千問上線了AI劇本殺。

更進一步,玩家可以直接用語音和AI NPC進行對話。不過,對話的輪次有限制,想要增加對話次數,玩家只能氪金——這也是目前不少AI劇本殺的主要商業模式。

「百變大偵探」AI劇本殺。

當然,在遊戲前加了「AI」兩字,並非全是好事。

工作人員告訴作者,接入大模型后,技術成本就提升了不少。與此同時,團隊選擇劇本也更為謹慎:太複雜的本,AI不理解;太簡單的本,用户不願玩。

只能説,AI在進步,人也得跟着進步。

歡迎交流!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。