繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

從被100家VC拒絕到英偉達、字節搶着投,AI視頻獨角獸CEO揭祕「奇葩」用人哲學:不招精英

2025-07-28 14:55

作者|冬梅

AI 視頻平臺的發展史,幾乎就是一部特效升級的編年史:從基礎的文本轉視頻,到動態捕捉、場景生成,技術複雜度呈指數級攀升。這些複雜的技術背后,一個根本性問題卻被多數人忽視:當企業 HR 需要製作員工培訓視頻時,當電商賣家想要快速生成產品介紹時,這些炫酷的技術究竟能帶來多少實際價值?

當 Runway、MagicLight 等 AI 視頻平臺爭相推出炫酷特效和複雜功能時,Synthesia 卻選擇了一條與衆不同的道路。這家英國初創公司沒有盲目追逐技術炫技,而是敏鋭地捕捉到了一個最朴實的用户痛點:讓視頻製作變得像做 PPT 一樣簡單

近日,Synthesia 的聯合創始人兼 CEO Victor Riparbelli 在 YouTube 平臺分享了一段視頻,講述了他從懷揣一個瘋狂的 AI 視頻想法,到歷經艱難創立 Synthesia 並將其發展壯大的創業歷程。

歷時 7 年,

靠着兩代產品 ARR 衝到 7 億多

Synthesia 由來自倫敦大學學院 (UCL)、斯坦福大學 (Stanford)、慕尼黑工業大學 (TUM) 和劍橋大學的 AI 研究人員和創業者團隊於 2017 年創立。幾位主要創始人為:Victor Riparbelli、Steffen Tjerrild、Lourdes Agapito 以及 Matthias Niessner。

值得一提的是,Matthias Niessner 和 Lourdes Agapito 是計算機視覺領域的全球頂尖教授。

作為專注於企業級 AI 視頻解決方案的平臺,Synthesia 的核心使命是幫助客户以最具參與度和有效性的方式,向客户、員工及合作伙伴傳遞信息。當時,Synthesia 平臺的願景是讓任何會使用 PowerPoint 的人都能輕松製作視頻,重新定義了 「通過視頻交流」 這一信息傳遞的高效方式。而這一切的起點,源於對一個核心問題的洞察:人們並非想 「玩技術」,而是想解決實際問題 —— 在 Synthesia 的場景中,這個問題就是 「輕松製作視頻」。

於是 Victor 和聯合創始人們決心圍繞 AI 視頻技術創辦一家商業化公司。

但創業初期的挑戰遠超想象。

2017 年公司成立時,正值人工智能寒冬,技術不成熟導致大量 AI 公司折戟,Synthesia 的願景被普遍視為 「瘋狂」。團隊曾被 100 位投資者拒絕,直到向億萬富翁投資者 Mark Cuban 發送了一封冷郵件 —— 他成為唯一認同其未來願景的人,不糾結於短期評估,而是相信團隊有能力打造真正有價值的東西。「你只需要一個人説‘是’,這就夠了。」Roelli 坦言,早期的關鍵是找到與自己對未來有相似認知的人,而非試圖説服懷疑者。

就這樣,有了 Mark Cuban 的支持后,Synthesia 纔算真正開始走上正軌。

2020 年夏天,Synthesia 發佈了首款商業化產品 STUDIO,目前,該產品已被 60 多萬家公司使用,其中財富 500 強企業佔比超 60%。

據 Victor 介紹, Synthesia 的軟件採用了由 Lourdes Agapito 和 Matthias Niessner 開發的深度學習架構,整個平臺都建立在深度學習的基礎上——借鑑好萊塢視覺特效中的許多已知流程,並訓練深度學習網絡進行大規模複製。Synthesia 的系統能夠在幾分鍾內合成逼真的人物頭像風格視頻,使其能夠輕松、快速且可擴展地製作用於商業用途的視頻。

從技術上講,Synthesia 的系統使用各種深度學習和計算機視覺技術,包括 GAN(生成對抗網絡)。

Synthesia 有何不同?

藉助技術平臺,Synthesia 將整個視頻製作流程簡化為一次 API 調用——平均只需 3 分鍾即可製作一個視頻,而傳統制作方式則需要數周時間。企業客户和個人創作者可以無限擴展其製作規模(一個視頻大約需要 1 美元),並根據個人用戶、公司或員工的需求定製視頻內容。

例如在一個例子中 Synthesia 為梅西為百事可樂的樂事系列廣告,共製作了 6.5 億個不同的視頻版本。僅在這個項目中,粉絲們就製作了數十萬個視頻。

Synthesia 平臺還提供一系列內置演員,所有客户均可使用,包括每月 30 美元的套餐。這些演員均為真實演員,每次有人與他們合作拍攝視頻,他們都會獲得報酬。

Synthesia 平臺支持 40 種語言。

到了 2024 年 6 月,Synthesia 2.0 正式推出。

Synthesia 2.0 的核心是推出個人 AI 頭像。Synthesia 推出了全球首款 Expressive AI 虛擬形象,它由 EXPRESS-1 模型驅動。這些虛擬形象能夠理解自己在説什麼以及應該如何表達,並根據腳本的上下文調整語調、面部表情和肢體語言。

許多客户都希望擁有自己的虛擬形象,使用 Synthesia 2.0,客户有兩種方式創建個人頭像:

  • 在工作室使用高清攝像機拍攝的富有表現力的頭像,給人一種專業的感覺;

  • 無論家中還是外出,都能在自然背景下使用您的網絡攝像頭或手機,打造 自定義虛擬形象。這些全新虛擬形象在原來已有的網絡攝像頭服務基礎上進行了改進,提供更佳的脣音同步和更自然的聲音,並能夠以 30 多種語言複製客户的聲音;

據 Victor 透露,用户增長的核心在於區分 「真實用户」 與 「嚐鮮者」。平臺推出首個頭像 MVP(最小可行產品)時曾病毒式傳播,大量用户因覺得 「有趣酷炫」 而來製作免費演示視頻,但留存率極低。

Victor 指出,關鍵是識別那些因 「反覆出現的實際用例」 而來的用户 —— 他們不將平臺視頻與專業相機視頻比較,而是與文本文檔對比,對質量和功能的需求更貼合實際場景。正是這羣用户,支撐起了平臺可持續的增長,推動收入從 100 萬 ARR 到 300 萬 ARR,再不斷翻倍、三倍增長。如今,Synthesia ARR 已經突破 1 億美元(約合人民幣 7 億元)。

在產品與增長策略上,Synthesia 走出了一條 「自下而上 + 自上而下」 的融合之路。儘管企業客户是核心價值來源,但團隊意識到,讓更多人通過免費試用發現自身用例,再由銷售團隊跟進轉化,比單純依賴企業銷售更有效。這種 「產品主導型增長(PLG)」 的模式,需要平衡小公司與大企業的需求,更需要融合 「自助型」 與 「企業銷售型」 兩種文化 —— 這對資源有限的初創公司而言,是不小的挑戰,但 Synthesia 最終找到了平衡之道。

英偉達、字節跳動入股,

估值破百億

今年 1 月份, Synthesia 獲得了由 NEA 領投的 1.8 億英鎊(2.26 億美元)D 輪融資,使得其估值達 21 億英鎊(25.8 億美元)。Uber 以及 TikTok 母公司字節跳動等公司均是其投資組合公司。Synthesia 還得到了芯片巨頭英偉達的支持。

據技術市場情報公司 Dealroom 稱,這項投資使 Synthesia 成為英國估值最高的 Gen AI 媒體公司。

值得一提的是,Synthesia 目前沒有積極佈局併購領域。迄今為止,Synthesia 尚未進行任何收購。

Victor 表示,其更傾向於自主開發技術,同時使用 API 來處理自身未開發的技術。例如,Synthesia 與 ElevenLabs 合作開發語音技術,並利用和微調各種第三方大型語言模型,而不是自行構建。

Victor 認為,該公司通過專注於商業用户而具有優勢,其投資者表示,這正是這家初創公司具有吸引力的原因

「Synthesia 是少數幾家能夠將真正尖端的人工智能技術轉化為實際應用的公司之一,」谷歌風投駐倫敦合夥人 Vidu Shanmugarajah 在接受採訪時表示。「它極其注重客户體驗,致力於在實際場景中創造價值。將所有這些整合到一個安全合規的平臺上,難度極大。」

Atlassian 參與此輪融資也頗具看點。該公司一直在為其各種應用注入 AI 功能,而像 Jira 這樣的平臺或許會開始在其應用中添加更多視頻工具,這似乎只是時間問題,這將為其與投資組合公司的合作打開大門。

「找到不那麼起眼的人一起工作」

隨着產品被更多人使用,Synthesia 內部團隊也在不斷擴大。

目前,Synthesia 的年收入有一半以上來自美國客户,而歐洲則佔了近一半。

Synthesia 也在加大招聘力度。該公司今年年初聘請了前亞馬遜高管彼得·希爾 (Peter Hill) 擔任首席技術官。如今,該公司在全球擁有 400 多名員工。

Victor 的團隊建設理念同樣獨特。Victor 認為,初創公司不應執着於從谷歌、Meta 等大廠挖人,那些 「不那麼顯眼」 卻充滿 「飢餓感」 的人才往往更有潛力 —— 他們可能沒在頂級公司任職,卻在管理優秀開源項目中展現出韌性,願意為初創公司投入全部精力。

Victor 在視頻分享中表示:「我認為人們經常犯的一個錯誤,尤其是那些可能在大型科技公司或類似成功公司工作過的人,他們出去后,嘗試從谷歌、Meta、OpenAI 等當時的熱門公司挖人,然后説,我有這個很酷的創業想法,你為什麼不加入我,我不會付給你那麼多,但我會盡量支付差不多的薪水等。當然這是可行的,有很多非常聰明的人也想創業。但很多時候你就是無法直接得到他們,或者如果你得到了他們,他們習慣了非常高的薪水以及在大型科技公司工作的截然不同的生活方式,最終也可能也不會留下來。所以這實際上通常不是最好的路徑。」

所以他纔去的方式是去招聘一些不那麼「起眼」的人。真正要考慮的是一個人的行動力和建設性思維。

「沒有什麼能讓你為真正創業做好準備。就像在麥肯錫工作四年並不會讓你成為更好的企業家——它可能只會讓你積累更多人脈,或者在融資時稍微輕松一些。但創業真正的內核在於行動力與建設性思維。這也解釋了為什麼我們在招聘時特別看重那些「不起眼的人才」——那些雖然沒有光鮮履歷,但持續在開源項目耕耘、始終保持更新迭代的人。如果你內心深處知道自己想建立一家公司,如果你本質上是一個「建築者」,那麼我認為你應該儘快開始,不要害怕行動得太早。厄運場景很少像人們想象的那樣可怕。事實上,大多數大公司都會珍惜那些勇於嘗試的人,即使他們最終失敗了。」

這種敢於嘗試的精神,正是推動技術變革的核心動力。就像我們現在正在見證的媒介形態轉型——我確實認為世界上的文字會越來越少,但這不意味着文本信息會完全消失。就像我們現在仍然會去劇院,仍然會聽黑膠唱片一樣,文字肯定會繼續存在它的位置。這種演進不是非此即彼的替代,而是使用場景的自然分化。在信息共享、知識培訓等領域,我認為我們將進入一個幾乎所有內容都以視頻和音頻形式被消費的世界。未來 10~20 年內,VR 和 AR 技術可能會進一步改變這個局面。

參考鏈接:

https://www.youtube.com/watch?v=d9SKd-zqYAc

https://techcrunch.com/2025/01/14/synthesia-snaps-up-180m-on-a-2-1b-valuation-for-its-b2b-ai-video-platform/

聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止轉載。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。