日韩欧美成人网,日韩欧美在线观看一区二区,日韩黄色片免费看,在线国产麻豆,制服丝袜在线91,亚洲一级片网站,91插插库

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

英偉達(dá)、宇樹科技、銀河通用罕見同框!王興興、王鶴等發(fā)聲,談到AI、人形機(jī)器人!信息量大

2025-08-12 15:39:44

每經(jīng)編輯|張錦河    

近日,在2025年的世界機(jī)器人大會(huì)(WRC)上,英偉達(dá)Omniverse與仿真模擬技術(shù)副總裁 Rev Lebaredian、宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO王鶴罕見同框。

在一場(chǎng)媒體溝通會(huì)上,他們圍繞物理AI、仿真、機(jī)器人平臺(tái)與商業(yè)落地、合成數(shù)據(jù)與具身智能模型的產(chǎn)業(yè)化路徑,進(jìn)行了深入交流。

圖片來(lái)源:媒體視頻截圖

Rev Lebaredian表示,過(guò)去三四十年,計(jì)算機(jī)和IT產(chǎn)業(yè)放大了各行各業(yè)的能力,但計(jì)算的影響“大多還停留在“信息空間”,也就是可以數(shù)字化的內(nèi)容,比如語(yǔ)言和各種可編碼的信息。

互聯(lián)網(wǎng)的出現(xiàn),讓計(jì)算技術(shù)真正走進(jìn)每個(gè)人的生活,把所有人連接起來(lái),并帶來(lái)了幾十年的增長(zhǎng)。從全球市場(chǎng)規(guī)模來(lái)看,IT 行業(yè)的總規(guī)模約為 5 萬(wàn)億美元,這雖然龐大,但與全球所有行業(yè) 超過(guò) 100 萬(wàn)億美元 的總量相比,只是很小的一部分。其它行業(yè)之所以更有價(jià)值,是因?yàn)樗鼈兲幚淼氖钦鎸?shí)世界的“原子”——交通、制造、供應(yīng)鏈、物流、醫(yī)療、制藥等涉及物理世界的領(lǐng)域。

而今天,隨著人工智能的出現(xiàn),我們終于有了讓機(jī)器具備“物理智能”的能力,可以把物理世界和信息世界真正連接起來(lái)。換句話說(shuō),計(jì)算的力量不再只局限于那 5 萬(wàn)億美元的信息市場(chǎng),而是可以進(jìn)入那 100 萬(wàn)億美元的物理世界市場(chǎng)。而這個(gè)橋梁,就是機(jī)器人。有了機(jī)器人,我們就能把計(jì)算和人工智能帶進(jìn)真實(shí)世界,創(chuàng)造出能理解并改變物理環(huán)境的智能體。

他稱,中國(guó)是實(shí)現(xiàn)這一跨越的最佳地點(diǎn),因?yàn)檫@里具備獨(dú)一無(wú)二的條件:

1.頂尖 AI 人才:全球近一半的人工智能研究人員和開發(fā)者在中國(guó),其中包括來(lái)自頂尖大學(xué)的最優(yōu)秀人才。

2.電子與計(jì)算技術(shù)能力:中國(guó)不僅有技術(shù)研發(fā)能力,還有全球無(wú)可匹敵的電子制造產(chǎn)業(yè),這在物理 AI 和機(jī)器人領(lǐng)域至關(guān)重要。

3.龐大的制造業(yè)基礎(chǔ):這里有大規(guī)模部署和測(cè)試機(jī)器人的真實(shí)場(chǎng)景,可以快速收集數(shù)據(jù)、迭代算法,讓機(jī)器人不斷進(jìn)化。

因此,在世界機(jī)器人大會(huì)上看到如此多的能量、能力和熱情,并不令人意外。

談到英偉達(dá)的角色,他指出,公司使命是打造專門針對(duì)“最難問(wèn)題”的計(jì)算機(jī),要推動(dòng)機(jī)器人發(fā)展、物理 AI 落地,英偉達(dá)提出必須構(gòu)建三類計(jì)算機(jī):一是嵌入機(jī)器人本體的計(jì)算機(jī),例如人形機(jī)器人搭載的 Jetson Thor;二是 AI 工廠計(jì)算機(jī),用于在部署前通過(guò) DGX、HGX 系統(tǒng)處理海量數(shù)據(jù)、訓(xùn)練模型;三是仿真計(jì)算機(jī),通過(guò)物理定律生成數(shù)據(jù)并提前測(cè)試機(jī)器人,測(cè)試速度可快于現(xiàn)實(shí)時(shí)間。

目前,宇樹科技和銀河通用等機(jī)器人企業(yè)都和英偉達(dá)進(jìn)行了合作,比如銀河通用的G1 Premium人形機(jī)器人,就是首批搭載 NVIDIA Jetson Thor 的人形機(jī)器人之一,在工業(yè)碼垛、拆垛及物料箱搬運(yùn)等復(fù)雜場(chǎng)景中展現(xiàn)出流暢性與作業(yè)速度。宇樹科技則在其新型人形機(jī)器人 R1上部署了英偉達(dá)全棧機(jī)器人技術(shù),通過(guò)Isaac Sim高仿真平臺(tái)優(yōu)化運(yùn)動(dòng)與操控能力,并借助Isaac Lab系統(tǒng)實(shí)現(xiàn)快速策略迭代。

王興興表示:我們?cè)谶^(guò)去幾年中一直非常重視人形機(jī)器人這一方向。某種意義上,我將人形機(jī)器人視為通用機(jī)器人的重要載體。眾所周知,通用AI是目前全球最主流的發(fā)展方向,而真正的通用AI在執(zhí)行任務(wù)時(shí)必然離不開機(jī)器人,尤其是通用型機(jī)器人。

對(duì)比來(lái)看,目前人形機(jī)器人反而是最理想的專業(yè)機(jī)器人形態(tài)。雖然看上去較為復(fù)雜,但實(shí)際結(jié)構(gòu)并不如想象中那么復(fù)雜,本質(zhì)上是由若干關(guān)節(jié)電機(jī)串聯(lián)而成。因此結(jié)構(gòu)相對(duì)簡(jiǎn)單,不像履帶式小車或其他形式的機(jī)器人反而更復(fù)雜。由于主要是電機(jī)和連桿的組合,所以整體設(shè)計(jì)簡(jiǎn)潔。我一直相信,當(dāng)通用AI大規(guī)模成熟后,每個(gè)人都可以輕松制造一臺(tái)人形機(jī)器人,就像今天人們可以購(gòu)買電腦零部件組裝一臺(tái)電腦一樣。未來(lái)若AI足夠強(qiáng)大,對(duì)硬件的要求會(huì)越來(lái)越低。

從宇樹科技的產(chǎn)品歷程看,去年,宇樹推出一款售價(jià)約9.9萬(wàn)元人民幣的人形機(jī)器人,其架構(gòu)成為全球較為主流的設(shè)計(jì)。今年發(fā)布的新版本售價(jià)約3.9萬(wàn)元人民幣,支持外觀定制,“目前現(xiàn)貨可供,預(yù)計(jì)量產(chǎn)在年底前完成?!蓖跖d興說(shuō)道。

其他產(chǎn)品線上,宇樹科技近期發(fā)布了A2機(jī)器狗,自重約37千克,持續(xù)負(fù)載可達(dá)30千克,空載續(xù)航可行駛20公里。同時(shí),宇樹科技重視機(jī)器人上肢和手部的研發(fā),王興興介紹道:“目前已自主開發(fā)一款約20自由度的靈巧手,目標(biāo)是讓機(jī)器人真正能夠執(zhí)行日常任務(wù),而不僅是完成展示性動(dòng)作。希望在未來(lái)一到兩年內(nèi)實(shí)現(xiàn)自然交互,例如在沒(méi)有預(yù)先適配的情況下,直接指令機(jī)器人去為某人倒水。”

王鶴認(rèn)為今天在場(chǎng)的所有機(jī)器人公司,包括NVIDIA和銀河通用在內(nèi),我們的共同目標(biāo)都是打造通用機(jī)器人。通用機(jī)器人將成為下一個(gè)價(jià)值數(shù)萬(wàn)億美元、數(shù)萬(wàn)億人民幣市場(chǎng)的關(guān)鍵性、革命性產(chǎn)品。這種革命性產(chǎn)品背后包含多個(gè)核心要素,第一個(gè)是機(jī)器人的本體,第二是驅(qū)動(dòng)它運(yùn)轉(zhuǎn)的具身智能模型。

模型背后則是數(shù)據(jù)支撐,王鶴表示:“我們與英偉達(dá)一致認(rèn)為,合成數(shù)據(jù)是推動(dòng)具身智能快速落地的關(guān)鍵。目前,真實(shí)世界數(shù)據(jù)僅占我們訓(xùn)練數(shù)據(jù)的1%,其余99%均為合成數(shù)據(jù)。”

與此同時(shí),銀河通用和英偉達(dá)官宣了基于Isaac平臺(tái)的下一代人形機(jī)器人項(xiàng)目,“目前銀河通用為輪式形態(tài),下一代將采用純雙足設(shè)計(jì),基于OpenWBT_Isaac進(jìn)行數(shù)據(jù)采集與遙控控制。無(wú)論在仿真環(huán)境還是現(xiàn)實(shí)環(huán)境,該平臺(tái)可訓(xùn)練并部署多種任務(wù)能力,例如推車、拾取地面物體等。”王鶴說(shuō)道。

以下是英偉達(dá)Omniverse與仿真模擬技術(shù)副總裁Rev Lebaredian、宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO王鶴的媒體問(wèn)答全文:

1. 在像醫(yī)療和養(yǎng)老這樣高精度應(yīng)用場(chǎng)景中,NVIDIA Omniverse如何確保用仿真數(shù)據(jù)訓(xùn)練的機(jī)器人具備可靠性和安全性?

Rev如果你想構(gòu)建一個(gè)能夠在現(xiàn)實(shí)世界中行動(dòng)且安全可靠的機(jī)器人系統(tǒng),實(shí)際上唯一的選擇就是使用仿真。舉個(gè)例子,你希望系統(tǒng)足夠智能,能夠應(yīng)對(duì)那些很少發(fā)生的特殊情況,甚至應(yīng)對(duì)你希望永遠(yuǎn)不會(huì)發(fā)生的緊急情況。以自動(dòng)駕駛為例,我們絕對(duì)不希望車撞到人或者孩子,但當(dāng)街上出現(xiàn)小孩時(shí),車輛的大腦該如何反應(yīng),如何獲取訓(xùn)練這類系統(tǒng)的數(shù)據(jù)呢?唯一的辦法就是通過(guò)仿真。因?yàn)槲覀兘^不可能將孩子置于汽車前作為訓(xùn)練樣本,這樣做是不道德的、危險(xiǎn)的,而且耗時(shí)且昂貴。

即使訓(xùn)練完系統(tǒng),在將它部署到現(xiàn)實(shí)世界之前,也需要在這些相同場(chǎng)景中進(jìn)行測(cè)試,確保在真正發(fā)生類似情況時(shí),它能夠正確反應(yīng)。因此,真正的選擇只有通過(guò)仿真實(shí)現(xiàn),因?yàn)楝F(xiàn)實(shí)世界測(cè)試過(guò)慢、成本高且危險(xiǎn),我們不希望機(jī)器人在現(xiàn)實(shí)世界先失敗。換句話說(shuō),如果我們無(wú)法讓仿真足夠準(zhǔn)確以測(cè)試機(jī)器人,那么我們將無(wú)法制造出可靠的機(jī)器人。幸運(yùn)的是,目前已有非常準(zhǔn)確的仿真器。不過(guò),這些仿真器計(jì)算量大且成本高昂,我們面臨的真正挑戰(zhàn)是如何提升仿真速度,使其在大規(guī)模系統(tǒng)構(gòu)建中具有成本效益,這也是我們一直努力的方向。

2. 您認(rèn)為未來(lái)幾年內(nèi),驅(qū)動(dòng)人工智能機(jī)器人的仿真領(lǐng)域會(huì)有哪些關(guān)鍵技術(shù)趨勢(shì)將改變整個(gè)行業(yè)?能否分享一些中國(guó)生態(tài)合作伙伴如何利用NVIDIA仿真技術(shù)加速產(chǎn)品創(chuàng)新的案例?

Rev我認(rèn)為目前最大的趨勢(shì),實(shí)際上是所有在常規(guī)人工智能領(lǐng)域出現(xiàn)的技術(shù)和發(fā)展,正被應(yīng)用到物理人工智能中。其中最重要的突破是推理能力的提升。比如DeepSeek將推理能力帶入了開源領(lǐng)域,現(xiàn)在我們也看到了其他各種模型。

我們?cè)谥悄芩缴蠈?shí)現(xiàn)了飛躍,將同樣的技術(shù)應(yīng)用到物理人工智能,是機(jī)器人領(lǐng)域的一個(gè)重大突破。如果我們要制造我們剛才談?wù)摰哪欠N機(jī)器人——比如能給你拿水的機(jī)器人——根據(jù)翻譯理解,可能在今年年底或明年,我們的機(jī)器人將能更自然地與人互動(dòng),并完成復(fù)雜的多步驟任務(wù)。這是非常關(guān)鍵的能力。而將這種能力與仿真結(jié)合,我認(rèn)為這是一個(gè)可能還未被廣泛理解,但將成為重大突破的點(diǎn)。

目前我們面臨的主要問(wèn)題是人工智能極度依賴數(shù)據(jù),而獲取合適的數(shù)據(jù)非常困難。我們現(xiàn)有的推理模型,尤其是對(duì)物理世界的推理,現(xiàn)在可以幫助我們改善數(shù)據(jù)生成和數(shù)據(jù)創(chuàng)建的流程。

如今我們生成的數(shù)據(jù),即使是合成數(shù)據(jù),也需要大量人工參與,人工去構(gòu)建虛擬世界和仿真環(huán)境,判斷該生成哪些數(shù)據(jù)才能讓智能系統(tǒng)更聰明。但是,如果我們把正在開發(fā)的人工智能技術(shù)用在數(shù)據(jù)生成流程中,就可以實(shí)現(xiàn)自動(dòng)化,打造“自動(dòng)駕駛”的合成數(shù)據(jù)生成。

如果我們擁有一個(gè)自動(dòng)駕駛的合成數(shù)據(jù)生成工廠,就能直接將其接入訓(xùn)練流程,實(shí)現(xiàn)訓(xùn)練過(guò)程自動(dòng)化,減少人為干預(yù),讓機(jī)器人大腦更聰明。至于中國(guó)的企業(yè)如何應(yīng)用仿真技術(shù)及其帶來(lái)的影響,我認(rèn)為他們已經(jīng)在積極探索和應(yīng)用這些技術(shù)。

王鶴:我覺(jué)得因?yàn)榇蠹业倪@些仿真引擎也好,并行渲染器也好,把現(xiàn)在合成數(shù)據(jù)它的這種不管是通過(guò)強(qiáng)化學(xué)習(xí),還是通過(guò)產(chǎn)生數(shù)據(jù)以后再做。

模仿學(xué)習(xí),它的整個(gè)的困難程度都大大下降了,那么確實(shí)像不管是現(xiàn)在的人形機(jī)器人的行走或者是跳舞的這些技能,還是我們做抓取做疊衣服、做導(dǎo)航背后的數(shù)據(jù),離不開就是一個(gè)非常好用的仿真器,非常并行的渲染器,所以這些確實(shí)非常感謝,英偉達(dá)作為一個(gè)生態(tài)方,從芯片到整個(gè)仿真平臺(tái)對(duì)整個(gè)生態(tài)的一個(gè)托舉。

3. 宇樹R1定價(jià)3.99萬(wàn)元,大幅降低消費(fèi)級(jí)人形機(jī)器人的門檻,這是否意味著硬件成本已不再是影響機(jī)器人商業(yè)化的障礙?現(xiàn)階段,推動(dòng)人形機(jī)器人規(guī)模化商用還存在哪些難點(diǎn)?

王興興:這也是我上其實(shí)也過(guò)去包括上網(wǎng)一直分享的觀點(diǎn),對(duì)于基層商業(yè)化包括人形機(jī)器人的商業(yè)化來(lái)說(shuō),它的成本和硬件其實(shí)并不是關(guān)鍵性的問(wèn)題,這個(gè)是其實(shí)某種意義上你說(shuō)一臺(tái)機(jī)器如果只要能用你10萬(wàn)甚至100萬(wàn),其實(shí)照樣還是有很多場(chǎng)景能用起來(lái)的。

你最大的問(wèn)題目前其實(shí)還是整個(gè)具身智能的整個(gè)模型其實(shí)還是不夠泛用性,包括它的實(shí)用性還是有更大的提升,這塊其實(shí)是當(dāng)下是最棘手的問(wèn)題了,硬件某種程度上不單單是今年,我覺(jué)得過(guò)去的一兩年就已經(jīng)足夠了,硬件一直還是足夠的,當(dāng)然要做得更好,你要比如說(shuō)可靠性成本各方面做的更好,但是它并不是個(gè)限制性因素。

4. 國(guó)內(nèi)外專家和企業(yè)對(duì)人形的必要性爭(zhēng)議不斷,有人認(rèn)為人形是AGI的最終載體,有人認(rèn)為未來(lái)十年人形機(jī)器人的占比只有10%,銀河通用如何看待人形的必要性?

王鶴:我覺(jué)得是這樣的,就是說(shuō)我們今天去看人形機(jī)器人,從長(zhǎng)遠(yuǎn)來(lái)看,它一定是要能夠融入我們?nèi)祟惖纳畹?。從終局的觀念來(lái)看,比如大家各自現(xiàn)在做的座椅,除了人形機(jī)器人,如果它又是能夠干活,手能夠伸到1米、2米這么高,能夠摸地的,它還能在咱們的這樣的一個(gè)環(huán)境里穿梭,它除了人形態(tài),它沒(méi)有別的形態(tài)。

那么從未來(lái)這幾年來(lái)看,我的感覺(jué)其實(shí)人形機(jī)器人是從一種移動(dòng)復(fù)合機(jī)器人在向著終局不斷邁進(jìn)。因?yàn)槿绻且粋€(gè)定點(diǎn)機(jī)器人,它能夠干的事情就只能是它面前的事情,對(duì)吧?那么它的局限性是很大的,所以移動(dòng)是必然的。光有移動(dòng)的車,我們過(guò)去在各種工廠里頭這種移動(dòng)的小車,它就只能承載貨物,對(duì)吧?

貨怎么下來(lái)的,從上面有個(gè)槽掉下來(lái)的,它的局限性是不能做任何操作,所以說(shuō)符合機(jī)器人移動(dòng)又能夠有一根機(jī)械臂操作的,我們今天打造的機(jī)器人就是在一個(gè)移動(dòng)的臺(tái)上,再讓它變成可升降的、可以折疊的。有兩根機(jī)械臂,因?yàn)閮芍皇?,你一只手抱不了箱子,只能抓一個(gè)東西,對(duì)吧??jī)芍皇挚梢陨舷伦笥铱?,那么其?shí)它就是一個(gè)半圓形。

所以說(shuō)我覺(jué)得在未來(lái)的十年里頭,人形機(jī)器人的整個(gè)占比不會(huì)小,但得看跟誰(shuí)比。我們今天跟所有工業(yè)的大機(jī)械臂相比,工業(yè)大機(jī)械臂全球的總產(chǎn)值也就1000億人民幣,并不高,一個(gè)頭部車廠一年就能賣1000億的車,1000億價(jià)值的車,那么人形機(jī)器人我們現(xiàn)在數(shù)10萬(wàn)一臺(tái)的話,實(shí)際上達(dá)到一個(gè)并不是大家覺(jué)得那么高的量級(jí),你就超過(guò)了整個(gè)工業(yè)機(jī)械臂的總產(chǎn)值。我預(yù)計(jì)未來(lái)每三年人形機(jī)器人的產(chǎn)值會(huì)乘10,那么我們現(xiàn)在頭部是賣1000臺(tái),三年后就是1萬(wàn)臺(tái),再三年后就是10萬(wàn)臺(tái)。那么10萬(wàn)臺(tái)級(jí)的量,如果賣幾十萬(wàn)一臺(tái)的話,干活的就達(dá)到了1000億,超過(guò)了一家公司,也超過(guò)了整個(gè)工業(yè)機(jī)械臂的總產(chǎn)值。

所以說(shuō)在未來(lái)10年,我們將看到的是一個(gè)能夠超越當(dāng)前所有工業(yè)機(jī)器人量的機(jī)器人市場(chǎng)。再往后10年,可能是超越汽車手機(jī)這個(gè)市場(chǎng)量的萬(wàn)億市場(chǎng),所以不能低估它,但也沒(méi)有大家想的那么快,說(shuō)明天就達(dá)到汽車這個(gè)市場(chǎng)的額度,是不可能的。

5. 請(qǐng)問(wèn)NVIDIA Jetson Thor與之前的Jetson平臺(tái)有何區(qū)別?它如何特別有利于機(jī)器人應(yīng)用?

Rev正如我之前提到的,每一代Jetson產(chǎn)品,我們都努力最大化其計(jì)算能力,因?yàn)橹悄軉?wèn)題本身就是一個(gè)非常復(fù)雜的計(jì)算難題。在機(jī)器人領(lǐng)域,這一挑戰(zhàn)更大:計(jì)算必須非??焖?,且在極為苛刻的環(huán)境中進(jìn)行。

機(jī)器人往往在現(xiàn)場(chǎng)實(shí)時(shí)運(yùn)行,需要在緊湊的循環(huán)內(nèi)完成計(jì)算,電力有限,因此需要盡可能降低功耗以延長(zhǎng)電池壽命,同時(shí)還要考慮散熱等問(wèn)題。這些因素都極大地增加了難度。Jetson Thor與之前版本最大的不同是,現(xiàn)在具備了足夠的計(jì)算能力,能夠運(yùn)行更大、更強(qiáng)的神經(jīng)網(wǎng)絡(luò)和模型,支持更復(fù)雜的推理任務(wù),這是之前的產(chǎn)品無(wú)法做到的。此外,Jetson Thor擁有更高的帶寬,能更快地處理來(lái)自各種傳感器的大量信息,使機(jī)器人能夠快速反應(yīng),在動(dòng)態(tài)變化的環(huán)境中高速移動(dòng)和操作。

 6. 請(qǐng)教宇樹科技的王總,您曾提到人形機(jī)器人已經(jīng)從當(dāng)前主要應(yīng)用于娛樂(lè)表演的特定場(chǎng)景,逐漸加速進(jìn)入解放工廠和家庭生產(chǎn)力的應(yīng)用。那么您認(rèn)為未來(lái)機(jī)器人在哪些場(chǎng)景會(huì)迎來(lái)大規(guī)模普及?

王興興:未來(lái)肯定是朝著更實(shí)用的方向發(fā)展,但具體速度其實(shí)還需要時(shí)間。無(wú)論是工業(yè)、服務(wù)業(yè)還是家用領(lǐng)域,整個(gè)發(fā)展周期都還挺長(zhǎng)的。大家回顧過(guò)去,比如新能源車,十幾年前大家也覺(jué)得發(fā)展會(huì)很快,但實(shí)際上整體成熟度也花了不少時(shí)間。

每個(gè)產(chǎn)業(yè)的成熟都需要較長(zhǎng)周期。而現(xiàn)在的新一代人機(jī)機(jī)器人或通用機(jī)器人技術(shù),實(shí)際上才發(fā)展了兩三年左右。因?yàn)楝F(xiàn)在用的新技術(shù)跟十幾二十年前完全不同,硬件和軟件都發(fā)生了巨大變化。但很多人提機(jī)器人時(shí),喜歡拿十幾二十年前的東西來(lái)說(shuō),覺(jué)得這個(gè)行業(yè)已經(jīng)發(fā)展了很久,其實(shí)那個(gè)時(shí)候的技術(shù)和現(xiàn)在完全不是一個(gè)水平。在目前只有兩三年發(fā)展時(shí)間的情況下,整體進(jìn)展還需要更多時(shí)間。不過(guò)從當(dāng)前發(fā)展速度來(lái)看,我個(gè)人感覺(jué)行業(yè)仍在快速成長(zhǎng),未來(lái)幾年人員和出貨量基本有望每年翻倍,這對(duì)整個(gè)行業(yè)來(lái)說(shuō)是很有可能實(shí)現(xiàn)的。

基于此,如果未來(lái)出現(xiàn)更強(qiáng)大、更通用的AI大模型,能讓機(jī)器人在工廠、家庭等更多通用場(chǎng)景中表現(xiàn)更好,因?yàn)樵酵ㄓ?,普及的難度就越小。相反,如果不通用,推廣會(huì)更困難。所以我覺(jué)得整體時(shí)間周期會(huì)更長(zhǎng)一些,尤其是家用領(lǐng)域。

家用機(jī)器人的最大難題不是技術(shù),而是倫理、安全等方面的要求極高,這導(dǎo)致家用機(jī)器人的普及門檻要高得多。

 7. 今年,許多人形機(jī)器人已開始在汽車工廠進(jìn)行訓(xùn)練。在您看來(lái),機(jī)器人真正能在工廠車間投入工作還需要多長(zhǎng)時(shí)間?還有哪些關(guān)鍵挑戰(zhàn)需要解決?

王鶴:今年,許多人形機(jī)器人已經(jīng)開始在汽車工廠進(jìn)行訓(xùn)練。我們看到絕大多數(shù)公司在工廠推廣人形機(jī)器人時(shí),主要集中在兩個(gè)方面:一是搬運(yùn),二是分揀。

搬運(yùn)方面,銀河通用最近展示的機(jī)器人視頻里,其搬運(yùn)速度已經(jīng)接近人類水平,計(jì)算下來(lái)每小時(shí)搬運(yùn)的數(shù)量與人類相當(dāng)。這個(gè)階段已經(jīng)非常接近實(shí)際工廠的部署,我預(yù)計(jì)今年年底可能會(huì)有幾十臺(tái)銀河通用的機(jī)器人進(jìn)入工廠車間實(shí)際應(yīng)用。

但是,搬運(yùn)只是第一步。除了搬運(yùn),還需要實(shí)現(xiàn)碼垛的閉環(huán)能力,只有搬運(yùn)和碼垛都完成閉環(huán),機(jī)器人才能真正勝任整套工作流程,否則做一半的任務(wù),效果并不理想。

分揀則是更大的挑戰(zhàn)。不論是從傳送帶上拿,還是從貨架上取貨,目前最大的難點(diǎn)是速度。熟練工人拿取物品的速度非???,機(jī)器人目前在模型和硬件層面還難以達(dá)到這種效率。

我們做零售機(jī)器人時(shí),拿貨架上或桌面上的物品,技術(shù)本質(zhì)上與工業(yè)分揀類似,只是零售對(duì)節(jié)拍要求較低,拿錯(cuò)貨的后果也較輕。但在工業(yè)場(chǎng)景,比如汽車制造廠,一條產(chǎn)線停機(jī)一分鐘可能就意味著損失上萬(wàn)元,因此分揀的精度和速度要求極高。

綜上所述,分揀技術(shù)雖然已有較大進(jìn)展,但目前還未達(dá)到人類工人的水平,仍需要一定時(shí)間的技術(shù)迭代和突破。

 8.NVIDIA 在機(jī)器人訓(xùn)練中強(qiáng)調(diào)仿真優(yōu)先的策略,并推出了一系列支持技術(shù)。然而,仿真到現(xiàn)實(shí)(Sim2Real)之間的差距仍然存在挑戰(zhàn)。NVIDIA 如何與合作伙伴共同應(yīng)對(duì)這一問(wèn)題?能否分享一些具體的客戶案例或合作項(xiàng)目,展示這一方法的有效性?展望未來(lái),提升仿真物理真實(shí)性和增強(qiáng)現(xiàn)實(shí)世界遷移效率的關(guān)鍵方向有哪些?

Rev這是一個(gè)非常好的問(wèn)題。如果我們依賴仿真來(lái)構(gòu)建和測(cè)試AI,就必須確保仿真盡可能接近現(xiàn)實(shí),否則我們無(wú)法信任它。我們構(gòu)建的AI如果是在一個(gè)“卡通世界”里訓(xùn)練的,是無(wú)法真正理解現(xiàn)實(shí)世界的;因此,測(cè)試時(shí)也必須確保仿真場(chǎng)景與現(xiàn)實(shí)相符。那么,如何彌合仿真與現(xiàn)實(shí)之間的差距呢?其實(shí)可以通過(guò)多種方式,我們也在全力推進(jìn)這些方法。

首先,是提升仿真器本身的精度。我們幾十年來(lái)一直在構(gòu)建物理仿真算法,且驗(yàn)證了這些算法能夠較好地反映現(xiàn)實(shí)世界的物理規(guī)律。比如我們利用仿真設(shè)計(jì)飛機(jī)機(jī)翼和汽車,確??諝鈩?dòng)力學(xué)性能,并驗(yàn)證仿真結(jié)果與真實(shí)世界匹配。問(wèn)題是這些高精度仿真計(jì)算成本極高,通常需要在大型計(jì)算機(jī)上運(yùn)行數(shù)小時(shí)。挑戰(zhàn)就在于如何將仿真速度提升到足夠快,能夠嵌入AI訓(xùn)練流程中,實(shí)現(xiàn)大規(guī)模、高效的數(shù)據(jù)生成和測(cè)試。

為此,我們正在利用AI本身作為提升仿真速度和精度的工具。AI能夠近似任何數(shù)學(xué)函數(shù),我們可以將物理仿真函數(shù)轉(zhuǎn)換為AI函數(shù),構(gòu)建AI模擬器完成仿真。只要提供足夠的示例數(shù)據(jù),AI就能學(xué)習(xí)仿真功能。這正是我們正在開發(fā)的“Cosmos”項(xiàng)目。這些“世界基礎(chǔ)模型”是能理解世界物理規(guī)律的AI模型,我們可以將真實(shí)世界數(shù)據(jù)和可信仿真數(shù)據(jù)輸入這些模型進(jìn)行訓(xùn)練。一旦有了這樣理解世界的AI基礎(chǔ)模型,就可以將其與傳統(tǒng)仿真結(jié)合,構(gòu)建更精準(zhǔn)、更高效的仿真器。

其次,即使擁有高質(zhì)量的仿真器,構(gòu)建代表現(xiàn)實(shí)世界的數(shù)據(jù)也非常困難。以這個(gè)房間為例,雖然仿真器可以模擬物理現(xiàn)象,但我們還要?jiǎng)?chuàng)造帶有正確物理參數(shù)(如摩擦系數(shù)、材料特性)的桌布和桌子,這類信息采集非常復(fù)雜。目前,全球只有少數(shù)專業(yè)人士——通常是游戲或電影行業(yè)的藝術(shù)家——具備這類能力。但隨著我們構(gòu)建具備物理理解能力的AI,這些AI可以輔助生成這些虛擬環(huán)境,成為“機(jī)器人藝術(shù)家”,幫助我們高效創(chuàng)建真實(shí)感十足的虛擬世界。

第三種方法是直接捕捉現(xiàn)實(shí)世界。我們也利用物理AI技術(shù)將現(xiàn)實(shí)環(huán)境(例如我們身處的房間)數(shù)字化、導(dǎo)入仿真環(huán)境,確保虛擬場(chǎng)景與現(xiàn)實(shí)高度一致。

NVIDIA正在這三個(gè)方向全面發(fā)力,打造相關(guān)技術(shù),但這項(xiàng)工作遠(yuǎn)超過(guò)任何一家公司的能力。我們正與整個(gè)生態(tài)系統(tǒng)的合作伙伴協(xié)同推進(jìn),爭(zhēng)取在這三條路徑上共同攻關(guān)。事實(shí)上,我們已經(jīng)積累了不少成果,目前已有的仿真器已經(jīng)能夠生成足夠高質(zhì)量的數(shù)據(jù),助力我們提升AI性能。

 9. 我想請(qǐng)教宇樹科技的王總,謝謝。當(dāng)前一些專家認(rèn)為,目前機(jī)器人領(lǐng)域的大模型架構(gòu)尚未統(tǒng)一。針對(duì)具身智能大腦的基礎(chǔ)模型,語(yǔ)數(shù)科技主要聚焦哪些方向的探索?能否透露一些具體內(nèi)容?

王興興:我一直覺(jué)得目前的模型架構(gòu)確實(shí)非常不統(tǒng)一,這導(dǎo)致大家的整體進(jìn)展沒(méi)有那么快。如果模型架構(gòu)能更加統(tǒng)一、方向明確,結(jié)合當(dāng)前行業(yè)熱度,大家其實(shí)能更快取得突破。但現(xiàn)實(shí)是,目前進(jìn)展還是比較緩慢。

我們公司探索了很多方向。比如今年上午也展示了我們?nèi)ツ陣L試的一個(gè)用視頻生成模型作為“世界模型”,來(lái)驅(qū)動(dòng)并對(duì)齊機(jī)械臂的項(xiàng)目,這個(gè)嘗試取得了一定效果。但由于視頻生成模型訓(xùn)練規(guī)模極大,考慮到我們公司的算力和投入,難以進(jìn)行大規(guī)模訓(xùn)練。

而且我們嘗試發(fā)現(xiàn),這類模型的泛用性還不能完全滿足預(yù)期,因此后來(lái)基本沒(méi)有繼續(xù)使用。但最近谷歌發(fā)布了一個(gè)新的視頻生成模型,其物理對(duì)齊效果非常好,并且他們公開嘗試把視頻生成模型作為世界模型,直接用于機(jī)械臂和通用智能。這讓我覺(jué)得這個(gè)方向非常值得重新探索。

由于公司規(guī)模和算力人才限制,我們只是初步探索,沒(méi)有深入推進(jìn)。但谷歌的成果證明這個(gè)方向很有潛力。視頻生成模型在時(shí)間內(nèi)容、數(shù)據(jù)源以及效果方面,已經(jīng)達(dá)到不錯(cuò)的預(yù)期。舉例來(lái)說(shuō),如果控制視頻生成模型生成一個(gè)機(jī)器人打掃全屋的視頻,而且效果不錯(cuò),理論上只要把視頻與機(jī)器人動(dòng)作對(duì)齊,也能實(shí)現(xiàn)類似效果。

不過(guò),目前對(duì)齊工作仍然非常復(fù)雜且具有挑戰(zhàn)性。這個(gè)方向無(wú)論是對(duì)機(jī)器人應(yīng)用,還是純視頻生成技術(shù)本身,都是非常主流且值得投入的。即便不用于機(jī)器人,視頻生成技術(shù)也會(huì)持續(xù)被大公司加大投入、不斷優(yōu)化。

除此之外,還有其他方案。隨著基礎(chǔ)模型能力快速提升,很多潛力尚未被充分挖掘。我們發(fā)現(xiàn),如果在基礎(chǔ)模型后訓(xùn)練時(shí)加入機(jī)器人指令控制和空間理解訓(xùn)練,效果能明顯提升。比如王賀老師團(tuán)隊(duì)展示的一些基于基礎(chǔ)模型的機(jī)器人控制效果就非常不錯(cuò)。

我們公司的策略很簡(jiǎn)單:不斷嘗試各種新模型和新想法。今天可能有一種想法,明天可能會(huì)調(diào)整,這很正常。對(duì)于新興技術(shù),我認(rèn)為大家都應(yīng)該大膽嘗試。AI領(lǐng)域充滿了可能性,往往一個(gè)靈光一閃的創(chuàng)意就能帶來(lái)突破。希望鼓勵(lì)更多人去探索,或許下一個(gè)創(chuàng)新就出自你手。

10.想請(qǐng)教銀河通用的王總,不知道這個(gè)問(wèn)題是否合適。我們看到OpenAI最近發(fā)布了GPT-5,給人的印象是技術(shù)突破不大,而且它更像是一個(gè)系統(tǒng),而非單一模型。我們是否可以理解為大模型的擴(kuò)展定律(Scaling Law)遇到了一些挑戰(zhàn)?

王鶴:目前大模型類型繁多,有純文本大模型,有圖文大模型,圖文大模型又分為視覺(jué)理解型和視頻生成型,包括我們具身智能的VLA也是一種大模型。所以說(shuō),是否可以說(shuō)大模型的擴(kuò)展遇到了瓶頸,無(wú)法簡(jiǎn)單地用一個(gè)統(tǒng)一的結(jié)論來(lái)概括。
我理解,在當(dāng)前純文本階段,我們主要的數(shù)據(jù)源是互聯(lián)網(wǎng)公開數(shù)據(jù),但很多私域知識(shí)并不在網(wǎng)上,這導(dǎo)致模型的推理能力實(shí)際上需要的數(shù)據(jù)與公開數(shù)據(jù)有差異。除非能通過(guò)某種可控的方式獲得額外數(shù)據(jù)增強(qiáng),否則單靠公開數(shù)據(jù)提升模型能力是有限的。

這部分能力的增長(zhǎng),并不會(huì)自然地通過(guò)單純擴(kuò)大模型規(guī)模實(shí)現(xiàn)。但不能低估推理模型的進(jìn)展,比如在IMO國(guó)際數(shù)學(xué)競(jìng)賽上,文模型獲得金牌,面對(duì)從未見過(guò)的題目表現(xiàn)出色,這說(shuō)明文本大模型的能力在不斷提升。

關(guān)于多模態(tài)大模型(比如VLM和VLA),如果說(shuō)文本模型現(xiàn)在能力已經(jīng)很強(qiáng)了,那么多模態(tài)模型目前還處于比語(yǔ)言模型稍弱的階段。其核心原因是數(shù)據(jù)不足:文本數(shù)據(jù)非常豐富,而文本-圖像配對(duì)數(shù)據(jù)相對(duì)較少,再加上動(dòng)作數(shù)據(jù)更少,因此視覺(jué)理解能力和基于視覺(jué)的動(dòng)作操作能力還有較大差距。

這也是為什么合成數(shù)據(jù)和仿真技術(shù)非常重要。正如Rev所說(shuō),仿真能夠?qū)⒄鎸?shí)世界場(chǎng)景和動(dòng)作復(fù)現(xiàn)到虛擬環(huán)境,生成大量帶動(dòng)作、圖像和語(yǔ)義配對(duì)的數(shù)據(jù),這將極大促進(jìn)圖文、多模態(tài)大模型及具身智能大模型的發(fā)展。

如果完全依賴真實(shí)數(shù)據(jù),進(jìn)展會(huì)受到很大限制??傮w來(lái)看,充分利用仿真技術(shù),我相信將是多模態(tài)大模型和具身大模型應(yīng)對(duì)數(shù)據(jù)瓶頸的最有效途徑。

 11. 想請(qǐng)教銀河通用的王鶴總:在您看來(lái),目前限制人形機(jī)器人規(guī)?;渴鸬年P(guān)鍵技術(shù)瓶頸是什么?

王鶴:最核心的問(wèn)題其實(shí)很簡(jiǎn)單——就是機(jī)器人干活的能力還不夠強(qiáng),能完成的任務(wù)類型比較有限。但如果能在這些有限的技能范圍內(nèi)實(shí)現(xiàn)非常通用的水平,就能一下子賦能很多場(chǎng)景。

銀河通用現(xiàn)在最主要的突破是“抓取”和“移動(dòng)”。只要機(jī)器人能抓住任何物體,能夠在場(chǎng)景中實(shí)現(xiàn)下肢移動(dòng)和上肢伸展,最后還能準(zhǔn)確放置物體,

這三個(gè)能力成立的話,很多應(yīng)用場(chǎng)景就能實(shí)現(xiàn)。背后需要有一個(gè)真正精準(zhǔn)的目標(biāo)識(shí)別和定位系統(tǒng),我們目前是通過(guò)合成數(shù)據(jù)在推動(dòng)這項(xiàng)技術(shù)。

當(dāng)然,即使解決了這個(gè)關(guān)鍵問(wèn)題,仍有很多任務(wù)機(jī)器人暫時(shí)無(wú)法完成。但只要目標(biāo)識(shí)別和定位的問(wèn)題能被攻克,人形機(jī)器人市場(chǎng)至少有千億級(jí)規(guī)模,并且在五年內(nèi)可見成效。解決了這個(gè)關(guān)鍵技術(shù)瓶頸后,基于如此巨大的市場(chǎng)投入,機(jī)器人必然能解鎖更多技能,邁向萬(wàn)億市場(chǎng)的步伐。

 12. 請(qǐng)教宇樹科技的王興興總,這是一個(gè)比較老的問(wèn)題:機(jī)器人為什么要做雙足?除了情感價(jià)值,雙足在商業(yè)上還有哪些考慮?

王興興:其實(shí),某種意義上我以前也提過(guò),為什么不做雙腿反而是一個(gè)值得思考的問(wèn)題。因?yàn)樽鲭p腿其實(shí)相對(duì)方便,最重要的是雙腿提供了更多的通用性能力。運(yùn)動(dòng)能力本身在某種程度上是較弱的AI能力。你看,小動(dòng)物甚至螞蟻、蟲子走路都非常好,但它們的AI能力其實(shí)很弱。所以我一直覺(jué)得,真正通用且能干活的具身AI模型,移動(dòng)能力或者腿的能力其實(shí)是附屬的。

如果機(jī)器人能干活了,那腿的控制自然不會(huì)差;如果連腿都控制不好,說(shuō)明它還沒(méi)達(dá)到大家想象中的非常通用的AI模型階段。所以這是一個(gè)發(fā)展方向。另外,因?yàn)殡p腿相對(duì)簡(jiǎn)單,盡管仍有挑戰(zhàn),我們公司本身就是做腿的,所以對(duì)我們來(lái)說(shuō)這是順理成章而且有趣的事情。大家普遍也很喜歡這個(gè)方向。而且如果大家都做輪式底盤,反而會(huì)導(dǎo)致同質(zhì)化競(jìng)爭(zhēng),沒(méi)必要。我們公司專注于腿部,希望提升機(jī)器人整體的運(yùn)動(dòng)和干活能力,這個(gè)方向非常不錯(cuò)。我自己也做輪式底盤,我覺(jué)得輪式和腿式是有差距的,且隨著時(shí)間不同會(huì)變化。目前輪式底盤在工業(yè)開闊場(chǎng)景和貨架間穿梭非常穩(wěn)定且能耗低,但在復(fù)雜環(huán)境中可能通不過(guò)。如果底盤做得更小,穩(wěn)定性會(huì)喪失。所以不同時(shí)間點(diǎn),機(jī)器人下半身的方案肯定不同。我堅(jiān)信腿是未來(lái),因?yàn)樗軐?shí)現(xiàn)上半身所有可達(dá)空間,并且能靈活調(diào)動(dòng)腰部的靈活度。但在不同階段,會(huì)有最適合落地應(yīng)用的形態(tài),我們也不會(huì)局限于單一方案。我們同時(shí)用輪式底盤和語(yǔ)數(shù)的人形機(jī)器人做下半身甚至全身的控制研究。

 13. 我們知道物理AI,特別是機(jī)器人領(lǐng)域,對(duì)能耗、熱管理和體積限制有很高的要求。請(qǐng)問(wèn)NVIDIA是如何應(yīng)對(duì)這些挑戰(zhàn)的?未來(lái)的計(jì)算平臺(tái)又將如何滿足這些需求?

Rev回顧歷史,NVIDIA每一代產(chǎn)品都會(huì)大幅提升每瓦性能和每美元性能。過(guò)去我們有摩爾定律,意味著計(jì)算能力會(huì)以指數(shù)速度增長(zhǎng)——在最佳階段,每五年性能提升10倍,十年提升100倍。但單靠摩爾定律已經(jīng)不足以解決我們面臨的許多問(wèn)題。我們預(yù)見到,摩爾定律在CPU和通用計(jì)算機(jī)上的效用會(huì)逐漸終結(jié)。為此,我們致力于打造針對(duì)特定算法的專用計(jì)算機(jī)。這種專用計(jì)算機(jī)不僅僅是芯片層面,更需要算法、軟件以及應(yīng)用層面的整體優(yōu)化,才能發(fā)揮最大性能。這并非靠單一因素,比如芯片變小或變快,而是通過(guò)全棧優(yōu)化實(shí)現(xiàn)的。這是一項(xiàng)非常艱難的工程,也正是NVIDIA的核心競(jìng)爭(zhēng)力所在。

我們最初應(yīng)用這套方法于計(jì)算機(jī)圖形渲染(尤其是游戲領(lǐng)域),隨后推廣到其他領(lǐng)域。CUDA推出后,我們開始應(yīng)用于物理仿真,后來(lái)深度學(xué)習(xí)和AI在GPU上興起,我們不斷專門化處理器。每一代產(chǎn)品,在相同功耗和成本下都實(shí)現(xiàn)了顯著的性能飛躍,未來(lái)仍會(huì)持續(xù),因?yàn)槲覀兊膭?chuàng)新之路還遠(yuǎn)未走完。

 14. 關(guān)于中國(guó)市場(chǎng),相比其他國(guó)家,您怎么看中國(guó)AI的需求和實(shí)踐中的挑戰(zhàn)?

Rev中國(guó)既是一個(gè)重要的市場(chǎng),也是AI技術(shù)和產(chǎn)品的生產(chǎn)基地。正如我之前提到的,中國(guó)擁有大量聰明、受過(guò)良好教育且充滿熱情的AI研究人員和開發(fā)者,全球近一半頂尖AI人才都集中在這里,且中國(guó)擁有頂尖的AI高校。

在物理AI和機(jī)器人領(lǐng)域,中國(guó)擁有獨(dú)特的規(guī)模優(yōu)勢(shì),結(jié)合人才優(yōu)勢(shì),形成了獨(dú)一無(wú)二的生態(tài)系統(tǒng)。中國(guó)在制造電子硬件和機(jī)器人所需關(guān)鍵部件方面具備深厚的專業(yè)能力,這樣的生態(tài)體系和制造規(guī)模是其他國(guó)家難以匹敵的。這使得像銀河通用、宇樹科技這樣的企業(yè),能夠大規(guī)模制造機(jī)器人,快速學(xué)習(xí)和迭代。中國(guó)獨(dú)特的綜合條件為物理AI和機(jī)器人產(chǎn)業(yè)的快速發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

每日經(jīng)濟(jì)新聞綜合自公開信

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

1

0