中國(guó)團(tuán)隊(duì)視頻訓(xùn)練機(jī)器人技術(shù)領(lǐng)先特斯拉,具身智能迎來“零示教”革命
當(dāng)特斯拉宣布Optimus機(jī)器人將摒棄傳統(tǒng)動(dòng)作捕捉方案,轉(zhuǎn)而借助員工日常操作視頻開展訓(xùn)練時(shí),這一決策猶如投入湖面的巨石,在業(yè)界激起千層浪。但鮮為人知的是,早在特斯拉轉(zhuǎn)向視頻學(xué)習(xí)前半年,中國(guó)團(tuán)隊(duì)跨維智能就已通過YOTO技術(shù)框架,實(shí)現(xiàn)了僅用30秒視頻訓(xùn)練機(jī)械臂完成米其林級(jí)精細(xì)操作。這場(chǎng)由中國(guó)人主導(dǎo)的“零示教”革命,正在重新定義全球機(jī)器人學(xué)習(xí)的未來。
image特斯拉轉(zhuǎn)向視頻學(xué)習(xí)的背后:中國(guó)技術(shù)已搶先落地
image特斯拉Optimus放棄動(dòng)作捕捉服和虛擬現(xiàn)實(shí)設(shè)備,轉(zhuǎn)而采用工人操作視頻訓(xùn)練機(jī)器人的決策,看似是技術(shù)路線的重大突破,實(shí)則驗(yàn)證了中國(guó)團(tuán)隊(duì)的前瞻性??缇S智能的YOTO技術(shù)框架早在2025年初就實(shí)現(xiàn)了僅憑單條雙目視覺人類視頻,讓雙臂機(jī)器人零示教復(fù)現(xiàn)復(fù)雜長(zhǎng)程操作。其演示案例中,機(jī)械臂通過30秒短視頻學(xué)會(huì)了米其林餐廳級(jí)的協(xié)同操作,且無需采集大量真機(jī)數(shù)據(jù),展現(xiàn)出遠(yuǎn)超傳統(tǒng)方法的泛化能力。
image這一突破不僅早于特斯拉半年落地,更被機(jī)器人頂會(huì)RSS收錄為論文。當(dāng)特斯拉還在探索如何用視頻訓(xùn)練機(jī)器人折疊T恤時(shí),中國(guó)技術(shù)已證明視頻學(xué)習(xí)在效率與精度上的雙重優(yōu)勢(shì)。
從動(dòng)作捕捉到視頻學(xué)習(xí):技術(shù)路線的范式革新
傳統(tǒng)機(jī)器人訓(xùn)練依賴動(dòng)作捕捉技術(shù),需要真人穿戴設(shè)備反復(fù)演示,數(shù)據(jù)采集成本高且泛化性差。而視頻學(xué)習(xí)模式徹底重構(gòu)了這一流程:數(shù)據(jù)來源上,僅需普通人類操作視頻;遷移效率上,跨維智能證明30秒視頻即可完成復(fù)雜技能遷移;行業(yè)標(biāo)準(zhǔn)上,特斯拉的跟進(jìn)標(biāo)志著“視頻即代碼”成為新范式。
特斯拉機(jī)械工程師Milan Kovac坦言,神經(jīng)網(wǎng)絡(luò)訓(xùn)練使Optimus能執(zhí)行電池排列等任務(wù),但中國(guó)團(tuán)隊(duì)的技術(shù)路徑更徹底——直接跳過真機(jī)示教階段,實(shí)現(xiàn)從視頻到動(dòng)作的無縫轉(zhuǎn)換。這種范式革新將機(jī)器人學(xué)習(xí)成本降低了一個(gè)數(shù)量級(jí)。
國(guó)際頂會(huì)背書:中國(guó)技術(shù)如何定義全球機(jī)器人學(xué)習(xí)未來
跨維智能論文被RSS頂會(huì)收錄的事件,標(biāo)志著中國(guó)技術(shù)首次在機(jī)器人學(xué)習(xí)領(lǐng)域獲得國(guó)際學(xué)界規(guī)則制定權(quán)。值得注意的是,李飛飛團(tuán)隊(duì)與FigureAI同期開展的視頻學(xué)習(xí)研究,均晚于中國(guó)團(tuán)隊(duì)的實(shí)踐成果。
特斯拉官方視頻中“從互聯(lián)網(wǎng)視頻學(xué)習(xí)”的表述,進(jìn)一步佐證了這一趨勢(shì)的不可逆性。當(dāng)Optimus通過觀看人類視頻學(xué)會(huì)清潔、烹飪時(shí),其底層邏輯與中國(guó)團(tuán)隊(duì)的技術(shù)框架高度吻合。這種技術(shù)共振現(xiàn)象,揭示了中國(guó)從跟隨者到引領(lǐng)者的角色轉(zhuǎn)變。
具身智能的下一站:視頻學(xué)習(xí)將如何重塑產(chǎn)業(yè)
視頻學(xué)習(xí)技術(shù)的爆發(fā)正在打開三大場(chǎng)景:制造業(yè)中,機(jī)械臂可通過工人操作視頻快速掌握產(chǎn)線技能;服務(wù)業(yè)里,類似特斯拉爆米花機(jī)器人的互動(dòng)服務(wù)將普及;家庭場(chǎng)景下,清潔、烹飪等長(zhǎng)尾任務(wù)可通過日常視頻訓(xùn)練解決。
國(guó)盛證券研報(bào)指出,這一變革將帶動(dòng)視覺導(dǎo)航、傳感器等技術(shù)融合爆發(fā)。從特斯拉工廠的電池分揀到跨維智能的米其林幫廚,視頻學(xué)習(xí)正在消弭機(jī)器人與人類技能的鴻溝。
結(jié)語(yǔ):一場(chǎng)由中國(guó)團(tuán)隊(duì)引爆的機(jī)器人認(rèn)知革命
從特斯拉Optimus的轉(zhuǎn)型到跨維智能的技術(shù)落地,視頻學(xué)習(xí)正在重構(gòu)具身智能的發(fā)展軌跡。中國(guó)團(tuán)隊(duì)用30秒視頻訓(xùn)練機(jī)械臂的突破,不僅驗(yàn)證了技術(shù)路線的正確性,更讓“未來已來”的預(yù)言加速照進(jìn)現(xiàn)實(shí)。當(dāng)機(jī)器人學(xué)會(huì)像人類一樣觀察與模仿時(shí),這場(chǎng)認(rèn)知革命的震中,已然東移。
