国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta蔡志鵬新作VLM3:全面揭示三維視覺的Bitter Lesson

0
分享至



蔡志鵬博士(https://zhipengcai.github.io/)是美國 Meta 公司的高級研究員,博士畢業(yè)于澳大利亞阿德萊德大學(xué)。他的研究主要集中在 Physical Intelligence,包括三維視覺、多模態(tài)大模型等。他的工作已在領(lǐng)域頂級會議雜志上發(fā)表超過 20 篇。其中 10 篇文章被選為頂級會議口頭或特邀報(bào)告,對魯棒估計(jì)計(jì)算復(fù)雜度的理論證明工作被選為 ECCV18 12 篇最佳論文之一。

Meta 發(fā)布了一項(xiàng)令人震撼的研究工作 VLM3,首次揭示了三維視覺學(xué)習(xí)的 Bitter Lesson:標(biāo)準(zhǔn)的視覺語言模型 + scale 數(shù)據(jù)就是最簡單有效的范式,針對特定任務(wù)的架構(gòu)、損失函數(shù)以及數(shù)據(jù)增強(qiáng)的設(shè)計(jì),甚至是 regression 的 formulation,均不是三維視覺學(xué)習(xí)的必要條件。



當(dāng)前的視覺語言 AI 模型(Vision Language Models, VLMs)通過統(tǒng)一的模型架構(gòu)能夠靈活處理各類不同的視覺任務(wù)。然而,盡管在語義理解、視覺問答、圖像指令等任務(wù)上表現(xiàn)優(yōu)異,它們在三維視覺方面仍然表現(xiàn)不佳。相比之下,專家視覺模型(expert vision models)在絕對深度估計(jì)(metric depth estimation)等三維理解任務(wù)上,憑借專門設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)及數(shù)據(jù)增強(qiáng),已經(jīng)達(dá)到了超越人類的精度。

這就帶來了一個核心問題:「視覺語言模型是否在三維視覺學(xué)習(xí)方面無法替代專家模型?」VLM3 首次證明了該問題的答案是否定的!

VLM3 通過極簡的設(shè)計(jì),在極為多樣的三維視覺任務(wù)中媲美或超越專家視覺模型,并大幅超越最先進(jìn)的視覺語言模型:1)在單目深度估計(jì)上 match UnidepthV2 及 MoGe2;2)在目標(biāo)級三維理解任務(wù)上超越 SpatialRGPT;3)在像素匹配任務(wù)上超越 DKM 和 RoMa;4)在相機(jī)姿態(tài)估計(jì)上 match DA3,超越 VGGT。



  • 論文地址:https://arxiv.org/pdf/2605.30561
  • 代碼地址:https://github.com/facebookresearch/VLM3

二、亮點(diǎn)

在此之前,即便是最先進(jìn)的 VLM 在標(biāo)準(zhǔn)的三維視覺任務(wù)中均遠(yuǎn)遠(yuǎn)落后于專家視覺模型。

VLM3 通過詳盡的實(shí)驗(yàn)發(fā)現(xiàn),標(biāo)準(zhǔn)的 VLM 僅需要 1)相機(jī)焦距歸一化;2)像素空間歸一化,就能夠以令人驚嘆的簡潔方式有效學(xué)會各類三維視覺模型,在 1)單目深度估計(jì)中 match UniDepthV2 及 MoGe2;2)在目標(biāo)級別三維理解超越 SpatialRGPT;3)在像素匹配任務(wù)上超越 DKM 和 RoMa;4)在相機(jī)姿態(tài)估計(jì)上 match DA3 并超越 VGGT。



和之前的三維視覺 VLM 不同,VLM3 既不需要改變 VLM 的架構(gòu),也不需要在圖片上渲染 marker。相比于專家視覺模型需要大量的架構(gòu)、損失函數(shù)及數(shù)據(jù)增強(qiáng)方面的復(fù)雜設(shè)計(jì),VLM3 僅需要標(biāo)準(zhǔn)的 VLM 架構(gòu)(如 Qwen3-vl-4B)和訓(xùn)練(基于文字的 SFT)就能夠在極為多樣的三維任務(wù)上達(dá)到 SOTA。

這種簡潔的訓(xùn)練推翻了之前三維視覺的學(xué)習(xí)范式,并揭示了三維視覺的 Bitter Lesson:我們其實(shí)完全不需要針對特定三維視覺任務(wù)人為設(shè)計(jì)復(fù)雜的架構(gòu)、損失函數(shù)及數(shù)據(jù)增強(qiáng)。通過簡單的視覺語言建模 + scale 數(shù)據(jù)就能夠達(dá)到同樣的效果,并且于其他非三維視覺任務(wù)在統(tǒng)一的語言模型訓(xùn)練框架下完全兼容。這使得三維視覺不再需要與視覺語言模型的大規(guī)模預(yù)訓(xùn)練分離,同時我們能夠使用同樣的方式來實(shí)現(xiàn)三維視覺的 scaling law。

同時 VLM3 的成功也意味著三維視覺的學(xué)習(xí)遠(yuǎn)比我們想象中的要容易:除開不需要特殊架構(gòu)、損失函數(shù)等,我們甚至可以不依賴回歸(regression)來學(xué)會 fine-grained 3D understanding,這在之前的工作中是難以想象的,因?yàn)樵谶B續(xù)的輸出空間進(jìn)行回歸是絕大多數(shù)三維視覺模型的核心設(shè)計(jì)。

三、主要結(jié)果 / 性能對比

在四大三維視覺任務(wù)上性能顯著優(yōu)于最先進(jìn)的 VLM

在單目深度估計(jì)上將 DepthLM 的準(zhǔn)確率從 84 提升至 90,并且訓(xùn)練及推理更加簡單高效,無需渲染 marker。

在目標(biāo)級別三維理解上用同樣的訓(xùn)練數(shù)據(jù)超越 SpatialRGPT,并且無需額外的 encoder,模型參數(shù)少一半(4B vs 8B)。

在多視角幾何任務(wù)上如像素匹配及相機(jī)姿態(tài)估計(jì)上遠(yuǎn)超 Qwen3-vl-32B。



同時在與先進(jìn)的專家視覺模型(如 MoGe2、DA3、RoMa 等)的對比中,VLM3 也毫不遜色,并且完全不需要復(fù)雜的架構(gòu)、損失函數(shù)及數(shù)據(jù)增強(qiáng)。





四、意義 / 應(yīng)用前景

VLM3 重新定義了三維視覺的最佳學(xué)習(xí)范式:最簡單的 generalist 架構(gòu)如 VLM 及 scaling 就是最通用的三維視覺范式!過去三維視覺領(lǐng)域普遍采用的人為的 task-specific 的設(shè)計(jì)并非必須。

這將極大程度地簡化三維基礎(chǔ)模型的構(gòu)建。通過將三維視覺任務(wù)融入視覺語言模型的預(yù)訓(xùn)練,我們也能有效地兼容三維視覺與其它視覺任務(wù),并將 VLM 的優(yōu)勢,及靈活性與泛化性從語義及二維視覺任務(wù)有效拓展至三維視覺,極大程度提升模型的能力上限。

結(jié)語

VLM3 的出現(xiàn),首次打通了視覺語言模型與三維視覺之間的壁壘,使得統(tǒng)一的架構(gòu)就能夠簡潔地學(xué)會各類視覺任務(wù),并達(dá)到專家模型的性能。這既是科研層面的里程碑,也為未來在實(shí)際系統(tǒng)中統(tǒng)一多模態(tài)推理能力提供了可能。我們期待 VLM3 后續(xù)在機(jī)器人、自動駕駛、增強(qiáng)現(xiàn)實(shí)等場景中的落地應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
套路真深?。‘惖啬猩s在女友生理期奔現(xiàn),坦言就是“想你了”

套路真深??!異地男生趕在女友生理期奔現(xiàn),坦言就是“想你了”

火山詩話
2026-06-16 06:44:57
江蘇省副省長陳忠偉任江蘇省委常委

江蘇省副省長陳忠偉任江蘇省委常委

澎湃新聞
2026-06-16 18:52:26
打遍四鄰的沙俄,每臨大事必打東方牌?屢試不爽還是黔驢技窮

打遍四鄰的沙俄,每臨大事必打東方牌?屢試不爽還是黔驢技窮

鶴羽說個事
2026-06-15 22:53:30
伊朗隊(duì)被勒令離開美國!主教練:伊朗隊(duì)可能是本屆世界杯上最受壓迫的球隊(duì)

伊朗隊(duì)被勒令離開美國!主教練:伊朗隊(duì)可能是本屆世界杯上最受壓迫的球隊(duì)

新民周刊
2026-06-16 21:16:26
日媒曝光高市在G7上狂噴中國,揚(yáng)言聯(lián)合起來圍堵中方,刻不容緩

日媒曝光高市在G7上狂噴中國,揚(yáng)言聯(lián)合起來圍堵中方,刻不容緩

阿腩講娛樂
2026-06-17 06:32:33
突發(fā)!52歲葡萄牙主帥世界杯后離任 執(zhí)教3年半率隊(duì)奪1冠 去向曝光

突發(fā)!52歲葡萄牙主帥世界杯后離任 執(zhí)教3年半率隊(duì)奪1冠 去向曝光

我愛英超
2026-06-17 00:36:12
身價(jià)5萬歐元零封5億歐元豪門,40歲佛得角門將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號一夜暴漲百萬粉絲

身價(jià)5萬歐元零封5億歐元豪門,40歲佛得角門將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號一夜暴漲百萬粉絲

揚(yáng)子晚報(bào)
2026-06-16 11:22:16
掘金徹底重建!約基奇的話也不聽了,全隊(duì)僅1人非賣,戈登遭哄搶

掘金徹底重建!約基奇的話也不聽了,全隊(duì)僅1人非賣,戈登遭哄搶

你的籃球頻道
2026-06-17 07:58:59
貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

西樓知趣雜談
2026-06-13 19:52:21
剛剛,馬斯克拿下Cursor,SpaceX大漲17%!

剛剛,馬斯克拿下Cursor,SpaceX大漲17%!

智東西
2026-06-17 00:15:29
梅毒去世的人越來越多?醫(yī)生再次強(qiáng)調(diào):寧可看電影,也別做這4事

梅毒去世的人越來越多?醫(yī)生再次強(qiáng)調(diào):寧可看電影,也別做這4事

醫(yī)學(xué)科普匯
2026-06-16 23:50:03
數(shù)百名醫(yī)生已證實(shí):甲鈷胺的真相,最好花點(diǎn)時間看看

數(shù)百名醫(yī)生已證實(shí):甲鈷胺的真相,最好花點(diǎn)時間看看

荊醫(yī)生科普
2026-06-17 07:00:20
曝上海驚現(xiàn)生育搭子!沒有婚姻、合作生娃,評論區(qū)竟有不少人支持

曝上海驚現(xiàn)生育搭子!沒有婚姻、合作生娃,評論區(qū)竟有不少人支持

譚談社會
2026-06-14 19:57:40
央媒發(fā)聲!養(yǎng)路費(fèi)改革落地,油電車輛統(tǒng)一征收不一刀切

央媒發(fā)聲!養(yǎng)路費(fèi)改革落地,油電車輛統(tǒng)一征收不一刀切

生活魔術(shù)專家
2026-06-17 02:52:55
美俄同天摔轟炸機(jī)!為何美軍B-52H的損失更致命?

美俄同天摔轟炸機(jī)!為何美軍B-52H的損失更致命?

牲產(chǎn)隊(duì)
2026-06-16 23:06:38
盧卡申科澄清:不參與攻擊烏克蘭,一旦開戰(zhàn)白俄將“難以招架”!

盧卡申科澄清:不參與攻擊烏克蘭,一旦開戰(zhàn)白俄將“難以招架”!

深度解析熱點(diǎn)
2026-06-17 10:10:26
凱斯勒拒絕爵士5年1.4億!湖媒盼5年1.3億搶人:先簽后換愿出首輪

凱斯勒拒絕爵士5年1.4億!湖媒盼5年1.3億搶人:先簽后換愿出首輪

顏小白的籃球夢
2026-06-17 09:36:40
梅西對陣阿爾及利亞梅開二度,距追平克洛澤世界杯紀(jì)錄差1球

梅西對陣阿爾及利亞梅開二度,距追平克洛澤世界杯紀(jì)錄差1球

懂球帝
2026-06-17 10:40:40
中方駁斥歐盟指責(zé)我國訓(xùn)練俄羅斯軍隊(duì)

中方駁斥歐盟指責(zé)我國訓(xùn)練俄羅斯軍隊(duì)

史政先鋒
2026-06-16 21:02:55
穆里尼奧鐵腕立威!皇馬 372 場功勛遭清洗!全隊(duì)大半人都嫌他

穆里尼奧鐵腕立威!皇馬 372 場功勛遭清洗!全隊(duì)大半人都嫌他

瀾歸序
2026-06-17 04:09:35
2026-06-17 10:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142671關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

頭條要聞

一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

體育要聞

身價(jià)5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

百花獎名單惹爭議,這5位實(shí)在可惜!

財(cái)經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

親子
教育
時尚
旅游
數(shù)碼

親子要聞

初為人父,爸爸大腦會“縮水又重塑”?兩項(xiàng)研究:新手父親大腦會發(fā)生結(jié)構(gòu)性改造,全皮層灰質(zhì)體積顯著縮減 0.76%–1.14%

教育要聞

沒人覺得現(xiàn)在的課桌太小了嗎?書包放不下、腿伸不直,學(xué)生每天都在忍

夏天最好看的6只包!照著搭美出新高度

旅游要聞

曲靖馬龍:向日葵花開成海 高鐵飛馳入畫來

數(shù)碼要聞

技嘉B850M背插MicroATX主板即將發(fā)布:支持后置布線以隱藏線路

無障礙瀏覽 進(jìn)入關(guān)懷版