国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李飛飛李曼玲團(tuán)隊(duì)發(fā)布空間理論:AI的空間智能還在三歲小孩階段

0
分享至

1983 年,心理學(xué)家設(shè)計(jì)了一個(gè)簡(jiǎn)單實(shí)驗(yàn):Sally 把彈珠放進(jìn)籃子然后離開(kāi),Anne 趁她不注意把彈珠挪到盒子里。問(wèn)題是,Sally 回來(lái)后,會(huì)去哪里找彈珠?

四歲孩子能答對(duì):去籃子,因?yàn)?Sally 不知道彈珠被移走了。三歲以下的孩子會(huì)答錯(cuò),他們分不清“自己知道”和“別人知道”的區(qū)別。這就是發(fā)展心理學(xué)里著名的 Sally-Anne 測(cè)試,它標(biāo)定了人類(lèi)認(rèn)知發(fā)展的一道重要分水嶺。這種能力被稱(chēng)為“心智理論”(Theory of Mind)。


(動(dòng)圖來(lái)源:受訪者)

四十多年后,美國(guó)斯坦福大學(xué)李飛飛教授和美國(guó)西北大學(xué)李曼玲教授團(tuán)隊(duì)把這個(gè)實(shí)驗(yàn)搬到了 AI 面前,只不過(guò)這次考察的是物理世界。他們?cè)O(shè)計(jì)了一套叫“空間理論”(Theory of Space)的評(píng)估框架,目的是想弄清楚一件事:當(dāng)大模型必須自己去探索、去發(fā)現(xiàn)、去拼湊信息時(shí),它的空間智能究竟進(jìn)化到了哪一級(jí)?


圖 | 從左到右:李飛飛、李曼玲(來(lái)源:資料圖)

從被動(dòng)答題到主動(dòng)探索,AI 掉了好幾個(gè)臺(tái)階

傳統(tǒng)測(cè)試 AI 空間能力的方式,有點(diǎn)像開(kāi)卷考試。給一張圖,問(wèn)里面物體的位置關(guān)系,模型答對(duì)了就算過(guò)關(guān)。前沿模型在這種測(cè)試?yán)锏梅侄疾诲e(cuò),讓人以為它們已經(jīng)挺懂空間了。

但李飛飛和李曼玲團(tuán)隊(duì)覺(jué)得這還不夠。真實(shí)世界不是開(kāi)卷考,沒(méi)有人會(huì)把所有信息一次性擺在你面前。你推開(kāi)一扇門(mén)只看到客廳一角,走過(guò)走廊瞥見(jiàn)臥室一角,要理解整個(gè)房子的布局,你得把這些碎片拼起來(lái),還得知道自己還有什么沒(méi)看到,下一步該往哪看。

研究中,他們?cè)O(shè)計(jì)了一套測(cè)試環(huán)境,有文本版和視覺(jué)版兩種,讓模型在多個(gè)房間里主動(dòng)探索,收集信息,構(gòu)建腦海中的認(rèn)知地圖。過(guò)去評(píng)估只看最終答對(duì)答錯(cuò),這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測(cè)這張認(rèn)知地圖,在每個(gè)時(shí)間步輸出自己認(rèn)為物體都在什么位置。


(動(dòng)圖來(lái)源:受訪者)

結(jié)果發(fā)現(xiàn),模型在被動(dòng)模式下表現(xiàn)尚可,一旦切換到主動(dòng)探索模式,性能應(yīng)聲而落。以視覺(jué)世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說(shuō)的主動(dòng)被動(dòng)差距。


(來(lái)源:https://theory-of-space.github.io/paper/Theory_of_S)

差距從哪來(lái)?他們用一套精細(xì)的診斷工具來(lái)逐層拆解模型的認(rèn)知過(guò)程。

第一個(gè)問(wèn)題是效率低。規(guī)則代理平均 9 步就能覆蓋整個(gè)環(huán)境,基礎(chǔ)模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個(gè)毛病,一看到門(mén)就沖過(guò)去,經(jīng)常忘了把當(dāng)前房間看完。Gemini-3 Pro 好一些,會(huì)先原地旋轉(zhuǎn)觀察再移動(dòng),但也沒(méi)有規(guī)則代理高效。

第二個(gè)問(wèn)題更致命。他們?cè)O(shè)計(jì)了一個(gè)錯(cuò)誤信念測(cè)試,在模型完成初次探索后,悄悄移動(dòng)或旋轉(zhuǎn)幾個(gè)物體。當(dāng)模型再次經(jīng)過(guò)并直接觀察到新布局時(shí),一個(gè)令人不安的現(xiàn)象出現(xiàn)了:GPT-5.2 在視覺(jué)世界中的朝向慣性高達(dá) 68.9%,即近七成的情況下仍然堅(jiān)持報(bào)告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


(來(lái)源:https://theory-of-space.github.io/paper/Theory_of_S)

其實(shí)這就是信念慣性,模型親眼看到變化,但內(nèi)部表征缺乏足夠的可塑性來(lái)完成舊信念到新信念的覆寫(xiě),也就是它無(wú)法更新自己的認(rèn)知。這和 Sally-Anne 測(cè)試?yán)锶龤q幼兒的失敗何其相似,只不過(guò)幼兒失敗是因?yàn)檎J(rèn)知能力尚未發(fā)育,模型失敗是因?yàn)閮?nèi)部機(jī)制存在缺陷。

認(rèn)知地圖會(huì)漂移,視覺(jué)世界更高難

他們還發(fā)現(xiàn)一個(gè)叫信念漂移的現(xiàn)象。那就是模型在初次觀察物體時(shí)的感知誤差雖然存在,不過(guò)還沒(méi)嚴(yán)重到影響整體判斷。真正的問(wèn)題是,這份初始保真度無(wú)法在后續(xù)步驟中維持。隨著探索推進(jìn)、信息增多,那些早先正確的記憶開(kāi)始悄然退化,被后續(xù)步驟的錯(cuò)誤更新覆蓋,或者在拼接不同房間的信息時(shí)產(chǎn)生內(nèi)部矛盾。


(動(dòng)圖來(lái)源:受訪者)

最終認(rèn)知地圖的低準(zhǔn)確率,在很大程度上來(lái)自拼不住。模型缺乏穩(wěn)定維護(hù)長(zhǎng)程空間信息的機(jī)制,新的觀察不僅沒(méi)有鞏固已有認(rèn)知,反而在不斷侵蝕它。這個(gè)特點(diǎn)可能人類(lèi)也存在,比如筆者曾去參觀故宮,一個(gè)宮殿接一個(gè)地觀看,而這些宮殿又很相似,那么就很有可能看了下一個(gè)、忘記了上一個(gè)。


(來(lái)源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,這些問(wèn)題在視覺(jué)世界中會(huì)被放大。人類(lèi)被試在視覺(jué)世界中的準(zhǔn)確率高達(dá) 96.4%(使用簡(jiǎn)單工具后達(dá) 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現(xiàn)遠(yuǎn)好于視覺(jué)。視覺(jué)信息對(duì)人類(lèi)而言是天然、直覺(jué)的空間認(rèn)知通道,而當(dāng)前多模態(tài)模型尚未學(xué)會(huì)從像素中高效提取空間結(jié)構(gòu)。

尤其是物體朝向識(shí)別,模型幾乎接近隨機(jī)猜測(cè)。這解釋了為什么它們?cè)谝暯峭评砣蝿?wù)(如 Perspective Taking)上得分慘淡,大約只有 36% 的準(zhǔn)確率。

而這套評(píng)估框架的價(jià)值,在于它把空間智能從會(huì)不會(huì)答這道題的二元判定,變成了一個(gè)可以逐級(jí)診斷的連續(xù)過(guò)程。它告訴我們的不只是模型還差多遠(yuǎn),更是它具體在哪一級(jí)開(kāi)始失靈。

如果模型連“記住剛才看到的沙發(fā)在哪”都做不到,那指望它在一個(gè)真實(shí)環(huán)境里主動(dòng)導(dǎo)航,比如在災(zāi)區(qū)搜救中定位幸存者,還有很長(zhǎng)的路要走。


(來(lái)源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相關(guān)論文已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 ICLR 2026 接收。論文、代碼和數(shù)據(jù)集都已開(kāi)源。該研究由西北大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)與康奈爾大學(xué)聯(lián)合完成。研究團(tuán)隊(duì)里集齊了多位《麻省理工科技評(píng)論》“35 歲以下科技創(chuàng)新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國(guó)斯坦福大學(xué)的吳佳俊教授和美國(guó)華盛頓大學(xué)的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區(qū)名單。

參考資料:

相關(guān)論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴西足協(xié)主席被指控帶情婦參加世界杯,隨后他和妻子一同出席開(kāi)幕式

巴西足協(xié)主席被指控帶情婦參加世界杯,隨后他和妻子一同出席開(kāi)幕式

懂球帝
2026-06-17 02:08:09
霍爾木茲的倒計(jì)時(shí):當(dāng)整個(gè)海灣都在為伊朗“辦后事”

霍爾木茲的倒計(jì)時(shí):當(dāng)整個(gè)海灣都在為伊朗“辦后事”

民間胡扯老哥
2026-06-14 10:55:53
32歲男子羅布泊徒步失聯(lián),一周后找到,他說(shuō)的話所有人都不明白

32歲男子羅布泊徒步失聯(lián),一周后找到,他說(shuō)的話所有人都不明白

農(nóng)村情感故事
2026-05-24 06:52:31
不滿(mǎn)美伊協(xié)議,以色列人遷怒內(nèi)塔尼亞胡

不滿(mǎn)美伊協(xié)議,以色列人遷怒內(nèi)塔尼亞胡

參考消息
2026-06-16 17:14:16
伊朗:霍爾木茲海峽航運(yùn)服務(wù)將收費(fèi)

伊朗:霍爾木茲海峽航運(yùn)服務(wù)將收費(fèi)

環(huán)球網(wǎng)資訊
2026-06-16 06:14:46
“我挺郁悶的!”諾思蘭德董事長(zhǎng):看不懂創(chuàng)新藥行情,等了22年的基因療法獲批,股價(jià)卻下跌超40%

“我挺郁悶的!”諾思蘭德董事長(zhǎng):看不懂創(chuàng)新藥行情,等了22年的基因療法獲批,股價(jià)卻下跌超40%

每日經(jīng)濟(jì)新聞
2026-06-16 21:08:08
世界杯最大不公!伊朗隊(duì)賽前百般刁難,賽后連夜被驅(qū)逐,主帥怒喊最委屈

世界杯最大不公!伊朗隊(duì)賽前百般刁難,賽后連夜被驅(qū)逐,主帥怒喊最委屈

生活新鮮市
2026-06-16 20:22:35
亞洲賽場(chǎng):中國(guó)隊(duì)2勝4平出局含金量高,日韓伊沙澳均第二

亞洲賽場(chǎng):中國(guó)隊(duì)2勝4平出局含金量高,日韓伊沙澳均第二

王稱(chēng)吃吃喝喝
2026-06-16 12:12:14
許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

西樓知趣雜談
2026-06-01 21:30:19
2026港姐大熱門(mén)宣布退賽,官方說(shuō)辭難服眾,內(nèi)情引全網(wǎng)熱議

2026港姐大熱門(mén)宣布退賽,官方說(shuō)辭難服眾,內(nèi)情引全網(wǎng)熱議

最美的筆觸
2026-06-16 05:41:18
從副部級(jí)降為副處級(jí)8年后,王鐵再次被查

從副部級(jí)降為副處級(jí)8年后,王鐵再次被查

齊魯壹點(diǎn)
2026-06-16 07:34:25
斯諾克新消息:中國(guó)8勝6負(fù),江俊5-3擊敗十冠王,3位世界冠軍落敗

斯諾克新消息:中國(guó)8勝6負(fù),江俊5-3擊敗十冠王,3位世界冠軍落敗

小七說(shuō)籃球
2026-06-16 10:08:30
姆巴佩雙球創(chuàng)紀(jì)錄超越梅西,法國(guó)3-1旗開(kāi)得勝

姆巴佩雙球創(chuàng)紀(jì)錄超越梅西,法國(guó)3-1旗開(kāi)得勝

墨史軒
2026-06-17 05:42:20
6只科技牛股集體辟謠:概念熱炒脫離基本面

6只科技牛股集體辟謠:概念熱炒脫離基本面

算力游俠
2026-06-17 00:36:48
身價(jià)5萬(wàn)歐元零封5億歐元豪門(mén),40歲佛得角門(mén)將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號(hào)一夜暴漲百萬(wàn)粉絲

身價(jià)5萬(wàn)歐元零封5億歐元豪門(mén),40歲佛得角門(mén)將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號(hào)一夜暴漲百萬(wàn)粉絲

揚(yáng)子晚報(bào)
2026-06-16 11:22:16
劉濤彎腰7秒上熱搜:娛樂(lè)圈人設(shè)塌了,真實(shí)值錢(qián)了?

劉濤彎腰7秒上熱搜:娛樂(lè)圈人設(shè)塌了,真實(shí)值錢(qián)了?

庭小娛
2026-05-16 16:47:07
北京,第一批“爛尾娃”悄悄出現(xiàn):砸光幾百萬(wàn)學(xué)區(qū)房,最后一場(chǎng)空

北京,第一批“爛尾娃”悄悄出現(xiàn):砸光幾百萬(wàn)學(xué)區(qū)房,最后一場(chǎng)空

愛(ài)看劇的阿峰
2026-06-15 17:11:00
16款蘋(píng)果設(shè)備將停止更新,Apple Watch將遭遇該產(chǎn)品歷史上最大規(guī)模的一次淘汰

16款蘋(píng)果設(shè)備將停止更新,Apple Watch將遭遇該產(chǎn)品歷史上最大規(guī)模的一次淘汰

都市快報(bào)橙柿互動(dòng)
2026-06-16 12:35:51
為什么去過(guò)朝鮮回來(lái)就沉默的人,不是隱瞞,是真的說(shuō)不出

為什么去過(guò)朝鮮回來(lái)就沉默的人,不是隱瞞,是真的說(shuō)不出

老特有話說(shuō)
2026-05-12 15:41:08
嫁豪門(mén)5年生下4胎!如今30歲住杭州豪華別墅,專(zhuān)屬團(tuán)隊(duì)貼身伺候

嫁豪門(mén)5年生下4胎!如今30歲住杭州豪華別墅,專(zhuān)屬團(tuán)隊(duì)貼身伺候

小正說(shuō)娛樂(lè)
2026-06-09 15:24:26
2026-06-17 07:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16840文章數(shù) 515023關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權(quán)

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

體育要聞

身價(jià)5萬(wàn)的門(mén)將,擋住了12億歐元的狂轟濫炸

娛樂(lè)要聞

吳文忻葬禮:2個(gè)女兒在靈堂內(nèi)茫然失措

財(cái)經(jīng)要聞

從123美元到62美元 白銀價(jià)格上演過(guò)山車(chē)

汽車(chē)要聞

三車(chē)齊發(fā) 零跑全新C10/C11/C16上市12.58萬(wàn)元起

態(tài)度原創(chuàng)

健康
手機(jī)
旅游
游戲
軍事航空

粽子一次吃多少不傷胃?專(zhuān)家講解

手機(jī)要聞

2028年的高端iPhone將首發(fā)1.4nm A22 Pro芯片 考慮由臺(tái)積電與英特爾共同代工

旅游要聞

“三種夏天”等你來(lái)!“樂(lè)游青浦 夏遇江南”2026青浦暑期季活動(dòng)啟動(dòng)

LPL迎來(lái)破天流量!賽區(qū)最強(qiáng)人氣王重出江湖,賽制卻出大問(wèn)題?

軍事要聞

美伊達(dá)成諒解備忘錄 內(nèi)塔尼亞胡表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版