国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACL 2026 Oral|語義推理如鯁在喉:大模型被「短語」難住了

0
分享至



研究發(fā)表于 ACL 2026 主會(huì),并獲選為 Oral 論文,核心作者為北京通用人工智能研究院的研究者劉洋和北京科技大學(xué)的本科生李鴻銘,指導(dǎo)老師為北京科技大學(xué)外國語學(xué)院教授秦曉惠以及計(jì)算機(jī)與通信工程學(xué)院副教授劉乾坤和黃超。



  • 論文標(biāo)題:Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
  • 項(xiàng)目主頁:https://semanticqa.github.io
  • 論文鏈接:https://arxiv.org/pdf/2604.16593
  • 評測實(shí)現(xiàn):https://github.com/jacklanda/SemanticQA

引言:當(dāng)語言理解成為假象

AI 的能力邊界正在不斷被刷新。從數(shù)學(xué)推理到代碼生成,再到數(shù)字化白領(lǐng),語言模型和語言智能體在諸多基準(zhǔn)測試中已展現(xiàn)出超越人類專家的表現(xiàn)。一個(gè)看似順理成章的判斷早已成為共識:語言模型已經(jīng)具備了扎實(shí)的語言理解和語義推理能力。然而,ACL 2026 Oral的一項(xiàng)研究工作從一個(gè)更基礎(chǔ)的層面重新審視了這個(gè)問題:語言模型真的理解(短語)語義嗎?

問題的起點(diǎn),是一類經(jīng)典的語言現(xiàn)象?!窴ick the Bucket」不是「踢桶」,「Rocket Science」并非「火箭科學(xué)」,「Alarm Clock Rings」也遠(yuǎn)不止字面意義上的「鬧鈴」。這類多詞表達(dá)(Multiword Expressions,簡稱為 MWE)在自然語言中無處不在,它們的含義往往無法從各個(gè)組成詞語中直接推導(dǎo),需要結(jié)合語境、慣例乃至世界知識才能準(zhǔn)確理解。長期以來,這被視為自然語言處理的經(jīng)典難題,如鯁在喉(A Pain in the Neck for NLP)[1] 。

時(shí)至今日,這道難題依舊擺在了前沿模型面前。

來自北京通用人工智能研究院與北京科技大學(xué)的研究者提出了一個(gè)分析框架SemanticQA,系統(tǒng)評估了模型在短語語義理解上的真實(shí)水平。

不同于以往孤立考察單一任務(wù)的做法,SemanticQA 將語義理解拆解為三種原子操作:分類(Categorization)、抽?。‥xtraction)與 釋義(Interpretation),并在此基礎(chǔ)上覆蓋了四類典型短語現(xiàn)象:慣用表達(dá)、固定搭配、復(fù)合名詞與動(dòng)詞多詞表達(dá),形成了一個(gè)結(jié)構(gòu)嚴(yán)謹(jǐn)、覆蓋廣泛的診斷性測試基準(zhǔn)。

評估對象橫跨十余個(gè)模型,從 BERT 和 T5 等經(jīng)典架構(gòu)模型,到 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 等近期前沿模型,幾乎涵蓋了主流的開源與閉源系統(tǒng)。

反直覺的結(jié)論:即便是最先進(jìn)的大模型,在處理短語層面的語義時(shí)仍存在系統(tǒng)性缺陷。沒有任何一個(gè)模型能夠在所有任務(wù)上保持穩(wěn)定的高水準(zhǔn)表現(xiàn),不同操作類型之間的性能落差顯著:模型或許能夠流暢地解釋一個(gè)慣用語,卻在精確抽取相同表達(dá)時(shí)屢屢失手;分類任務(wù)隨著語義類別數(shù)量的增加急劇退化,而在需要多步驟串聯(lián)的組合任務(wù)中,上游的抽取錯(cuò)誤更會(huì)如滾雪球般放大下游的解釋偏差。更值得警惕的是,那些在語義相似度指標(biāo)(如 BERTScore)下表現(xiàn)亮眼的模型,未必真正掌握了結(jié)構(gòu)性的語義推理能力。高分背后,可能只是對示例模式的精巧模仿。

這些發(fā)現(xiàn)提醒我們:在為語言模型的驚人能力歡呼之前,或許值得在更基礎(chǔ)的地方多停留片刻。短語,是語言理解扎根的地方。

背景與痛點(diǎn):為什么我們需要語義推理?

當(dāng)前主流的推理評測基準(zhǔn)大多聚焦于數(shù)學(xué)求解、代碼生成與邏輯推斷。它們考察的是模型在顯式符號規(guī)則下的運(yùn)算能力,卻鮮少觸及語言最基本的構(gòu)成單元 —— 短語 [2][10]。事實(shí)上,大量日常表達(dá)的含義并非來自詞語的簡單疊加,而是涌現(xiàn)于詞匯之間的約定俗成、語境線索與世界知識的交織之中?,F(xiàn)有評測的盲區(qū),恰恰就藏在這里。

與現(xiàn)有基準(zhǔn)不同,SemanticQA 沒有簡單堆砌任務(wù)規(guī)模,而是先做了一步簡潔的抽象:將「短語語義理解」拆解為三個(gè)可操作的基本能力環(huán)節(jié):

  • 抽?。簭木渥又袦?zhǔn)確識別目標(biāo)短語,要求完成精確的跨度定位,而非模糊的猜測;
  • 分類:判斷該短語的語義類型(如習(xí)語、固定搭配、名詞復(fù)合詞等),考察模型對語義關(guān)系的結(jié)構(gòu)化理解;
  • 釋義:在給定語境下生成該短語的釋義,要求模型將潛在的詞義解釋成可讀的自然語言陳述。

這三步分別對應(yīng)結(jié)構(gòu)識別、語義判斷和生成表達(dá),共同構(gòu)成對短語語義的完整檢驗(yàn)。它們的輸出形式各異,抽取要求精準(zhǔn)的字面匹配,分類依賴有限選項(xiàng)內(nèi)的判斷,釋義則是開放式的語言生成 —— 這種結(jié)構(gòu)差異本身,也成為診斷模型能力邊界的有效手段。

其核心設(shè)計(jì)思想是「操作對齊」(Operation-Aligned):同一個(gè)短語實(shí)例在不同任務(wù)中被統(tǒng)一建模,采用固定的提示模板加以呈現(xiàn),從而有效壓制提示誘導(dǎo)帶來的噪聲,使不同模型之間的橫向比較更加公平可靠。這一設(shè)計(jì)也直接回應(yīng)了傳統(tǒng)評測中長期存在的混淆:任務(wù)表現(xiàn)不等于能力水平,一個(gè)模型或許憑借格式敏感性在釋義任務(wù)中得高分,卻在抽取同一短語時(shí)茫然失措。

換句話說,如果模型真的理解了某個(gè)短語,它應(yīng)當(dāng)在這三類任務(wù)上表現(xiàn)出穩(wěn)定的跨操作一致性,而非只在某一類上擅長。正是這種一致性,才是 SemanticQA 所定義的(短語)語義推理能力。

主要貢獻(xiàn):涵蓋四大短語難題

在數(shù)據(jù)層面,SemanticQA 涵蓋了四類最典型、也最讓語言處理系統(tǒng)頭疼的短語現(xiàn)象:習(xí)語(Idiomatic Expressions)、固定搭配(Lexical Collocations)、名詞復(fù)合結(jié)構(gòu)(Noun Compounds)和動(dòng)詞多詞表達(dá)(Verbal MWEs)[3][8]。這些表達(dá)廣泛存在于自然語言中,且其含義往往無法通過簡單的詞義組合規(guī)則推導(dǎo),正是檢驗(yàn)?zāi)P汀刚胬斫狻惯€是「假套路」的試金石 [4][5]。



SemanticQA 基于現(xiàn)有多個(gè)語義標(biāo)注資源構(gòu)建,這些資源在標(biāo)注協(xié)議、難度分布及語義粒度上存在顯著差異。該基準(zhǔn)匯總了各任務(wù)來源的數(shù)據(jù)集、輸入輸出結(jié)構(gòu)、測試樣本數(shù)量及所涵蓋的短語類型,從而展現(xiàn)了其規(guī)模與多樣性:上千條的測試樣本,覆蓋檢測、抽取與釋義三類語義任務(wù),且每個(gè)任務(wù)均采用統(tǒng)一的提示模板、句子上下文及輸出格式。這種標(biāo)準(zhǔn)化卻非同質(zhì)化的設(shè)計(jì)旨在反映真實(shí)語義標(biāo)注場景中固有的自然變異性,而非強(qiáng)行要求不同來源之間保持難度或標(biāo)注一致性。因此,SemanticQA 適于展現(xiàn)這種異質(zhì)性,但不適用于對短語類型進(jìn)行絕對化的橫向比較。



短語現(xiàn)象具有高度多樣性,不同文獻(xiàn)中使用的術(shù)語亦不統(tǒng)一。為保障基準(zhǔn)的可復(fù)現(xiàn)性,SemanticQA 通過顯式列出細(xì)粒度的子類別,避免將短語簡單二分為「習(xí)語 vs. 非習(xí)語」的粗放式分類,從而支持研究者深入分析模型在特定語義子類上的性能表現(xiàn)。例如,模型可能對非組合習(xí)語完全失效,卻在可分解習(xí)語上表現(xiàn)良好,這一差異有助于揭示模型究竟是依賴局部詞義線索,還是基于整體的短語模式進(jìn)行語義判斷 [6][7]。



核心洞察:能力各有短板,優(yōu)績不代表真懂

SemanticQA 不只看模型會(huì)不會(huì)做,而是看它在抽取、分類和釋義三種不同約束下是否一致。



研究發(fā)現(xiàn),即便是當(dāng)前的前沿模型,在這三項(xiàng)核心能力上也遠(yuǎn)未均衡發(fā)展:

  • 分類任務(wù):模型對粗粒度的語義判斷尚可應(yīng)付,但面對結(jié)構(gòu)化的語義關(guān)系時(shí),依然缺乏顯著的歸納能力。
  • 抽取任務(wù):要求模型從句子中精確圈出目標(biāo)短語,是最能反映「是否真看到」的操作。即使模型能在分類或釋義任務(wù)中表現(xiàn)良好,其抽取準(zhǔn)確率卻往往十分低下。這種不一致表明,模型往往依賴上下文中的表面模式來猜短語邊界,而非真正理解其「句法 vs. 語義」地位。
  • 釋義任務(wù):生成的釋義在短語結(jié)構(gòu)、語義焦點(diǎn)方面與標(biāo)準(zhǔn)答案存在偏差。換句話說,模型擅長「說得像」,卻不一定「說得對」。將釋義與抽取、分類結(jié)果對照時(shí),經(jīng)常出現(xiàn)「能解釋卻抽不對」或「能分類卻解釋偏」的割裂現(xiàn)象,暴露出語義推理的不確定性。



以 GPT-5 為例:在習(xí)語分類(IED)五樣本提示(5-Shot)設(shè)定下達(dá)到 85.4% 的分類準(zhǔn)確率,但對應(yīng)的習(xí)語抽取(IEE)僅為 78.7% 的精確匹配率,而習(xí)語釋義(IEI)則只有 22.5% 的表面相似度(Meteor)。 這種落差意味著:模型可以「猜對類別」,甚至「生成合理的解釋」,但并不具備跨任務(wù)一致的語義表示。

更典型的是抽取任務(wù)。研究指出,抽取是最能暴露模型是否能看到「短語邊界」的操作。多個(gè)模型在釋義任務(wù)上取得較高的語義相似度(BERTScore),卻在嚴(yán)格按照精確匹配的抽取任務(wù)中明顯失效。例如:GPT-5 在名詞復(fù)合詞釋義(NCI)中的語義相似度(BERTScore)可達(dá)到 96.8%,但同一模型在對應(yīng)的 NCE 上的抽取準(zhǔn)確率僅 79.0%。這說明當(dāng)前模型更擅長生成語義上相似的話語,但無法以同樣的熟練度實(shí)現(xiàn)穩(wěn)定的短語抽取。



三項(xiàng)任務(wù)之間的不一致,正是語義理解能力欠缺的直接證據(jù)。一個(gè)真正理解短語語義的模型,應(yīng)當(dāng)在結(jié)構(gòu)化輸出(抽?。?、離散決策(分類)和自由生成(釋義)上保持行為兼容,而非只在某一種任務(wù)上取巧。



現(xiàn)實(shí)世界中的語義關(guān)系呈現(xiàn)出豐富且細(xì)粒度的特性,然而現(xiàn)有大多數(shù)基準(zhǔn)僅測試粗粒度的語義分類(例如 2 至 4 個(gè)類別)。為考察模型是否具備真正的語義歸納能力,即:隨著類別數(shù)增加,任務(wù)表現(xiàn)能否保持穩(wěn)定,抑或出現(xiàn)急劇退化,相關(guān)實(shí)驗(yàn)結(jié)果極具啟發(fā)性:前沿語言模型擅長在粗粒度、高頻的語義區(qū)分任務(wù)上表現(xiàn)出較高的表面準(zhǔn)確率,但一旦需要精細(xì)區(qū)分十多個(gè)細(xì)粒度語義類別,其歸納能力顯著不足。特別指出:DeepSeek-R1 的分類準(zhǔn)確率從 81.7% 下降到 35.4%,跌幅達(dá)到 46.3 個(gè)百分點(diǎn);GPT-5 雖然更穩(wěn)定,但在 16 分類的條件下仍明顯退化。這一現(xiàn)象表明,現(xiàn)有模型更多依賴表層的統(tǒng)計(jì)共現(xiàn)信息,而非具備真正的語義推理能力 [9]。



由于本工作的研究跨度較長,我們還特地對 OpenAI 的四款代表性模型(GPT-3.5-Turbo、GPT-4、o3 和 GPT-5)進(jìn)行了跨越三年的歷時(shí)分析。結(jié)果顯示,多數(shù)任務(wù)表現(xiàn)出了顯著的偏序和排名一致性,例如在 LCI、NCI 和 IEI 等任務(wù)中,模型性能隨代際更迭呈現(xiàn)出穩(wěn)步遞增的趨勢(GPT-5≥o3 > GPT-4 > GPT-3.5-Turbo),且 Few-Shot 提示普遍優(yōu)于 Zero-Shot。

多米諾效應(yīng):上游一步錯(cuò),下游步步錯(cuò)

現(xiàn)實(shí)應(yīng)用中的語義處理往往是多步流程,例如先抽取短語,再對其進(jìn)行釋義或分類。SemanticQA 專門設(shè)計(jì)了組合推理任務(wù)來模擬這一場景。結(jié)果顯示:

  • 抽取錯(cuò)誤直接拖垮下游:即使模型在孤立釋義任務(wù)中表現(xiàn)尚可,一旦輸入來自自身抽?。ǘ侨斯?biāo)注)的短語,其釋義質(zhì)量便大幅下降。上游哪怕只出現(xiàn)少量邊界偏移,下游的語義重建也會(huì)明顯偏離。
  • 少樣本無法補(bǔ)償結(jié)構(gòu)誤差:增加演示樣例能小幅提升抽取準(zhǔn)確率,但對「條件式釋義」(基于正確抽取的短語)提升有限。說明當(dāng)前模型缺乏對中間結(jié)果的自我校驗(yàn)與糾錯(cuò)能力,難以構(gòu)建穩(wěn)健的語義處理流水線。
  • 分類組合任務(wù)同樣敏感:要求先抽取后分類時(shí),端到端準(zhǔn)確率相比獨(dú)立分類任務(wù)顯著下降,且類別越多下降越劇烈。這表明模型在傳遞結(jié)構(gòu)化語義時(shí)存在明顯的衰減。



組合推理實(shí)驗(yàn)進(jìn)一步揭示了「上游一步錯(cuò),下游步步錯(cuò)」的問題。在「先抽取 + 后釋義」的順序任務(wù)中:GPT-5 在詞匯搭配的組合任務(wù)中,5-Shot 條件下抽取準(zhǔn)確率為 41.3%, 條件釋義(即抽對后再解釋)的 Meteor 相似度可達(dá)到 41.8%, 但整體的 Meteor 相似度最終僅為 17.3%。

這些結(jié)果揭示了一個(gè)被原子任務(wù)評測長期掩蓋的事實(shí):語言模型在單點(diǎn)任務(wù)上也許能產(chǎn)生高光表現(xiàn),但同時(shí)也很容易在多步的級聯(lián)任務(wù)中土崩瓦解。語義推理,必須經(jīng)得起流程化檢驗(yàn)。

實(shí)踐啟示:不能只看會(huì)不會(huì),更得看穩(wěn)不穩(wěn)

SemanticQA 的設(shè)計(jì)思路給當(dāng)前的語言模型評估帶來五點(diǎn)重要啟示:

  • 單指標(biāo)、單任務(wù)無法衡量語義能力。 模型可能在釋義任務(wù)上得高分,卻在抽取任務(wù)上一敗涂地;在四分類上接近人類,卻在十六分類時(shí)崩潰。不同任務(wù)暴露的是互補(bǔ)的失敗模式,只有多操作、多約束的對照評估,才能照見模型語義表征的實(shí)際水平。
  • 情境學(xué)習(xí)的收益因任務(wù)而異,不可一概而論。 釋義類任務(wù)從示例中獲益穩(wěn)定,抽取任務(wù)的表現(xiàn)卻高度依賴示例與測試實(shí)例的結(jié)構(gòu)匹配,一旦分布偏移,增加示例反而可能拖累性能。在實(shí)際部署中,示例的質(zhì)量與任務(wù)適配,遠(yuǎn)比示例的數(shù)量更為關(guān)鍵。
  • 規(guī)模擴(kuò)展不等于語義深化,領(lǐng)域監(jiān)督有時(shí)比能力涌現(xiàn)更可靠。 分類粒度從二分類擴(kuò)展到十六分類時(shí),千億參數(shù)大模型的性能衰減幅度卻遠(yuǎn)超小規(guī)模監(jiān)督模型。這表明大模型對細(xì)粒度語義關(guān)系的「理解」,更多依賴于統(tǒng)計(jì)模式的共現(xiàn)而非結(jié)構(gòu)化表示,領(lǐng)域監(jiān)督所帶來的收益可能遠(yuǎn)比單純擴(kuò)大規(guī)模更扎實(shí)。
  • 語義表征與任務(wù)格式深度耦合,而非操作無關(guān)。人類理解一個(gè)短語后,可以自然完成識別、歸類與釋義;但大模型卻往往在多選分類中答對,卻在開放抽取中失手,或在生成解釋時(shí)產(chǎn)生語義漂移。當(dāng)前模型習(xí)得更接近對任務(wù)格式的適應(yīng),而非真正意義上可遷移的短語語義表征。
  • 魯棒性與診斷價(jià)值,是評測的意義所在。模型一旦從單步任務(wù)進(jìn)入多步串聯(lián)流程,上游的識別錯(cuò)誤便會(huì)顯著拖累下游語義質(zhì)量,這種脆弱性在單任務(wù)評測中幾乎無從察覺。隨著主流基準(zhǔn)加速飽和,評測的核心價(jià)值不應(yīng)是給模型打出一個(gè)排名總分,而是精準(zhǔn)揭示能力斷層在哪里、為何存在以及如何修復(fù)。

研究局限

本工作完稿于 2023 年,并于 2025 年進(jìn)行修訂和投稿錄用。該診斷性評測基于單輪靜態(tài)設(shè)計(jì),在當(dāng)時(shí)是合理的,但放到 2026 年的 Agent 語境下,它測的東西已經(jīng)不夠用了。Agent 不再是單輪推理,而是在長時(shí)運(yùn)行:一步走偏,后面全部走偏,工具調(diào)用失敗或推理錯(cuò)誤被帶入下一步、鏈路越長偏差越大導(dǎo)致掉入前綴陷阱,如蝴蝶效應(yīng)般不可逆地疊加。因此,如何針對語言智能體進(jìn)行動(dòng)態(tài)自適應(yīng)的評估,成為了當(dāng)今更有價(jià)值的科學(xué)與實(shí)踐問題。

靜態(tài) Evals 在 Agent 時(shí)代的根本性失效問題:

  • 靜態(tài)基準(zhǔn)測的是能力截面,Agent 的風(fēng)險(xiǎn)在時(shí)間軸上,錯(cuò)誤不是孤立的,它會(huì)被寫入狀態(tài)、沿鏈路傳播疊加,第三步的幻覺在第七步才爆炸,而靜態(tài)分?jǐn)?shù)對此一無所知
  • 分?jǐn)?shù)相同的兩個(gè)模型,執(zhí)行軌跡可能天差地別:一個(gè)靠運(yùn)氣蒙對,一個(gè)扎扎實(shí)實(shí)地走對。當(dāng)當(dāng)前真正有價(jià)值的問題不是 Evals 分?jǐn)?shù)是多少,而是:評估體系本身能不能動(dòng)態(tài)進(jìn)化,打分模型要被驗(yàn)證、任務(wù)要有生命周期、任務(wù)執(zhí)行軌跡要作為審計(jì)入口、安全護(hù)欄要有一票否決權(quán);
  • Evals 不是測試的升級,是 Agent 時(shí)代唯一可執(zhí)行的產(chǎn)品定義方式,因?yàn)槲覀儫o法用 PRD 定義一個(gè)概率系統(tǒng)。

結(jié)語

語義推理不是黑盒系統(tǒng)里的靈光一現(xiàn),而是可分解、可檢驗(yàn)以及可追溯的系統(tǒng)能力。SemanticQA 通過操作對齊的設(shè)計(jì),將(短語)語義理解這一古早難題重新帶回研究前沿,并給出了一個(gè)清醒的判斷:語言模型遠(yuǎn)未真正「懂語言」,至少在短語層面,它們有了很大的改進(jìn),但仍在摸索前行。 這項(xiàng)工作的意義不僅在于指出不足,更在于提供了一套可操作、可復(fù)現(xiàn)的診斷工具,幫助社區(qū)朝著更穩(wěn)健、更結(jié)構(gòu)化的短語處理前沿邁進(jìn)。

參考文獻(xiàn)

[1] Shwartz and Dagan. Still a Pain in the Neck: Evaluating Text Representations on Lexical Composition. TACL 2019.

[2] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[3] Constant et al. Multiword Expression Processing: A Survey. Computational Linguistics 2017.

[4] Coil and Shwartz. From Chocolate Bunny to Chocolate Crocodile: Do Language Models Understand Noun Compounds? ACL Findings 2023.

[5] Espinosa-Anke et al. Evaluating Language Models for the Retrieval and Categorization of Lexical Collocations. EACL 2021.

[6] Chakrabarty et al. It’s Not Rocket Science: Interpreting Figurative Language in Narratives. TACL 2022.

[7] Pham et al. PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search. EACL 2023.

[8] Ramisch et al. A Survey of MWE Identification Experiments: The Devil is in the Details. MWE Workshop 2023.

[9] Miletic and Schulte im Walde. Semantics of Multiword Expressions in Transformer-based Models: A Survey. TACL 2024.

[10] Zeng and Bhat. Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions. TACL 2022.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
185cm160斤網(wǎng)友求評價(jià)長相:真不玻璃心

185cm160斤網(wǎng)友求評價(jià)長相:真不玻璃心

自愈小日子
2026-06-16 00:05:25
完爆努涅斯!利物浦砸 1 億搶世界杯天才!再也不用看吐餅了

完爆努涅斯!利物浦砸 1 億搶世界杯天才!再也不用看吐餅了

瀾歸序
2026-06-17 06:17:02
萬萬沒想到,車子買來開了5年才知道還要續(xù)費(fèi)?網(wǎng)友:吃相太難看!

萬萬沒想到,車子買來開了5年才知道還要續(xù)費(fèi)?網(wǎng)友:吃相太難看!

大風(fēng)新聞
2026-06-17 08:34:05
一名旅客在通過海關(guān)時(shí)背包機(jī)檢圖像異常,檢查發(fā)現(xiàn)用黑色塑料袋包裹的未申報(bào)活體蜂及蜂巢2.1千克

一名旅客在通過海關(guān)時(shí)背包機(jī)檢圖像異常,檢查發(fā)現(xiàn)用黑色塑料袋包裹的未申報(bào)活體蜂及蜂巢2.1千克

環(huán)球網(wǎng)資訊
2026-06-16 20:32:36
骨科主任:走路是最好的運(yùn)動(dòng)?錯(cuò)!過了60歲這3種運(yùn)動(dòng)才真的養(yǎng)壽

骨科主任:走路是最好的運(yùn)動(dòng)?錯(cuò)!過了60歲這3種運(yùn)動(dòng)才真的養(yǎng)壽

白宸侃片
2026-06-16 03:51:14
世界杯第一張神圖誕生!40歲門神一夜?jié)q粉500萬 回應(yīng):夢想成真

世界杯第一張神圖誕生!40歲門神一夜?jié)q粉500萬 回應(yīng):夢想成真

念洲
2026-06-16 13:04:33
皇馬搶不走的真核!換個(gè)位置直接起飛,奧利塞封神夜喂飽姆巴佩

皇馬搶不走的真核!換個(gè)位置直接起飛,奧利塞封神夜喂飽姆巴佩

中國足球的那些事兒
2026-06-17 06:02:40
男童溺亡后續(xù),奶奶口供前后不一,最后影像曝光,父母已精神崩潰

男童溺亡后續(xù),奶奶口供前后不一,最后影像曝光,父母已精神崩潰

有范又有料
2026-06-16 18:49:33
54歲“雙一流”高校副院長離世,曾連續(xù)多年給優(yōu)秀畢業(yè)生頒發(fā)證書

54歲“雙一流”高校副院長離世,曾連續(xù)多年給優(yōu)秀畢業(yè)生頒發(fā)證書

極目新聞
2026-06-16 13:21:08
女大學(xué)生當(dāng)小姐全國飛,最高一次收15萬,2014年落網(wǎng)時(shí),講述詳情

女大學(xué)生當(dāng)小姐全國飛,最高一次收15萬,2014年落網(wǎng)時(shí),講述詳情

漢史趣聞
2026-06-16 11:02:35
在上海撿垃圾20多年,如今收入200萬成大師,和小15歲美女很親近

在上海撿垃圾20多年,如今收入200萬成大師,和小15歲美女很親近

北緯的咖啡豆
2026-06-16 16:43:23
國際油價(jià)16日大幅下跌

國際油價(jià)16日大幅下跌

新京報(bào)
2026-06-17 07:22:11
為什么農(nóng)村的大齡剩女很少?

為什么農(nóng)村的大齡剩女很少?

加油丁小文
2026-06-07 08:00:09
從電視前到電視里,哈蘭德圓夢世界杯!首秀梅開二度,僅用43分鐘就追平挪威隊(duì)史紀(jì)錄

從電視前到電視里,哈蘭德圓夢世界杯!首秀梅開二度,僅用43分鐘就追平挪威隊(duì)史紀(jì)錄

紅星新聞
2026-06-17 08:34:31
世界杯第一批受害者!上海一家長連續(xù)熬夜看球竟差點(diǎn)喪命,醫(yī)生建議補(bǔ)充睡眠

世界杯第一批受害者!上海一家長連續(xù)熬夜看球竟差點(diǎn)喪命,醫(yī)生建議補(bǔ)充睡眠

上觀新聞
2026-06-17 04:06:04
法國隊(duì)最大反差!巴黎王牌教姆巴佩踢球!結(jié)果自己隱身對方封神!

法國隊(duì)最大反差!巴黎王牌教姆巴佩踢球!結(jié)果自己隱身對方封神!

瀾歸序
2026-06-17 07:19:43
27億美元,必勝客被賣了

27億美元,必勝客被賣了

藍(lán)鯨新聞
2026-06-16 20:55:54
亞洲球隊(duì)首敗!哈蘭德世界杯首秀雙響,挪威4-1戰(zhàn)勝伊拉克

亞洲球隊(duì)首??!哈蘭德世界杯首秀雙響,挪威4-1戰(zhàn)勝伊拉克

全景體育V
2026-06-17 08:04:48
禍不單行!久保建英右膝重傷坐輪椅離場,日本隊(duì)奪冠宣言慘遭重創(chuàng)

禍不單行!久保建英右膝重傷坐輪椅離場,日本隊(duì)奪冠宣言慘遭重創(chuàng)

去山野間追風(fēng)
2026-06-16 19:15:16
引體向上拉不起一個(gè)?恭喜你,這才是中國成年男人的正常水平

引體向上拉不起一個(gè)?恭喜你,這才是中國成年男人的正常水平

劉哥談體育
2026-06-16 18:58:22
2026-06-17 09:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個(gè)遍

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個(gè)遍

體育要聞

身價(jià)5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個(gè)女兒在靈堂內(nèi)茫然失措

財(cái)經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
旅游
軍事航空

藝術(shù)要聞

懷素臨終絕筆,草書巔峰作:《四十二章經(jīng)》

數(shù)碼要聞

華碩上架新款破曉7S銳龍版:AI 5 330 + 16G + 1T售6999元

親子要聞

1歲前多做這項(xiàng)運(yùn)動(dòng),孩子上學(xué)后聽課專心、寫字端正,家長太省心

旅游要聞

章丘公園的荷花盛開

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版