国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦創(chuàng)智等提出Prompt Reinjection,提升文生圖指令遵循能力

0
分享至



本文第一作者姚宇軒為復(fù)旦大學(xué)本科四年級學(xué)生,即將在復(fù)旦與上海創(chuàng)智學(xué)院攻讀博士,研究方向為多模態(tài)理解生成模型;復(fù)旦大學(xué)碩士研究生陳宇軒為共同第一作者。復(fù)旦大學(xué)教授、上海創(chuàng)智學(xué)院全時導(dǎo)師朱思語為通訊作者。

近年來,文生圖模型的能力快速提升。從 Stable Diffusion 到 FLUX、Qwen-Image,擴散模型已經(jīng)能夠生成高質(zhì)量圖像,也能處理越來越復(fù)雜的文本提示。

然而,當(dāng)提示詞中包含多個對象、顏色屬性、數(shù)量關(guān)系或空間位置時,模型仍然經(jīng)常出現(xiàn)「圖不對文」的問題。



一項來自復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院、上海科學(xué)智能研究院等機構(gòu)的研究指出,這一問題可能來自多模態(tài)擴散 Transformer(MMDiT)內(nèi)部的一種現(xiàn)象:Prompt Forgetting,即提示詞遺忘。

研究團(tuán)隊發(fā)現(xiàn),在 MMDiT 的去噪過程中,文本分支中的提示詞表示會隨著網(wǎng)絡(luò)層數(shù)加深逐漸丟失細(xì)粒度語義信息。為此,他們提出了一種無需訓(xùn)練、僅在推理階段生效的針對性解決方法Prompt Reinjection,通過將淺層文本特征重新注入深層 Transformer 塊,緩解提示詞信息的逐層衰減問題。

目前,該論文已被 ICML 2026 接收。



  • 論文標(biāo)題:Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
  • 論文地址: https://arxiv.org/abs/2602.06886
  • 代碼鏈接:https://github.com/fudan-generative-vision/PromptReinjection

核心問題:模型不是沒理解提示詞,而是在深層逐漸「忘了」

傳統(tǒng)文生圖擴散模型通常將文本作為外部條件,通過 cross-attention 注入圖像去噪器。而在 SD3、FLUX、Qwen-Image 等 MMDiT 架構(gòu)中,文本 token 和圖像 latent token 會在統(tǒng)一的 Transformer 堆棧中共同演化。

這種設(shè)計帶來了更強的跨模態(tài)交互能力,但也引入了一個潛在問題:圖像 token 受到去噪目標(biāo)的直接監(jiān)督,而文本 token 只是通過對圖像生成的影響間接更新。換句話說,模型優(yōu)化的主要目標(biāo)仍然是圖像 latent 空間中的去噪誤差,而不是保證文本表示在深層仍然保留完整語義。

研究團(tuán)隊將這一現(xiàn)象定義為Prompt Forgetting:隨著網(wǎng)絡(luò)層數(shù)加深,文本分支中原本可恢復(fù)的 token 級信息逐漸變得不可恢復(fù)。論文通過 CKNNA、PCA 可視化和逐層 probing 實驗驗證了這一點。

結(jié)果顯示,在 SD3、SD3.5 和 FLUX 中,文本表示的局部語義結(jié)構(gòu)會隨深度逐漸破壞,probe 對名詞、形容詞、數(shù)量詞和空間關(guān)系等 token 類別的識別準(zhǔn)確率也會下降,其中空間關(guān)系詞受影響最明顯。

這也解釋了為什么文生圖模型常常在「一個物體在另一個物體上方」「A 在 B 的右邊」「生成四個對象」這類看似簡單的任務(wù)中表現(xiàn)不穩(wěn)定:模型在淺層可能仍然保留這些信息,但到了深層生成階段,相關(guān)語義已經(jīng)被削弱。



簡單直接緩解遺忘問題:把淺層提示詞特征重新注入深層網(wǎng)絡(luò)

基于這一觀察,研究團(tuán)隊提出了Prompt Reinjection。方法非常直接:既然淺層文本特征仍然保留較完整的提示詞語義,那么就在推理時把這些淺層特征重新注入到后續(xù)深層 MMDiT block 中。



不過,在有些模型上,直接相加的注入方法并不表現(xiàn)穩(wěn)定,不同層之間的文本特征可能存在顯著的分布差異和幾何空間差異,因此論文額外設(shè)計了兩個對齊模塊:

  • 第一是 Distribution Anchoring:它通過歸一化和統(tǒng)計量恢復(fù),讓淺層特征和目標(biāo)層特征在數(shù)值尺度上更匹配,避免注入后破壞后續(xù) Transformer block 的正常生成分布。
  • 第二是 Geometry Alignment:研究團(tuán)隊使用正交 Procrustes 變換,對淺層和深層文本特征進(jìn)行幾何對齊,使淺層語義能夠以更合適的方向進(jìn)入深層語義空間。

最終,Prompt Reinjection 形成了一種訓(xùn)練無關(guān)的推理時增強機制:不需要重新訓(xùn)練模型,也不需要改動模型參數(shù),只需要在生成過程中對文本分支進(jìn)行輕量干預(yù)。

實驗結(jié)果:增強語義遵循,保持生成質(zhì)量

研究團(tuán)隊在五個主流 MMDiT 文生圖模型上進(jìn)行了系統(tǒng)評估,包括 SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1 和 Qwen-Image,并在 GenEval、DPG-Bench、T2I-CompBench++ 等多個基準(zhǔn)上考察模型的文本 - 圖像對齊能力和指令遵循能力。

實驗結(jié)果顯示,Prompt Reinjection 在不同模型和任務(wù)上均帶來了穩(wěn)定提升。以 GenEval 為例,SD3.5 和 HunyuanImage-2.1 的整體分?jǐn)?shù)分別提升了 6.48% 和 7.75%。

更值得注意的是,這種提升并非均勻分布在所有子任務(wù)上,而是更集中地體現(xiàn)在依賴細(xì)粒度文本理解的場景中,例如屬性綁定、數(shù)量理解、多對象組合以及空間關(guān)系建模。尤其是在 GenEval 的 position 任務(wù)中,Prompt Reinjection 帶來了最明顯、最穩(wěn)定的提升,這與前文 probing 實驗中「空間關(guān)系詞最容易被遺忘」的發(fā)現(xiàn)相互印證。



在視覺質(zhì)量方面,Prompt Reinjection 并沒有以犧牲圖像質(zhì)量為代價來換取更好的語義遵循能力。相反,該方法在 HPSv2、ImageReward、PickScore 和 CLIP 等指標(biāo)上整體保持穩(wěn)定,并在部分指標(biāo)上實現(xiàn)小幅提升。

這表明,Prompt Reinjection 并非只是單純提升語義遵循基準(zhǔn)分?jǐn)?shù),而是在保持甚至提升視覺質(zhì)量的同時,使生成結(jié)果更加精準(zhǔn),從而具備更強的真實場景應(yīng)用價值。



此外,該方法在推理階段只引入極小的額外開銷。

研究團(tuán)隊在 SD3-medium 上的測試表明,基礎(chǔ)版 reinjection 幾乎不增加計算成本:在不使用 Distribution Anchoring 和 Geometry Alignment 的情況下,其額外 FLOPs 僅約為單個 Transformer block 的「0.00002x」;即便采用完整的對齊版 Prompt Reinjection,額外 FLOPs 也僅約為「0.088x」。

這意味著Prompt Reinjection 可以在幾乎不影響推理成本的前提下,提升模型的生成可靠性。



總結(jié)與展望

這項工作的意義并不止于提出一種提升文生圖效果的推理時技巧。更重要的是,它揭示了當(dāng)前 MMDiT 架構(gòu)中一個容易被忽視的內(nèi)部機制問題:當(dāng)文本 token 與圖像 token 在同一個 Transformer Backbone 中共同逐層演化時,由于文本分支缺乏直接監(jiān)督,提示詞語義并不一定會在深層表示中保持穩(wěn)定。

換言之,模型雖然在輸入端接收了完整提示詞,但在逐層去噪和跨模態(tài)交互過程中,部分細(xì)粒度語義可能會被逐漸削弱甚至遺忘。

過去許多文生圖改進(jìn)方法主要關(guān)注注意力控制、布局約束、偏好優(yōu)化或訓(xùn)練數(shù)據(jù)增強,而這篇論文從模型內(nèi)部的文本 token 演化出發(fā),指出「文本條件在深層是否仍然有效」本身就是影響復(fù)雜指令遵循能力的關(guān)鍵因素。Prompt Reinjection 正是基于這一發(fā)現(xiàn)提出的輕量化解決方案:通過在推理階段重新注入淺層文本特征,使模型在不重新訓(xùn)練、不改變參數(shù)的情況下,更好地保留數(shù)量、顏色屬性、空間關(guān)系和復(fù)雜描述等細(xì)粒度信息,同時保持整體圖像質(zhì)量和美觀度。

從更長遠(yuǎn)的角度看,Prompt Reinjection 不僅是一種即插即用的增強方法,也為理解和改進(jìn)未來擴散生成模型的基礎(chǔ)架構(gòu)提供了有價值的線索。

它表明,當(dāng)前 MMDiT 架構(gòu)在跨模態(tài)聯(lián)合建模中仍可能存在文本語義保持不足的問題,而如何在深層網(wǎng)絡(luò)中持續(xù)維護(hù)穩(wěn)定、可用的文本條件,可能成為下一代可控生成模型設(shè)計的重要方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

混沌錄
2026-06-16 19:23:06
王寶強砸2.5億拍新片,就沖這張關(guān)公海報,值回票價!

王寶強砸2.5億拍新片,就沖這張關(guān)公海報,值回票價!

動物奇奇怪怪
2026-06-17 02:49:04
烏克蘭摧毀莫斯科最大煉油廠!供應(yīng)俄首都40%的能源

烏克蘭摧毀莫斯科最大煉油廠!供應(yīng)俄首都40%的能源

項鵬飛
2026-06-16 20:57:43
臉都不要了!世界杯最黑判罰!全世界都說是點球,裁判硬說沒有!

臉都不要了!世界杯最黑判罰!全世界都說是點球,裁判硬說沒有!

瀾歸序
2026-06-17 06:44:20
雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

譚談社會
2026-06-16 18:10:12
世界杯頭號臥底!塞內(nèi)加爾 3 次必進(jìn)球全踢飛!純純坑死全隊!

世界杯頭號臥底!塞內(nèi)加爾 3 次必進(jìn)球全踢飛!純純坑死全隊!

奶蓋熊本熊
2026-06-17 05:27:49
副省部級“老虎”為何二次被查

副省部級“老虎”為何二次被查

中國新聞周刊
2026-06-16 20:05:02
周強峰任上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院黨委書記

周強峰任上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院黨委書記

澎湃新聞
2026-06-16 20:00:29
醫(yī)院內(nèi),監(jiān)控拍下驚人一幕!醫(yī)生1分鐘開完4名病人的藥,手握70張醫(yī)???>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2026-06-17 08:12:37
社零總額同比轉(zhuǎn)負(fù)!網(wǎng)友:多地商鋪連日關(guān)門,消費能好起來嗎?

社零總額同比轉(zhuǎn)負(fù)!網(wǎng)友:多地商鋪連日關(guān)門,消費能好起來嗎?

回旋鏢
2026-06-16 12:13:25
哈蘭德14分鐘雙響!挪威隊史首人,射手榜追平姆總,門將超巨失誤

哈蘭德14分鐘雙響!挪威隊史首人,射手榜追平姆總,門將超巨失誤

奧拜爾
2026-06-17 06:58:03
頭條世界杯|超越吉魯、超越梅西,姆巴佩這夜把紀(jì)錄破了個遍

頭條世界杯|超越吉魯、超越梅西,姆巴佩這夜把紀(jì)錄破了個遍

澎湃新聞
2026-06-17 07:04:31
關(guān)機旅行134天

關(guān)機旅行134天

新京報
2026-06-17 08:36:27
拿清華全額獎學(xué)金留學(xué),印度女學(xué)生回國瘋狂吐槽:中國是封閉社會

拿清華全額獎學(xué)金留學(xué),印度女學(xué)生回國瘋狂吐槽:中國是封閉社會

小徐講八卦
2026-06-16 14:59:41
今夜,SpaceX“吸干”全場!芯片大跳水,光通信暴跌!

今夜,SpaceX“吸干”全場!芯片大跳水,光通信暴跌!

中國基金報
2026-06-17 00:00:16
盧卡申科向澤連斯基道歉!承認(rèn)白俄軍隊根本不是烏克蘭的對手

盧卡申科向澤連斯基道歉!承認(rèn)白俄軍隊根本不是烏克蘭的對手

項鵬飛
2026-06-16 20:59:44
因宗教原因,世界杯賽前儀式的沙特國旗以志愿者手持懸空的方式展示

因宗教原因,世界杯賽前儀式的沙特國旗以志愿者手持懸空的方式展示

懂球帝
2026-06-17 05:02:05
日本航空緊急開會!7月1日起過中國領(lǐng)空,規(guī)矩全變了!

日本航空緊急開會!7月1日起過中國領(lǐng)空,規(guī)矩全變了!

有態(tài)度的何總
2026-06-16 12:32:06
3歲男童被小區(qū)大堂大理石桌砸中身亡,家屬稱事發(fā)后3天物業(yè)不聞不問,多方回應(yīng):警方已介入,相關(guān)部門正在處理中

3歲男童被小區(qū)大堂大理石桌砸中身亡,家屬稱事發(fā)后3天物業(yè)不聞不問,多方回應(yīng):警方已介入,相關(guān)部門正在處理中

揚子晚報
2026-06-17 07:12:33
伊朗隊亮相世界杯,用AI讓球員牽遇難兒童入場,紀(jì)念遭美以襲擊喪生的168名學(xué)生;比賽地點在美國洛杉磯體育場,首輪對陣新西蘭

伊朗隊亮相世界杯,用AI讓球員牽遇難兒童入場,紀(jì)念遭美以襲擊喪生的168名學(xué)生;比賽地點在美國洛杉磯體育場,首輪對陣新西蘭

大風(fēng)新聞
2026-06-16 10:20:50
2026-06-17 09:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個遍

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個遍

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內(nèi)茫然失措

財經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

健康
數(shù)碼
家居
公開課
軍事航空

粽子一次吃多少不傷胃?專家講解

數(shù)碼要聞

華碩上架新款破曉7S銳龍版:AI 5 330 + 16G + 1T售6999元

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版