97中文视频,在线视频一区二区三区,五月天婷婷爱,亚洲国产aⅴ精品一区二区,久久波多野吉衣,国产激情视频在线播放,免费高清一级大毛片视频在线播放

告別“詞不達意” 國產圖像編輯模型UniWorld-V2綜合表現(xiàn)超越OpenAI旗下大模型

AI視界(以下內容由AI生成,僅供參考)

  • 關鍵詞
  • 簡介
  • 重點
  • 分析
  • 猜你
    想問

深圳新聞網(wǎng)2025年11月5日訊(記者 劉惠敏)你是否曾遇到過這些情況:用文字指令來編輯圖片時,AI似乎無法完全理解你的意思。比如,想給照片里的貓戴上一頂帽子,AI生成的結果中帽子可能位置不對或者風格怪異;想把照片中的“紅色轎車”換成“藍色”,AI卻可能把畫面里所有的紅色物體都改了個遍。

現(xiàn)在,一項來自中國團隊的技術突破,正在讓圖像編輯變得前所未有的簡單和精準。

日前,深圳兔展智能科技有限公司與北京大學的UniWorld團隊聯(lián)合發(fā)布新一代圖像編輯模型UniWorld-V2,首次將強化學習(RL)策略優(yōu)化應用于統(tǒng)一架構的圖像編輯模型,是第一個視覺強化學習框架。UniWorld-V2在權威測試中取得了SOTA成績(State of the Art,在特定領域或任務中性能保持領先水平),在綜合表現(xiàn)上超越了如OpenAI的GPT-Image-1等頂尖閉源模型。

從“大概聽懂”到“精確理解”

過去AI模型的普遍痛點在于,對圖片內容的理解不夠細致、精準。

UniWorld-V2模型的強大之處,就在于它極大地解決了這個“精準理解”的難題。它不僅能聽懂用戶的文字指令,更能像人一樣,精準地“看懂”圖片中的每一個細節(jié)和對象。無論是讓你圈出圖中的某個部分,還是直接口頭描述你想修改的地方,UniWorld-V2都能準確鎖定目標,實現(xiàn)“指哪打哪”的精確編輯。

在兔展智能與北京大學的UniWorld團隊聯(lián)合發(fā)布的論文中,不少示例展現(xiàn)了強大的中文字體掌握與精細化可控能力。例如,當用戶提出“把中間白色衣服戴口罩女生的手勢改成OK”時,UniWorld-V2可以準確完成修改,而同類模型Nano Banana則未能理解指令意圖。

“海報編輯”示例中,模型能精準理解指令,并渲染出“月滿中秋”和“月圓人圓事事圓”等筆畫復雜的藝術中文字體,效果清晰、語義準確。

在“紅框控制”任務中,用戶可以通過畫框(如紅色矩形框)來指定編輯區(qū)域,模型能夠嚴格遵守該空間限制,實現(xiàn)“將鳥移出紅框”等高難度精細操作。

此外,模型能深刻理解“給場景重新打光”等指令,使物體自然融入場景之中,讓畫面變得更統(tǒng)一和諧,并且光影融合度極高。

核心驅動力:全球首個視覺強化學習框架UniWorld-R1

實現(xiàn)以上功能,研究團隊的核心創(chuàng)新在于提出了UniWorld-R1框架。

傳統(tǒng)的圖像編輯模型依賴監(jiān)督微調(SFT),普遍存在對訓練數(shù)據(jù)過擬合、泛化能力差的問題。此外,還存在面對編輯指令和任務的多樣性,缺乏通用獎勵模型的瓶頸。

UniWorld-R1框架的創(chuàng)新設計首次將強化學習策略優(yōu)化應用于圖像編輯領域,并創(chuàng)新性地使用多模態(tài)大語言模型作為獎勵模型,顯著提升了模型與人類意圖的對齊能力。

在GEdit-Bench和ImgEdit等權威測試中,UniWorld-V2分別獲得7.83和4.49的高分,超越了所有參與對比的開源和閉源模型。值得注意的是,UniWorld-R1框架同樣適用于其他基礎模型,能有效提升其編輯性能。

目前,該研究的論文、代碼和模型已在GitHub和Hugging Face平臺開源,為后續(xù)研究提供了重要基礎。

有分析指出,這項技術的突破,將極大降低專業(yè)圖像編輯的門檻,推動圖像編輯技術走向更智能、更可控、更實用的新階段,并催生全新的應用場景。

(本文圖片來自相關論文及受訪單位)

記者:劉惠敏 審核:葉梅 校對:吳沁彤 責任編輯:鄭曉鵬

AI視界(以下內容由AI生成,僅供參考)

關鍵詞

簡介

重點

分析

猜你想問