谷歌日前承認(rèn),其人工智能工具 Gemini 在生成歷史人物圖像時(shí)出現(xiàn)錯(cuò)誤,導(dǎo)致圖像顯示出明顯的種族偏差。谷歌高級副總裁普拉巴卡爾拉加萬進(jìn)行了道歉。
事情是這樣的,最近有很多網(wǎng)友陸陸續(xù)續(xù)發(fā)現(xiàn)啊,Gemini在文生圖的時(shí)候,好像刻意在拒絕生成白人的形象。取而代之的,是強(qiáng)行把圖中的人物變成黑人、女性,以及弱勢群體。
就拿馬斯克本尊來說吧,一位網(wǎng)友讓Gemini生成他的形象。
然后……就有了下面這張照片。
Stability AI 發(fā)布了 Stable Diffusion 3,宣稱這是他們最強(qiáng)大的文本到圖像模型,利用擴(kuò)散轉(zhuǎn)換器架構(gòu)大大提高了多主題提示、圖像質(zhì)量和拼寫能力的性能!
該版本與Stable Diffusion 2相比,在文本語義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對比度等方面大幅度增強(qiáng),可對標(biāo)閉源模型Midjourney。
Stable Diffusion 3的參數(shù)在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動(dòng)設(shè)備開發(fā)的,AI算力消耗將更低,推理速度卻更快。
Stable Diffusion 3 支持申請使用,未來會(huì)擴(kuò)大測試范圍。
申請地址:https://stability.ai/stablediffusion3
根據(jù) Adobe 官方網(wǎng)站的公告,他們正式推出了一款名為AIAssistant的生成式AI助手,并將其整合到Reader和Acrobat這兩款知名的PDF閱讀器中。
AIAssistant 的功能類似于ChatGPT,它能夠根據(jù)PDF文檔內(nèi)容提供摘要、核心見解,甚至回答各種問題。
目前,Acrobat Personal、Teams以及Acrobat Pro的用戶可以體驗(yàn)測試版AIAssistant功能。
這一新功能的推出,無疑將極大地提升用戶在閱讀和處理PDF文檔時(shí)的效率和便利性,為用戶帶來全新的使用體驗(yàn)。
OpenAI,昨晚發(fā)布他們的文生視頻大模型Sora,如果用三個(gè)詞來總結(jié)Sora,那就是“60s超長長度”、“超強(qiáng)語義理解”和“世界模型”。
首先是60s一鏡到底,不止主人物穩(wěn)定,背景里面的人物都穩(wěn)定的難以置信。從大中景無縫切換到臉部特寫。
第二個(gè)是單視頻多角度鏡頭,現(xiàn)在的AI工作流都是單鏡頭單生成,一個(gè)視頻里面有多角度的鏡頭,主體還能保證完美的一致性。
還有很重要的一點(diǎn)是,Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),我們相信這一功能將成為實(shí)現(xiàn)AGI 的重要里程碑。
字節(jié)研究院發(fā)布了一個(gè)名為 Boximator 的視頻控制方式,看起來相當(dāng)不錯(cuò)。這種控制方式允許用戶選擇需要運(yùn)動(dòng)的物體,并繪制其結(jié)束位置和運(yùn)動(dòng)路徑,物體將嚴(yán)格按照用戶繪制的位置和路徑進(jìn)行運(yùn)動(dòng)。與 Runway 的運(yùn)動(dòng)筆刷相比,Boximator 可以更精確地控制物體的運(yùn)動(dòng)結(jié)束位置。
Boximator適用于藝術(shù)家、設(shè)計(jì)師和營銷專業(yè)人士,它結(jié)合了高度的個(gè)性化和創(chuàng)意表達(dá)能力,使用戶能夠創(chuàng)造出獨(dú)特且引人入勝的視頻內(nèi)容。目前,Boximator仍在開發(fā)中,但已提供早期體驗(yàn)渠道,用戶可以通過電子郵件體驗(yàn)其功能。
線上體驗(yàn)地址:https://boximator.github.io/
Roblox推出了一項(xiàng)全新的實(shí)時(shí)AI聊天翻譯功能,可以讓用戶在其沉浸式3D體驗(yàn)中跨越16種不同語言進(jìn)行無縫溝通。
這種多語言模型可以直接在支持的任意兩種語言之間進(jìn)行翻譯,延遲大約為100毫秒,使得用戶幾乎感覺不到翻譯的過程。該系統(tǒng)經(jīng)過了針對Roblox內(nèi)容的特殊優(yōu)化,并且根據(jù)Roblox的指標(biāo)表現(xiàn)出了超越商業(yè)翻譯API的性能。
聊天窗口會(huì)自動(dòng)顯示翻譯后的內(nèi)容,例如將韓語翻譯成英語,或?qū)⑼炼湔Z翻譯成德語,反之亦然,這樣每個(gè)人都能用自己的語言看到對話。
給大家推薦一個(gè) Stable Diffusion ComfyUI 工作流管理插件 Comfyspace,現(xiàn)在新增了模型管理功能。能力更強(qiáng)大了。
點(diǎn)擊右上角的模型按鈕,即可查看已安裝的模型文件,同時(shí)它會(huì)同步Civitai的模型封面圖,無需依靠文字猜測模型。模型分類也非常全面,不再局限于CKPT模型和Lora模型。
點(diǎn)擊安裝即可輕松查看Civitai的所有模型,并進(jìn)行搜索,隨時(shí)下載到對應(yīng)文件夾。這個(gè)插件已成為我使用Comfyui時(shí)不可或缺的插件,而且他們的本地插件管理和歷史生成結(jié)果查看功能也非常實(shí)用。
下載安裝:https://github.com/11cafe/comfyui-workspace-manager
華為諾亞方舟實(shí)驗(yàn)室、清華大學(xué)信息科技學(xué)院、大連理工、香港大學(xué)和Hugging Face的研究人員,共同發(fā)布了一款名為PIXART-δ的超高清文生圖模型。
這一模型集成了潛在一致性模型(LCM)和創(chuàng)新控制架構(gòu)ControlNet-Transformer,實(shí)現(xiàn)了在文生圖像方面的重大技術(shù)突破。僅需0.5秒2-4個(gè)推理步驟,PIXART-δ就能完成圖像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的幫助下,PIXART-δ可以對生成模型的輸出進(jìn)行精確控制,包括圖像的邊緣、深度、分割和對象姿勢等,類似于OpenAI的DALL·E 3。
字節(jié)跳動(dòng)的研究人員開發(fā)了一種超高清文生視頻模型MagicVideo-V2。
這是一個(gè)集成了文本到圖像模型、視頻運(yùn)動(dòng)生成器、參考圖像嵌入模塊和幀插值模塊的端到端視頻生成pipeline。MagicVideo-V2能夠從文本描述中生成具有高美感、高分辨率、高保真度和流暢性的視頻。通過大規(guī)模用戶評估,它在人類視覺感知方面表現(xiàn)出優(yōu)秀的性能。
MagicVideo-V2的設(shè)計(jì)包括以下關(guān)鍵模塊: - 文本到圖像模型:從給定的文本提示生成一個(gè)1024×1024的圖像作為視頻生成的參考圖像。 - 圖像到視頻模型:使用文本提示和生成的圖像作為條件生成關(guān)鍵幀。 - 視頻到視頻模型:對關(guān)鍵幀進(jìn)行細(xì)化和超分辨率處理,生成高分辨率視頻。 - 視頻幀插值模型:在關(guān)鍵幀之間插值生成平滑的視頻運(yùn)動(dòng),并最終生成高分辨率、流暢、高美感的視頻。
論文地址:https://arxiv.org/abs/2401.04468 項(xiàng)目地址:https://magicvideov2.github.io/
Midjourney 官方宣布,正在測試一種風(fēng)格調(diào)整算法「風(fēng)格參照」,幫助用戶生成風(fēng)格一致性圖像。這項(xiàng)功能與圖像提示類似,在圖片提示中,你可以提供一個(gè)或多個(gè)圖像的鏈接,用以描述你想要的統(tǒng)一風(fēng)格。該功能支持 V6 和 Niji V6 版本(不支持 V5 等舊版本),該功能可能會(huì)在未來幾周進(jìn)行更新。
劃重點(diǎn): 1. 使用 —sref url(image)這個(gè)指令可以添加最多三張風(fēng)格參考圖,現(xiàn)在不用寫promt,想要什么風(fēng)格直接扔圖給MJ,他會(huì)懂你?? 2. 進(jìn)行時(shí):在接下來很短的日子里,MJ即將推出另外一個(gè)新指令 —cref, 讓你能更好的控制人物形象一致性。