智譜開源 AI 繪圖 CogView4,曾經(jīng)的開源之光回來了。
昨天連更兩篇,今天想休息一下,結(jié)果。。。
真的快肝吐了,感覺自從 DeepSeek 開源統(tǒng)治地球之后。
開源的世界,迎來了究極繁榮。
上周 DeepSeek 連續(xù) 5 天開源硬核技術(shù),阿里開源萬相 2.1,Qwen 的推理模型推出預(yù)覽版,但是肯定馬上也要開源。
而今天,智譜這個(gè)曾經(jīng)的開源之光,在昨天官宣拿了杭州 10 億融資之后,在官宣文章里如此寫道:
我知道智譜今年會(huì)大力開源,但是沒想到,開源年的第一棒,來的如此之快,就在第二天。。。
我。。。不是,讓我歇會(huì)吧。。。
今天智譜和清華團(tuán)隊(duì)直接開源了他們的 AI 繪圖模型,CogView4。
更多AI工具推薦:
這下,真的快補(bǔ)上 2025 年開源界的拼圖了。
模型鏈接在此: https://github.com/THUDM/CogView4
模型尺寸 6B,在 BF16 和 batchsize=4d 的情況下,GPU 需求如圖。
最低估計(jì)一張 12G 的顯卡就能跑起來。
我們也在第一時(shí)間,把模型下載下來,反手在 AutoDL 上開了一臺(tái) A800-80G 的顯存,部署測試了一下。
我自己測試下來,一張 1024*1024 的圖大概 70s 左右,AutoDL 的云機(jī)器會(huì)慢一些,本地應(yīng)該會(huì)快不少。
當(dāng)然如果你們想直接體驗(yàn),也可以用智譜官方自己搭好的在線服務(wù):
網(wǎng)址:https://modelscope.cn/studios/ZhipuAI/CogView4
在跑了一小時(shí)后,我覺得 CogView4,有兩個(gè)比較有意思的點(diǎn)。
一個(gè)一個(gè)說。
第一個(gè)點(diǎn)就是,CogView4 支持中英文字直接生成,跟我之前寫過的即夢 2.1 還挺像的,但是智譜的 CogView4,是開源的。
這也是開源的 AI 繪圖模型里,第一個(gè)支持同時(shí)生成中英文字的。
我跑了些 case,大家可以直接看看。
比如這些 Prompt:
1. 一只布偶貓舉著牌子,牌子上寫著中文字體的“起來嗨’。
2. 一幅極簡主義風(fēng)格的冬季插畫,以"小雪"節(jié)氣為主題。畫面采用清新的淺藍(lán)色調(diào),上方用簡約的白色中文字體寫著"小雪"二字。構(gòu)圖主要分為三個(gè)層次:天空、雪山和鐵路。背景是連綿起伏的雪山剪影,呈現(xiàn)出柔和的曲線;中間是一列橙紅色的火車,在茫茫雪原上形成鮮明的視覺對比;整個(gè)畫面點(diǎn)綴著飄落的雪花。
3. 電影宣傳海報(bào),畫面中間是韋小寶,四周是宮女,標(biāo)題文字“重生之我是韋小寶”。
4. 畫面頂部英文標(biāo)題:“I NEED YOU”,復(fù)古美漫動(dòng)漫,畫面中央是一個(gè)小孩在電視機(jī)前玩游戲的背影。
非常坦率的講,整體效果和審美,是沒有市面一些主流模型好的,中文字的錯(cuò)誤率很高比英文大不少,審美和色彩,也有一點(diǎn)差距。
我測下來,感覺他們是沒有把文字拎出來單獨(dú)做處理,而是非常實(shí)誠的直接塞給模型直接處理了,所以中文錯(cuò)別字比例會(huì)高一些。
但是優(yōu)點(diǎn)也很突出。
那就是,這玩意開源啊!唯一一個(gè)能生文字的開源。
就智譜的 Cogview4 的效果來看,我覺得,他們技術(shù)肯定是沒問題,最大的問題,還是數(shù)據(jù)集這塊,審美確實(shí)差不少,但是如果你就把它當(dāng)個(gè)底座,來重搞數(shù)據(jù)集,微調(diào)一個(gè)很牛逼的電影海報(bào)設(shè)計(jì)模型,那真的不是不可能。
第二個(gè)特點(diǎn),就是它的語義理解,還是真的有點(diǎn)東西的。
比如這些 Prompt:
1. 8K 超寬幅畫卷,分四區(qū)域: 左側(cè):唐代城門,朱紅城墻,商隊(duì)駱駝穿行,匾額題“朱雀門”; 中左:西市胡商集市,絲綢瓷器攤位,人群熙攘; 中右:曲江池畔,仕女泛舟,柳樹垂岸; 右側(cè):大明宮殿群,飛檐斗栱,晨霧繚繞。整體風(fēng)格為工筆重彩,絹布質(zhì)感。
2. 一幅橫向長卷,從左到右依次是遠(yuǎn)古狩獵營地、古埃及金字塔群、中世紀(jì)市場、工業(yè)革命工廠、當(dāng)代摩天樓、未來垂直花園城。
3. 一籠剛出籠的上海小籠包,皮薄餡嫩,湯汁豐富,擺放在精致的竹制蒸籠中。旁邊是一碟香醋和一雙竹筷,背景是木質(zhì)的餐桌和一壺綠茶,體現(xiàn)出江南的細(xì)膩和雅致風(fēng)格。江南風(fēng)味,精致,雅致
4. 野徑云俱黑,江船火獨(dú)明。
5. 一張照片級(jí)真實(shí)感的奇幻毛茸茸汽車,車身完全覆蓋著厚實(shí)柔軟的白色絨毛,明亮靈動(dòng)的車燈宛如一雙友善的大眼睛,輪胎隱藏在濃密蓬松的毛發(fā)之中,夜晚散發(fā)出溫暖柔和的光暈,呈現(xiàn)出魔法生物般的風(fēng)格,細(xì)節(jié)精致,質(zhì)感極度逼真,充滿夢幻氣息與溫馨感,電影級(jí)燈光效果
可以看到,美不美的另說,但是畫的,是真的準(zhǔn)確。
這塊還是得益于,他們把 T5 換成了 GLM4,這個(gè)還是爽多了。
目前他們在出圖的分辨率上,也沒限制特定比例,2048 以下幾乎都可以無級(jí)調(diào)節(jié),這一點(diǎn)還是比較爽的。
后續(xù),他們也會(huì)支持 ComfyUI 和 ControlNET 套件,還有微調(diào)的腳本。這個(gè)還是比較重要的,用 CogView4 來當(dāng)基座模型微調(diào)的話,應(yīng)該能玩出不少的花活。
目前開源的這個(gè)模型支持 Apache2.0 協(xié)議,而給普通用戶用的版本,也會(huì)在 3 月 13 日上線在智譜清言上,到時(shí)候可以蹲一下。
最后,我想聊聊智譜這個(gè)公司。
國內(nèi)我之前有一個(gè)非常主觀不客觀的評(píng)價(jià),我把五家公司放在一起,并稱為開源五虎。
其實(shí)在 DeepSeek 還沒成立的時(shí)候,智譜就已經(jīng)在 kuku 開源模型了。
如果是 2023 年就開始玩大模型玩 AI 的,應(yīng)該見過這個(gè)風(fēng)靡一時(shí)的基座模型,ChatGLM-6B。
4w 的星標(biāo),在 Github 上意味著啥相信大家懂得都懂。
那個(gè)時(shí)候,我還在公司里面做項(xiàng)目,微調(diào)了好幾個(gè)不同的 GLM6B,串成工作流來執(zhí)行任務(wù)。
后續(xù),他們又開源了非常非常非常多的模型,比如 GLM-4、GLM-4-Voice、CogVideoX v1.5、CogAgent 等等等等。
時(shí)光匆匆,一晃眼,兩年了。
這兩年,感覺到了智譜的糾結(jié)、智譜的掙扎,還有他們的搖擺。
雖然在 2024 年的后半程,他們靠著 AutoGLM 和智能體,在整個(gè) AI 圈殺出了一條自己的血路,但是在開源世界的聲量,好像也被通義和 DeepSeek 壓了過去。
老驥伏櫪,志在千里。
在今天 CogView4 的倉庫里面有這么一張官方生成的 Demo 圖。
他們把 2025 年,定義為智譜 AI 自己的開源年。
不破不立,破而后立。
期待智譜拿下更多超級(jí)融資的同時(shí),也能在開源路上越走越遠(yuǎn)。
畢竟,對我們所有人而言,每一家廠商的進(jìn)步,都是讓中國 AI 越發(fā)閃耀的燈火。
祝愿這片風(fēng)云激蕩的江湖,燃得更盛吧。
歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
AI輔助海報(bào)設(shè)計(jì)101例
已累計(jì)誕生 737 位幸運(yùn)星
發(fā)表評(píng)論 為下方 5 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓