昨天连更两篇,今天想休息一下,结果。。。
真的快肝吐了,感觉自从开源统治地球之后。
开源的世界,迎来了究极繁荣。
上周DeepSeek连续5天开源硬核技术,阿里开源万相2.1,Qwen的推理模型推出预览版,但是肯定马上也要开源。
而今天,智谱这个曾经的开源之光,在昨天官宣拿了杭州10亿融资之后,在官宣文章里如此写道:
我知道智谱今年会大力开源,但是没想到,开源年的第一棒,来的如此之快,就在第二天。。。
我。。。不是,让我歇会吧。。。
今天智谱和清华团队直接开源了他们的AI绘图模型,CogView4。
这下,真的快补上2025年开源届的拼图了。
模型链接在此:https://github.com/THUDM/CogView4
模型尺寸6B,在BF16和batchsize=4d的情况下,GPU需求如图。
最低估计一张12G的显卡就能跑起来。
我们也在第一时间,把模型下载下来,反手在AutoDL上开了一台A800-80G的显存,部署测试了一下。
我自己测试下来,一张1024*1024的图大概70s左右,AutoDL的云机器会慢一些,本地应该会快不少。
当然如果你们想直接体验,也可以用智谱官方自己搭好的在线服务:
https://modelscope.cn/studios/ZhipuAI/CogView4
在跑了一小时后,我觉得CogView4,有两个比较有意思的点。
一个一个说。
第一个点就是,CogView4支持中英文字直接生成,跟我之前写过的即梦2.1还挺像的,但是智谱的CogView4,是开源的。
这也是开源的AI绘图模型里,第一个支持同时生成中英文字的。
我跑了些case,大家可以直接看看。
比如这些Promtp:
1. 一只布偶猫举着牌子,牌子上写着中文字体的“起来嗨’。
2. 一幅极简主义风格的冬季插画,以"小雪"节气为主题。画面采用清新的浅蓝色调,上方用简约的白色中文字体写着"小雪"二字。构图主要分为三个层次:天空、雪山和铁路。背景是连绵起伏的雪山剪影,呈现出柔和的曲线;中间是一列橙红色的火车,在茫茫雪原上形成鲜明的视觉对比;整个画面点缀着飘落的雪花。
3. 电影宣传海报,画面中间是韦小宝,四周是宫女,标题文字“重生之我是韦小宝”。