前段时间,GPT-4o火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然OpenAI后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅ChatGPT的普通人。

那除了GPT-4o,我们还有没有其他选择呢?去ArtificialAnalysis的文生图大模型竞技场找一下就知道了。

在这个竞技场上,我们发现前段时间排到第二名的模型——拥有17B参数的HiDream-I1和GPT-4o得分很接近。

AI基准测试和分析平台ArtificialAnalysis发推宣布HiDream-I1成为文生图开源模型新SOTA。这个平台采用竞技场模式来评估模型,即同时给两张不同模型生成的图像,让人类从中选出和prompt最贴合的。

值得一提的是,这个模型在上线的24小时之内就登顶了ArtificialAnalysis竞技场榜首,也是首个登顶该榜单的中国自研生成式AI模型。

通过一些对比图可以看到,HiDream-I1的生成效果似乎不输GPT-4o,比之前「把Midjourney打下神坛」的[pro]效果还要好。重点是,这三个模型里,只有HiDream-I1是开源的,而且是允许商用的那种开源(MIT协议)。

HiDream-I1模型:

HiDream-I1代码:

那么,HiDream-I1的效果究竟好在哪儿?我们可以多看一些案例详细分析。

HiDream-I1生图效果如何?

GPT-4o、FLux之所以能够走红,其生成画面的真实感、细腻度和遵循指令的能力起到了重要作用。

为了测试HiDream-I1能不能担得起「开源版GPT-4o」这个称号,我们参考前段时间OpenAI官宣GPT-4o新能力时发布的一些prompt测试了一下。

GPT-4o博客中给到的生成案例与prompt。

HiDream-I1生成的结果如下:

提示词:写实的照片,一匹马从右到左奔驰在一个巨大的,平静的海面上,准确地描绘了溅起的水花,反射,和马蹄下微妙的涟漪图案。夸张马的动作,但其他一切都应该是静止的,安静的,以显示与马的力量形成对比。干净的构图,电影般的。广阔的全景构图,展示远处的地平线。大气透视创造深度。放大后的马与浩瀚的海洋相比显得微不足道。

提示词:真实水果与微型行星(木星、土星、火星、地球)混合而成的果盘照片,保持真实的反射、光照、阴影与原图一致,构图干净,纹理真实,细节渲染清晰

提示词:一个真实的水下场景,海豚从一辆废弃的地铁车厢的窗户游进来,气泡和水流的细节被精确地模拟出来。

提示词:这是一张狗仔队风格的偷拍照片,卡尔・马克思匆忙穿过美国购物中心的停车场,他带着惊讶的表情瞥了一眼,试图避免被拍到。他手里拿着几个锃亮的购物袋,里面装满了奢侈品。他的外套在风中飘动,其中一个包在摇摆,好像他正在大步前进。模糊的背景与汽车和发光的商场入口,以强调运动。相机发出的闪光部分过度曝光了图像,给人一种混乱的小报感。

整体上看,HiDream-I1生成的图在真实感、细腻度上和GPT-4o是非常接近的,有时还能更胜一筹。在和Flux相比时,这个特点更加明显。

比如在下面这个例子中,HiDream-I1生成的图像具有更多精细的元素,包括纹理、背景细节以及物体之间的层次感(猫毛在光的照耀下根根分明,给人一种强烈的生机感;咖啡壶的不锈钢材质恰到好处地反射光线,呈现出真实的质感)。相比之下,Flux虽然也能生成具有良好细节的图像,但在细节材质上不如HiDream-I1细腻丰富。

提示词:一只可爱的橙色猫咪坐在咖啡研磨机旁,用爪子慢吞吞地转动着研磨机的把手。猫咪专注的表情和温柔的咕噜声在舒适宁静的厨房里被捕捉到。柔和、温暖的光线透过窗户,在猫和磨床上投射出柔和的光芒,增强了宁静的氛围。这一场景以写实的风格呈现,强调平静和亲密。

在色彩的呈现上,HiDream-I1的表现也更出色,能够生成层次分明、色调多样的图像(仔细看下图中狼的脸部毛发,HiDream-I1、GPT-4o的颜色层次都更丰富)。Flux的色彩使用虽然也相当丰富,但在某些场景下,色彩的搭配和过渡显得较为单一,缺乏一定的饱和度和层次感。

提示词:一只穿着音乐家燕尾服的3D狼。像人一样两条腿直立站着,拿着吉他,周围是放大器和舞台,这里散发着艺术和优雅的气息。

此外,这种真实感、细腻感还来自模型对客观规律的理解。从下图可以看出,HiDream-I1对客观规律的理解较为精确。无论是物体的摆放、人物的动作姿势,还是环境中的光影效果,HiDream-I1都能展现出符合现实世界的自然规律。而Flux则在这方面存在一定局限,特别是在处理动态场景和复杂物理互动时,模型的表现不够真实,常常出现不符合物理定律的情况。

提示词:一只穿着音乐家燕尾服的3D猫,两条腿直立,拿着小提琴,周围是旋转的音符和大钢琴,散发着艺术和优雅的氛围,聚光灯照亮了现场,创造了一个戏剧性和精致的环境。

即使是遇到复杂的提示词,这些特点依然能够在HiDream-I1生成的图中得到保留。这是模型复杂文本理解、遵循能力的体现。

HiDream-I1生成的图像。提示词:中世纪城堡的石砌城墙,身披铠甲的战士面向镜头,跃动的火焰在他身后勾勒出粗犷的面部轮廓。火星随风溅落在生锈的锁子甲上,右手不自觉地握紧腰间剑柄,深褐色的斗篷在热浪中剧烈翻卷。燃烧的箭矢在远处塔楼持续坠落,橙红火光与靛蓝夜空形成强烈对比,照亮了城墙垛口剥落的青苔和战士眉骨处的陈旧伤疤。

在各项基准测试数据中,以上视觉效果得到了印证:

其次是GenEval和DPG-Bench,前者通过检测对象和颜色分类来验证生成图像与文本提示之间的匹配程度,后者专注于检测生成图像中的多个对象、详细属性和复杂关系(当提示又长又复杂的时候适合用这个基准评测)。在这两个基准上,HiDream-I1都达到了最优。这说明,HiDream-I1的指令遵循能力很强。

HiDream-I1在上的得分数据。

HiDream-I1在GenEval上的得分数据。

HiDream-I1在DPG-Bench上的得分数据。

为了提升生图效果

智象未来做了哪些技术改进?

强大的指令遵循能力和逼真、细腻的生成效果本质上都要归功于技术改进。

为了提高模型理解文本的能力,HiDream-I1采用了新的被称为「SparseDiffusionTransformer(SparseDiT)」的架构设计。这个架构在DiT框架下融合了SparseMixture-of-Expert(MoE)技术,让不同的专家模型处理不同类型的文本输入,各有专精。

HiDream-I1模型架构图。

图像质量的提升则要归功于研究者在扩散模型蒸馏中融入生成对抗学习,借助GAN捕捉细节、锐化边缘的能力,在蒸馏扩散模型的同时进一步提升了生成图像的真实感和清晰度,实现速度与质量的双重优化。

HiDream系列模型开源

影响力已初步彰显

无论从实测效果还是基准测试结果来看,智象未来的HiDream-I1都已经非常接近GPT-4o,站稳了国内图像生成第一梯队。

而且,由于模型是开源的,其国际影响力也在逐步显现。在开源后两天,文生图大模型竞技场上的另一家模型公司——RecraftAI就宣布,他们已经集成了HiDream-I1,还手把手教网友怎么选用这个模型。