从imagen到parti,谷歌又整了啥新活?( 二 )



参数从3.5亿到200亿:有啥区别?
Parti的模型规模支持扩展 , 最高可扩展至200亿参数 。
参数越多 , 模型规模越大 , 生成图像的细节越丰富 , 错误信息也明显降低 。
比如面对同样的文本输入:
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上 , 胸前举着写着「欢迎朋友」的标语
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

在3.5亿参数下 , 袋鼠的眼镜不是蓝色 , 而且PS痕迹明显 , 背景只体现出「草地」 , 悉尼歌剧院基本看不出来 。举的牌子上更不知道是哪国文字 。
到了7.5亿参数下 , 眼镜颜色和背景都和文字准确对上了 , 但却多了另一只带着蓝眼镜的袋鼠 。
扩展到30亿参数 , 之前的袋鼠不见了 , 但举的牌子多了一块 , 上面的字仍有拼写错误 , 但大概能看出是「欢迎朋友」了 。但背景中的悉尼歌剧院似乎开了「影分身」 。
最终在200亿参数下 , 文字中的内容得到准确再现 。
换一张图 , 也是如此 。文本信息细节越少 , 体现的越明显 。
比如文本是「小提琴的背面」这几个字:
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

直到30亿参数下 , 生成的图像仍然是「小提琴的正面」 , 直到200亿参数下 , 才生成了正确的图像 。
多面手「艺术家」 , 风格百搭
除了由模型参数量扩大带来的细节提升外 , 画画最要紧的是能画出不同风格 , 要都是千篇一律 , 那还叫艺术家吗?
Parti表示 , 这挺简单的 。
比如命题作画:
一只浣熊穿正装 , 头戴礼帽 , 拄着拐杖 , 拿着个垃圾袋 。
就能画出梵高风格的:
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

埃及法老风格的:
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

甚至是像素艺术风的:
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

再比如下面的文字:
「一只老虎戴着列车长的帽子 , 手里拿着一块滑板 , 上面有一个阴阳符号 。」
也可以画成油画风 , 真真的那种 。
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

或者版画风 , 酷酷的那种 。
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

甚至国画风 , 萌萌的那种 。
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

当然 , 也有翻车的时候 。
比如下面这个作品 , 文字是「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯 。」
从imagen到parti,谷歌又整了啥新活?
文章图片

文章图片

然而 , 生成的图片中盘子里全是香蕉 , 玻璃杯里也几乎盛满了橙汁!
就当是艺术家偶尔打了个盹吧!
看起来 , 以后「斗图界」说不定可以告别表情包了 , 想要什么图 , 打字就行了!
早些年要是能有这样的神器 , 「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧 。