从imagen到parti，谷歌又整了啥新活？( 二 ) 最近

参数从3.5亿到200亿：有啥区别？
Parti的模型规模支持扩展，最高可扩展至200亿参数。
参数越多，模型规模越大，生成图像的细节越丰富，错误信息也明显降低。
比如面对同样的文本输入：
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上，胸前举着写着「欢迎朋友」的标语

文章图片

文章图片

在3.5亿参数下，袋鼠的眼镜不是蓝色，而且PS痕迹明显，背景只体现出「草地」，悉尼歌剧院基本看不出来。举的牌子上更不知道是哪国文字。
到了7.5亿参数下，眼镜颜色和背景都和文字准确对上了，但却多了另一只带着蓝眼镜的袋鼠。
扩展到30亿参数，之前的袋鼠不见了，但举的牌子多了一块，上面的字仍有拼写错误，但大概能看出是「欢迎朋友」了。但背景中的悉尼歌剧院似乎开了「影分身」。
最终在200亿参数下，文字中的内容得到准确再现。
换一张图，也是如此。文本信息细节越少，体现的越明显。
比如文本是「小提琴的背面」这几个字：

文章图片

文章图片

直到30亿参数下，生成的图像仍然是「小提琴的正面」，直到200亿参数下，才生成了正确的图像。
多面手「艺术家」，风格百搭
除了由模型参数量扩大带来的细节提升外，画画最要紧的是能画出不同风格，要都是千篇一律，那还叫艺术家吗？
Parti表示，这挺简单的。
比如命题作画：
一只浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋。
就能画出梵高风格的：

文章图片

文章图片

埃及法老风格的：

文章图片

文章图片

甚至是像素艺术风的：

文章图片

文章图片

再比如下面的文字：
「一只老虎戴着列车长的帽子，手里拿着一块滑板，上面有一个阴阳符号。」
也可以画成油画风，真真的那种。

文章图片

文章图片

或者版画风，酷酷的那种。

文章图片

文章图片

甚至国画风，萌萌的那种。

文章图片

文章图片

当然，也有翻车的时候。
比如下面这个作品，文字是「一个没有香蕉的盘子,旁边有一个没有橙汁的玻璃杯。」

文章图片

文章图片

然而，生成的图片中盘子里全是香蕉，玻璃杯里也几乎盛满了橙汁！
就当是艺术家偶尔打了个盹吧！
看起来，以后「斗图界」说不定可以告别表情包了，想要什么图，打字就行了！
早些年要是能有这样的神器，「美术课恐惧症」的小编可能也会免去不少不堪回首的回忆吧。