dall·e2的前世今生是什么?

能无痕ps , 能将文字转为图像 , 新一代的DALL·E2有着什么样的魔力?
去年1月 , OpenAI推出了一个名为DALL·E的GPT-3最强应用 。一年后 , 二代的DALL·E2也惊艳亮相 。DALL·E2可以将文字转换生成更真实、更准确的图像 , 相比上一代产品 , 其分辨率提高了4倍 , 最为关键的是DALL·E-2还进化出了一项新技能——可以根据文字描述将图像自动PS , 而这种PS修改目前还很难被察觉 , 足够“以假乱真” 。
dall·e2的前世今生是什么?
文章图片

文章图片

原图
【dall·e2的前世今生是什么?】dall·e2的前世今生是什么?
文章图片

文章图片

PS后
比如上图中的「狗狗」就是由DALL·E2后加上去的 , 两幅图对比下 , 几乎看不出什么破绽 。
可以说DALL·E2带给业界的震撼在于这是一款有着独立创造力的跨模态生成模型 。之前不管是可以一键切换为卡通风格的CycleGAN , 还是以自动修复图像的Partialconv , 其中运用的AI技术只能在图像或者文字的单一模式下进行生成和模仿 , 而时下将文字转换成图像、甚至根据文字对于图像进行修改 , 这种“脑补”的能力也是一次创新性突破 。
从DALL·E-2展示出的效果来看 , 其联想能力已经接近人类六岁的儿童 , 其艺术加工尤其是PS能力也已经达到了人类设计师的巅峰水平 , 按照OpenAI以往的调性 , 他们往往是三代产品最强 , 在未来继续扩大参数规模的情况下 , DALL·E2还预示着DALL·E3将会有无限可能 , 这也不禁让我们想进一步了解人工智能的边界到底在哪 。
DALL·E2的前世今生
DALL-E是艺术家“Dalí”和机器人“WALL-E”的结合词 。虽然在DALL·E2的论文中 , OpenAI的科学家们并没有给出这个模型的具体规模与训练所需要的算力 , 不过考虑到第一代DALL·E就已经是基于GPT-3这种超大规模模型的项目了 , 那么我们有理由相信DALL·E2的参数模型应该是3000亿起步 。
截至目前 , OpenAI团队也尚未在公共API列表中提供DALL·E2的相关功能或者预览 。据悉 , OpenAI的人员可能担心DALL·E2的超强功能被用到一些如换脸、图像伪造等会对社会造成负面影响的方面 , 因此也正在设计限制DALL·E被用于负面图像生成的方案 , 预计完成之后就会对外公开了 。
与此同时 , 从另一个角度来看 , 这也推进了AI与云计算的结合 , 因为只有将AI云化才能让普通玩家用得到DALL·E2 , 否则中小型公司凭借自己的力量 , 很难训练出这种超大规模的模型 。
DALL·E2继承了第一代产品将文本转化为图像的能力 , 并且提供了更高的分辨率和更低的延迟 , 还可以根据用户的描述对于现有的图像进行PS , 用户可以从现有的图片开始 , 选择一个区域 , 并告诉模型编辑它 。例如 , 你可以在客厅的墙上画一幅画 , 然后用另一幅画代替它 , 或者在咖啡桌上放一瓶花 。该模型可以填充(或删除)对象 , 同时在PS过程中 , DALL·E2还会考虑房间中阴影的方向等细节 。
正如上文所说第一代的DALL-E是基于GPT-3模型的 , 它可以将图像压缩成文字 , 但图像与文字的匹配往往会限制图像的真实度 。DALL·E2则引入了CLIP/unCLIP的机制 , CLIP类似于编码器 , 它的工作原理是像人类一样 , 查看图像并总结图像的内容 , 而unCLIP则是CLIP的反向操作 , 是从文字描述生成图像的过程 。CLIP/unCLIP的机制在一定程度上解决了CLIP一个非常有趣的弱点:人们可以通过给一个物体贴上一个标签(比如iPod) , 这种方式往往会达到欺骗模型的目的 。DALL·E2对于这种贴着标签的苹果有着比较好的识别能力 , 比如下列图片基本都能被DALL·E2正确处理 。