dall·e2的前世今生是什么？能无痕ps

能无痕ps ，能将文字转为图像，新一代的DALL·E2有着什么样的魔力？
去年1月， OpenAI推出了一个名为DALL·E的GPT-3最强应用。一年后，二代的DALL·E2也惊艳亮相。DALL·E2可以将文字转换生成更真实、更准确的图像，相比上一代产品，其分辨率提高了4倍，最为关键的是DALL·E-2还进化出了一项新技能——可以根据文字描述将图像自动PS ，而这种PS修改目前还很难被察觉，足够“以假乱真” 。

文章图片

文章图片

原图
【dall·e2的前世今生是什么？】
文章图片

文章图片

PS后
比如上图中的「狗狗」就是由DALL·E2后加上去的，两幅图对比下，几乎看不出什么破绽。
可以说DALL·E2带给业界的震撼在于这是一款有着独立创造力的跨模态生成模型。之前不管是可以一键切换为卡通风格的CycleGAN ，还是以自动修复图像的Partialconv ，其中运用的AI技术只能在图像或者文字的单一模式下进行生成和模仿，而时下将文字转换成图像、甚至根据文字对于图像进行修改，这种“脑补”的能力也是一次创新性突破。
从DALL·E-2展示出的效果来看，其联想能力已经接近人类六岁的儿童，其艺术加工尤其是PS能力也已经达到了人类设计师的巅峰水平，按照OpenAI以往的调性，他们往往是三代产品最强，在未来继续扩大参数规模的情况下， DALL·E2还预示着DALL·E3将会有无限可能，这也不禁让我们想进一步了解人工智能的边界到底在哪。
DALL·E2的前世今生
DALL-E是艺术家“Dalí”和机器人“WALL-E”的结合词。虽然在DALL·E2的论文中， OpenAI的科学家们并没有给出这个模型的具体规模与训练所需要的算力，不过考虑到第一代DALL·E就已经是基于GPT-3这种超大规模模型的项目了，那么我们有理由相信DALL·E2的参数模型应该是3000亿起步。
截至目前， OpenAI团队也尚未在公共API列表中提供DALL·E2的相关功能或者预览。据悉， OpenAI的人员可能担心DALL·E2的超强功能被用到一些如换脸、图像伪造等会对社会造成负面影响的方面，因此也正在设计限制DALL·E被用于负面图像生成的方案，预计完成之后就会对外公开了。
与此同时，从另一个角度来看，这也推进了AI与云计算的结合，因为只有将AI云化才能让普通玩家用得到DALL·E2 ，否则中小型公司凭借自己的力量，很难训练出这种超大规模的模型。
DALL·E2继承了第一代产品将文本转化为图像的能力，并且提供了更高的分辨率和更低的延迟，还可以根据用户的描述对于现有的图像进行PS ，用户可以从现有的图片开始，选择一个区域，并告诉模型编辑它。例如，你可以在客厅的墙上画一幅画，然后用另一幅画代替它，或者在咖啡桌上放一瓶花。该模型可以填充（或删除）对象，同时在PS过程中， DALL·E2还会考虑房间中阴影的方向等细节。
正如上文所说第一代的DALL-E是基于GPT-3模型的，它可以将图像压缩成文字，但图像与文字的匹配往往会限制图像的真实度。DALL·E2则引入了CLIP/unCLIP的机制， CLIP类似于编码器，它的工作原理是像人类一样，查看图像并总结图像的内容，而unCLIP则是CLIP的反向操作，是从文字描述生成图像的过程。CLIP/unCLIP的机制在一定程度上解决了CLIP一个非常有趣的弱点：人们可以通过给一个物体贴上一个标签（比如iPod) ，这种方式往往会达到欺骗模型的目的。DALL·E2对于这种贴着标签的苹果有着比较好的识别能力，比如下列图片基本都能被DALL·E2正确处理。