从文本创建艺术,AI图像生成器的数据集是如何构建的

从文本创建艺术,AI图像生成器的数据集是如何构建的

AIGC系列分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍与AIGC概念相关的有趣内容。AIGC系列主要分为以下几篇文章:



最近,“AI绘画”吸引了很多人的目光,而“AI绘画”在近期取得如此巨大进展的原因之一得益于Stable Diffusion的开源。

从文本创建艺术,AI图像生成器的数据集是如何构建的引自Imagen官网

01 什么是文图生成技术

从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:A small cabin on top of a snowy mountain in the style of Disney, artstation

文图生成技术的研究开始于2010年中期,伴随着深度学习技术的发展而进步。截至2023年2月,目前已知的最先进的文生图模型有:OpenAI的DALL-E2、Google的ImageGen和StableilityAI的Stable Diffusion。这些模型生成的图片已经开始接近真实照片以及人类所绘艺术作品的质量。

在深度学习兴起之前,搭建文本到图像模型的尝试仅限于通过排列现有的组件图像进行拼贴,例如从剪切画数据库中选择图像形成类似于拼贴画的图像。随着深度学习的发展,越来越多的机构提出基于深度学习的文生图模型。

2015年,由多伦多大学研究人员提出第一个现代化文生图模型:alignDRAW。它使用带有注意力机制的循环变分自动编码器来扩展之前的DRAW架构,使其能以文本序列作为输入。尽管alignDRAW生成的图片是模糊,不逼真的,但是该模型能够归纳出训练数据中没有的物体。并且可以适当地处理新的文本描述,例如:“停车标识在蓝天上飞”。这表明该模型在一定程度上可以理解语言描述,并生成新的东西,而不是仅仅在“回放”训练集中的数据。

从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:停车标识在蓝天上飞,引自aligenDRAW论文

2016年,Reed、Akata、Yan等人首先试图将生成对抗网络(GAN)用于文生图任务。他们通过在特定领域的数据集上训练生成器以及判别器。训练完成的模型能够从文本描述中生成“视觉上可信的”物体。但是,基于GANs生成的图片在视觉上只可“远观”,在细节上缺乏一致性。此外,基于GANs生成的图片多样性不够好,生成的图片都差不多,原创性不佳。常见的基于GANs的文图生成模型有:AttnGAN、DM-GAN、DF-GAN、XMC-GAN、VQGAN+CLIP、GauGANs、StyleGAN、Make-A-Scen等。
2021年1月,OpenAI发布了DALL-E,这是最早引起公众广泛关注的文生图模型之一。DALL-E模型是GPT-3的多模态实现,它基于Transformer架构,拥有120亿个参数。该模型在一个从网上收集的包含2.5亿个图像文本对的数据集上进行训练得到。DALL-E会根据文本描述生成多个图像,之后由CLIP模型对这些图像进行排序,以呈现最高质量的图像。除了生成各种风格的图像(相机写实主义图像、绘画、表情符号等)之外,它还可以“操作和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中。例如,输入文本:“穿着圣诞衣服的企鹅”。DALL-E不仅生成企鹅穿着毛衣的图像,还会生成与主题相关的圣诞老人的帽子。如下所示:

从文本创建艺术,AI图像生成器的数据集是如何构建的

文本描述:穿着圣诞衣的企鹅

同年4月份,OpenAI宣布了新版本的DALL-E2,宣称它可以从文本描述中生成照片般逼真的图像。与DALL-E相比,DALL-E2在速度、图像质量、训练数据集以及语言理解能力都有了显著改进。不过有时候模型也会出现错误。比如DALL-E2就无法区分:“黄色的书和红色的花瓶”。

从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:黄色的书和红色的花瓶,左边图片由Imagen生成,右边图片由DALL-E2生成,引自Imagen论文

2022年5月,Google推出Imagen。它是一种文本到图像(text-to-image)扩散模型(diffusion model),具有前所未有的逼真度和深度的语言理解。Imagen建立在大型Transformer语言模型理解文本语义的能力之上,依赖于扩散模型生成高保真的图像。Imagen表明了以下四点结论:

  1. 冻结大型预训练模型的文本编码器对于文本到图像任务非常有效
  2. 放预训练文本编码器的大小比缩放扩散模型的大小更重要
  3. 提出一种新的阈值扩散采样器,可以使用非常大的无分类器指导权重
  4. 引入了一种新的高效的U-Net架构,其计算效率更高,内存效率更高,收敛速度更快
从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:A brain riding a rocketship heading towards the moon,引自Imagen官网
2022年7月,OpenAI推出Stable Diffusion。Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。得益于Stability AI的计算资源以及LAION的数据资源的支持,Stable Diffusion在LAION-Aesthetics(LAION-5B的美学子集)上训练了一个Latent Diffusion Models,专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成任务能够在消费级GPU上,在10秒级别时间生成图片,大大降低落地门槛,也带来了文图生成领域的大火。
从文本创建艺术,AI图像生成器的数据集是如何构建的文图生成样例,引自Stable Diffusion论文

同年11月,OpenAI发布了Stable Diffusion 2.0。与最初的v1版本相比,Stable Diffusion 2.0版本使用全新的文本编码器(OpenCLIP)训练文本到图像模型,这大大提高了生成图像的质量。此版本的文生图模型可以生成默认分辨率为512×512像素以及768×768像素的图像。此外,该模型在LAION-Aesthetics(LAION-5B的美学子集)进行训练。与v1版本不同的是,v2版本使用LAION的NSFW(色情和性内容过滤器)过滤掉了数据集中的成人内容。

从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:一只戴墨镜的兔子

Stable Diffusion 2.0还包括一个超分辨率扩散模型,它可以将图像的分辨率提高4倍。结合文本到图像模型,Stable Diffusion 2.0现在可以生成分辨率为2048×2048甚至更高分辨率的图像。

从文本创建艺术,AI图像生成器的数据集是如何构建的左图:128×128低分辨率的图片,右图:512×512高分辨率的图片,引自Stable Diffusion 2.0官网

除了完成基本的文生图任务、超分辨率任务之外,Stable Diffusion 2.0还可以玩转很多其他任务。比如Stable Diffusion 2.0 在v1版本图像到图像(image-to-image)的特性之上,提出深度引导的稳定扩散模型(depth-guided stable diffusion):depth2img。它使用现有模型推断输入图像的深度,然后使用文本和深度信息生成新的图像。

从文本创建艺术,AI图像生成器的数据集是如何构建的depth2img,引自Stable Diffusion 2.0官网

此外,Stability AI团队在Stable Diffusion 2.0的基础上提出一个新的文本引导的图像模型。这可以智能且快速地切换图像中的部分内容。

从文本创建艺术,AI图像生成器的数据集是如何构建的图像修补模型生成的图像,引自Stable Diffusion 2.0官网

同年12月,OpenAI发布了Stable Diffusion 2.1版本(公司效率不可谓不高),主要作了以下3点提升。

  1. 调整过滤器,增加数据量:在2.0版本中,为了防止色情内容和名人肖像的滥用,Stability AI使用LAION的NSFW(色情和性内容过滤器),过滤了成人内容。但是,该过滤器过于保守,这导致一些模棱两可的图像惨遭“和谐”,这减少模型训练数据集中的人物数量。因此,2.1版本调整了过滤器(可以涩涩,但仍然去除绝大多数涩涩内容)

  2. 加强非标准分辨率图像渲染:该版本的模型显著提升了建筑、室内设计、野生动物和景观场景方面的图像质量,可以为用户提供美丽的远景和史诗般的宽屏图像

  3. 加强反向提示词:它允许用户告诉模型不生成什么,用于消除不需要的细节,使得生成的图像更加精致

从文本创建艺术,AI图像生成器的数据集是如何构建的文本描述:A mecha robot in a favela in expressionist style,左图:v1.0版本,右图v2.1版本

02 图解Stable Diffusion原理

在大致了解文图技术之后,大家是不是想要了解图文生成模型的原理以及如何构建训练数据集呢?别急,下面,我们将以Stable Diffusion为例子,以图文的方式带着大家一起掀开Stable Diffusion的面纱。

从文本创建艺术,AI图像生成器的数据集是如何构建的Stable Diffusion text-to-image示意图,引自Jay Alammar博客

Stable Diffusion是个比较杂合的系统,主要由三个核心模块组成:

  • Text Encoder(文本编码器)

  • Image Information Creator(图像信息生成器)

  • Image Decoder(图像生成器)

从文本创建艺术,AI图像生成器的数据集是如何构建的Stable Diffusion模块示意图,引自Jay Alammar博客

Text Encoder(文本编码器

该模块负责处理语义信息。通常是利用CLIP(v1版本)、OpenCLIP(v2版本)等模型将人类语言(文字)编码为计算机语言(语义向量)。训练CLIP(OpenCLIP)则需要一个图文配对的数据集

从文本创建艺术,AI图像生成器的数据集是如何构建的CLIP训练流程图,引自Jay Alammar博客

Image Infomation Creator(图片信息生成器)

该模块负责生成图片隐变量。其核心则是一个多次迭代的去噪过程,即训练一个去噪的扩散模型。模型的输入是一个带噪声的图片隐变量(含语义向量),通过扩散模型,逐步去除隐变量中的噪声(模型的预测目标是噪声),最终得到去除噪声的隐变量(加噪图减去噪声)。训练这个扩散模型,则需要一个“去噪”数据集

从文本创建艺术,AI图像生成器的数据集是如何构建的噪声预测器,引自Jay Alammar博客

Previous 2023-02-15 11:42
Next 2023-02-15 21:22

相关推荐

  • 大模型日报(7月23日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-23
    240
  • 大模型日报(7月22日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-22
    233
  • 大模型日报(3月16~17日)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 流浪地球里的数字生命计划启动了? DeepM…

    2024-03-17
    97
  • 大模型日报(4月26日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-04-26
    168
  • 大模型日报(7月20~21日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-21
    157
  • 大模型日报(8月26日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-26
    290
  • 大模型日报(9月10日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-10
    263
  • 大模型日报(7月16日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-16
    233
  • 大模型周报 -「春节档特辑精选」:OpenAI首个视频生成模型Sora发布

    LLM SPACE祝大家开工大吉,龙年好运常在,平安健康顺遂,工作事业顺心如意! 大模型周报由奇绩创坛大模型日报精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外…

    2024-02-18
    131
  • 大模型日报(8月27日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-27
    279