高光时刻！AI绘画终于迎来大众化关注

当今AI绘画的飞速进展或许已远超所有人的预期，本文就带大家快速回顾AI绘画的发展过程。

发展历史

AI绘画的出现时间可能比很多人想象的要早。

计算机是上世纪60年代出现的, 而就在70年代, 一位艺术家，哈罗德·科恩Harold Cohen（画家，加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序"AARON"进行绘画创作. 只是和当下AI绘画输出数字作品有所不同, AARON是真的去控制一个机械臂来作画的。

2006年, 出现了一个类似ARRON的电脑绘画产品 The Painting Fool. 它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作。

以上这两个例子算是比较"古典"方式的电脑自动绘画, 有点像一个学步的婴儿, 有一点样子, 但从智能化的角度来看是相当初级的。

而现在, 我们所说的"AI绘画"概念, 更多指的是基于深度学习模型来进行自动作图的计算机程序。这个绘画方式的发展其实是比较晚的。

值得注意的是, 在AI绘画模型的研究过程中, 比较有名的是2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络。

从下图的作品集可以看出，这个创造性对抗网络CAN在尝试输出一些像是艺术家作品的图画，它们是独一无二的，而不是现存艺术作品的仿品。

技术开发

在很多科幻电影或剧集里, 往往会有这么一幕, 主角和特别有科幻感的电脑AI说了一句话, 然后AI生成了一个3D影像, 用VR/AR/全息投影的方式呈现在主角面前。

抛开那些酷炫的视觉效果包装, 这里的核心能力是, 人类用语言输入, 然后电脑AI理解人类的表达, 生成一个符合要求的图形图像, 展示给人类。

仔细一想, 这个能力最基础的形式, 就是一个AI绘画的概念。所以, 无论是用说话控制, 还是更玄乎的脑电波控制, 科幻影视中的酷炫场景实际上描述了一种AI能力 , 那就是把"语言描述" 通过AI理解自动变为了图像。目前语音自动识别文本的技术已经成熟至极, 所以这本质上就是一个从文本到图像的AI绘画过程。

这一切到底怎么发生的呢?

首先要提到一个新模型的诞生。还是前面提到的OpenAI团队, 在2021年1月开源了新的深度学习模型 CLIP（Contrastive Language-Image Pre-Training)。

CLIP训练AI同时做了两个事情,一个是自然语言理解,一个是计算机视觉分析。它被设计成一个有特定用途的能力强大的工具, 那就是做通用的图像分类, CLIP可以决定图像和文字提示的对应程度。

但就在CLIP开源发布几天后, 一些机器学习工程师玩家就意识到, 这个模型可以用来做更多的事情。比如Ryan Murdock, 想出了如何把其他AI连接到CLIP上, 来打造一个AI图像生成器. Ryan Murdock在接受采访时说：“在我把玩它几天后，我意识到我可以生成图像。”

最终他选择了BigGAN, 一个GAN模型的变种, 并将代码发布为Colab笔记The Big Sleep。

(注:ColabNotebook是Google提供的非常方便的PythonNotebook交互式编程笔记本在线服务,背后是Google云计算的支持。略懂技术的用户可以在一个类似笔记本的Web界面上编辑运行Python脚本并得到输出。重要的是,这个编程笔记是可以分享。)

Big Sleep创作的图画其实略诡异和抽象, 但这是一个很好的开始。

随后, 西班牙玩家@RiversHaveWings在此基础上发布了CLIP+VQGAN的版本和教程, 这个版本通过Twitter被广为转发传播, 引起了AI研究界和爱好者们的高度关注。而这个ID背后, 正是现在所被熟知的计算机数据科学家 Katherine Crowson。

把CLIP嫁接到GAN上去生成图像, 这其中的思路倒也简单明了:

既然利用CLIP可以计算出任意一串文字和哪些图像特征值相匹配, 那只要把这个匹配验证过程链接到负责生成图像的AI模型 (比如这里是VQ-GAN), 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 不就得到一幅符合文字描述的作品了吗?

CLIP+VQGAN 引领了全新一代 AI图像生成技术的风潮，现在所有的开源 TTI(Text to Image, 文本文本生成图像)模型的简介里都会对 Katherine Crowson 致谢，她是当之无愧的全新一代AI绘画模型的奠基者。

但激动人心的进展到这里还远没结束！CLIP+VQGAN这个强力组合是去年初发布并在小圈子传播的, 但AI绘画的大众化关注, 如开篇所说, 则是在今年初开始, 由Disco Diffusion这个线上服务所引爆。这里还隔着大半年的时间。是什么耽搁了呢?

一个原因是CLIP+VQGAN 模型所用到的图像生成部分, 即GAN类模型的生成结果始终不尽如人意。AI人员注意到了另外一种图像生成方式，那就是Diffusion模型(扩散化模型)。

今年初被大众首先熟知的AI绘画产品 Disco Diffusion, 正是第一个基于CLIP + Diffusion 模型的实用化AI绘画产品。但Disco Diffusion的缺点还是有些明显, 其并没有取代人工创作的能力，核心原因有2点：

首先，Disco Diffusion 无法刻画具体细节，渲染出的图像第一眼很惊艳，但仔细观察就会发现大部分都是模糊的概括，达不到商业细节水准。

其次，Disco Diffusion的初步渲染时间是以小时计算的, 而要在渲染图像的基础上刻画细节，则相当于要把整个图重新画一遍，这样一个流程下来花耗费的时间精力，比直接手绘还要多。

因此对于大众应用级的平台产品, 这个模型无法在用户可以接受的生成时间里去计算挖掘更多的图像细节, 即便那种草稿级别的作图, 也需要耗费Disco Diffusion以小时计算的时间。

但无论如何, Disco Diffusion给出的绘画质量, 相对于之前的所有AI绘画模型, 都是碾压式的超越。

然而，就在今年另一款强大的AI绘画模型 Stable Diffusion终于闪亮登场了!

实际上Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里, 然后再进行繁重的模型训练和图像生成计算。

AI绘画的未来

2022年的AI领域,基于文本生成图像的AI绘画模型是风头无两的主角。从2月份的DiscoDiffusion开始,4月DALL-E2和MidJourney邀请内测,5月和6月Google发布两大模型Imagen和Parti，然后7月底StableDiffusion横空出世。

在这一年半载里,AI绘画发生了革命性的,甚至可以说历史上会留名的突破性进展。而接下去的时间里AI绘画,或者在更广泛的AI生成内容领域（图像,声音,视频,3D内容等)还会发生什么,让人充满了遐想和期待。

但不用等待未来,体验了当下以StableDiffusion为代表的最先进AI绘画模型所能触达的艺术高度,我们已经基本可以确认,"想象力"和"创造力"这两个曾经充满着神秘主义的词汇,也是可以被技术解构的。

事实上,类似StableDiffusion这种AI生成模型的一个核心思路,或者说很多深度学习AI模型的核心思路,就是把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更简单的理解,一串数字)。

如果这个"内容➡️向量"的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量，而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。通过逆向的"向量➡️内容"的转换,这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney,StableDiffusion这些最新AI绘画模型所做的事。AI可以说是在创作新的内容,也可以说是新绘画作品的搬运工，AI产生的新绘画作品在数学意义上一直客观存在,只是被AI从数学空间里还原出来。

目前最新AI绘画的"创造力"开始追赶甚至几已比肩人类，在未来或许人类通过AR/VR接入统一的或者个人的元宇宙,人类主人只要表达需求,无所不能的AI助理就能根据要求自动生成内容,甚至直接生成可供人类体验的故事/游戏/虚拟生活。

虽然未来发展尚不可预测，但AI绘画的发展过程中, 最幸福的莫过于所有AI技术爱好者和艺术创作者们。大家亲眼目睹着停滞了多年的AI绘画水平如今正以火箭般的速度冲到了顶峰。毫无疑问,这是AI发展历史上的一个高光时刻。

般诺光线 ꄲ 行业资讯 ꄲ 高光时刻！AI绘画终于迎来大众化关注

ꄴ前一个：无

ꄲ后一个：无