Text2Image技术之下的人工智能艺术创作

Nicolas · 2021 年12 月 12 日 09:01

OpenAI 与 Google 在这几年间推出了革命性的人工智能工具，包括AlphaGo（自动博弈）、GPT-3（语言生成）、AlphaFold（蛋白质预测）。不知不觉中，集体智慧(Collective Intelligence)时代已经来临，所有人都中了人工智能的幻术。

其中，OpenAI 更是将魔爪伸向了图像生成领域，Dall-E（达利）系统可以藉由输入语句做出变幻无穷的图片（Text-to-Image），其中的核心灵魂— 文字图片配对引擎CLIP （Contractive Language-Image Pre-Training）是开源软件，这几个月图像演算界像是著了魔般突飞猛进，演化出看次无穷无尽的新玩法。

上周 Pixray 发布了一项新功能，由 AI 根据语句生成的魔幻图片（Text to Image），用户调整字句与骰图，让图片展现其意图，目前应该已算超过一万张图。

有兴趣的朋友可以在下方尝试一下Text2Image人工智能技术：

其实AI 艺术已不是新鲜事，AI 艺术先驱Mario Klingemann 于2018 年获得〈流明奖〉（Lumen Prize），其作品“屠夫之子”便是使用GAN（Generative Adversarial Network, 生成式对抗网络）训练制作；之前提到由Memo Akten 创作的分散式意识（章鱼），也是以GAN 进行创作。

“How will we be able to make a living if machines take over our creative jobs?”
by Mario Klingemann

就在十月底，Mario Klingemann 打造了一名 AI 机器艺术家Botto，与其背后支撑他的代币经济$Botto，其背后的创作原理与文前提到的Pixrary 相同，这部机器会定时接受社群提出的文字语句进行创作，其作品的交易量已经超过三千三百万台币。整个策略与行动发人省思，作品也很美。

我仔细穷究这个震撼源自何处，发现其原因不是AI 会创作、会自动演化，而是因为这两台机器背后使用的核心灵魂——CLIP算法。

这个演算法的粮食，来自全人类的网路足迹。CLIP 在诞生时不是经过事先准备好的资料集训练的，而是使用网路上能找到的一切具有文字标签的图片来训练，因此我们很难去预判CLIP 到底学到了什么。使用CLIP 时，不需要再次准备图片资料集去做训练，这个方式称为Zero-shot learning。

网路上一切有文字解释之图片，是谁的解释？解释权在谁手上？

不是科学家的解释、不是工读生的解释，是“我们”的解释。更进一步来说，是自古以来网路使用者的解释。

我们想到什么，记下什么，人工智能就会去消化它，学习它，成为一部没有灵魂，但有渊博知识的艺术家。人类藉由念出一段咒语来召唤人工智能，他生出一件作品给你，请问这件作品是由谁创作的呢？念咒者、人工智能、还是全人类？

打个比方，当你在Pixray 写下艾菲尔铁塔（Eiffel Tower）时，机器吐出来的图片是一个铁制尖塔，不是从艾菲尔铁塔底下往上看的样子，也不是站在塔顶往外看的样子，为什么呢？因为全人类都一致认为，艾菲尔铁塔便应该一幢从远方凝视的尖塔。

艾菲尔铁塔的符号非常明确，大家的心像大致上相同。这就是集体智慧，AI 演算法夺去了这个心智，展现给大家看。

Prompt Engineering （姑且称之为引导工程）是一种创作方式的名称，藉由不同词汇的堆叠，仿佛画笔不断将颜料堆叠在画布上。

这可不是一件容易的事，颜料有色调、运笔有技法、构图有各种消失法（拿出我国中美术班的知识…），Prompt Engineering 必须逆向工程出AI 吐哺集体心智诞生的新词汇，名词、形容词、动词、介系词、方向导引等等。

但同一个句子，机器会骰出不同的图片，因为训练集与演算法特性使然。多么诗意的创作过程呀。因为人工智能的进步，今天的人类已可以使用诗句来进行图像创作。这是全新的画布与画笔，折射出我们内心习以为成的事物。

VQGAN+CLIP 演算法原理

回过头来讲 Pixray 的演算法组合，工程师Dribnet 融合了Perception Engines、VQGAN+CLIP、Sampling Generative Networks，打造Pixray 创作平台，大家有兴趣可以上去玩玩看，简单又好玩。今天只稍微解释什么是VQGAN+CLIP。

上文提到CLIP 于今年一月由OpenAI 提出，更新的融合技术CLIP guided GAN imagery 于今年四月由Ryan Murdoch 与Katherine Crowson 提出。十一月时已经可以看到应用其技术的GUI （图像式介面，就可你不用开终端机就能玩的服务）民间使用平台，实在令我讶异科技进步之神速，果然开源精神是一条最有效率的道路。

简单来讲， VQGAN+CLIP 是一个文字转图片的工具（text-to-image），只要设定文本导引（Text prompt），它就会给你图片。这个工具已经替AI 创作工具（Creative AI）创造新浪潮。

VQGAN 与CLIP 分别是两个神经网路架构， VQGAN 全名为Vector Quantized Generative Adversarial Network（量子化向量生成式对抗网络），使用卷积神经网络加上知名的文字演算法（Transformer, BERT & GPT的爸爸），白话一点来讲它读取文字，产出图片。CLIP 全名为Contrastive Language-Image Pre-Training （预先训练对照式语言图形演算法），它判断哪一张图片最匹配文字叙述。OpenAI 同一个时间推出的Dall-E 达利系统，是采用数亿张已知的图片资料库来训练，而CLIP 本身采用未知的网路图片进行训练。

创作者提出文字，VQGAN 产出图片，CLIP 告诉VQGAN 图片对不对，对错的准则由网路全人类的结晶决定，以此方式反覆迭代到创作者说停为止。这个工具将产生巨大的创作能量，现在只是一个开头而已。

VQGAN+CLIP的一些案例

不需要改变数据集，只需要给CLIP下达的命令中把“虚幻引擎”几个字加上，再让CLIP去指挥GAN，图像就立马变成了高大上的CG艺术风。

文字中加入虚幻引擎这个技巧，最早由Aran Komatsuzaki发在推特上，吸引了大量CV圈的人来围观。

还可以指定成“彩色铅笔风格”：

彩色铅笔风格

或者，加上“3D photo inpainting”可以生成立体构图：

3D photo inpainting

心动不如行动，快来试试吧：Google Colab

话题	回复	浏览量
谷歌 Gemini Advanced 图片生成(文生图)方法及技巧实践 text2image , gemini	2772	2024 年2 月 14 日
为何 AI 生成的文章总显得那么乏味？科技人工智能 , gemini , chatgpt	89	2024 年2 月 15 日
ChatGPT-4 多维度对比 GPT-3 改进细节分析科技 chatgpt , 人工智能	591	2023 年4 月 9 日
在线使用 Meta AI 将儿童绘画作品处理成动画片段实践神经网络 , meta-ai , 动画 , 人工智能	935	2021 年12 月 19 日
谷歌回顾人工智能成果并预测其未来五大发展趋势科技机器学习 , 神经网络 , google , featured	1408	2022 年1 月 12 日
AIGC如何助力企业提升爆款游戏开发效率科技游戏 , 人工智能	266	2023 年4 月 18 日

Text2Image技术之下的人工智能艺术创作

VQGAN+CLIP 演算法原理

VQGAN+CLIP的一些案例

Text2Image Demo 作品欣赏

您可能喜欢