生成式人工智能十年的经验教训

[导读]最近，在 ChatGPT 和 Bard 等公司的引领下，生成式 AI 掀起了热潮，企业越来越多地寻求了解该技术的用例。现在是围绕人工智能的力量展开对话的好时机，但生成式人工智能并不是什么新鲜事。十多年来，生成式建模(即生成式 AI)在幕后蓬勃发展，主要受到三个因素的推动：2015 年的 Tensorflow 和 2016 年的 PyTorch 等开源软件库的开发;神经网络架构和训练方面的创新;以及图形处理单元 (GPU) 和张量处理单元 (TPU) 等硬件改进，以促进大规模神经网络的训练和推理。

最近，在 ChatGPT 和 Bard 等公司的引领下，生成式 AI 掀起了热潮，企业越来越多地寻求了解该技术的用例。现在是围绕人工智能的力量展开对话的好时机，但生成式人工智能并不是什么新鲜事。十多年来，生成式建模(即生成式 AI)在幕后蓬勃发展，主要受到三个因素的推动：2015 年的 Tensorflow 和 2016 年的 PyTorch 等开源软件库的开发;神经网络架构和训练方面的创新;以及图形处理单元 (GPU) 和张量处理单元 (TPU) 等硬件改进，以促进大规模神经网络的训练和推理。

在本文中，我将旨在解释什么是生成模型、它们如何发展到今天的水平以及应该如何使用它们，同时也探讨它们的局限性。

什么是生成模型，它们从何而来?

生成模型学习训练数据的分布，以便能够采样或生成在统计上与原始数据相似的合成数据。这需要一个两步过程：首先，在大型静态数据集上训练模型，其次，对模型进行采样以获得新的数据点。这个两步过程的好处是，一旦模型经过训练，就可以廉价地大规模生成新数据。

虽然早期的生成模型相对简单，例如隐马尔可夫模型、朴素贝叶斯或高斯混合模型，但 2010 年左右将 GPU 引入主流机器学习使得基于深度神经网络的更灵活的生成模型成为可能。Deepmind (2010)、Google Brain (2011) 和 Facebook AI Research (2013) 等设施齐全的新研究实验室也于此时开始开放，而 OpenAI 则在 2015 年底晚些时候出现，进一步推动了人工智能技术的发展。深度学习，从而生成建模。在此期间，许多新的架构开始出现，例如变分自动编码器(VAE，2013)和生成对抗网络(GAN，2014)，它们在生成图像方面产生了最先进的结果。

为了促进这些更复杂模型的开发和部署，Google 于 2015 年发布了开源库 Tensorflow，紧接着 Facebook 于 2016 年发布了 PyTorch。这些库使广泛的从业者和研究人员能够使用深度学习，带动新模式、新应用的快速发展。

其中一个突破性模型是 Transformer——一种于 2017 年出现的深度学习模型，现在构成了 GPT-4 等所有当前最先进语言模型的基础。次年 2018 年出现的两个特定的基于 Transformer 的模型是来自 Google 的 BERT(来自 Transformers 的双向编码器表示)和来自 OpenAI 的 GPT(生成预训练 Transformer)。两者都被设计为通用语言模型来执行各种任务，从文本分类和情感分析到语言翻译。受热力学启发，2019 年出现的另一个突破性模型是用于生成图像的扩散模型。

迄今为止，扩散模型和变压器模型是文本到图像和语言模型的主要方法，分别实现了最先进的结果。例如，ChatGPT于 2022 年发布，今年(2023 年)发布的更先进的 GPT-4 采用了 Transformer 架构，而 Stable Diffusion 和 Midjourney 等模型都是基于扩散的模型。在过去的几年里，生成式人工智能的趋势是训练越来越大的模型和更多的参数，以获得越来越好的结果。这些工程壮举，例如 GPT-4 和 Midjourney v5，依赖于改进的硬件、开发良好的软件库和高效的深度神经网络架构(即 Transformer)的组合，并且变得如此受欢迎，部分原因是它们很容易供公众使用和访问。

生成模型的应用

随着生成模型开始产生更引人注目的结果，并通过易于使用的 API 越来越多地向公众开放，它们变得更适合各种应用程序。对于图像来说，大多数应用程序都围绕某种形式的内容创建和设计。生成模型应用的一个臭名昭著的例子是深度假货的兴起。虽然这在电影和广告行业具有潜在的良好用途，但深度造假也可能被恶意地用于传播错误信息。对于 ChatGPT、Bard 和 GPT-4 等语言模型，应用程序包括文本摘要、翻译和补全，这对于营销内容和内部通信特别有用。

在技术方面，Codex 和 GitHub Copilot 等语言模型已成功用于生成可以加快开发速度并帮助程序员的代码。当然，有效地指导模型是即时工程的艺术。

需要考虑的挑战和风险

当前生成模型的根本风险在于它们是输出不可控的黑盒模型。这个问题可以通过多种不同的方式表现出来，例如：

1. 没有办法明确阻止这些模型生成攻击性或图形文本和图像。仍然需要有人参与其中来过滤掉不适当的材料。

2. 生成模型可能会返回大部分训练数据，从而导致隐私和版权问题。这个问题在 Getty Images 最近针对 Stability AI 提起的诉讼中得到了强调。

3. 从语言模型返回的信息可能不准确或具有误导性，因为该模型无法对其自身的输出进行事实检查。因此，不应依赖这些模型来制作医疗、财务或法律事务等高风险情况下的内容。此外，对于 GitHub Copilot 等代码生成工具，在将代码投入生产之前应小心谨慎，因为可能会遗漏边缘情况或可能破坏生产管道的错误。

这些只是使用生成模型的风险的几个例子。为了缓解这些问题，应与人类合作使用有效的生成模型来监控其输出并在需要时纠正结果。

生成式人工智能的未来

可以肯定地说，生成式人工智能的未来将继续受到推动其发展至今的相同力量的推动。硬件和软件的改进将提高我们能够训练的模型的能力。架构和培训方面的新创新将不可避免地出现，从而导致新的最先进模型的性能飞跃。此外，新机遇也伴随着新挑战。版权和知识产权法需要进行调整，随着人工智能和数据法规的发展，对于使用哪些数据来训练这些模型可能会出现进一步的隐私问题。Deepfake 技术也将继续成熟，允许更先进的方法来传播错误信息和虚假内容。尽管存在这些挑战，生成人工智能的未来仍然光明，