Stable Diffusion 背后的故事：独辟蹊径，开源和社区驱动的 AI 独角兽｜创始人专访

整理丨李梦佳、牛梦琳

今日，AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，此轮融资后，Stability AI 估值已到达 10 亿美元，成为新晋独角兽。领投公司为以支持开源著称的Coatue、Lightspeed以及O’Shaughnessy Ventures。

其资金将用于开发图、文、视频、音频和3D等多模态开源模型。除了Stable Diffusion外，音乐生成算法和工具Dance Diffusion也已经曝光。算力（公司目前在AWS上租用4000台A100）和人才（计划从100增加到300）都是烧钱大户。

据悉，目前Stability AI团队共计103人，有1名博士，明年计划资助超过100位博士。该公司领导团队国际化氛围明显，最近还有来自日本的David Ha和法国的Daniel Jefferies等社区名人加入，分别担任战略负责人和首席信息官。公司发言人表示，未来商业模式类似红帽和MongoDB，开源版本免费，通过商业版本来盈利。而有熟悉公司商业计划书的人士说，更长远的计划是成为一个控股公司，支持多个开源项目的商业化。

AI领域的文生图竞赛已经打响。正如State of AI报告中所说，「文生图扩散模型的狂潮催生了新的 AI 创企。Stability AI和Midjourney几乎是横空出世，而他们开发的文生图模型却可以和成熟的AI实验室比肩。」

号称最强文本生成图片的模型Stable Diffusion诞生于今年8月。其核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser，以及慕尼黑大学机器视觉学习组的Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型（Latent Diffusion Model）研究。

相比较于DALL-E等大模型，Stable Diffusion让用户使用消费级的显卡便能够迅速实现文生图。Stable Diffusion 完全免费开源，所有代码均在 GitHub 上公开，任何人都可以拷贝使用。在用户层面，它无疑是十分成功的。目前，Stable Diffusion已经有超过20万开发者下载和获得授权，各渠道累计日活用户超过1000万。而面向消费者的DreamStudio则已获得了超过150万用户，已生成超过1.7亿图片。与此同时，它的惊艳艺术风格、以及图像涉及的版权、法律等问题也引发了诸多争议。

Stable Diffusion模型第一个版本训练耗资60万美元，而提供资金支持正是Stability AI。该公司成立于2020年，最初资金都来自创始人兼CEO Emad Mostaque。Emad印度生人，自小在英国长大，2005年毕业于牛津，有数学和计算机硕士学位，后一直在金融界担任对冲基金分析师。2019年，他曾创立Symmitree，旨在为生活在贫困社区的人们降低智能手机和互联网接入成本。2020年新冠开始后，他又致力于创建新冠数据集。他2020年创办Stability AI的动机，一是自己对AI的痴迷，一是开源AI社区缺乏“组织”。他被投资者评价为「才华横溢、且使命驱动的思想家」，同时其丰富的商业经验让他在产品运营与落地方面另辟蹊径。

Emad Mostaque，Stability AI创始人兼CEO

除了Stable Diffusion，Stability AI雄心勃勃的计划下面还聚集了EleutherAI和LAION等知名开源项目，以及生物模型OpenBioML、音频生成Harmonai、人类偏好学习Carperai、新冠研究Caiac和多模态DeepFloyd等更多项目。

业界普遍认为，Stability AI的迅速崛起给OpenAI造成了不小压力，John Carmack（AGI初创公司Keen Technologies创始人，前Oculus CTO）表示「Stable Diffusion是一个开源炸弹。OpenAI虽然资金充裕，但从商业化以及产品化的角度很难与其匹敌。」

在AI研究员兼知名YouTube博主Yannic Kilcher（后简称主持人）近期的访谈中，创始人兼CEO Emad Mostaque谈及了Stability AI创立的初衷、使命和终极目标。一直以来Emad致力于为研究者消除计算和资金的限制。他相信，图像才是杀手级的应用。图像生成模型可以迅速创造，并引导人们迅速消费。

Stability AI：基于使命驱动的开源AI

主持人：Emad非常富有，他想好好利用自己的财富。前一阵子，他通过一项名为「Stability AI」的计划资助了Stable Diffusion模型。Stability AI的目标是在学术和产业界之外打造第三极。OpenAI创立之初的愿景，是希望把人工智能带给大众，将技术民主化。而现在Emad真地在这样做了。

Emad：我们正处于人工智能的繁荣期，一切似乎都要腾飞，而未来更要释放人们的创造力。我之所以成立“Stability AI”这一组织，是为独立研究者和学术研究者消除障碍，来建立类似Eleuther AI, LAION（大规模人工智能开放网络）等的新模式。（EleutherAI 成立于 2020 年 7 月，主要发起人是一批号称自学成才的黑客，自成立以来，其研究团队首先开源了基于 GPT-3 的、包含 60 亿参数的 NLP 模型 GPT-J，2021 年 3 月又发布类 GPT 的27 亿参数模型 GPT-Neo，成长迅速；LAION则代表大规模人工智能开放网络，非营利组织，目标是向公众提供人工智能、数据集和代码。）

由于计算和资金方面的限制，每个人基本上有三个选择。进入学术界；跳到科技大厂，在企业里为产品团队卖命；自己创业开公司。真正经营自己的创业公司是很辛苦的，而且也不是大多数学者或研究人员该做的事。

如今，我们看到80％的研究资金正在流入下一代AI，并且真的有潜力改善人类的生活。所以这就是Stability AI要致力于的问题，即解决计算和资金问题，并把研究者聚集在一起。事实上，到8月8日上线时，我们已经近乎成功地实现了这一点。

主持人：你提到解决计算和资金问题，对于Stability AI来说，流入这个组织的资金来源是什么？这些钱又是怎么花的？

Emad：最初主要是我自己的资金。因为我是对冲基金经理出身，积累了一定的资金。2020年到2021年，我领导了在斯坦福启动的针对新冠的集体增强智能倡议行动，我们整理了新冠数据集，并借此触达世界范围内有关新冠的信息，并取得了世卫组织、世教科文组织和世界银行的支持。我因此跟很多人建立了联系，我把他们拉到一起，并自己注入了资金。在亚马逊的帮助下，我们已经构建起了一个包含 12,100 个计算节点的开源集群。它有可能成为第十位最快的公共超级计算机，而Eleuther AI, LAION都在这个基础上建立了有史以来最酷的模型，这些模型将以各种各样的形态发布。

这是到目前为止，我们作为一个社区所做的事情。而下一个阶段则更加令人兴奋: 我们正在与国家和机构合作，以期将其提升到一个新的水平，这意味着更多的计算资金资源，以及，更重要的，组织与协调，以释放智慧和创造力。这个社区对各个国家、社区，乃至全人类都是开放的。

主持人：当你说到，Stability AI的目标是国家，具体指什么？它可以与CERN或者国际空间站这样现有的组织相比吗？

（欧洲核子研究中心CERN成立于1954年9月29日，总部位于瑞士日内瓦西北部郊区的法瑞边境上，享有治外法权。欧洲核子研究中心拥有世界上最大的粒子物理学实验室，也是万维网的发源地。CERN目前有23个成员国。以色列是第一个也是目前唯一一个非欧洲成员国。）

Emad：我想强调的是合作。我们已经是联合国的合作伙伴，并且正在做国家层面的合作，比如建立国家层面的模型和数据集等等。我们启动的时候有点像CERN，后来的发展类似LAION，把真正有才华的研究者聚集在一起。团队的责任是让他们获得所需的资源。我们下一个阶段的目标是更加机构化，同时营造社区氛围。

主持人：社区氛围，这是一个很好的关键词。这些来自Eleuther AI，或者LAION的研究者们，他们积极主动地站出来想要做事情。然而，当社区变得更加公开，拥有更多的资金，计算等资源，有大量的人和想法涌入时，你将如何选择呢？谁能获得你的资源，以及能用它做什么？

Emad：目前我可以算是GPU之王（掌握大量计算资源），所以由我来决定推进哪些项目。但这样不可持续。因此我们设立特定的程序，通过这些程序可以迅速为小型研究提供资助。而我们考虑的重点是什么样的项目很酷，真正对人类有用。Stability AI本身是一种商业化形式，我们是一个盈利实体，但有一个基础使命，即在保持研发和学术独立性的同时，如何将其产品化，使其触达10亿用户？这一点上又和扩散模型息息相关。

什么是Stable Diffusion？

主持人：什么是Stable Diffusion？

Emad：Stable Diffusion是最新的扩散模型。在生成图像方面，它在所生成图像的质量、速度和成本上都取得了巨大突破。Stable Diffusion能够在消费级显卡上实现DALL-E 2级别的图像生成，生成效率却提高了30倍。我们联系了各种组织团体，包括LDM（Latent Diffusion Models，潜扩散模型）的作者。我会组织扩散模型社区内的知名人士，共同讨论如何建立一个高效的，可以扩展到10亿用户的模型。因此，我们在8月8日和9日正式发布，开源代码以及在云端和其他地方的运行说明也即将公布。

看下这张生成的在苏黎世街道上的特斯拉跑车图像，这是在「LAION 5B」（https://laion.ai/blog/laion-5b/）跨模态数据库的基础上生成的一个图像模型。以这种250TB的数据为例，我们可以通过扩散模型将其压缩到2GB字节。也就是说，当这个生成系统发布的时候，每个人都能玩转它。我们非常想向世人展示这种创新。我不知道Eleuther AI宣布了没有，但众所周知，GPT-Neo 和 GPT-NeoX，GPT-J 已经被开发者下载了2500万次。

Stable Diffusion生成的「苏黎世街头的特斯拉」

这充分说明我们可以催化生态系统的发展。有时候那些大型的AI公司，他们有一种家长式的本能，拒绝公布图像生成的代码。以扩散模型为例，我们也可以保持不开源。但是明明它的生成效率是DALL-E的30倍，为什么不让成百万人，数亿人用上这项技术呢？我们需要做些改进来使这项技术真正可用，在我看来，无论是1750亿参数的语言模型，还是5400亿个参数的模型，都不能真正适用于绝大多数需求。

主持人：你提到了开源、闭源、家长式作风等因素。我同意，但是不是也应该考虑公关和法律方面？比如说，如果DALL-E 2对每个人都开放，假如你输入了某个提示，却产生了非常可怕的东西，这是一种严重的负面影响。人们可能就会说这些模型显然不适合发布之类的。那么如果有人来找你，说你的模型产生了可怕的输出，你会对这些人说什么？

Emad：我会说人类才是可怕的。技术无好坏，但使用的方式却分善恶。实际上，对于这种特殊的产出，绝大多数人都会没有什么感知。比如，社交媒体和巨头们一直告诉我们要不断消费。下到三岁孩童，上至90岁的老人都生活这个消费模型之中。当人们心理健康时，好的事情总是远远超过任何负面的事情。现实中，人们会慢慢习惯这些模型。

现实情况会出现一些偏差。比如，你不能在DALL-E 2中使用乌克兰这个词，因为它是政治词语。如果你输入相扑运动员，因为有预提示和多样性过滤器后处理，某些关键词又会随机添加到问题中，结果最后你得出一位亚洲女星，因为系统随机添加了民族性，而对此你无能为力。如果你想在印度创建一个更适合当地文化的本地化版本，这是不可能的。因为你压根无法访问这个模型，而且他们也没有能力微调。反对派还会说运行AI过于昂贵，但实际上他们不相信AI, 因为他们认为人类才知道得更多。我认为这是错的。其实更多时候「变得奇怪和讨厌」的是人不是AI。我认为像DALL-E 2这样对人类有积极作用的技术，应该被广泛应用，只有这样，才能扩大它们积极的一面，并遏制它们的负面用途。

不走寻常路，图像才是杀手级应用

主持人：是什么让你始终不走寻常路？以OpenAI、DeepMind等这些公司为例，OpenAI一开始的初衷是「希望AI民主化」，但现在仿佛变成「快掏钱吧」。你是如何面对盈利压力的？

Emad：OpenAI的创始人之一已经离开了。他们私下里也说我们正在做的东西是他在OpenAI成立时就想做的，只是那时时机不对。2019年，马斯克因为战略分歧退出了OpenAI，整个公司的结构随之发生变化，焦点也变了，他们变得更加重视产品，尽管实际上并没有侧重在产品研发。虽然现有这些模型很强大能做很多事，却还没有技术扩散曲线。

这里涉及到一个问题: 什么是杀手级应用？是像现在的大规模语言模型吗？不可否认，他们已经解决掉了85%到90%的问题，现在甚至达到95%。但问题是这些模型又大又笨重。

所以，我认为图像才是杀手级的应用。图像模型可以迅速创造，并引导人们迅速消费。它们的竞争对手是Snapchat或TikTok，在那里你可以创建像Pokémon GO这样火爆的游戏。但同时，它们也能被以足够低的成本，又好又快地整合到许多不同的领域。

最后，我们采用一种与各国政府和机构合作的模式，以便在每个国家建立AI社区，在这个过程中我们抓住了文化的多样性。同时，我们以社区为中心，以盈利为导向，建立了一个良好的商业模式。目前我们已经签订了许多合作订单，与大多数赔钱的大公司相比，我们的盈利能力毋庸置疑。毫无疑问，我们是在正确的时间成立的正确的公司。理想化的情况是，这将成为一件更独立的、更去中心化的事情。这个开放的持续贡献的社区，我希望在未来一年内能够做到这一点。

为Stability AI工作是什么体验？

主持人：之前你说到对于Stability AI 的员工，你不仅给他们硬件和运营方面的补助，还为他们提供兼职或全职的岗位，能说说为Stability AI工作是什么体验吗？

Emad：是的，不同人需要不同。我们的员工来自各种不同的背景，一些人需要堪比谷歌或微软的工作岗位。因此我们会支付有竞争力的工资和高额奖金。而且在我们的合同中，没有IP相关的条款，任何开发人员都可以开放工作的源代码。我们也规定，当app和模型推广运行时，所有参与开发的开发者都有收入分成，即使他们之后不在Stability AI 工作了也是如此。实际上，10%的收入会被注入到这个分红池，其中一半分给模型和数据集的创造者，另一半作为一个公共奖励池，对于包括Stability AI 的员工或其他相关人员开放，这部分奖励一般会被授予最有趣的研究。这样，工作重心就变成了开源最有趣的研究，而不是重点在于商业化项目。

这里商业化项目主要指的就是开放API接口，而非商业化项目则占了收入的5%以下。我们也提供奖学金，通过github里的赞助商赞助了一大批程序员的项目。我们致力于为他们提供最舒适的研究环境。

明年我们打算资助100个人工智能方向的博士，希望构建一个社区，可以帮助我们协调全球学术研究。我们也提供像心理健康支持、论文作者等其他方面的帮助。这些都是为了使人们能够持续不断做有意义的事情。我们希望能够在开放的基础上真正建立并改变现有的激励结构，通过提供补助金，奖学金，博士经费资助，兼职或全职工作，或是招募社区成员，目的是解放研究者，让他们从各种奖金池中获得支持。我们还有慈善机构，这也是我们博士经费的来源。

主持人：有兴趣加入社区，并想做贡献的人，应该如何找到你？

Emad：我们有Stability AI的官网（https://stability.ai/），在更新中。可以加入Eleuther AI、LAION、DreamStudio等各类社区。基于社区贡献，你会得到资金支持，地位提升以及其他各种方面的奖励。

如果你想加入Stability AI，我们有很多岗位开放给优秀的程序员。如果你希望博士研究得到资助，我们将在几个月后宣布博士生资助计划。我认为，通过这个真正灵活的超级计算集群，我们一定会有所作为。这是一个大集群。它可用于最酷的研究，也可能对人类产生影响，我认为这一点超级令人兴奋。

主持人：你在寻找的贡献者是什么样类型的人？

Emad：我们正在寻找那些相信开源AI的人。就像我们带来的这项技术，既能让人类变得更好，也可以赚取利润。当然后者是次要的。参与其中的个人还是公司，必须是能与社区融合的人，可以与来自不同背景的人很好地合作，怀着一个普世的好奇心，并且想推动行业的边界。我认为我们最大的突破来自于非传统的背景。EleutherAI的创始人们，他们都不是计算机的背景，但仍然成就斐然。

我们不希望看到的是被高度企业化的人，他们的思维方式往往固定在一种方式，总想着如何赚快钱。在我们这里，你当然可以赚到钱。但是我们的发展正处在一个关键点上，这项技术可以最大限度地发挥人类的潜力，或者企业集中控制的方式，在这二者之间要做出选择。

参考链接：https://www.youtube.com/watch?v=YQ2QtKcK2dA

文章版权归作者所有，未经允许请勿转载。

THE END