阿里团队刚发布的重磅图像生成基础模型，多重条件引导+图像合成，SD级别，5B参数--粉丝服务平台-粉丝头条-fensifuwu.com

阿里团队刚发布的重磅图像生成基础模型，多重条件引导+图像合成，SD级别，5B参数

日期： 2023-02-28 23:23:13 来源：神秘的程序员们收集编辑：西乔

一个多小时前刚发的论文，Composer: Creative and Controllable Image Synthesis with Composable Conditions。我读完了快速帮大家概要一下啊。论文地址见文章最后。

阿里巴巴团队开发的这个重磅图像生成模型 Compose，支持多重引导条件的图像生成(合成)（扩散模型）。跟 Stable Diffuison 属于同等级别的基础模型，但路线有差异。

核心特点是支持多重引导条件的图像合成。论文里公布的引导条件包括 (caption) 文本 prompt、（sketch）草稿、（palette ）调色板、（depthmap）深度图、（Instances）形状图、（masking）蒙版图、（Intensity）灰度图，以及风格参考图。可以用多张输入图片作为多重条件同时引导，生成/重组为结果图片。你可以理解为是一种高级的图像 remix。

模型规模：5B 参数。虽然参数也不是决定因素。5B 参数（虽然参数规模不一定能跟效果挂钩）。同类基础模型的比较，DALLE-2: 3.5B, Google Imagen: 4.6 B, Stable Diffusion 的第一个版本，不到1B 参数。

使用Composer可以创建与输入图像类似的变体，通过设置引导条件的组合，灵活控制图像如何变化。Compose 将图像分解为具有代表性的因素（representative factors），以所有这些因素为条件，训练扩散模型，对输入图像进行重组。在推理阶段，这些丰富的 intermediate representations 作为重组的要素发挥作用。

从论文里的Demo看，效果不错。

下面两张demo图，每一行6张是生成的结果图片，侧面小图是用珍珠耳环少女图转化而成的 input condition, 底部小图/文本是调色板、深度图、草稿这些引导条件。

用文本prompt引导的风格迁移

Remix，风格插值（Style Interpolations）

input image （最左边娃娃图）+ 不同 sketch 引导图的重组合成 (Reformulation)。最右边一张跟神奈川冲浪图sketch 的合成让我影响深刻，integration 很 makesense，不生硬。

4重引导条件（shape + sketch + palette + pic）的合成结果

论文里提到了3种图像控制手段：1 插值 Interpolations（通过在两个图像的全局表示的嵌入空间中遍历，混合这两个图像以进行变异。Composer 能够精确控制在两个图像之间插值的要素以及需要保持不变的要素，产生多种插值方向），2 重构 Reconfigurations；3 ，指定可编辑区域（蒙版），提供了强大的图像编辑\设计功能。

1. 图像插值 Interpolations 的demo。

第二行起，左边的小图是调色板、轮廓图等引导条件，图中可见加入引导条件后，对第一行最左和最右两张图像remix 结果的影响。引导条件决定了remix 过程中的哪些图像要素得如何变化，哪些要素得到保留。

2. 图像重构 Reconfigurations 的 demo

3. 可编辑区域（蒙版）的 demo

上面一排是用 text prompt 编辑蒙版区域，下面一排是用调色板编辑蒙版区域

差不多就这些了。项目的Github 上承诺会逐步放出代码和预训模型、带GUI的 Gradio 应用，兼容 SD2.1 的轻型模型。

从设计feature和 Demo的效果看，我个人感觉 Composer 会在消费级应用上更有竞争力，对普通人使用门槛更低，应用场景更广泛。

祝这个行业越来越卷！

Github: https://github.com/damo-vilab/composer

Paper: arxiv.org/abs/2302.09778

Project page: damo-vilab.github.io/composer-page/

我刚刚发布了 AIGC 艺术家样式库 lib.KALOS.art 。4人小团队前后忙了4周。

- 目前全球规模最大，1300+艺术家共3万余张 4v1 样式图片，

- 覆盖三个主流图像生成模型

- 为每个艺术家都生成了8~11种常见主题，如人像、风景、科幻、街景、动物、花卉等主题

艺术家和多种主题的结合，会带来很多意想不到的结果

后现代舞台设计师去画废土科幻场景？or 立体主义雕塑家去画一张猫咪？

按人类惯有思维，用肖像画家去生成肖像，用风景画家去生成风景，其实限制了AI模型的创作力和可能性。希望 lib.kalos.art能帮你发掘AIGC的潜力，得到更多创作灵感

点击阅读原文，访问最新最全的 AIGC 艺术样式数据库

服务粉丝

阿里团队刚发布的重磅图像生成基础模型，多重条件引导+图像合成，SD级别，5B参数

文章推荐

相关阅读

优秀同人图不定期集锦（2023/1/19——2023/1/30），GBF小屋正式实装！

ChatGPT快速流行，重构AI商业模式——AIGC投资机会梳理 | 招商计算机

GitHub 又一黑科技项目诞生，成功复现 ChatGPT 完整流程！

首个开源低成本复现ChatGPT完整流程

ChatGPT 发展历程、原理、技术架构详解和产业未来

【华创金工周报】机构加仓，择时信号仍以中性为主

【华创金工周报】择时信号多空交织、看多小盘风格

【华创金工周报】择时信号看多衰减、继续看多小盘风格

【华创金工周报】短期市场出现调整，后市或以震荡行情为主

【华创金工周报】基金减仓，择时信号多空交织，后市或震荡

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

阿里团队刚发布的重磅图像生成基础模型，多重条件引导+图像合成，SD级别，5B参数

KALOS.art AI 作品每周精选 006

人体工学椅专场来啦！今晚 8 点，先看 B 站直播间教你选椅子,还有其他好物等你来~

投影仪专场来啦！今晚 8 点 B 站先看评测直播间教你选投影仪，还有情人节送礼佳品不容错过~

显示器专场来啦！今晚 8 点 B 站先看评测直播间和你聊聊显示器，还有其他超值好物不容错过~

好物不容错过！今晚 8 点 B 站先看评测直播间和你聊聊显示器，还有其他超值好物等你~