ACM Multimedia 2022 - 基于序列建模的人脸图文统一生成框架--粉丝服务平台-粉丝头条-fensifuwu.com

ACM Multimedia 2022 - 基于序列建模的人脸图文统一生成框架

科技 09-07 来源：深圳大学计软学院

Talk2Face: A Unified Sequence-based Framework for Diverse Face Generation and Analysis Tasks

Yudong Li1 Xianxu Hou1 Zhe Zhao2 Linlin Shen1* Xuefeng Yang2 Kimmo Yan2

1Shenzhen University 2Tencent AI Lab

导读

论文Talk2Face: A Unified Sequence-based Framework for Diverse Face Generation and Analysis Tasks发表在多媒体顶级会议ACM Multimedia 2022上，由深圳大学计算机与软件学院计算机视觉研究所和腾讯AI Lab合作完成。

该工作提出了统一的人脸图文生成模型Talk2Face，将各类人脸相关的任务转换到图像/文本序列生成任务，使用Transformer架构统一建模。模型的文本和图像生成网络共享权重，从大规模有监督数据中学习通用人脸知识，能够用于多种下游任务场景。

引言

人脸是计算机视觉的重要领域，具有广泛的研究和应用价值。面向多种多样的人脸应用场景，此前的研究中提出了各类子任务，例如年龄预测、表情识别、人脸生成等。在之前的研究中，这些人脸相关的任务通常作为单独的任务来建模，因此每个任务都需要独立的数据收集、数据标注、模型设计和模型训练等步骤。在这种模式下，任务之间的知识难以共享，并且每个新任务都需要同样的标注和训练成本。因此，本文构建了一个通用模型Talk2Face，用自然语言作为任务描述，以统一的图文生成形式完成各类人脸相关任务，实现跨任务的知识共享。此外，这种显式的知识迁移也提高了模型获取知识的上限，在一些任务上获得了性能提升。

为了统一各任务的输入和输出形式，Talk2Face直接使用文本或图像作为模型的输入和输出。具体来说，Talk2Face将图像和文本转换成离散序列映射到共享的空间，从而文本和图像信息在高维空间中共享向量表示，因此模型能够以序列建模为目标学习图像和文本的联系并实现图文双向生成。本文还收集了大量有监督人脸任务数据，并将监督信号转换为自然语言用于训练Talk2Face。在推理阶段，Talk2Face根据文本形式的任务提示，能完成多种人脸相关分析和生成任务，无需在特定任务上微调。

技术贡献

本工作主要贡献如下：

提出多模态通用知识学习框架，实现不同任务之间的显式知识迁移；
构建大规模人脸图文数据集，包含约230万张图像及文本，用于提供人脸领域通用知识；
提出Talk2Face，基于Transformer的双向图文生成模型，可以被直接应用于各种下游任务，例如文本引导人脸图像生成、人脸文本描述生成、属性分析、种族分类等。

方法介绍

Talk2Face的模型架构如图1所示。其输入为文本或图像，其中文本被分词到text tokens，图像通过离散变分自编码器（VQVAE）[1]被量化为离散的image tokens。两种模态信息被映射到共享的向量空间，输入Transformer Encoder[2]用于序列建模，损失函数为：

其中，是输入的离散序列，是模型参数。

图1. Talk2Face模型架构

训练样本的任务信息和预测目标被拼接在一个序列中，使用不同的段落编码来区分。其中，任务信息由提示（prompt）和任务的上下文（prefix）组成，作为段落S1；任务的预测目标（target）为段落S2。自注意力的计算方法为：

其中，是特征向量的线性映射，是注意力遮罩矩阵，用于控制段落S1中的token可以访问其他所有位置的token，在段落S2中的token只能访问它左侧的token以适应自回归文本/图像生成[3]。

型训练使用了13个人脸有监督数据集，这些数据集包含不同角度的标注信息，共有约230万条训练样本。这些数据的监督信号被转换为文本形式，通过自然语言将的标注格式各异的数据统一起来，可以在同一个mini-batch中被计算梯度。之后，以图像预测文本或以文本预测图像作为目标来训练Talk2Face。模型在训练阶段学习到了通用的人脸知识，因此在下游任务推理时，只需要用自然语言提供任务的上下文，模型就能够产生符合需求的输出。本文设计了一套推理模版引导模型产生特定的下游任务输出，因此在完成不同任务时只需要切换推理模版，无需调整模型权重。推理模版示例如图2所示。

图2. 下游任务推理模版

结果展示

Talk2Face在6个下游任务上测试，包含生成和分类等任务类型。Talk2face在其中的文本引导人脸生成和人脸描述生成任务上达到SOTA，结果如图3、4所示。可以看出，根据文本描述Talk2Face能够产生更准确且更真实的人脸图像；并能为人脸图像生成更加细致的文本描

。

图3. 文本引导人脸图像生成

图4.人脸文本描述生成

得益于自回归解码过程中的随机采样策略，Talk2Face天然具有更好的生成结果多样性。相比基于StyleGAN的方法[4]通常需要人工调整模型中间层输出来获得不同结果，Talk2Face在每次采样中都能生成全新的图像，多样性对比如图5所示。

图5. 生成结果多样性对比

图5展示了Talk2Face的自注意力层可视化结果，可以看出模型从文本监督信号中学会区分人脸区域和背景。即使在训练数据中没有对人脸区域的标注，Talk2Face在注意力中仍然区分了人脸的语义区域（例如头发、眼镜等部位）。

图6. Attention 可视化结果

总结展望

预训练大模型的发展推进了许多AI场景的上限，当算力和网络结构等因素不再是限制模型性能的瓶颈时，数据就

成为了最昂贵的资源。本文的目标并不在于提升模型在单个任务上的表现，而是尽可能用上更多样的数据来获得更通用的模型表示。笔者认为，这种“跨任务”建模方法一定程度上能从数据中抽象出知识，进一步通过知识来驱动模型。目前，越来越多跨语言、视觉、音频等多模态的工作出现，其中语言模态尤为特殊，自然语言是人类的知识载体，在下一阶段的人工智能研究中，也将会是人类与AI的沟通桥梁。笔者

希望Talk2Face能够成为一个引子，帮助我们继续探索多模态方法在小样本、跨任务、元学习等场景的可能性。

思考讨论

Q: Talk2Face的文本和图像部分共享参数，是否会存在要求模型生成图像，但是生成出文本的情况？

A: Talk2Face将图像转换成了从形式上类似语言的离散序列，这一点类似多语言建模，Transformer把图像序列当成一种“方言”来学习。在训练的前期，模型有时会混淆这两种模态的信息，但是当训练完成后，这种情况不再出现。

Q: 用来将图像离散化的模型是如何训练的？它是否与Transformer的参数同步更新？

以下是开放性问题，欢迎读者朋友留言讨论：

Q: Talk2Face虽然能够实现多种任务类型，但是目前任务的形式仅限（图像→文本）或者(文本→图像)生成。对于例如文本引导的图像编辑任务（图像+文本→图像)应该如何实现？

参考文献

[1] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., ... & Sutskever, I. (2021, July). Zero-shot text-to-image generation. In International Conference on Machine Learning (pp. 8821-8831). PMLR.

[2] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

[3] Dong, L., Yang, N., Wang, W., Wei, F., Liu, X., Wang, Y., ... & Hon, H. W. (2019). Unified language model pre-training for natural language understanding and generation. Advances in Neural Information Processing Systems, 32.

[4] Xia, W., Yang, Y., Xue, J. H., & Wu, B. (2021). Tedigan: Text-guided diverse face image generation and manipulation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 2256-2265).

[5] Esser, P., Rombach, R., & Ommer, B. (2021). Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 12873-12883).