InstantID - 高保真的个性化图像合成框架

AI项目与框架1年前 (2024)发布 slz

165 0 0

InstantID是一种基于扩散模型的图像生成技术，专注于实现零次（zero-shot）身份保留（Identity-Preserving）的个性化图像合成。该技术允许用户仅使用一张面部图像，就能在多种风格中生成个性化的图像，同时确保高保真度，类似于PhotoMaker的生成效果。InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制，例如高存储需求、漫长的微调过程以及需要多张参考图像。

项目主页：https://instantid.github.io/

论文地址：https://arxiv.org/abs/2401.07519

GitHub代码库：https://github.com/InstantID/InstantID

InstantID的功能特色

个性化图像合成：用户可以基于一张面部图像生成具有不同姿势或风格的个性化图像，同时保持高保真度。
身份特征保留：在生成新图像时，InstantID能够精确地保留原始图像中的人脸特征，如表情、年龄和身份等。
风格迁移：InstantID可以将一个人的面部特征转移到不同的艺术风格或背景中，例如将现实风格的面部特征融入到动漫风格的图像中。
新视角合成：通过InstantID，可以生成同一人物的新视角图像，即使原始图像中没有这些视角。
身份插值：InstantID能够实现不同人物特征的平滑过渡，例如在两个不同人物之间进行面部特征的插值。
多身份合成：在复杂的场景中，InstantID可以同时处理多个人物，生成包含多个角色的图像。
兼容预训练模型：InstantID作为一个插件，可以无缝集成到流行的预训练文本到图像扩散模型中，如SD1.5和SDXL，而不需要额外的微调。

InstantID - 高保真的个性化图像合成框架

InstantID的工作原理

InstantID包含了三个关键的组成部分，ID嵌入、图像适配器和IdentityNet。

InstantID - 高保真的个性化图像合成框架

ID嵌入：首先，InstantID使用一个预训练的面部模型来提取参考面部图像的身份嵌入，包含了丰富的语义信息，如身份、年龄和性别等，由此来保持生成图像中的人脸细节。
图像适配器：InstantID引入了一个轻量级的图像适配器，这个适配器使用解耦的交叉注意力机制来支持图像作为视觉提示。该适配器可以将参考图像作为条件输入，而不影响其他模型参数。
IdentityNet：一个专门设计的网络，用于编码参考面部图像的详细特征，并结合额外的空间控制。IdentityNet通过将面部特征与文本提示结合起来，引导图像生成过程，确保在生成过程中保持面部身份的细节。
训练和推理策略：在训练过程中，InstantID只优化图像适配器和IdentityNet的参数，而保持预训练的扩散模型参数不变。这样，即使在没有额外微调的情况下，InstantID也能在推理时保持灵活性。
生成过程：在生成图像时，InstantID首先使用ID嵌入作为条件，然后通过图像适配器和IdentityNet的引导，将这些条件传递给扩散模型，扩散模型随后在这些条件下生成图像。

# AI项目与框架