字节跳动推出InfiniteYou文生图框架：人脸特征不变，场景自由切换

本帖最后由编辑于12 天前编辑只看Ta 楼主

字节跳动悄然推出图像生成新星InfiniteYou（InfU），这是一款革命性的文本到图像生成模型。InfiniteYou的独特之处在于，它能够根据用户的文字描述，创造出既符合描述又保留用户个人身份特征的高质量图像。

与普通的换脸应用不同，InfiniteYou在灵活变换场景和内容的同时，精准地保留了用户的身份特征。想象一下，你可以轻松生成自己穿着宇航服在太空中漫步，或是身着古装穿越回古代的照片，而那张脸依然是你自己的，这无疑是一种全新的体验。

InfiniteYou的核心技术是InfuseNet，这是一个能够将用户身份特征巧妙融入先进图像生成模型（如Diffusion Transformer，简称DiT）的秘密武器。InfuseNet通过精细的“残差连接”操作，在增强人脸相似度的同时，保持了原有的图像生成能力。

InfiniteYou的开发经历了多阶段的训练，包括预训练和使用合成的单人多样本（SPMS）数据进行监督微调（SFT），这些精细化的训练策略显著提升了文本和图像的对齐度，生成的图像更符合文字描述，同时提高了图像质量和美观度，有效缓解了“换脸”后常见的面部复制粘贴问题。

字节跳动还发布了aes_stage2和sim_stage1两个模型版本，分别侧重于文图对齐度和人脸相似度，用户可以根据自己的需求选择合适的版本。

通过对比实验，InfiniteYou在身份相似性、文本图像对齐、图像质量和美观度等方面，均超越了现有的先进方法，如FLUX.1-dev IP-Adapter和PuLID-FLUX。InfiniteYou的“即插即用”特性，使其能够与FLUX.1-dev的各种变体、ControlNets和LoRAs等现有工具无缝集成，提供更强的可控性和定制化能力，甚至可以实现个性化图像的风格迁移。

需要注意的是，InfiniteYou目前是基于Creative Commons Attribution-NonCommercial 4.0 International Public License发布的，仅供学术研究使用。下载和使用相关模型必须遵守原始许可，同时用户应遵守当地法律法规，负责任地使用这项技术，避免任何潜在的滥用行为。

#AI大模型 #图像生成 #字节跳动 #InfU