字节跳动推出InfiniteYou文生图框架:人脸特征不变,场景自由切换
字节跳动悄然推出图像生成新星InfiniteYou(InfU),这是一款革命性的文本到图像生成模型。InfiniteYou的独特之处在于,它能够根据用户的文字描述,创造出既符合描述又保留用户个人身份特征的高质量图像。
与普通的换脸应用不同,InfiniteYou在灵活变换场景和内容的同时,精准地保留了用户的身份特征。想象一下,你可以轻松生成自己穿着宇航服在太空中漫步,或是身着古装穿越回古代的照片,而那张脸依然是你自己的,这无疑是一种全新的体验。
InfiniteYou的核心技术是InfuseNet,这是一个能够将用户身份特征巧妙融入先进图像生成模型(如Diffusion Transformer,简称DiT)的秘密武器。InfuseNet通过精细的“残差连接”操作,在增强人脸相似度的同时,保持了原有的图像生成能力。
InfiniteYou的开发经历了多阶段的训练,包括预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT),这些精细化的训练策略显著提升了文本和图像的对齐度,生成的图像更符合文字描述,同时提高了图像质量和美观度,有效缓解了“换脸”后常见的面部复制粘贴问题。
字节跳动还发布了aes_stage2和sim_stage1两个模型版本,分别侧重于文图对齐度和人脸相似度,用户可以根据自己的需求选择合适的版本。
通过对比实验,InfiniteYou在身份相似性、文本图像对齐、图像质量和美观度等方面,均超越了现有的先进方法,如FLUX.1-dev IP-Adapter和PuLID-FLUX。InfiniteYou的“即插即用”特性,使其能够与FLUX.1-dev的各种变体、ControlNets和LoRAs等现有工具无缝集成,提供更强的可控性和定制化能力,甚至可以实现个性化图像的风格迁移。
需要注意的是,InfiniteYou目前是基于Creative Commons Attribution-NonCommercial 4.0 International Public License发布的,仅供学术研究使用。下载和使用相关模型必须遵守原始许可,同时用户应遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为。