facechain是一个可以用来打造个人数字形象的深度学习模型工具平台。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。结合不同的风格模型和写真模版,可以生成超乎想象空间的个人写真作品。更有意思的是,facechain还集成了说话人与虚拟试衣的功能,让你的数字替身更加生动真实,拓展出了更多的商业价值与落地场景。
1.)one-shot训练:
为了尽可能实现one-shot训练的能力,facechain v2着重在a.)如何减小训练样本的分布空间,b.)通过pretrain提供更好的训练初始点,c.)寻找合适的lora训练超参等三方面入手。最终通过大量的实验,目前已经沉淀出了较为稳定的one-shot训练能力。80%的情况下,用户可以通过单张图上传就能完成相应人物lora的finetune训练,从而获得专属的个人形象模型,这大大降低了训练成本。在训练式人物写真方法上,facechain首次将训练成本降低到了SOTA商业应用的1/10,做到了近one-shot的训练能力。
此外,facechain还在研发train-free的保ID人物生成方法,目前内部实验上已显著超过IP-Adapter的效果,预计将会在facechain v3版本中做发布,简称facechain-FaceAdapter技术。
2.)无限风格计划:
相较于facechain v1初始版本,v2版本增加了上百种精美的风格,重点是全部免费。目前在众多的图片/视频分享网站上,已经有非常多介绍如何使用facechain做免费精美写真生成的视频,facechain俨然已经成为免费精美写真制作的强力工具。除此之外,还有很多自由职业者在用facechain为用户提供写真服务,以及很多开发者及企业在做facechain API的接入。针对无限风格计划,facechain预计将在facechain v3版本中提供一键式的写真风格训练接口,为写真风格的制作提供便捷且高可用的一键化训练接口,简称facechain-StyleMaker技术。
3.)SDXL写真质感:
facechain v2集成了强大的文生图模型SDXL 1.0。SDXL 1.0是Statbility AI发布的新一代文生图模型,通过各种严格的实验验证,SDXL已经超越了各种版本的Stable Diffusion模型,并且与当前商业级文生图模型Midjournal生成效果不相上下。在SDXL的加持下,facechain的人像生成的质感有了质的飞跃。
1.)虚拟试衣:
虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让它同时具备了B和C的两个用户属性。随着AIGC的兴起,虚拟试衣也取得了一定的突破,facechain v2拓展了虚拟试衣功能。
根据是否需要对衣服做变形生成来划分,虚拟试衣又可分为形变保ID与非形变保ID。其中非形变保ID(局部保ID)部分已在facechain v2中开源,另外形变保ID虚拟试衣技术已投递CVPR,预计将在facechain v3中开源,简称facechain-TryOn技术。
2.)说话人视频:
说话人生成旨在将给定的肖像动态化,使其的嘴唇运动和音频高度一致,这在数字人应用中至关重要。facechain v2集成了主流的开源算法SadTalker,相较于其他算法Wav2Lip和video-retalking,SadTalker可以控制头部姿态和面部表情,并且还可控制眨眼频率,能够输出更生动的说话视频。除了原始的驱动功能,facechain v2的说话人视频模块还支持使用GFPEN作为后处理来提高生成质量,同时对于音频输入,支持三种选项,包括1)TTS合成,2)麦克风录制,和3)本地文件上传,用户可以根据自己的需要来选择输入。此外,用户可以从之前生成的写真照片中选择一张进行驱动,由此串联了写真照生成功能和说话人生成两个功能,从而满足了用户多样且丰富的生成需求。
在facechain v3版本中,人物视频生成将是最主要的应用更新方向,facechain团队在v3版本中将发布facechain-video功能,会覆盖MagicTalker,MagicSinger,MagicLife,MagicDay,MagicMove等视频功能。
3.)动漫风格化:
动漫风格化可以将输入图片的人物图像转化成二次元虚拟形象,返回卡通化后的结果图像。facechain v2集成了DCT-Net人像卡通化模型,DCT-Net模型同时提供人脸的2D动漫,3D,手绘,素描,美术风格的人脸转换,目前facechain仅支持2D&3D动漫人脸生成。DCT-Net对训练数据的scale要求较低,给定一小部分目标风格样本,就能学习映射关系,将原风格迁移到目标风格,并保留原图内容信息。同时,DCT-Net不仅有更好的人脸风格迁移质量及泛化能力,还能做人物全身图片的风格迁移。它的「先校准再生成」新思路,就是让少数目标形成的目标风格域与原始域对齐,再以此辅助网络,让模型更好学习原风格和目标风格的映射关系,并利用几何扩展模块减小空间约束,使风格迁移效果更为准确,又不丢失原始图片信息。