VtubeKit文档

VtubeKit，开发包含三部分：一. lab/Face Extractor( 素材采集和处理部分 ) 二 .Trainer（模型训练）三.Live(Deepfacelive的功能及附加功能）四。对XSeg编辑器做了功能拓展

第一部分：素材准备工具集 Face lab/Face Extractor
（-）人脸采集/切脸
1.采集源额外增加了桌面和窗口截屏，这样可以直接在视频播放器或者桌面中直接采集人脸了。

2.人脸检测引擎默认使用YoLoV5的Onnx模型.

3. 增加了人脸身份筛选功能可以过滤掉非目标人脸，减少人脸筛选工作量

4.设置了人脸尺寸过滤，在提取阶段就去掉过小的人脸避免素材模糊

5.人脸提取阶段就计算了特征点和遮罩并保存到图片信息中，后续不再需要再次计算人脸遮罩

6.可以单帧采集（适合网页中人工采集），也可以自动连续采集（适合视频或者直播画面采集），可以设置自动采集间隔时间

7.提取和保存有快捷键功能，可以实现快速的人工采集，避免重复鼠标点击

提取界面.png

（二）人脸批量编辑
1. 对其他软件已切脸素材处理：非目标对象挑选，写入遮罩，文件批量重命名
2. 用GPEN超分辨（内置包中没有包含pytorch，需要自己在python的site-packages中装pytorch）
3.保留遮罩和特征点的缩放
4.素材增强：面部随机遮挡物体的添加（以及遮挡物轮廓绘制）

调整处理-整体界面.png

（三）遮罩预览
1.批量显示遮罩预览，特征点预览，角度信息
2.可生成素材的角度分布图谱
3.手工绘制修改错误遮罩

遮罩预览-角度分布图.png

人脸角度图生成

第二部分: 模型训练器（Trainer）
（一）模型训练：
  1. 图形化的训练界面，创建新模型或者加载已有模型训练，直接选路径就可以了
  2.读取模型参数并显示
  3. 开始训练模型前不用再一遍又一遍的输入参数了，点选参数后直接运行训练就可以了
  4. 增加了学习率、损失函数中结构相似性、像素值差异，以及嘴眼优先等超参数的调节
  5.素材加载增加了是否加载子目录的选择
  6. 训练画面预览（全部采用5列预览图的布局，包括256以上的模型，训练大模型的时候也可以预览多列了）
7。新增了效果测试。以往训练的时候只能看到训练集图片的预测结果。trainer 可以在训练的过程中直接测试真实环境中的图片换脸效果。
素材可以是图片，也可以实时截屏。而且效果是merge之后的效果，分3列显示
  8.定期对loss比较高的素材多增加次数
  9. 训练单次迭代时间有所减短

（二）模型保护：
（1）dfm直播模型可以转换为vtfm模型，可以采用密码保护，或者采用单机密码机器码的形式保护，保护你辛苦的炼丹成果不被人转卖。

第三部分: 实时换脸（Live）
（一）：Live直播
1.增加了屏幕捕获的视频源输入，可以一边看视频，一边看换脸之后的结果了
  2. 增加了人脸筛选功能（不过准确度不是特别高）
  3.增加了瘦脸和瘦下巴功能，目前是常规的瘦脸算法（远期准备增加脸型自动匹配）
  4.可选实时分割遮罩功能（应用xseg遮罩从输入align 人脸计算遮罩），比从模型得到这招相对来说可以更准确，自由度更大
5.增加了一键保存输出图功能。还有一键录制视频声音。而不用像原版一样必须保存长序列图片。