FACEGOOD 推出10万点人脸关键点跟踪,重新定义工业级人脸3D重建
机器之心发布作者:FACEGOOD
目前无论是学术界还是工业界对人脸的研究有两个方向,其一民用级,通过技术泛化为用户提供低精的产品,这些技术在工业级高精度上是无法满足需要的,主要因为算法泛化丢失了人脸的高频信息。其二工业级,从人脸生物力学仿真层面,持续提高精度,FACEGOOD 走在这个方向,在技术适当泛化的基础上,其将人脸关键点跟踪推向了极致,目前已将精度推到 10 万级,该技术可用于工业级换脸、表情捕捉等场合。
简介
人脸关键点检测在安防、金融、娱乐等领域具有广泛的应用,可以说已经成为非常基础的算法,我们先来回顾一下它的发展历史,Tim Cootes & Chris Taylor 在 1995 提出了一种新的方法(Active Shape Model)开创了人脸关键点对齐的先河,ASM 引入了统计模型来解决对齐问题,紧接着三年之后,他俩在此基础上发展出了 Active Appreance Model,这个方法有很重的历史地位,要知道当时人脸对齐问题是个很棘手的事,传统的 CV 算法太粗暴,难以应付人脸这种高纬特征,AAM 之后算是进入了一个正确的方向,为后来神经网络方法奠定了基础,基本思想是 ASM 并没有考虑到纹理特征,只是对 landmark 训练了一个统计模型出来,AAM 进一步优化了 ASM,在回归的过程中加入了纹理特征,这样就解决了特征的泛化匹配的问题,使得人脸对齐更加鲁棒。20 年之后,在众多研究者不断推动下 2D 人脸对齐问题已经彻底解决了,算法也已经白菜化,随便在 github 都有大量的精度不错的开源项目。
与此同时,在 1998 年有两位研究人员又开辟了一条新赛道,他们提出了 3D 对齐算法,将人脸对齐推向了一个全新的维度,这套方法目前已经成为现在工业界主流的算法流程,现在工业界习惯上把它叫做 3DMM,虽然并不严谨,但我们姑且沿用这样一个定义,3DMM 计算结果是在人脸上拟合并投影出一个 3D 点云,它的应用就非常丰富了,美颜、表情捕捉、通过照片生成一张人脸等等都用了类似的技术。
公式 1。
如上图所示基本思想是:一张脸可以由多个不同的人脸通过线性组合得出,换句话说,给出一张人脸,要得出 3D 模型,就是一个系数的回归问题,了解 AAM 的同学一眼就看出来这个公式就是 AAM 公式,也可以说这是 AAM 的另一种应用,其中 S 是平均脸,s 是特征向量,ai 是权重系数。Tmodel 是用来拟合人脸纹理,同样使用线性组合得出。3DMM 是一个非常初期的 idea,他的计算结果并不理想,现在来看只能算玩具级,主要是 PCA 在精度上的丢失是很严重的。
2008 年,一篇论文的发表将 3DMM 的精度进一步推广,公式 1 只采样了人脸在某一时刻的表情,因此在表情上没有考虑到其他情况,导致精度丢失。这篇论文增加了一个维度,因此叫「双线性模型」,在人脸基础上加上了表情因素,这样的计算结果更加可信。
公式 2。
这个双线性公式在公式 1 的思路上增加了一个系数 a,表示不同表情,b 表示不同的个体,w 是人脸数据库,到此 3DMM 在算法流程上完整了,为日后 Facewarehouse 等应用奠定了基础,后面的故事大家都知道了 Facewarehouse 推出了自己的数据库及应用思路,讲到这里我们对前面这些研究做个总结。
3DMM 缺点是很明显的,在技术泛化这条路上一路狂奔,忽略了人脸非常多的细节,尤其是高频低幅度的表情细节,在个体上体现非常明显,造成这个局面的原因有两个,基于统计的回归并不精确,是一个模糊解,3D 数据库模型的采集多数用成本低廉的设备生成,精度不高,两者加起来,3DMM 在高精应用场景可以说完全无法满足需求,更不可能达到工业级超高精度需要。
FACEGOOD 3DMM 模型
图示 1 BFM & SFM 模型 。
图示 2 FACEGOOD 模型。
为了更精确的计算人脸的 3D 信息,并能适用于工业级业务场景,FACEGOOD 团队采用相机阵列方式采集了 100 个不同个体的 3D 模型,每个人有 43 个不同的表情,以及他们对应的高精度皮肤材质数据,至于这些数据建立了 FACEGOOD 3DMM 模型。
目前开源的数据库主要有 BFM 跟 SFM 两个,同时还有一个 Facewarehouse 仅供学术研究使用,对比这些数据库,FACEGOOD 3DMM 主要体现在精度上,抛弃 kinect 这类民用级扫描技术,使用相机阵列的方式,可以完全重建人脸的所有肖像特征,如上图所示,图示 2 是 FACEGOOD 数据,图示 1 是 SFM 数据,后者在细节上损失很大,基本上只保留了人脸的大概特征。
FACEGOOD 超高精度流程
神经网络的优势主要在技术泛化上有很好的表现,但在高精度场合并非理想选择,为了达到高精度跟踪人脸的 3D 特征,包括脸型、五官的深度、微表情的变化等,FACEGOOD 研发人员使用传统算法实现了这一套方案,目前已经在超写实数字人上开始应用。
公式 3。
FACEGOOD Pose Estimation。
如上图公式 3 所示,基本思想是:同样基于人脸可由基础脸线性组合得出这样一个假设,FACEGOOD 团队研发了这样一套算法,Cm 是 FACEGOOD 3DMM 模型,第一步使用高精算法(图示 3)跟踪人脸的 2D 特征点,随后在此基础上拟合出人脸高精度 3D 模型,再通过 V(wi) 进一步优化 3D 模型,这一步的结果基本贴合到人脸。然后继续优化,在得出带有表情的基本 Eexp 之后,加上一个 detaV,使得 3D 模型完全对齐到人脸,到此就得到了一个完整的高精度的 3D 人脸,包括了在眼轮匝肌、口轮匝肌周围细微的高频的微表情信息。
最终,得出精确的 3D 人脸之后,通过肌肉仿真算法,将表情参数重定向到虚拟人物,就跑完了全流程。
参考文献:
·微表情在戏剧表演中对艺术真实塑造的作用,曹娜,衡阳师范学校音乐系,2016
·T.F. Cootes and C.J. Taylor and D.H. Cooper and J. Graham (1995). "Active shape models - their training and application".Computer Vision and Image Understanding
·Cootes, T. F.; Edwards, G. J.; Taylor, C. J. (1998). "Active appearance models".Computer Vision — ECCV'98. Lecture Notes in Computer Science.
·Bilinear Model for 3D Face and Facial Expression Recognition,Iordanis Mpiperis,Fellow,IEEE,2008.
·Ekman and W. Friesen. Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978.
·BRADLEY, D., HEIDRICH, W., POPA, T., AND SHEFFER, A. 2010. High resolution passive facial performance capture. ACM Trans. Graph. 29, 4 (July), 41:1–41:10.
·PIGHIN, F. H., SZELISKI, R., AND SALESIN, D. 1999. Resynthesizing Facial Animation through 3D Model-based Tracking. In Proc. 7th International Conference on Computer Vision, Kerkyra, Greece, 143–150.
·WEISE, T., BOUAZIZ, S., LI, H., AND PAULY, M. 2011. Realtime performance-based facial animation. ACM Transactions on Graphics (Proceedings SIGGRAPH 2011) 30, 4 (July).LIU, X., MAO, T., XIA, S., YU, Y., AND WANG, Z. 2008. Facial animation by optimized blendshapes from motion capture data. Computer Animation and Virtual Worlds 19, 3–4, 235–245.
·LI, H., ADAMS, B., GUIBAS, L. J., AND PAULY, M. 2009. Robust single-view geometry and motion reconstruction. ACM Transactions on Graphics (Proceedings SIGGRAPH Asia 2009) 28, 5.
·BALTRUSAITIS, T., ROBINSON, P., AND MORENCY, L.-P. 2012. 3D constrained local model for rigid and non-rigid facial tracking. In Computer Vision and Pattern Recognition (CVPR 2012).
·CHUANG, E., AND BREGLER, C. 2002. Performance driven facial animation using blendshape interpolation. Tech. rep., Stanford University.
本文为机器之心发布,转载请联系本公众号获得授权。
?------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线