数字人微软VASA公布，可以实时调节人物状态，识别情感，支持语音和唱歌

显示全部楼层

微软亚洲研究院公布数字人——VASA。功能很强大且独具特色，除了传统的说话和头部动作外，它还支持唇部动作，表情、头部运动

核心特色

这个技术的核心在于它能够用一个面部潜在空间来生成面部动态和头部运动，而且还能够处理各种不同的情况，比如眼神方向、头部距离，甚至是情感偏移量，支持处理不同风格的照片和音频，就算是艺术照片、歌唱音频，甚至是非英语语音。还能够把外观、3D头部姿态和面部动态解开，让你能够单独控制和编辑生成的内容。

参数调节

如图所示，在样本视频中，可以通过右侧的参数变动来调节人物的朝向，表情，情感节奏等。

数字人-微软VASA公布，可以实时调节人物状态，识别情感，支持语音和唱歌(1)

处理速度

就算是在实时处理方面，它也表现得非常棒，能以高达45fps的速度生成512x512大小的视频帧，而且启动延迟也只有短短的170ms！

发布时间

目前该项目还处于刚刚公布，微软团队表示，它还需要一定时间的调整和法律的学习，在符合这些规则之后他们就会推出预计在今年。

效果预览

https://www.microsoft.com/en-us/research/project/vasa-1/ 可在此文档出了解预览视频和技术报告等信息。

微信扫一扫分享朋友圈

数字人微软VASA公布，可以实时调节人物状态，识别情感，支持语音和唱歌

浏览过的版块

微信扫一扫 分享朋友圈

数字人 微软VASA公布，可以实时调节人物状态，识别情感，支持语音和唱歌

浏览过的版块

微信扫一扫分享朋友圈

数字人微软VASA公布，可以实时调节人物状态，识别情感，支持语音和唱歌