从“形似”到“神似”,我们离完美数字人越来越近了
1 天前 / 阅读约10分钟
来源:36kr
跨越“拟人化鸿沟”

还记得《西部世界》里栩栩如生的仿生人吗?如今,这场赛博朋克的幻想正在照进现实。数字人正在为AI的下一个重大飞跃提供可能——将面孔与声音结合,创造出会说话的角色——并不是简单地让图片上的人物动起来再配音,而是能真正像人类一样进行创作与互动。

这是内容产业的一次重要转变。接下来,让我们更深入地走入数字人行业,了解它的核心技术与未来发展趋势。

从静态形象到智能交互的技术演进

想要制作一个会说话的面孔,模型需要学习逼真的“音素到视素”(phoneme-to-viseme)映射关系:也就是语音(音素)与其对应的嘴部动作(视素)之间的关联。如果这个映射“跑偏”了,嘴型和声音就会看起来不同步,甚至完全脱节。

想象一下你说话的样子:说话时动的不仅仅是嘴,你的整个面部、甚至上半身和手,都会随之而动;而且,每个人说话都有自己独特的风格,即使说的是同一句话,不同的人的嘴部动作也会不同。如果你试图把你的口型同步数据套用到其他人脸上,效果会很怪异。

而这个领域研究已经在过去几年里发生了翻天覆地的变化:

早期技术(2017-2020):

依赖CNN(卷积神经网络)和GAN(生成对抗网络),通过单张图片生成静态或简单动态的虚拟形象,但存在表情僵硬、口型不同步等问题。且数据依赖性强(需大量面部特写),生成内容局限于头部特写,无法实现全身动作。

技术突破(2021-2023):

引入NeRFs(神经辐射场)和3D Morphable Models等技术,支持半身/全身动作生成。此外,还融合了多模态模型,结合语音合成、自然语言处理和计算机视觉,实现音素-视素映射。

大模型时代(2024至今):

Transformer、扩散模型(Diffusion Models)、DiT(基于Transformer 架构的扩散模型)正在赋予数字人从“形似”到“神似”跨越的能力。Transformer解析语音韵律与肢体语言的全局关联,扩散模型以噪声迭代生成逼真细节(如皱纹、发丝),而DiT通过联合建模突破分辨率与复杂场景限制,使数字人具备实时交互、情感驱动与跨模态一致性。

总之,如今的模型灵活得多,也强大得多。它们可以在同一视频中生成半身甚至全身运动、逼真的说话表情和动态背景。这些新型模型更像是在更大的数据集上进行训练的、传统的文本到视频模型,采用多种技术手段来确保在复杂的运动场景中唇形同步的精确度。

今年2月份面市的OmniHuman-1模型,首次体现了这种发展趋势(该模型近期已在Dreamina平台上线)。而且,该领域的技术迭代速度非常快——在今年3月推出的Character-3模型在大多数应用场景中都表现出了最佳性能。

该模型也适用于非人类角色,例如“会说话的Waymo”,并且允许用户通过文本输入来控制角色的情绪和动作——这就不得不提到AI动画的相关用例了。下面这个视频视频由一张初始图像帧和一段音轨生成。其中,角色的唇形同步、面部表情以及上半身动作均由Hedra模型生成。请注意观察,背景中的角色也能够自然地活动。

现实应用:多领域渗透与商业化探索

消费者市场

有了数字人工具后,任何人都可以仅凭一张图像就能创建出动画角色,这极大地释放了创造力,并且大大压缩了数字人的创作成本。从应用场景来看,除了传统的叙事视频外,这项技术还能应用于创作AI主播、播客节目,以及音乐视频、动画视频等多种形式的内容。这种“人人皆可造人”的趋势,正在催生全新的内容生产范式。

而随着数字人的实时直播变得更加便捷,或许有的公司会将数字人作为用户界面的核心部分。试想一下,一位拥有生动面容和独特个性的实时“AI教练”,就像真人一样陪伴你的学习旅程。目前已有公司开始探索这种模式,并且随着技术的不断发展,交互体验将会变得更加自然流畅。

中小企业领域

广告代言已然成为数字人的首要应用场景之一。企业现在无需雇佣演员和组建制作团队,即可利用高度逼真的AI角色来推广产品。这为以往无力负担传统广告制作成本的企业提供了广告营销的新途径。尤其在电商、游戏和消费类应用领域,这种方式广受欢迎。

在国内,内容营销通畅面临诸多痛点,例如成本压力、创意瓶颈、多语言需求等等。但是数字人的出现,为中小企业提供了“降本增效”的破局之道。例如,跨境电商品牌通过“数字人直播系统”,以每月数千元的成本生成多国语言虚拟主播,大大降低人力成本。

内容营销方面,也少不了数字人的身影。无论是一键生成产品种草短视频,还是IP化运营打造品牌故事短剧,或者是营销物料自动化、激活私域流量等等,都能够快速实现个性化的客户拓展。

大型企业领域

员工学习与提升:大多数大型企业都会为员工制作培训和教育视频,内容涵盖入职引导、合规培训、产品教程和技能提升等多个方面。一些AI工具能利用数字人使这些流程自动化,提高内容制作效率和规模化能力。某些岗位还需持续进行基于视频的培训,例如使用数字人来模拟销售谈判现场,联系员工相应的技巧等。

高管形象塑造:高管们可以通过克隆自身形象来为员工或客户创建个性化内容,从而提高他们的影响力。企业也无需为每次产品发布或感谢致辞都进行拍摄,而是可以生成一位逼真的CEO或产品负责人的数字人分身。一些公司也在积极探索,让行业领袖能够更便捷地与以往难以直接接触的人群进行1对1的互动和疑问解答。

技术难点与挑战

打造一个逼真可信的AI数字人极具挑战性,每个细节的真实性都面临着各自的技术难题。这不仅仅是避免陷入“恐怖谷效应”,跨越拟人化鸿沟,更需要解决动画制作、语音合成和实时渲染等领域的基础性问题。

从目前来看:

·数字人的面部在不同帧之间的连贯性还需要进一步改善,而且上下文感知的表情表达仍是一大挑战(例如,当虚拟形象说“我累了”时,能够自然地打哈欠);

·实现高质量的唇形同步是一件比较困难的事情,许多公司都在致力于解决这一问题。例如OmniHuman模型是基于庞大的数据集进行训练,找到了根据音频信息有效控制面部帧生成的方法。

· 身体方面,新的数字人模型已经能够生成具有完整身体,并能进行动作,但在规模化应用以及将这些技术交付给用户方面,仍处于早期探索阶段;

·虚拟形象并非独立存在,所以背景环境也是一大难点。周围环境的光照、景深以及交互效果,都需要与场景相协调。理想情况下,数字人甚至应该能够与环境中的物体进行互动,例如拿起某个产品。

·目前支持对话的数字人产品通常允许用户上传或连接至知识库。未来,更高级的数字人将有望具备更强的记忆功能和独特的个性特征。

·数字人以尽可能低的延迟传输所有这些数据并非易事,这方面仍有很大的提升空间;

·此外,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒。与此同时,数字人在运行过程中需要消耗大量的计算资源,并且需要专业的团队进行维护和管理,增加了企业的运营成本。

整体来说,数字人在企业应用落地过程中,受技术瓶颈与产品设计局限的双重制约,难以立刻助力企业实现实质性的业务增长,获得价值认同。还有AI行业的核心问题——隐私安全。数字人的智能交互依赖于大量数据的收集与分析,涵盖用户的个人信息、行为习惯、兴趣偏好等;智能驱动型数字人在训练和用户交互过程中,同样涉及个人信息处理。如何确保数字人生成内容的合法性和安全性,防止数据泄露和滥用,同样是不可忽视的问题。

未来我们希望看到什么样的数字人?

以下是一些当前最受关注的重点方向:

角色一致性与形态转换

一直以来,数字人通常采用单一、固定的“外观”,包括静态的服装、姿势和环境。现在,一些产品开始提供更多样的选择。如果能够更轻松地根据用户的意愿自由变换虚拟形象,将会带来更好的体验。

更精细的动作与更丰富的表情

长期以来,面部一直是数字人的短板,往往显得僵硬和缺乏生气。现在,它们能够呈现更自然的外观和更丰富的表情。未来,或许数字人能够理解脚本的情感内容,并做出恰当的反应。

此外,大多数数字人的面部以下动作都非常有限,即使是基本的手势也难以实现。手势控制通常依赖于程序化的设定,例如允许用户为视频的每个片段选择不同的肢体语言类型。未来能够看到更加自然和智能的动作推断,让数字人的肢体语言更加生动。

与现实世界互动

目前,数字人还无法与周围环境互动。近期一个可行的目标是使它们能够在广告中展示产品。一些模型已经在这方面已经取得了一些进展。

在实时互动方面,数字人拥有更广阔的应用前景。例如,我们可以与AI医生进行视频咨询,在AI销售助手的引导下浏览精选商品,或者通过视频与我们喜爱的电视剧角色进行实时互动。目前虽然在延迟和稳定性方面还无法完全达到真人水平,但已经非常接近了。

如今,底层模型的技术水平已经显著提升,能够生成质量较高、观看体验较好的数字人形象。同时,随着算法优化、算力增强以及数据资源的不断丰富,AI数字人在交互能力、情感表达和个性化服务等方面也取得了长足进步。可以肯定地说,AI数字人应用层面将迎来快速发展的机遇。