元宇宙的热度最近只增不减,加之疫情的影响,越来越多的企业想加入元宇宙的行列,虚拟数字人是我们在虚拟世界的数字化身,是元宇宙独立身份或者虚拟形象的载体,是虚拟世界人与人、人与物的关联交互载体。虚拟数字人目前的市场规模是怎么样的呢?都涉及了哪些产业?感兴趣的小伙伴们一起来看看吧。
一、定义与特征
虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在,我们所知的很多虚拟人都要通过手机、电脑或者智慧大屏等设备才能显示。
具备四方面的能力,即形象能力、感知能力、表达能力和娱乐互动能力。
- 形象能力:拥有人的外观,具有特定的相貌、性别和性格等人物特征
- 表达能力:拥有人的行为,具有用语言、面部表情和肢体动作表达的能力
- 感知、互动能力:拥有人的思想,具有识别外界环境、并能与人交流互动的能力
二、分类
调研分析当前市场上的数字人,可以分为以下这四个分类:
- 根据按人格象征维度,分为虚拟IP和虚拟世界第二分身两大类
- 从外形上可分为卡通、写实等风格
- 综合来看可分为二次元、3D卡通、3D高写实、真人形象四种类型
- 从产业应用维度,分为服务型虚拟数字人和身份型虚拟数字人
1)按人格象征维度
虚拟 IP 指其在现实世界中并不存在对应的真人,其外貌特征、基本人设、各类偏好、背景信息等均由人为设定,如由网易伏羲提供技术支持的麦当劳开心姐姐等。
虚拟世界第二分身主要面向的是未来的虚拟世界,把为每个人创造自己的虚拟化分身为最终目的,满足个人在虚拟世界的社交、娱乐、消费等需求,如根据易烊千玺原型打造的天猫虚拟代言人千喵、咪咕的数智人谷爱凌原型Meet GU等。
2)按图形维度
- 二次元是指在平面空间呈现,只能以单个视角去浏览,在制作过程中已经确定了视角,用户不可自行更换视角,如上海禾念旗下虚拟艺人洛天依、QQ音乐虚拟歌手祝眠等。
- 3D卡通是指三维立体模型,可呈现在立体空间,能够以任意视角去浏览,产品制造团可设定用户可见的视角,如百度的虚拟助手度晓晓等。
- 3D超写实与真实的人类极为接近,或者在真人基础上有一定程度的卡通化,如杭州燃麦科技的虚拟偶像AYAYI、浦发银行与百度联合研制的浦发银行数字员工-小浦、腾讯打造的Siren(塞壬)等。
- 真人形象虚拟数字人的特征来源于真人,目前主要应用于 AI 合成主播,如新华社与搜狗公司联合打造的新华社AI合成主播-新小浩、百度为代言人打造的龚俊数字人等。
3)产业应用维度
服务型虚拟数字人主要是功能性,提供服务:
- 替代真人服务,完成内容生产、简单功能,包括虚拟主播、虚拟老师等
- 多模态AI助手,提供日常陪伴、关怀等服务,包括虚拟关怀师、虚拟陪伴助手等。如2021年万科总部优秀新人奖的财务人员崔筱盼、天猫超市虚拟主播小铛家等
身份型虚拟数字人具有身份性,用于娱乐/社交:
- 虚拟IP/偶像,推动虚拟内容生产,包括虚拟偶像等
- 虚拟世界第二分身,用于社交娱乐,如央视华彩少年的选秀的选手翎Ling、抖音虚拟美妆达人柳夜熙等
-
三、市场规模
虚拟数字人白皮书预测,在2030年,我国虚拟数字人整体市场规模将达到2703亿。
其中,得益于虚拟IP的巨大潜力,以及虚拟第二分身的起步,身份型虚拟数字人将占据主导地位,约1750亿,并逐步成为元宇宙中的重要一环。服务型虚拟数字人则相对稳定发展,多模态AI助手仍有待进一步发展,多种对话式服务升级至虚拟数字人形态,总规模超过950亿。
四、产业视图
1)虚拟数字人的基础技术层为虚拟数字人的生产制作提供技术支持,主要可分为硬件部分和软件部分。
硬件包括所有虚拟数字人呈现及交互所需的硬件,硬件包括显示设备、光学器件、传感器、芯片等,显示设备是数字人的载体,既包括手机、电视、投影、 LED 显示等 2D 显示设备,也包括裸眼立体、 AR、 VR 等 3D 显示设备。
光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和虚拟数字人模型渲染、 AI 计算。
软件端除了呈现和交互软件外,还包括建模软件、渲染引擎等,建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染,主流引擎包括 Unity Technologies 公司的 Unity 3D、 Epic Games 公司的 Unreal Engine等。
2)虚拟数字人平台层是将基础技术层中各独立技术进行串联,应用在具体的项目设计中,主要包括建模、动捕、渲染等制作环节。
平台层公司目前在高速发展中,竞争壁垒主要在如何结合技术能力和文化设计能力,为下游应用层提供整合的虚拟数字人解决方案。随着AI、算法、5G 网络等技术发展,制作环节成本仍有下降空间。
3)虚拟数字人应用层将虚拟数字人应用于各行业领域。虚拟数字人相关技术首先在影视、传媒和游戏领域有了多年应用的积累,随着技术进一步成熟正逐步呈现出新的赋能方式。目前在金融、文旅等领域,虚拟人凭借其与 AI 技术的结合,以及成本、表现力优势逐步开始提供数字员工、虚拟导游等服务。
五、通用框架与技术架构
1)通用框架
虚拟数字人系统一般情况下由人物形象、 语音生成、 动画生成、 音视频合成显示、 交互等 5 个模块构成。
人物形象根据人物图形资源的维度, 可分为 2D 和 3D 两大类, 从外形上又可分为卡通、拟人、 写实、 超写实等风格。
语音生成模块和动画生成模块可分别基于文本生成对应的人物语音,以及与之相匹配的人物动画;音视频合成显示模块将语音和动画合成视频, 再显示给用户。
交互模块使数字人具备交互功能, 即通过语音语义识别等智能技术识别用户的意图, 并根据用户当前意图决定数字人后续的语音和动作, 驱动人物开启下一轮交互。
2)技术架构
虚拟数字人通用系统框架的基础上提炼出“五横两纵”的技术架构。
“五横”是指用于数字人制作、交互的五大技术模块, 即人物生成、 人物表达、 合成显示、 识别感知、 分析决策等模块。
其中, 人物表达包括语音生成和动画生成,动画生成则包含驱动(动作生成) 和渲染两大部分。
“两纵”是指 2D、 3D 数字人, 3D 数字人需要额外使用三维建模技术生成数字形象, 信息维度增加, 所需的计算量更大 。
六、制作流程
虚拟人的制作流程涵盖了诸多技术,制作方式仍在逐步进化中,存在某些步骤互相融合的趋势,但尚没有完全定型的整套解决流程。虚拟人制作流程中最为核心、最具挑战的是建模、驱动、渲染三大流程。
具体的制作步骤是:
- 以真人为模型或设计人物为虚拟人建立基本的 3D 模型
- 通过真人动作捕捉等形式确定虚拟人的基本动作,也即驱动环节
- 根据在设计环节中确定的虚拟人最终呈现效果和应用场景等外界要素,将模型与其运动进行渲染以呈现最佳效果