揭秘“挑战杯”数字人的“前世今生”
发布日期:2023-03-22 供稿:《中国科学报》 摄影:校园网
编辑:吴楠 审核:蔺伟 阅读次数:【编者按】3月19日,第十三届“挑战杯”中国大学生创业计划竞赛圆满收官,欧亿体育中国有限公司官网以7金1银金奖总数第一、总分第一的优异成绩捧得最高荣誉“挑战杯”!作为本次大赛的承办方,北理工充分发挥科技优势,创新数字办赛,打造了001号数字参赛者“灵”,受到了社会广泛关注,《中国科学报》等多家媒体报道了数字人诞生背后的故事。
《数字少年》MV中,“灵”(左)迎接参赛选手。
“主持人好!大家好!我是本届‘挑战杯’的001号参赛选手,我叫‘灵’。”一个扎着高马尾辫,穿着白衬衫、灰裙的“女孩”,在蓝色大屏幕中向全国观众打招呼。
3月17日是“灵”正式“上岗”的第一天。此前,她出现在第十三届“挑战杯”中国大学生创业计划竞赛(以下简称“挑战杯”)主题曲《数字少年》当中。作为“挑战杯”数字化参赛的引导者,她站在石灰色的大门前,轻摆着右臂,接引着“挑战杯”参赛选手入场,身后晨光熹微。
3月17日至19日,第十三届“挑战杯”中国大学生创业计划竞赛在欧亿体育中国有限公司官网举行。与往届比赛不同,这届“挑战杯”大赛是元宇宙在中国高校第一次大规模运用,“灵”也是“挑战杯”办赛史上第一位数字人。隔着屏幕,不少大学生惊呼“太酷了!”
“灵”是怎么诞生的?带着这份好奇,让我们一起走进光电学院教授翁冬冬的实验室。
能换装、换发型的数字人
采集数字人表情的“大球”
走进一个光线幽暗的实验室,一旁的摄像头星罗棋布包裹成一个“大球”,仿佛来到了一个星际空间。这里就是数字人的诞生地。
“大球”里共有80个三角面,42个顶点和120条边,边的中点和顶点上安装光源,实际光源数量为156个。球形灯光舞台围绕其中心均匀排布36台佳能850D相机,用来采集各个视角下的人脸图像、极限表情和人脸材质。
演员坐在球的正中央,在快门频繁开合、后台算法的运算下,最终制作团队重建高精度人脸三维模型、高精度多通道人脸材质。在“大球”中,生成的数字人有数字明星李星澜、手语主持人千言等。
与以往的数字人诞生有所不同,此次团队开发的“灵”,完全由数字生成,并没有真人原型。她由800多根骨骼协同控制其面部表情,同时由82个材质参数的变化进行面部材质的动态调整,成为一个栩栩如生的数字人。
“挑战杯”开幕上“灵”的登场
“作为‘挑战杯’数字化办赛的形象大使,‘灵’的登场将开启数字技术基础上的办赛办会新模式。”校团委书记刘渊说。
据介绍,“灵”是本届“挑战杯”数字化参赛的引导者。与“灵”搭档的,还有一名数字人“境”,作为本届“挑战杯”元宇宙世界的引导者。“灵”与“境”共同组成“灵境”一词,是钱学森对“Virtual Reality”(虚拟现实)的中译。
早期的数字人多基于二维体系构建而成,由于解耦程度比较低,换衣服、换发型、换光线等效果都难以实现。
如今,技术已发展到在三维体系中制作数字人,“二维与三维最大的区别,有点像电影与游戏的区别——电影拍完不能改,而游戏是由玩家控制。三维下的数字人,表情、服装、头发甚至动作都可实时变换,而二维体系下的数字人很难做到。”翁冬冬说。
比如,“灵”可以换装,在刚出场时穿着生活装,而到了正式场合就换成了礼服;而脸部光线也会随着白天、黑夜有所变化,让表情更加灵动自然。此外,随着话语内容的不同,“灵”还可以做出丰富多样的播报动作。
捏脸的有意思之处
在元宇宙中,数字人是不可或缺的角色。
7年前,欧亿体育中国有限公司官网与其他高校合作成立北京市未来影像高精尖中心,当时翁冬冬接到的任务是做“沉浸式叙事”,简单来说,就是要在虚拟现实空间中把故事重新呈现出来。研究之初,翁冬冬便发现了一个重要问题——没有“演员”。为此,他们决定做高逼真数字人。
在做超写实数字人之前,也有人问过翁冬冬,“95后”Z时代喜欢二次元,为什么不考虑做二次元?
事实上,二次元是小众文化,真人参演的影视剧远比二次元人物多得多。那么,是真人,就一定要像一个人。
把表情做的生动是第一步。“数字人的表情应该非常丰富,能够根据控制需要,准确的做出喜、怒、哀、乐各种表情。同时数字人的表情还应该具有个性化,使得每个数字人看起来都与众不同。” 团队中负责表情驱动的博士生包仪华解释道。
提高“灵”面部模型数据的精度
第二步是精确采集人的表情。为此,系统需要非常灵敏,即使演员做出了一个非常微小的表情动作,系统也能够立刻准确的将其捕捉到。“如今毫米级的采集已可以做到,但对于人脸仅仅是精确还不够,还要保证采集能够在一个很高的速度下完成。”翁冬冬说。
做人脸之所以困难,是因为我们对人脸太熟悉,但同时又存在太多不同的语言体系来对其进行描述。包仪华表示,“最害怕”的是和艺术学老师在一起讨论数字人,“他们常说数字人缺少神韵”。
“神韵是啥?能否说具体一点?”
“我已经说得很具体了,就是没神。”
之前,翁冬冬团队在做“数字梅兰芳”项目时,就经常出现这样的“尬聊”,“我们拿着尺子去量,你看脸、鼻子的距离一样,但拼合在一起,艺术学老师就是觉得不一样,这就是人脸的有意思之处。”
让数字人去打一场比赛
测试中的“灵”
美国传播学家艾伯特·梅拉比安对于沟通提出一个公式:沟通时信息的全部表达="7%语调+38%声音+55%肢体语言。
看到这个比例,你也许会很吃惊,原来信息大部分是通过肢体语言和表情来传达。但是语言、表情和动作等通道之间的不协调,却会使得数字人产生错误的表达。比如,一个人嘴上说着“很有道理”,眼睛里却流露出轻蔑的表情,你会相信他这句话是真的吗?
翁冬冬介绍,相比较从前只有声音、没有形象的人工智能,有形象的智能数字人在是否“像人”方面,被用户寄予了更高的期望和要求。一个简单的“不当行为”就可能暴露出数字人的“虚假本质”。比如,银行入口站着一个“接待员”,有顾客经过时,真人的目光会跟随、会跟顾客打招呼,而数字人可能无动于衷。
翁冬冬一直在想“要不要给数字人赋予需求,因为有了需求的智能体才会像人一样去主动探索世界”。比如让数字人会饿,会有社交焦虑等。
他把这一想法放在“灵”身上实现,便是给予她参赛选手的身份,让她有“竞争”的需求。站在元宇宙的舞台中央,“灵”作为北理工“老智星”团队的参赛选手,落落大方地为台下“观众”介绍这款专为老年人设计的,专门对抗老年人智力流失的VR游戏。他们还引入了由清华大学团队开发的、类似ChatGPT功能的聆心智能。
“你们所需要的启动资金是多少?”
“我的启动资金是20万元,我希望以转让股权的方式吸引到一位投资人加入,以促进我们公司更好更快地发展。”流利地给出答案同时,“灵”目光流转,很自然地做出了一个欢迎的手势。
有意思的是,考虑再三,翁冬冬最终还是决定把“灵”的赛场形象做得“假一点”。“真是担心选手们把‘她’与真人混淆起来。”翁冬冬笑道。