冬奥会上虚拟“冰冰”的“出生地”,原来是阿拉长宁!

北京冬奥会上,长宁企业科大讯飞量身打造了《冰冰带你说冬奥》专属H5,推出的“3D虚拟冰冰”,因为酷似央视主播王冰冰的眉眼和神韵,解锁了多达31种语言技能,迅速捕获了众多网友的心。
据了解,科大讯飞从央视C+MG动漫工作室得到王冰冰的卡通原画形象,再通过语音合成、语音识别、3D虚拟人肢体动作控制、AI口唇表情合成等多项人工智能技术,打造了一个总台记者王冰冰的虚拟形象。
原来,科大讯飞2021年率先发起了虚拟人交互平台1.0,这个平台具有“多模感知、情感贯穿、多维表达、自主定制”的特点。其中虚拟人发声的语音合成技术是科大讯飞语音合成团队10多年来一直在多语种合成领域默默耕耘,创造出来的成果。
团队在语音合成发展最快的两年时间里,快速、高效地完成了全球60个主要语种的合成研发,其中37个语种达到了与国际一流厂商并跑或者领跑的水平。
而这技术领跑的背后,是团队经历国际技术壁垒的压力。2019年1月科大讯飞进入美国实体清单后,为了打破技术壁垒,公司开始全面布局多语种,当时给他们语音合成团队定的初步目标是两年内完成37个语种的覆盖,并且效果对标国际最好的互联网巨头。“说实话,当时接到这个任务的时候,很有压力,同时也有信心把这个工作做好。”团队负责人高丽说道。
团队的压力来自于没有数据积累,同时小语种缺少语言专家的支持。对于合成来说,每个语言都需要找到专业且有声音特色的母语者,用专业的录音设备录制20小时以上的高品质音库。
“但是我们当时没有任何可以提供高品质发音人的录音渠道,团队规模也只有10人左右;新冠疫情的爆发,特别是国外疫情的持续,给我们数据的跨国采集以及寻找专家资源的支持,都带来了非常大的难度。同时基于我们当时的技术方案,两年内完成37个语种的国际并跑,是不可能的事情。”高丽介绍说。
于是,高丽的团队分成两步开展工作,一方面通过各种渠道进行发音人的拓展,截至目前团队已经累积了全球100多个发音人渠道;另一方面成立紧急研究攻关小组,研发了一套通用性强、稳健的新一代语音合成系统。“此外,因为很多语种没有一套比较完善的语言学理论作为基础,多语种合成难度相比中英文合成要大很多。所以,我们团队很多时候是在探索和研究语言学和工程学的高效融合。”高丽表示。
团队经过10年的积累,最终拥有属于自己的一套技术方法,且达到商用级别,目前已经应用到了手机、车载、翻译机、扫描笔等终端设备上。
“我们要始终保持一个开放、自省的心态,不断地吸收新鲜血液,给团队带来更多可能,同时我们要始终坚持‘用正确的方法做有用的研究’,这样你的需求在不断拓展,方法也在不断创新。”高丽介绍说,未来团队的创新技术可以服务于机器翻译、语义理解等方向,给消费者带来更多、更懂消费者的AI技术和产品。
同时,高丽期待团队研发出的AI语音合成技术,开展濒危语言的复刻,比如锡伯语、彝语等少数民族语言,上海话、苏州话、客家话等方言,传承人类文化瑰宝和保护濒危语言。(来源:上海长宁)
分享让更多人看到
相关新闻
- 评论
- 关注