文章图片
说出来你可能不信 , 你根本不了解什么是 智 能 语 音 。
你对着Siri讲一段话 , Siri把你不标准的普通话变成文字 , 并对你无理取闹的问题作出解答;或者你用微信说一段话 , 转换成文字 , 发给讨厌的甲方爸爸——这就是你对智能语音的全部理解 。
简单的说 , 就是把孙悟空声音录进去 , 然后机器阅读一段文字 , 用孙悟空的音色、语气再说出来 。
文语转换(TTS) 又称为语音合成 ,旨在将文本转换成自然语音的一类技术 , 是智能语音领域的前沿技术 , 在语音助手、信息播报、有声读物等方面具有重要的应用价值 。
【团队|今年国际语音合成大赛第一名,来自这个团队】在2021年声学、语音和信号处理国际会议(ICASSP2021)的信号处理挑战旗舰任务——多说话人多风格音色克隆大赛(M2VoC)上 , 来自猿辅导人工智能实验室的研究团队获得子赛道第一名 。
文章图片
▲就是这五位靓仔组成的队伍
这表明 , 我国在智能语音的部分关键核心技术和应用上取得重要进展 。
杨明祺和马楠是猿辅导AI 研究院语音实验室语音合成小组的研发人员 , 他们只凭 借极少量的数据 , 把指定的文本 , 用特定的“音色”说了出来 。 提起参赛经历 , 二人都说好成绩来源于平时工作的积累 。 他们认为 , 语音合成(TTS)包括一些相关技术 , 在教育领域会有比较重要的应用 , 科技将给教育带来全新的改变 。 而这种改变 , 将成为杨明祺和马楠乃至整个猿辅导AI 研究院继续探索的动力 。
━━━━━
语音合成中浓浓的教育情怀
作为国际语音领域为数不多的顶级会议 ,M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台 , 对语音克隆任务进行研究 。 杨明祺和马楠斩获第一名的是极少样本赛道中的子赛道B , 他们在小样本条件下实现了效果更佳的语音合成 。
“语音合成就是我们输一个文本进去 , 然后它产生一个语音 。 ” 杨明祺介绍说 , 主办方会对收集到的语音合成系统进行评估 , 系统转化的语音与样本相似度越高 , 发音越准确 , 获得的得分就越高 。 “在20个队伍里 , 拿到(极少样本开集)子赛道第一名 , 我们有点意外 。 技术领域的大牛很多 , 我们也会继续努力 。 ”
一边是跟最前沿的科技打交道 , 一边是杨明祺和马楠都对教育有着浓厚的情结 。 马楠的父亲是教师 , 亲戚中也有不少教师 , 马楠从小在教师家庭长大 , 见证了教书育人的全过程 , 他比任何人都懂得老师的辛苦与付出 , “我的一位研究生同学在猿辅导成立早期加入了公司 , 他联系我说 , 猿辅导的团队氛围好 , 工程师文化浓郁 , 想要打造一支研发队伍把最前沿的科技应用到教育领域 , 建议我试试看 。 ” 马楠说 ,“能加入猿辅导的研发团队 , 能通过自己的努力让教育更加高效 , 我感觉自己很幸运 。 ”
在马楠看来 , 语音技术的创新可以让老师们“轻松”一点 。 语音技术在教育领域的深度应用 , 能够帮助教师借助AI完成简单的语音读题、英文听力出题等辅助工作 , 将进一步释放老师的备课压力 , 让老师可以把更多精力投入到教学研究中去 。 而口语评测技术 , 可以实现机器对学生在语言学习中的发音做打分和反馈 , 帮助学生实现随时随地练习 。
除此 , 海外研究表明 , 文语转换对阅读困难儿童教育干预有积极作用 。 不仅可以帮助他们实现“视听结合”的阅读 , 也可增进他们的阅读动机 , 帮助学习不良的学生变成更加独立阅读者 。
━━━━━
参赛作品出自日常研发内容
在猿辅导公司的产品线里 , 小猿口算和猿辅导网课等都有一些环节里需要用到音频读题 , 语音合成小组的工作就是研发把题目的文本转化成读题音频的方法 。 有时候 , 还需要根据老师的需求 , 控制合成句子的发音、语调、语速 , 可以说 , 杨明祺和马楠所在团队的日常积累 , 为参赛获奖奠定了良好的基础 。
文章图片
在英语听力练习中 , 对一些发音有非常严苛的要求 。 “找国外专业的语音公司去录制 , 至少需要一周时间制作 , 如果我们提出修改意见 , 再次返回录制好的语音又需要一周时间 。 ”杨明祺说 , ““现在 , 一句10秒长度的句子 , 不到1秒就可以完成语音转化 , 就算有修改也能及时合成新的语音 , 对教学效率带来了巨大提升 。 ”杨明祺说 。
辅导老师平时有许多出题工作 , 帮助学生巩固知识 。 他们会向研发团队提出通过技术提升效率的需求 , 研发团队则会想办法结合最先进的技术来满足和实现 。 “这次比赛 , 能取得比较好的成绩 , 一个关键原因是我们在语音合成中加入了韵律信息 , 它让语音合成的效果更加自然 。 ”马楠表示 。
据了解 , 语音合成技术是人机对话的一部分 , 让机器会说话 。 这项技术能对文本文件进行实时转换 , 转换时间可以秒计算 。 同时 , 输出的语音音律也会更加流畅 , 毫无机器语音输出的冷漠与生涩感 。
猿辅导的语音合成小组目前共6人 , 平均年龄28岁 。 杨明祺和马楠大概用了一周的时间去准备比赛方案 。 二人比赛用的方案 , 来自平时工作中的一些模块 , 而这些模块基本上是由所有小组成员共同完成的 。 杨明祺和马楠总说:“我们的好成绩是大家一起努力的结果 。 ”
━━━━━
驱动科技给教育带来全新变革
2014年 , 猿辅导在线教育成立行业首家AI研究院 , 致力于引领全球尖端科技在教育场景应用的研发和探索 。 猿辅导AI研究院主体由语音实验室、视觉实验室、自然语言理解实验室、音视频实验室和基础支撑五个实验室组成 , 成员规模接近百人 , 均来自清华、北大、中科院、微软等知名学府和顶尖机构 。 猿辅导AI研究院以“研发重投入 , 聚焦最前沿”为方针 , 驱动科技给教育带来全新变革 。
文章图片
2018年 , 猿辅导AI研究院的MARS数据模型获“MS MARCO机器阅读理解水平测试”第一名 , 微软官方称“在阅读理解能力上首次超越人类平均水平” 。 研究院《基于人工智能的少儿教育发展研究》课题于2020年3月正式入选教育部国家级重点课题 , 猿辅导成为首家入选国家级重点课题研究的在线教育企业 。
“如果眼光放长远一些 , 随着人工智能和其他前沿技术的进步 , 技术可能会给教育带来更多积极的影响 , 使教和学的体验更好 , 效率更高 。 ”马楠举了几个例子 , 比如 , 语音、语言和视觉技术进步后 , 可以结合视觉和语音技术指导语言学习 , 或者启发式地指导学生解题;再比如 , 通过智能化的教学内容生成 , 把知识自动或半自动地生成儿歌、动画等易于接受的形式 , 将大大提高学习的趣味性;亦或是 , 通过虚拟现实、增强现实技术 , 让教学更有沉浸感、参与感 。 到那时 , 学习关于长城的课文 , 长城的景象可以虚拟化的、沉浸式地出现在学生面前;上物理课时 , 也可以虚拟化地完成一些复杂的实验 。
杨明祺和马楠坚信 , 科技在教育领域有更为广泛的应用 , 这将全方位提升孩子的学习能力和学习兴趣 , 切实帮助老师和家长减轻负担 。
值班编辑 吾彦祖
点击下图进入" 全国新型冠状病毒感染肺炎实时地图 "
从“政协干部”到“劳改释放犯” , 他申诉31年
网络哄睡师 , 传播色情还是对抗失眠?
来新京报电商平台“小鲸铺子”囤年货啦!
推荐阅读
- IT|8号线、14号线将全线贯通 北京地铁?今年开通线路段创纪录
- Cortex|首发价 2299 元,Redmi 智能电视 X 2022 款 50 英寸今日开售
- 真皮|小米 Watch S1 商务智能手表今日开售
- 尺寸|3199元起,小米12/12 Pro/12X手机今天晚上20点正式开售
- 大容量|首发价 2999 元,小米平板 5 Pro 8GB+256GB 大容量版今日开售
- HiFi|首销价 449 元,小米真无线降噪耳机 3 今日开售
- 影像|听说今天雷总和苏炳添赛跑了?
- 核心|中科大陈秀雄团队成功证明凯勒几何两大核心猜想,研究登上《美国数学会杂志》
- VIA|x86研发团队卖给Intel后 VIA出售厂房和设备:北美分部就此终结
- 市场|三星可折叠手机今年销量突破 800 万部,是去年的四倍