新华网 正文
特稿:人工智能助力保护“多彩乡音”
2019-08-29 18:25:41 来源: 新华网
关注新华网
微博
Qzone
评论
图集

  新华社重庆8月29日电  特稿:人工智能助力保护“多彩乡音”

  新华社记者彭茜 黎华玲

  “干啥子哟?”“你瞅啥?瞅你咋地?”

  在2019中国国际智能产业博览会(简称“智博会”)上,一款内嵌了最新人工智能方言识别技术的智能翻译机逗乐了来自天南海北的观众。

  无论是四川话、东北方言,还是吴侬软语,都被科大讯飞翻译机逐字逐句转换成汉语文本,再实时翻译成英文。

  此次参展的阿里巴巴人工智能实验室也开发了可识别四川方言的智能音箱“天猫精灵”,预计今年9月后正式发布,未来还会以智能音箱终端为基础,通过语音交互采样建立覆盖全国的动态方言数据信息库。

  人工智能,正在帮助我们留下“多彩乡音”。

  方言是中国语言文化的瑰宝,传承丰富的历史文化内涵;方言也是人们乡情的根系,具有丰富的人文价值。在我国,部分“小方言”在经济社会飞速发展的背景下有消失风险,方言的保护和留存极具紧迫性。

  长期在中国进行汉语方言调研的韩国首尔大学中文系主任朴正九教授接受新华社记者采访时说,汉语方言使用人口多、地域广,在全球语言学研究中占有非常重要的地位,汉语方言有助于研究人类语言的共性和个性。

  早在2012年,科大讯飞就以粤语为突破口,开展方言识别技术攻关。2017年,科大讯飞输入法联合中国声谷发起“方言保护计划”,近3年来已收集超过86万条方言语音,支持23种方言语音输入,实现包括粤语、四川话、湖南话等11种方言的语音合成;微信小程序“我AI说方言”还方便公众随时随地上传方言,建设中国方言库。

  阿里巴巴人工智能实验室今年也宣布,正式成立方言保护专项小组,投入1亿元人民币对汉语方言进行保护和开发。

  科大讯飞输入法业务部副总经理、“方言保护计划”发起人李强军介绍,方言语料的采集、记录和归纳是方言识别的基础。以前,这项工作很大程度依赖于调查者主观感知,而归纳完整的语音变化、进行句法和语义分析等工作难以单靠人力完成,所以有必要建立分属不同方言的数据库,利用人工智能系统地对方言文字、发音等进行整理。

  “各种汉语方言在语法语音上的特征都不相同,很难被系统整理。用上人工智能技术,对方言保护和研究大有帮助。”朴正九说。

  其实,外语语音识别与方言识别的人工智能训练方法是相通的。随着技术进步,可用统一的语音识别模型,导入各地方言等不同语料进行无监督训练。我国语言学界将现代汉语方言分为十大方言区,方言识别难度有所不同,落实到输入法产品中,识别准确率也略有差异。

  “适配不同的方言识别,对整体语音识别技术也会是一种促进和优化。”阿里巴巴人工智能实验室高级产品专家张平介绍,做方言是为了让更多地域人群能更好地交流,同时也更多保护地域文化。“我们第一款先做四川方言,就是因为四川方言在中国方言中用户占比大”。

  开发“方言版”语音识别,还有助于设计出更贴合消费者需求的智能语音交互产品。美国“风险投资节奏(Venturebeat.com)”网站数据显示,中国已超过美国成为全球最大的智能语音市场,2019年第一季度智能音箱出货量占全球总出货量一半以上。

  国外智能语音产品厂商也在努力开发能识别各种英语口音的版本。有趣的是,曾经有一位美国消费者投诉亚马逊公司的智能语音助手“亚历克萨(Alexa)”,因为它不能识别自己母亲的口音。

  目前,亚马逊的“亚历克萨”、苹果的Siri和谷歌助手均可以识别标准美音、“印度味”英语和“中国味”英语。不过,据Vocalize.ai实验室测评,这三种产品识别中国口音英语的准确率最低。另外,它们都没有识别汉语方言的功能。

  由此可见,独具中国特色的“方言版”语音识别产品还有助于中国企业开展差异化竞争。

+1
【纠错】 责任编辑: 王萌萌
新闻评论
加载更多
“中国天眼”的昼与夜
“中国天眼”的昼与夜
第14届莫斯科航展开幕
第14届莫斯科航展开幕
秦俑!秦俑!
秦俑!秦俑!
探访施华洛世奇水晶世界
探访施华洛世奇水晶世界


010020020110000000000000011107271124938501