世界上许多语言正面临消失的危机,而现有的语言辨识与生成技术上的限制更加快此趋势。Meta今天发布新闻稿指出,Meta发表一系列的AI模型,希望帮助用户以自己习惯的语言,更轻松获取信息及使用电子装置。
Meta表示,公司研发的大规模多语言语音(Massively Multilingual Speech,简称MMS)模型,扩展文字转语音及语音转文字技术的应用范围,从最初的100种语言,至今已可转换超过1100种语言,超越过去的10倍。还能辨识超过4000种口语语言,是过去的40倍。
应用案例方面,从VR(虚拟现实)、AR(扩增实境)至讯息服务,不仅能使用偏好语言操作,更可理解每个人的声音。
Meta指出,将开源这项技术的原始码及模型,让研究社群能够以现有的工作成果为基础继续开发,一同保存全球的语言,并拉近人们间的距离。
过去最大型的语音数据库最多仅涵盖100种语言,因此开发此技术所面临的第一个挑战即为「搜集数千种语言的语音训练数据」。为了克服这项挑战,Meta使用已翻译成多种语言、译文已被广泛阅读及研究的宗教经典,例如「圣经」,作为语言的文字训练数据。
Meta表示,圣经译文有多种语言的公开录音文件,作为大型多语言语音模型计划的一部分,Meta创造的数据集,搜集超过1100种语言的「新约圣经」有声读物数据集,平均为每种语言提供32小时的语音训练数据,后续又加入其他未标注的基督教有声读物后,可用的语言训练数据已涵盖超过4000种语言。
Meta强调,将持续扩增大规模多语言语音模型的涵盖范围,以支持更多语言的转换及辨识,并努力克服现有语音技术难以处理方言的挑战。