Meta公布AI语音模型支持4000种语言

2023-05-26 10:18 已有295人浏览 作者

世界上许多语言正面临消失的危机，而现有的语言辨识与生成技术上的限制更加快此趋势。Meta今天发布新闻稿指出，Meta发表一系列的AI模型，希望帮助用户以自己习惯的语言，更轻松获取信息及使用电子装置。

Meta表示，公司研发的大规模多语言语音（Massively Multilingual Speech，简称MMS）模型，扩展文字转语音及语音转文字技术的应用范围，从最初的100种语言，至今已可转换超过1100种语言，超越过去的10倍。还能辨识超过4000种口语语言，是过去的40倍。

应用案例方面，从VR（虚拟现实）、AR（扩增实境）至讯息服务，不仅能使用偏好语言操作，更可理解每个人的声音。

Meta指出，将开源这项技术的原始码及模型，让研究社群能够以现有的工作成果为基础继续开发，一同保存全球的语言，并拉近人们间的距离。

过去最大型的语音数据库最多仅涵盖100种语言，因此开发此技术所面临的第一个挑战即为「搜集数千种语言的语音训练数据」。为了克服这项挑战，Meta使用已翻译成多种语言、译文已被广泛阅读及研究的宗教经典，例如「圣经」，作为语言的文字训练数据。

Meta表示，圣经译文有多种语言的公开录音文件，作为大型多语言语音模型计划的一部分，Meta创造的数据集，搜集超过1100种语言的「新约圣经」有声读物数据集，平均为每种语言提供32小时的语音训练数据，后续又加入其他未标注的基督教有声读物后，可用的语言训练数据已涵盖超过4000种语言。

Meta强调，将持续扩增大规模多语言语音模型的涵盖范围，以支持更多语言的转换及辨识，并努力克服现有语音技术难以处理方言的挑战。

新闻资讯