Meta 新推出的实时语音翻译模型 Seamless

2023-12-14 18:51:10

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型，可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)

我们正在发布 SemalessM4T v2，这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比，该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息，请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型，可捕捉韵律中某些未充分探索的方面，例如语速和停顿，同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息，请访问 SeamlessExpressive 自述文件或🤗 模型卡

SeamlessStreaming?

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
自动语音识别 (ASR)

要了解有关 SeamlessStreaming 模型的更多信息，请访问 SeamlessStreaming 自述文件或模型卡

安装

先决条件之一是 fairseq2，它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外，它还依赖于 libsndfile，而您的计算机上可能没有安装该文件。如果您遇到任何安装问题，请参阅其自述文件以获取进一步说明。

pip install .

转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ，大多数包管理器都可以提供该工具。

项目链接

https://github.com/facebookresearch/seamless_communication

网站/论文: https://ai.meta.com/research/seamless-communication/

HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

文章来源:https://blog.csdn.net/AI_SHELL/article/details/134999178
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！