VALL-E
VALL-Eは、2023年1月5日にMicrosoftによって発表された音声合成を行う一種の生成AIである[1]。
開発元 | Microsoft |
---|---|
公式サイト | https://www.microsoft.com/en-us/research/project/vall-e-x/ |
VALL-Eは、"recreate any voice from a three-second sample clip" (3秒の音声からすべての声を模倣できる)と紹介されている。[2] VALL-EはMeta社のLibriLightという音声ライブラリ上の60000時間分の英語の音声を使用してトレーニングされた[3]。
また、VALL-Eに変更を加えたものである「VALL-E R」や、「VALL-E 2」なども存在する[4]。
VALL-E X
編集Microsoftによって発表された手法をPythonを用いて実装したオープンソースのVALL-E Xが存在する[5]。この実装では英、中、日の三言語で相互の音声合成ができる。
関連項目
編集外部リンク
編集- 公式ウェブサイト
- VALL-E X - 公式サイト
出典・脚注
編集- ^ Dominguez (January 27, 2023). “Microsoft Unveils VALL-E, a Game-Changing TTS Language Model” (英語). InfoQ. 2023年9月19日閲覧。
- ^ Morrison (2023年1月10日). “Microsoft's new VALL-E AI can clone your voice from a three-second audio clip” (英語). Tech Monitor. 2023年9月19日閲覧。
- ^ Wodecki (January 11, 2023). “Microsoft's VALL-E Generates Speech From Just 3 Seconds of Audio”. AI Business. 2023年11月1日閲覧。
- ^ “VALL-E”. 2024年10月20日閲覧。
- ^ “Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex/”. 2024年10月20日閲覧。