VALL-Eは、2023年1月5日にMicrosoftによって発表された音声合成を行う一種の生成AIである[1]

VALL-E
開発元 Microsoft
公式サイト https://www.microsoft.com/en-us/research/project/vall-e-x/
テンプレートを表示

VALL-Eは、"recreate any voice from a three-second sample clip" (3秒の音声からすべての声を模倣できる)と紹介されている。[2] VALL-EはMeta社のLibriLightという音声ライブラリ上の60000時間分の英語の音声を使用してトレーニングされた[3]

また、VALL-Eに変更を加えたものである「VALL-E R」や、「VALL-E 2」なども存在する[4]

VALL-E X

編集

Microsoftによって発表された手法をPythonを用いて実装したオープンソースのVALL-E Xが存在する[5]。この実装では英、中、日の三言語で相互の音声合成ができる。

関連項目

編集

外部リンク

編集

出典・脚注

編集
  1. ^ Dominguez (January 27, 2023). “Microsoft Unveils VALL-E, a Game-Changing TTS Language Model” (英語). InfoQ. 2023年9月19日閲覧。
  2. ^ Morrison (2023年1月10日). “Microsoft's new VALL-E AI can clone your voice from a three-second audio clip” (英語). Tech Monitor. 2023年9月19日閲覧。
  3. ^ Wodecki (January 11, 2023). “Microsoft's VALL-E Generates Speech From Just 3 Seconds of Audio”. AI Business. 2023年11月1日閲覧。
  4. ^ VALL-E”. 2024年10月20日閲覧。
  5. ^ Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex/”. 2024年10月20日閲覧。