声質変換サービスについて

喋った音声を、声の高さや性質を変えたり、別人に似せた音声に変換したりする技術です。自分の声が嫌いなので、定期的にどういう技術があるか調べています。

簡単に言うとボイスチェンジャーみたいなものです。

声の高さや性質を変えるタイプの声質変換については、別の記事に譲り、今回は、別人に似せた音声に変換するタイプの音声変換について書いていきます。

個々のサービスについて詳しく書くというよりも、こういうサービスがあるよという紹介をメインとしますので、利用方法や特徴については個別に調べてみてください。

また、規約や権利については各自で確認してください。

声質変換について現在存在が公開されているサービスを紹介します。デモだったり、利用可でないものも含みます。

変換元の音声をWeb Speech APIの音声認識でテキスト化したのち、そのテキストをVOICEROID等で発音させるという方式。

ゆかりねっとと同様に、Intel RealSense SDKの音声認識でテキスト化したのち、そのテキストをVOICEROID等で発音させるという方式。音声認識結果のテキストをクリップボードに返すこととができるものであれば、別の音声認識エンジンを利用することも可能。

多数の変換元の音声と変換目標の音声でディープラーニングを行い、その学習結果を用いて声質変換を行うライブラリ。リアルタイム声質変換に対応。環境の構築にある程度の知識が要求される点、学習データが質、量ともに高いレベルで要求される点から、思い通りの声質変換を行うにはハードルが高い。

個人的には、音声認識を用いないため、音声認識の精度に依存せず、また、オンプレミスとなるため、サービスの稼働状況を気にする必要が無い点から一番期待をしているシステムです。

デモ版。

音声とそのテキストを入力することで声質変換された音声ファイルを返してくれるWebサービス。yukarinライブラリの作者の方が手掛けている。

ソフトウェア非公開。

入力音声を音素と音高に分割、変換、再合成する形で実現しているらしい。

yukarinライブラリの作者の方が手掛けている。

同じ文章を読み上げた、変換元となる自分の声と変換先となる声の音声データが必要となる。

AIを用いたソフトウェア。

学習量等によるがかなりいい感じの変換を行ってくれる。

mmvcと違い、自分の声の音声データが不要であり、モデル作成のハードルが低い。

また、そのおかげで、学習モデルが多数公開されており、自分で学習を行う必要すらないことも多い。

引き続き探していこうと思います。

有料でもいいんですが、リアルタイム変換可能で、オフラインで完結し、ある程度手軽に使えるソフトウェアがあればなぁ。

読んだ方で心当たりがあれば教えていただけると助かります。

テフロウのおぼえがき