声質変換とは?
喋った音声を、声の高さや性質を変えたり、別人に似せた音声に変換したりする技術です。自分の声が嫌いなので、定期的にどういう技術があるか調べています。
簡単に言うとボイスチェンジャーみたいなものです。
声の高さや性質を変えるタイプの声質変換については、別の記事に譲り、今回は、別人に似せた音声に変換するタイプの音声変換について書いていきます。
個々のサービスについて詳しく書くというよりも、こういうサービスがあるよという紹介をメインとしますので、利用方法や特徴については個別に調べてみてください。
また、規約や権利については各自で確認してください。
声質変換サービスについて
声質変換について現在存在が公開されているサービスを紹介します。デモだったり、利用可でないものも含みます。
ゆかりねっと
変換元の音声をWeb Speech APIの音声認識でテキスト化したのち、そのテキストをVOICEROID等で発音させるという方式。
NAMAROID
ゆかりねっとと同様に、Intel RealSense SDKの音声認識でテキスト化したのち、そのテキストをVOICEROID等で発音させるという方式。音声認識結果のテキストをクリップボードに返すこととができるものであれば、別の音声認識エンジンを利用することも可能。
yukarinライブラリ
多数の変換元の音声と変換目標の音声でディープラーニングを行い、その学習結果を用いて声質変換を行うライブラリ。リアルタイム声質変換に対応。環境の構築にある程度の知識が要求される点、学習データが質、量ともに高いレベルで要求される点から、思い通りの声質変換を行うにはハードルが高い。
個人的には、音声認識を用いないため、音声認識の精度に依存せず、また、オンプレミスとなるため、サービスの稼働状況を気にする必要が無い点から一番期待をしているシステムです。
Seiren Voice
デモ版。
音声とそのテキストを入力することで声質変換された音声ファイルを返してくれるWebサービス。yukarinライブラリの作者の方が手掛けている。
ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術
ソフトウェア非公開。
入力音声を音素と音高に分割、変換、再合成する形で実現しているらしい。
yukarinライブラリの作者の方が手掛けている。
Voidol
AIを用いたリアルタイム声質変換ソフトウェア。
学習も不要で、喋り方を含めた声質変換サービスの中では、自身で完結しているソフトウェアであるため、品質は不明ながらハードルが低い。
Deep_VoiceChanger
多数の変換元の音声と変換目標の音声でディープラーニングを行い、その学習結果を用いて声質変換を行うライブラリ。環境の構築にある程度の知識が要求される点から、思い通りの声質変換を行うにはハードルが高い。
サンプルを聞いた中では声質変換の精度はダントツだと思いました。
VOICE AVATAR 七声ニーナ
AIを用いたwebサービス。
学習も不要で、喋り方を含めた声質変換サービスの中では、自身で完結しているソフトウェアであるため、品質は不明ながらハードルが低い。
One’s Voice
サービス非公開。
変換元の音声と変換目標の音声でディープラーニングを行い、その学習結果を用いて声質変換を行うサービス。
mmvc
AIを用いたソフトウェア。
学習量等によるがかなりいい感じの変換を行ってくれる。
同じ文章を読み上げた、変換元となる自分の声と変換先となる声の音声データが必要となる。
rvc
AIを用いたソフトウェア。
学習量等によるがかなりいい感じの変換を行ってくれる。
mmvcと違い、自分の声の音声データが不要であり、モデル作成のハードルが低い。
また、そのおかげで、学習モデルが多数公開されており、自分で学習を行う必要すらないことも多い。
まとめ
引き続き探していこうと思います。
有料でもいいんですが、リアルタイム変換可能で、オフラインで完結し、ある程度手軽に使えるソフトウェアがあればなぁ。
読んだ方で心当たりがあれば教えていただけると助かります。