【RVC】VTuberのAIボイスチェンジャーの使い方について解説!

現在AIを用いたツールやソフトは、各所で話題となっており、凄まじい速度で進化を遂げています!

AIを用いたツールの中で話題になっているツールの1つはAIボイスチェンジャーとなります!

AIボイスチェンジャーとは、AI機能を用いて、高度な音声変換を行う機能のことです!

従来のボイスチェンジャーでは元の音声を加工するという制限がある以上、自在に声を変換するという訳にはいきませんでしたが、AIボイスチェンジャーでは特定の声のボイスモデルを学習したり、融合することで自在なボイス変換を行うことができます!

今回は複数のVTuberが利用して非常に注目度が高い「RVC(Retrieval-based Voice Changer)」のAIボイスチェンジャーの使い方について解説します!

AIボイスチェンジャー「RVC」とは?

RVC(Retrieval-based Voice Changer)は、AIによって声質変換を行うボイスチェンジャーの中で最も有名なものの1つです!

RVCは性能が高いにも関わらず、オープンソースで公開され手軽に利用できるAIボイスチェンジャーのため、瞬く間に世界中に広まりました!

当初はユーザーインタフェースが全て中国語でしたが、現在は日本語表示にも対応しています!

RVCは、基本操作をWebブラウザから行える「RVC WebUI」が利用でき、準備した音声素材を学習することで、既存のボイスチェンジャーを遥に上回るクオリティで音声変換が可能です!

また、「RVC」に対応したリアルタイムの音声変換ソフトもあり、配信にもRVCを使用することもできます!

VTuberのAIボイスチェンジャーRVCの利用例

バ美肉個人VTuberのバーチャル美少女ねむさんは普段使用しているボイスチェンジャーとAIボイスチェンジャーのRVCを使用し、RVCの機能の高さについて紹介していました!

VTuberのバ美肉はこちらの記事で詳細説明しているので、是非参考にしてみてください!

他には人気VTuberのおめがシスターズさんの動画では、おめがレイさんがAI学習機能を利用して、自分の声をVTuber仲間のピーナッツくんの声に変換してなりすまし、おめがリオさんや甲賀流忍者ぽんぽこさんに通話するドッキリを仕掛けています!

音声を聞いただけではなりすましを見破るのは非常に難しく、非常にRVCの声の変換レベルが非常に高い様子が見て取れます!

※無断で他人になりすますなどの悪用は厳禁ですので注意してください。

人気VTuberのにじさんじの月ノ美兎さんがRVCを使って文野環さん?(是非動画で確認みてください)になりすますドッキリを行っていました!

AIボイスチェンジャーRVCの使い方

AIボイスチェンジャー「RVC」を用いたリアルタイムで音声を変える使い方について解説します!

音声の学習元となる声データや、リアルタイムで音声を変換するためのソフトウェアが必要となります!

AIボイスチェンジャー「RVC」を使用するために必要なツール
・「RVC」本体
・「RVC」の学習元となる音声データ
・「VC Client」(リアルタイム音声変換ソフトウェア)

手順①「RVC」本体をダウンロード後解凍を行い、「RVC WebUI」を立ち上げる

現在「RVC」本体(RVC-beta.7z)の最新版はこちらにて配布されております。

更新が入った場合は最新版でない可能性があるので注意してください!

※機械学習向けデータ共有プラットフォーム「Hugging Face」のアカウントが必要となります!(無料)

「RVC」本体をダウンロード後、解凍ソフトを使って解凍します!

RVC-beta.7zの7zという拡張子のデータはフリーソフト等で回答できるので探してみてください!

解凍して出てきたフォルダ内にある「go-web.bat」をダブルクリックすれば、「RVC WebUI」が立ち上がり、WEBブラウザで操作が可能となります!

WEBブラウザが立ち上がっても「go-web.bat」は閉じないようにしてください。
閉じると操作不能となります!

手順②RVC WebUIのトレーニングを選択し、学習元として準備した音声データを学習させる

表示された画面の左から3つのタブの「トレーニング」を選択すると、音声学習用の画面になります。

はじめに実験名(学習済となる音声モデル)を任意の名前で決めてください!

ステップ2aの「トレーニング用フォルダのパスを入力してください」に学習用の音声素材を配置します!目安として、100個のほどのwavやmp4ファイルなど音声ボイスが必要です。

学習用の音声素材は「音声学習に使用してよいこと」ものを選んでください。
研究目的であれば、研究者向けマルチモーダルデータベースが使用できます!

ステップ2bとステップ3は初期設定のままでも使用できるので割愛します!

「ワンクリックトレーニング」を押すと全行程の音声ファイルの学習が始まります!

※「ワンクリックトレーニング」を押せば全ての学習工程が進むため、他のボタンを押す必要はありません!

step1~step3までの工程には学習する音声ファイルの量などにもよりますが、1時間弱ほどかかります。
左下の出力情報で「全流程结束!」というメッセージが出れば完了となり、「RVC-beta\weights」のファイルダ直下に学習モデルファイルが出力されます。
(例)
実験名 vtuberguide
学習用の音声素材 (ずんだもんボイスも使用して任意の場所に配置)
C:\Users\User\Music\zundamon

学習モデルファイル  vtuberguide.pth (実験名.pthで出力)

手順④RVC対応のVC Clientをダウンロードして、起動する

RVCの学習モデルの作成が終わったら、RVC対応のリアルタイム音声変換ソフトウェアVC Clientをダウンロードします。

こちらのリンクからダウンロード欄を探してみてください。WindowsとMac版があります!

ダウンロードが完了したら、ファイルの解凍を行います。

RVCでの使用をする場合は別でhubert モデルと呼ばれるバッチファイルが必要となるので、こちらからダウンロードを行います!

ダウンロードされた「hubert_base.pt」というファイルを「MMVCServerSIO」フォルダ直下に入れます!

「MMVCServerSIO」フォルダ直下にある「start_http.bat」を開きます。
(特に初回起動は起動まで時間がかかります。もし起動しなければブラウザで「http://localhost:18888/を開いてください)

TOP画面よりRVCを選択すると、下記のような画面が出てくます!
から二番目の「Model Setting」の欄を見て、右側にある「select」ボタンを押し、RVCで作成した学習モデルファイル(○○.pth)を選択します!
(RVCの「RVC-beta\weights」のファイルダ直下に学習済ファイルがおいてあります)

選択後は必ずupdateのボタンを押してください!
「Model Info:」の部分に選択したモデル名が表示されます!

最後に、「Device Setting」に移動し、「AudioInput」と「AudioOutput」の設定を行います!

「AudioInput」では、音声を入力する実機マイクを選択し、
「AudioOutput」では、変換された音声を出力するデバイス(スピーカーやヘッドフォン)を選択します。

OBSやdiscordなどの音声入力ソフトウェアに音声データを送信するためにはVB-CABLE Virtual Audio Device」などの仮想オーディオデバイスのインストールが必要となりますのでダウンロードしましょう!

設定が完了したら、Server Controlの欄のStartボタンを押します!

Speaker Settingにより音声については微調整してください。

これで、RVC対応のVC Clientのダウンロードから設定、そして音声変換のテストまでの手順は以上です!

「RVC」の学習済みボイスモデルを利用したボイスチェンジのやり方

RVCを自分で作成するのが手間や難しい方向けにすでに学習済のボイスチェンジャーが「BOOTH」などのECサイトで販売されております!無料で配布されているもののあります!

こちらで配布されているものは学習済のpthが配布が配布されています!
学習済みのボイスモデルを使えば、今回紹介したRVCの使い方の①~③の手順について省いて、いきなり手順の④RVC対応のVC Clientをダウンロードして、起動するからスタートすることが可能です!

是非RVCの体験を楽しんでくださいね!