2026 年のローカルで使える OSS 音声クローン AI の音質について

Page content

Qwen3-TTS を ComfyUI で使えるカスタムノードが一部で話題になっていたので、 現在ローカルで動かせる OSS の音声クローン系 AI を一通り調べてみた。

「音声クローン生成 AI」とは何か

今回調べたのはいわゆる「音声クローン生成 AI」で、 音声データをリファレンスとして与えることで、 その声色で任意の発話を生成できる AI のことを指している。

なお、一口に「音声クローン生成 AI」と言っても、 内部的な仕組みによって大きく 2 種類に分類できる。

  • TTS (Text-To-Speech) : テキストを音声に変換する方式。 リファレンス音声の特徴を参照し、そのキャラクターで発話する音声を生成する。 テキストから直接音声を生成するため、細かいニュアンスやアクセントが 意図せずズレてしまうことがある。
  • VC (Voice Conversion) : 既存の音声を別の声色に変換する方式。 元の音声の抑揚や間(ま)を保ったまま声色だけを変換するため、 TTS と比べると自然な発話になりやすい。

今回はどちらの方式も調査対象とし、実際に各 OSS をローカルで動かして 生成した音声を自分の耳で聞き、リファレンスとの類似度を確認した。

調査方法と表の見方

以下の表は、各 OSS を実際にローカルで実行してみた結果をまとめたものだ。

  • 類似度: リファレンス音声との声の類似具合を 1〜10 の主観評価で表わしている。 あくまで個人的な感覚による評価なので、絶対的な指標ではない。
  • 学習時間: 音声クローンを作成するための学習(トレーニング)にかかる時間の目安。 数値は相対的な指標であり、値が大きいほど学習に時間がかかることを示している。
OSS 分類 類似度 学習時間 所感
so-vits-svc-fork VC 2 歌声変換用のモデルだからか、話し声のクローンには向いていない
OpenVoice v2 TTS 3 2 なんとなく似ているかな、という程度
GPT-SoVITS TTS 3 2 1C 推論のみ確認。類似度は OpenVoice v2 と同程度
F5-TTS TTS 4 1 公式モデルは日本語未対応。有志の日本語対応モデルで確認したが…
Fish Speech TTS 5 3 OSS の S-1 モデルのみ確認。雰囲気は似ている
RVC VC 6 400 明瞭な音声はかなり類似度が高いが、子音が多めな音声は苦手
Applio VC 7 400 RVC の fork 版。RVC の弱点を多少改善している
CosyVoice3 VC/TTS 8 1 VC で確認。子音多めな音声の類似度が改善されており全般的に安定
Qwen3-TTS TTS 9 1 音質は最高クラス。TTS ゆえに間やアクセントが不自然になるケースも

結果の考察

総合 1位: Qwen3-TTS

類似度だけを見ると Qwen3-TTS(9)がトップだった。 ただし、TTS なので「声色の再現度」は高い一方、 発話の間やアクセントが必ずしも自然になるとは限らない点には注意が必要だ。

VC 用途であれば CosyVoice3 が実質 1位

Qwen3-TTS は TTS のみに対応しているが、CosyVoice3 は VC と TTS の両方に対応している。 既存の音声の間やテンポを活かしたまま声色だけ変えたい、という VC 用途では CosyVoice3 が実質的な 1位 となる。

CosyVoice3(8)と Applio(7)の差について

この 2 つの差は少し補足が必要だ。 Applio は、ナレーションのような 明瞭ではっきりした音声 の場合には非常に高い類似度を出す。 CosyVoice3 が Applio を上回っているのは、 Applio が苦手とする 子音が多めな音声 を CosyVoice3 がより自然に再現できているためで、 音声全般の平均を取ると CosyVoice3 の方が類似度が高い、という意味だ。

つまり、ナレーションのような明瞭音声だけを対象にするなら、 Applio の方が良い結果になるケースも十分にある。

学習時間の差は極めて大きい

もう一点、重要な違いがある。学習(トレーニング)にかかる時間の差だ。

Qwen3-TTS や CosyVoice3 は学習コストの指標が 1 〜 3 程度と極めて低いのに対し、 RVC や Applio は 400 と、文字通り桁が 2 つ違う。

思い立った時にすぐクローンを作成して試行錯誤したい場合、 この学習コストの差は実運用において決定的な違いとなる。 手軽さを重視するなら、CosyVoice3 などの高速なモデルを選ぶ方が圧倒的に効率が良いだろう。

テスト対象外の OSS について

今回テストした以外にも複数の音声クローン系 OSS が公開されている。 それらの公式ベンチマークやサンプルを一通り確認した限りでは、 上記の上位の順位が覆りそうなものは見当たらなかったため、今回は対象外とした。

気になった未公開モデル: Seed-TTS

調べている途中で、 Seed-TTS というモデルが 2024 年に発表されていることを知った。

公開されているデモ音声を聴く限り、声の再現度は現時点で最も高そうな印象を受けた。 ただしモデル自体は非公開で、手元で試すことができないのが残念なところだ。

AI の世界では「最初は非公開、後日 OSS として公開」というパターンも珍しくないので、 今後のリリースに期待したい。

まとめ

2026 年時点でローカルで動かしてみた総括として、

  • 音質・類似度重視なら: Qwen3-TTS
  • VC も必要で、かつ処理速度も重視するなら: CosyVoice3
  • ナレーションのような明瞭音声に特化するなら: Applio

という使い分けが現実的な選択肢になりそうだ。

数年前と比べてローカルで動く音声クローン AI の品質は大幅に向上していた。 まだ全ての用途で完璧とは言えないが、 目的を絞れば十分に実用的な品質が出るレベルには来ていると感じている。

以上。