リンク先でサンプルが試聴できます。
(V)・∀・(V)かにぱん。のCoeFont

5月に「CoeFontFes2023」というイベントが開催され、AI音声生成が無料だったので3000文録ってみて、
そこから1ヶ月以上かけてようやくAI音声が生成されたので、ここまでに得た知見をまとめますわ。

(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)・∀・(V)


フェスでは、いくつかの賞が設定されており、私は「Readers Store賞」というのを取れたら
オーディオブックで使われるし良いかもなぁと思って、朗読特化用の音声として音素の収録に取り掛かった。(5/13)

しかし、録り始めてみると色々疑問が多く、先に運営に問い合わせをしてから本格的に収録が始まった感じなので
実際は5/17から5/30の期間に3000文収録した。


まずCoeFontで、「自分のAI音声を生成」するためには、最低でも100文、生成の元となる例文を読まなければならない。
最大で3000文用意されている。
そして、CoeFont生成用例文読み上げ音声は、必ずブラウザで収録しなければならない。
例えば、手元でDAWソフトを使って収録した音声をアップロードするとAI化してもらえる、という仕組みはない。

実際にブラウザで録り始めてみると、ノイズが乗ったり(仕様)、
こちらでは何も変更していないのにボリュームが大きくなったり小さくなったり(仕様)ということがあり
これってこのままで録り進めていって、最終的に完成するAI音声のクオリティはどうなるの!? と思ったわけだ。
結論から言うと、「どうしようもない、そのまま録り進めるしかない」し、
1文録るたびに再生確認した際に音声に乗っているノイズや、ボリュームのばらつきはAI生成上はあまり問題がないようだった。
(かと言って、問題がないかどうかが収録中には判断のしようがないのは、どうかと思うけど)

また、録っていくと10文に1回くらい誤字脱字や表記ゆれがあるのもものすごく気になるし、
本文と読み仮名とアクセント指示それぞれが、異なる読みになっていたりすると
結局のところどの読み方をすべき文章なんだ? と悩まされたりした。

今回私は、「子供でも聞き取れるようなゆっくりめの読み聞かせ音声」を意識して
速度を落として読んだのだけど、そうすると「読点以外のところでも息継ぎをしないと苦しい」
という長めの文章もあった。
こういうときに、読点以外で息継ぎを入れたらどうなるのかわからなかったが、
生成されたAI音声でサンプル文章を読ませてみてわかったことは、
「例文に読点がないところで息継ぎをすると、生成されたAI音声も、(文節の区切り目ではある)読点がないところで
息継ぎをする」
ということだ。
だから、「読点のないところでブレスやブランクを入れないAI音声」を作りたかったら
「読点以外のところでは区切らずに読む」必要がある。
(が、読点以外のところで一切ブレスしないで読むのには長い文章があるので例文の作り方を考え直して欲しい)
これについて問い合わせてみたところ、「読点のないところで息継ぎをしても問題はない」というような回答だったけれど
AI化したときに「読み上げさせる文章に読点がないのに息継ぎをするAIになる」のであれば
それは「問題なくはない」と思ったw
もうそれで生成されちゃったから、読点のあるところでは息継ぎをするが、読点のないところでは息継ぎをしないAIにしたかったら
私は再度3000文読み上げないといけない。地獄。


そんなわけで、今回出来上がったAI音声は「、」がないのにぶブツブツ区切りながら読み上げるAIになってしまった。
この点が自分では大変納得がいっていない出来なので、私が納得いっていないものを
他の人が使うこともないだろうと思う。大変残念だ。
記事トップに貼ったリンク先から「小説」のサンプルを再生すると、2文目の文頭にある「だから」の「だ」の音がなかったりする。
どうしてこうなっているのか私にはわからない。
わからないが、管理画面で適当に「だから」を含む音声を再生させてみた場合にも、やはり
「…から」というような発声になっている。これでは通常使用に耐えないと思う。
同じ「小説」サンプルでは、「私(わたくし)」の頭の「わ」も消えかかっている。
逆に文章次第では、なめらかに綺麗に読み上げてくれる場合もある。とにかくムラがある。
ムラの原因はわからないし、修正のしようもない。

これは比較的、問題のない文章の例。


私は、例文を1文1文すべて手抜きせず丁寧に読み上げて、半月これにかかりっきりだったのだけど
出来上がったAIを自分で手直しする手段はない……。
「だから」の「だ」が消える現象についても、毎回消えるわけではなくて、
「だから、〜〜。」という文章を作ると「だ」が消えるということがわかっているだけで、
それを今からどうこうすることはできないし、サンプル収録中の何がいけなくてこうなったのかもわからない。
なのでこれについては「こうすると回避できる」という知見が得られていないし、
「こう心がければいいかもしれない」という推測すら立っていない。
強いて言えば、私のようにゆっくり読むのにはAI生成アルゴリズム側が向いていないのかもしれないから、
ある程度の速度でテンポよくどんどん読んだほうがいいかもしれない。
これも勿論、確証はない。

ただ、これからCoeFontでAI音声を作るという人は、
「読点がないところで息継ぎをすると、出来上がるAIも読点がないところでしょっちゅう息継ぎするようになるよ」
ということだけ覚えておいて欲しい。

あと、推奨ブラウザであるChromeで収録をすると、録った後の再生確認画面での音声が
ノイズ混じりだったり、ボリュームがものすごく大きかったり小さかったりムラが出たりすると思う。
ノイズの方はChromeでやる以上、現状避けられないノイズであることと、
再生確認時ノイズが入っていても、サーバーに集積されている音声の方にはノイズは入っていないので
AIにはノイズは乗らないということを付記しておく。
ボリュームがバラつく現象に関しては、録音開始ボタンを押してから最初にマイクに感知された音の音量に合わせて
オートマキシマイズのような効果が発動しているっぽいので、
録音開始ボタン押下→ブレスをする→本文を読み始める
とかやった場合に、ブレス音がブラウザマイクに感知されているとこのブレス音が「標準の音量」ということになってしまい
そのあとの本文読み上げが爆音になる。
だから、ブレスをするのは良いけど、その音がマイクに乗らないように注意し、本文読み上げの頭の1文字より前に
小さなノイズなどが入らないようにするしかない。
また、再生確認時にある程度ボリュームにムラがあっても、音割れするほどになっていなければ
AI生成には問題はなさそうである。
……でも、「これ大丈夫なのかな?」って心配にはなるよね……。
しかも大丈夫かどうかは全部録り終わって1ヶ月以上待ってみなきゃわからないのもつらい。


というわけで、今回は、そもそも自分がイメージしたものに出来なかったので受賞は諦めている。
にっし〜☆さんの音声がPRO認定をもらっていたので、にっし〜☆さんが私の代わりに
何か受賞してくれるかもしれない!!

もちろん、私の今回のAI音声を使用したいという場合には規約の範囲で自由にしてもらって構わないけれど
前述のように文頭の「わ」とか「だ」とかが、なぜか消えてしまうケースがあるので
品質の保証ができない……。(何度も言うが私はちゃんと文章を読み上げたんだよ!!?)

悲しいけれど、次のプロジェクトに打ち込むことにする。