悪路、ぬかるみ惑い

なんか無節操なこと備忘録兼ねて

7.10おかしな話

連日暑くてイヤだなと思う。今日も蒸し暑くて湿っていて空気が重たく熱い・・・。なんというか何か活動したいと思うならせめて最高気温が27℃・・・くらいまでならば・・・と思いつつどうだろう・・・。それでも湿度が高ければ機械熱がヤバいのだが・・・。

 

脈々ないが近頃めざましい発展を遂げている生成AI技術の話を見ているとまるで錬金術のようだと思ってしまった。画像合成はだいぶ精度の高くなってきているのは然り映像生成などというのもあって、これは今はまだ発展途中にあるけど1~2年もしたら本物(現実)と区別がつかなくくらいになるのではないか、ということらしい。凄いというか怖いというか・・・。

私が個人的にAI生成系で興味があるのは音声生成系で、これは例えば好きな歌手などの声を学習させる事によって、別の歌を歌わせたり言葉を喋らせる事も出来るというやつ。(これはかなり黒に近いグレー感があって色々な方面に冒涜というか問題があるけれど)これ、アニメとかゲームのボイスを学習させるとそれをAIが喋り方や声(音)自動的に分析して生成するので、そのキャラクターに例えば歌わせたい歌などを用意すると歌わせちゃったり出来る・・・?という不純な動機があるのだが、でもこれって所謂人力ボーカロイド*1や音MADなどのちょっと自動化バージョンみたいなもので、だけど人力チョイス(自分)でやるのではなくAIが分析した情報を基にするって事だから人力でやるよりかなり禁断の実験に手を染める感が半端ないなとか・・・。人造人間ホムンクルスを造る禁忌のような・・・。

ただ今のところ例えばカラオケさせたい歌があったとしても、まず元の歌の歌詞を覚えさせる時に歌い方はカラオケのオリジナルの人の歌い方をなぞるっぽく、そういう意味ではまだAIが音声を学習したその人になりきるというよりは音声を変換するだけ・・・みたいな感じがするのだけども・・・。(それに不安定な音程なども出てくる)

でも例えばこの歌を唄って頂きたいなと思って、どういう風に歌うのかなとかこの歌詞の部分はどういう感じのイントネーションなんだろうとかアクセントにするだろうか・・・という部分は実際の人間の脳内にしかないので、そこの演じ方というか心の動き(というのかな)も含めて気になるな・・・とか思うと、そこは人の持つ心の部分だというのでそこと比べるとAI音声は本当に音というかサンプリング音源のようなものの一つ・・・でしかないのだろうなとか思う、現時点では。これから先に精度が高くなっていって完全に本人のような・・・って事はない・・・とは思いたいけれどかなり近く遜色なくなる事はあるのかもしれないな・・・。

このHowというかどういうような感じで?どんな風に?っていうその人の心の部分が気になっているならそれが大事だと以前この話をした時きょうだいに言われた。

音だけは簡単に合成出来るかもしれないけど例えばドラマ的なもので実際に掛け合う時に、その人たちがそのセリフを受けてどういう風に返すのだろうどういうプランで言うのだろうという部分が気になっているからこれは何でしょうね・・・何かその人たちがどういう反応をされるのかというのが気になる・・・というか・・・これもやっぱりちょっと不純な動機ですね・・・。

今日はちょっと変な話でした。

*1:限りなく黒に近いグレーだけど音声ボイスデータなどの一音ずつ自力で採集してDTM等のボカロツールなどで調整させて歌わせたりするやつ