金沢工業大学情報工学科OBの鈴木大志さんが学部4年次に取り組んだ研究が情報処理学会論文誌に採録。
金沢工業大学情報工学科OBの鈴木大志さんが学部4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、金沢工業大学における学部4年次の学生の研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは金沢工業大学の併設校である国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156603-O2-S1r6xD29】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156603-O1-Mj1MIS46】
深層学習モデルをスペクトル包絡の変換にのみ適用することで GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
ドジャース山本由伸がブルペン投球 パドレス・ダルビッシュも左斜め後ろから見守る
大谷翔平、山本由伸と元巨人クルーズが記念撮影、メジャー時代はドジャースでもプレー
【清水】8年ぶり7連勝!勝ち点8差で首位快走!
【浦和】チアゴ2ゴールで女子V祝う「おめでとうと伝えたい」
体重差がよくわかる ソファに座った2匹の猫に「これが重力」
町野修斗、所属のキールがクラブ史上初の1部昇格 今季30試合で5得点4アシスト
「全国のキャバ嬢がロックオン」億プレーヤークロちゃん、番組内での“失言”を反省
【ACL】横浜植中朝日が値千金の同点ゴールに吠えた!「本当に決められたのはよかった」
【Amazon×dポイント】誰でも貯まる・使える、二重取りも可能! 連携方法と注意点
【磐田】今季5度目完封負けにホームでブーイング
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
73歳神田正輝「旅サラダ」生放送で“12歳下俳優”から呼び捨てされ激論
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
55歳森口博子「だっちゅーの」鮮やかビキニ姿披露にX歓喜「破壊力ハンパない」「スゴすぎ」
曙と熱愛した相原勇(52)の現在が衝撃的すぎると話題に
「ふてほど」25歳女優“薔薇ブラ”でポロリ寸前?過激衣装に「見えちゃう」「刺激強すぎ」
大物炎上系ユーチューバー”衝撃の預金残高”公開「すげぇ」「エグい」驚きの声
水原一平容疑者 最高刑「懲役33年」トレンド入り 「人生詰んだ」「稀代の詐欺師」の声
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
深夜のファミリーマート徘徊、必ず入っている「フエラムネのミニチュアおもちゃ付」を探し求めた結果……
完全にダマされた! 『ラヴィット!』あのちゃん“事故レベル”大暴走は『水ダウ』遠隔操作のしわざだった ネットも納得
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
ガーシー、またも綾野剛の暴露写真でネット歓喜「この写真見て笑っちゃう」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
小澤征悦と再婚した桑子真帆アナ(34)黒い過去が流出、衝撃の過去にネット騒然
ガーシー、佐野ひなこの暴露を示唆でネット騒然「ファンだったのに」
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
ドジャース山本由伸がブルペン投球 パドレス・ダルビッシュも左斜め後ろから見守る
大谷翔平、山本由伸と元巨人クルーズが記念撮影、メジャー時代はドジャースでもプレー
【清水】8年ぶり7連勝!勝ち点8差で首位快走!
【浦和】チアゴ2ゴールで女子V祝う「おめでとうと伝えたい」
体重差がよくわかる ソファに座った2匹の猫に「これが重力」
町野修斗、所属のキールがクラブ史上初の1部昇格 今季30試合で5得点4アシスト
「全国のキャバ嬢がロックオン」億プレーヤークロちゃん、番組内での“失言”を反省
【ACL】横浜植中朝日が値千金の同点ゴールに吠えた!「本当に決められたのはよかった」
【磐田】今季5度目完封負けにホームでブーイング
【Amazon×dポイント】誰でも貯まる・使える、二重取りも可能! 連携方法と注意点