音声合成への応用

ここでは, [Miyuki 2017]で述べた二重分節解析器を用いた音声合成実験の例をご紹介します.

以下の音声信号は, 事前にラベル付けされたデータを用いることなく, 二重分節解析器を用いて生成されたものです.

全体の学習プロセスが教師なし学習となっています.

実験 1: 日本語母音音声コーパスへの適用

5つの日本語母音 {a, i, u, e, o}から構成される(人工的な)単語{aioi, aue, ao, ie, uo}からなる日本語母音音声コーパスを用いて得られた音声データを示します.

    1. 二重分節解析器によって得られた潜在単語から生成された音声信号データ [URL]

      • [Miyuki 2017]に記載した実験データ(TABLE 1)に関連しています.

実験 2: TIDIGITSコーパスへの適用

    1. TIDIGITSコーパスに含まれる音声信号から推定された潜在音素列より生成された音声信号 [URL]

      • 各ファイル名は含まれる数字を示しています. サフィックス"a"および"b"は異なる音声であることを示しています.

    2. 1から9および0がひと続きとなった音声データです. 0に対しては"zero"と"o"という2種類の発音があります. [URL]

    3. Bigram latent word-based random walk. [URL]

      • 無音区間が存在するため, bigram言語モデルでは正確な推定ができず, 満足できる結果が得られていません.

      • 大規模なデータに対する学習とより自然な音声合成が今後の課題です.

Citation information

[Miyuki 2017] Yuusuke Miyuki, Yoshinobu Hagiwara and Tadahiro Taniguchi,

Unsupervised Learning for Spoken Word Production based on Simultaneous Word and Phoneme Discovery without Transcribed Data,

IEEE ICDL-Epirob 2017 (submitted)