PauseNormEffect

朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果を検証するプロジェクトです。

使用技術

Python

Pytorch

Hydra

Optuna

Librosa

研究人数

2人

概要

このプロジェクトは以下の論文の実験コードです:
竹下隼司・松崎拓也, 2024, 朗読音声合成におけるポーズ長分布の多様性を吸収するための標準化の効果, 第38回人工知能学会全国大会論文集。

背景

音声合成では、ポーズが自然な朗読を再現するのが課題でした。この研究では、ポーズ位置と長さを予測するモデルを開発し、ポーズの多様性を吸収するための標準化の効果を検証しました。今後、修士研究として音声合成モデルの開発・組み込み及び精度向上に取り組みます。

工夫した点

朗読者や作品によるポーズ分布の違い、文中・文間での違いを考慮し、BERTとLSTMモデルを組み合わせて特徴を反映しました。また、精度を細かく検証しました。

View on GitHub