こんにちは!第1R&Dセンターの黒須です。今回は音響特徴量についてご紹介していきます!
音響特徴量って何?
話し相手が男性か女性か声から識別する問題を考えてみましょう。
下の音声を聞いてみてください。相手の性別を識別できるでしょうか?
人間であれば相手の声を耳で聞けばなんとなく識別することはできるのではないでしょうか?
(最初の音声が男性で次の音声が女性です。)
ではどうしてそのように識別しているか説明できますか?
すぐに思い浮かぶのは声の大きさ(音圧)や声の高さ(周波数)ではないでしょうか?
一般的に男性の方が声が大きく、低い傾向にあるのに対し、女性は声が小さく、高い傾向にあると言えます。
しかしコンピュータにとって、高い音、低い音と言っても扱うことが出来ません。
コンピュータで扱うには数値である必要があります。このように音の特徴を表現した数値を音響特徴量といいます。
声の大きさと声の高さ以外にも様々な音響特徴量が提案されています。
先ほどの音声から音響特徴量を抽出してみます。
音響特徴量を抽出してみた
まず男性の声と女性の声の波形を確認してみましょう。それぞれの長さは1秒です。
男性の声
女性の声
男性の声と女性の声で波形の形が大きく異なることがわかります。
それぞれの波形から音響特徴量を抽出してみます。
波形からどれくらいの時間窓幅で音響特徴量を抽出するのか?
音響特徴量を抽出する時間窓幅について
下図の音響特徴量を抽出するための青い矢印が示す個所を時間窓幅といいます。
例えば0.25秒ごとの時間窓幅で抽出することができますね。
1秒ごとに抽出することもできますね。
今回は0.5秒ごとの時間窓幅で音響特徴量を抽出してみました。
音響特徴量確認結果
これから抽出した音響特徴量を見ていきます。
今回はZCR(Zero-crossing-rate)を抽出しました。
ZCRって何?
ZCRとは波形の中で正の値と負の値がどれくらい切り替わっているか、つまり下図のように振幅が0を通過する頻度を表現する音響特徴量です。音声認識や音楽情報検索でよく使われています。
ZCRを抽出した結果は下の表の通りです。
男性の声
音響特徴量 | ZCR[-] |
---|---|
音響特徴量① | 0.0232 |
音響特徴量② | 0.0120 |
女性の声
音響特徴量 | ZCR[-] |
---|---|
音響特徴量① | 0.0279 |
音響特徴量② | 0.0761 |
得られた結果をプロットしてみると下図になります。
男性の声から抽出したZCRと女性の声から抽出したZCRが一部近い距離にあることがわかります。
これでは識別が難しそうなので、ブログ第1回で説明した基本周波数(f0)も抽出してみましょう。
基本周波数を追加した結果は下の表のとおりです。
男性の声
音響特徴量 | ZCR[-] | 基本周波数[Hz] |
---|---|---|
音響特徴量① | 0.0232 | 165 |
音響特徴量② | 0.0120 | 107 |
女性の声
音響特徴量 | ZCR[-] | 基本周波数[Hz] |
---|---|---|
音響特徴量① | 0.0279 | 349 |
音響特徴量② | 0.0761 | 260 |
得られた結果を特徴量空間にプロットしてみると下図になります。
ZCRだけではうまく分かれなかった男性の声と女声の声が特徴量空間で分かれていますね。
まとめ
今回は男性の声と女性の声を識別する問題をもとに音響特徴量について説明しました。
また、ひとつの特徴量では解決できない問題でも複数の特徴量を組み合わせることによって解決できることを説明しました。
今回の記事をもって音声解析の雰囲気が少しでも伝わりましたら幸いです。
今後のブログ記事もお楽しみに!