NEWS
お知らせ/ブログ
2021年05月19日 技術ブログ

Audio Visualize Appの紹介

当社 FAST-D ホームページ に、音の可視化アプリ「Audio Visualize App」をリリースしました。こちらは手軽に音を可視化できるツールになっています。今記事では、「Audio Visualize App」の使い方や可視化された音について解説していきたいと思います。

使い方

Audio Visualize App」へ遷移します。

お手元のwavファイルを「Drag and drop or Click」のメニューにて選択します。
以下は手元にあるファイルをドラッグ&ドロップした様子です。

アップロードできるファイル形式は、wav形式のファイルのみとなります。
また、最大20MBまでのファイルをアップロードすることが可能です。ファイルをアップロードした後、しばらく待つと、以下のように音が可視化された状態で、表示されます。

表示内容の解説

sound waveform

この図は,音データの波形です,縦軸が振幅,横軸が時間(秒数)となっています.全体的な音量の大小や,音データの中にピークが含まれているかどうか等を視覚的に確認することが出来ます.

melspectrogram

続いて,「sound waveform」の下にある図は,メルスペクトログラムと呼ばれる画像です.こちらは,縦軸が周波数,横軸が時間となっており,どの時間帯にどの周波数帯の成分が大きいかを視覚的に理解することが出来ます.

メルスペクトログラムの基となる「メルスペクトル」と,次に紹介する「mfcc」については,過去の記事で紹介しているので,ぜひご覧ください.

PCA mfcc

ページの右にある表示される図は,音響特徴量を可視化した図です.音響特徴量とは,音データの様々な性質を表した特徴量であり,どのような特徴を示しているかによって,それぞれ名前がついています.本アプリでは,mfcc(メル周波数ケプストラム係数)という,音響特徴量を算出しています.mfccは人間の音声知覚の特徴を加味した音響特徴量となっており,音声認識等によく用いられます.

算出した音響特徴量はそれだけでは単なる数字ですが,音データ全体,また特徴量同士を一括して図示することで,それらの関係性や特徴を視覚的に確認することが出来ます.その例として,本アプリではフレームごとに算出した12次元のmfccをPCAと呼ばれる手法で3次元に圧縮し,図示しています.

実際の分析ではここからさらに,メタデータ等に基づいて色付けしたり,クラスタリングを行うことで,音データの特徴を分析していきます.

まとめ

簡単にですが,音の可視化アプリ「Audio Visualize App」について紹介しました.音の分析とはどのようなことを行うのか,イメージの手助けになれば幸いです.

カテゴリー