imyutaro / convlstm

for my b4 research

README

スライド

slide.pdf, slide.pptx 研究発表のためのスライド

前処理

mkMFCC.py audioをMFCCに変換する
mkFT.py audioを短時間フーリエ変換する
mp3towav.py mp3ファイルをwavファイルに変換する
loadWav.py wavファイルを読み込みcsvファイルに変換・保存する wavファイルを読み込みモデルの入力に変換する
loadCsv.py csvファイルを読み込みモデルの入力に変換する
readFav.py 楽曲に割り当てた好きな部分をラベルとして教師信号を作成する

モデル

my2dCNN+LSTM.py モデル
prediction2d+LSTM.py 学習したモデルを使って予測結果を出力する

研究概要

深層学習を利用した音響特徴の学習．深層学習を利用することでユーザの好みの音響特徴を学習する．入力は楽曲をaudioをメル周波数ケプストラム係数に変換したもの．教師信号は楽曲の楽曲内のある8秒間に割り当てられた好きかそうでないかの0, 1の値を教師信号としている．

学習

audio形式の楽曲をMFCCに変換し入力データを作成
変換した楽曲を8秒ごとに短く切る
CNNで時間領域のみを畳み込み楽曲の特徴量を抽出
CNNによって抽出した特徴量をLSTMに入力し、LSTMによって好みの程度を出力
出力値と教師データを比較してCNN・LSTMの重みを学習これを繰り返すことで学習する．

予測

audio形式の楽曲をMFCCに変換し入力データを作成
8秒の間隔の窓を1秒ずつずらし変換した楽曲を短く切る
CNNに②を入力
CNNの出力値をLSTMに入力
入力された8秒ごとの楽曲にどれくらい好きなのかを出力
8秒ごとの出力を足し合わせ，楽曲の時間で割った値を比較し一番値の高い楽曲を推薦

About

for my b4 research

Languages

Language:Jupyter Notebook 62.8%Language:Python 37.2%