Deep Q-Network (DQN) の解説 - 学生エンジニア小話

f:id:takuseno:20170722131725j:plain

今年の4月から研究室に所属して深層強化学習についての勉強と研究を始めました。

研究を始めてから3.5ヶ月で深層強化学習のサーベイ発表と論文の執筆をさせてもらい、研究というものを以前よりずっと理解できるようになって来ました。

今回の記事では自分のこれまでのDQNに関する対外的な活動を紹介させてもらいます。

DQN速習会@Wantedly

以前から研究の合間を縫ってWantedlyでインターンをさせてもらっています。研究している強化学習をプロダクトに活かせないか考えていたので、まずは社内で定期的に行われている速習会でDQNについて発表させてもらいました。

全脳アーキテクチャ若手の会の活動に参加しており、この会で定期的に行われているニコ生発表会で深層強化学習のサーベイについて発表させてもらいました。

研究室で他の人もDQNを評価できるようにchainerrlをベースにした実装を用意しました。

ただ、研究の要求によって柔軟な実装の変更が求められるため、chainerrlを利用しているところを全て取り除いて実装し直すことを考えています。

あとは個人的にSONYが好きなのでChainerからNNablaに乗り換えることも計画しています。

現在は脳の計算モデルを深層強化学習に応用する研究を行っています。今後論文を発表したらこのブログで紹介できたらと思います。