vision_and_language_tutorial

深層学習の発展により，視覚情報と言語情報を「つなぐ」技術，Vision-and-Languageが近年急速に発展してきました。本チュートリアルでは，こうした技術をPyTorchで実装することを通して習得することを目指します。全てのコードはご自由に研究に利用ください。なお，資料は全て日本語の予定です。