深層学習の発展により,視覚情報と言語情報を「つなぐ」技術,Vision-and-Languageが近年急速に発展してきました。本チュートリアルでは,こうした技術をPyTorchで実装することを通して習得することを目指します。全てのコードはご自由に研究に利用ください。なお,資料は全て日本語の予定です。
- Chapter 0. Vision and Languageとは?
- Chapter 1. 共有埋め込み空間の獲得 (Joint embedding space)
- Chapter 2. 画像/映像からのキャプション生成 (Image/Video captioning)
- Chapter 3. 画像を用いた質問応答 (Visual question answering)
- Chapter 4. キャプションからの画像生成 (Text-to-image generation)
- Chapter 5. 事前学習モデル (Vision-and-language pretraining)
- Chapter 6. 言語によるエージェントの移動 (Vision-and-language navigation)
MIT