2022 Supaero Data Science MS Workshop

Table Of Content.

1. Assignment
1.1. Principle and pedagogical goal
1.2. Orders and evaluation criteria
1.3. Evaluation
1.4. Recommandations
2. My subject

1. Assignment [toc]

1.1. Principle and pedagogical goal [toc]

Le principe est celui de la co-évaluation et le but est que le temps que vous consacrez à l'évaluation soit un temps où vous continuez à découvrir des choses nouvelles et à approfondir votre maîtrise en ML.
Le fichier en pièce jointe vous indique, pour chaque étudiant.e, un sujet à traiter. Le but de l'exercice est de rédiger un notebook présentant le sujet, comme si vous le présentiez à vos pairs (étudiant SDD, collègue de travail, client compétent sur le sujet, etc.). On n'apprend jamais aussi bien que quand on explique, c'est donc l'occasion de bien maîtriser un sujet de plus et de monter en compétence collectivement en portant un regard critique sur nos productions respectives.

1.2. Orders and evaluation criteria [toc]

Votre notebook doit être didactique, agréable à lire, avoir un bon équilibre entre aspects formels et pratiques. Il doit être jouable en environ une heure. Selon les sujets, vous aurez plus ou moins à faire d'efforts pour illustrer le sujet en pratique ou à rendre la théorie accessible. La langue de rédaction est le français ou l'anglais, selon votre préférence (et la qualité de la langue contribue à des notebooks agréables à lire).
Votre notebook doit être rigoureux : ce n'est pas de la vulgarisation scientifique, vous vous devez d'être précis et rigoureux. Ca ne vous oblige pas à rédiger des preuves mathématiques mais ça nécessite de formuler et de discuter des idées et résultats de façon précise et argumentée.
Votre notebook doit également être utile et réutilisable, comporter des éléments (dessins, code, texte) qui permettront au lecteur d'être rapidement fonctionnel sur le sujet.
Votre notebook doit être documenté : les aspects non-abordés ou les extensions peuvent pointer vers des ressources en ligne ou des éléments bibliographiques, les idées avancées doivent être soutenues par des références. Vous pouvez joindre des annexes.
Important : votre notebook doit être anonyme (le non respect de cette consigne est éliminatoire).
Les notebooks devront être soumis sur ce site https://openreview.net/group?id=supaerodatascience.github.io/SupaeroSDD/2022/Workshop avant la date limite de soumission (18 janvier, 01:00 GMT, aucune extension deadline ne sera accordée et le non-rendu est éliminatoire). C'est sur ce site que se déroulera ensuite le processus de co-évaluation (plus d'infos sur cela bientôt).

1.3. Evaluation [toc]

Le 18/01, nous avons une séance où nous jouerons les notebooks. Le but sera d'évaluer chaque notebook, en binôme, pendant la première heure, d'avoir le temps de rédiger une évaluation (que vous pourrez éventuellement corriger plus tard), de prendre une pause, puis de recommencer avec un second notebook. Les binômes seront différents pour le premier et le second notebook. Jouer et noter les notebooks en binôme est important car cela vous permet d'en discuter au fil du notebook. Les évaluations seront constituées de notes numériques et d'éléments textuels où le binôme évaluateur devra résumer sa compréhension du notebook et argumenter sur les points forts et les points faibles.
A l'issue de cette séance, chaque notebook aura donc reçu une évaluation (descernée par un binôme) et chaque binôme aura évalué (donc découvert) deux notebooks (donc deux nouveaux sujets).
Je vous demanderai ensuite de répéter cet exercice à la maison pour deux notebooks supplémentaires. Les premières évaluations resteront confidentielles à ce stade. Les évaluations correspondantes seront à rendre pour le 23/01. Chaque notebook aura donc deux évaluations et, au total, vous aurez chacun.e découvert 5 sujets (en comptant celui que vous aurez rédigé).
Par ailleurs, chaque notebook recevra (au moins) une évaluation d'un correcteur externe.
A la fin, je compilerai toutes les évaluations et notes pour en tirer une évaluation unifiée.
Dans l'hypothèse où nous ne pourrons pas nous réunir en présentiel, la séance du 18/01 demeurera dédiée aux notebooks mais je vous demanderai de les évaluer depuis chez vous, toujours en binôme, en utilisant la visio si nécessaire.

1.4. Recommandations [toc]

La rédaction d'un notebook prend du temps, mais c'est aussi une des meilleures manières d'apprendre en profondeur. Voici un petit timing type que je vous recommande, lissé sur 6 fois 2h de travail.
Séance 1 : recherche de sources et lecture efficace. Chaque notebook dispose d'une indication bibliographique, à vous de la lire efficacement et de chercher des sources complémentaires pour mieux comprendre ou apporter un éclairage différent.
Séance 2 : lecture approfondie et expérience pratique du sujet (code, exploration personnelle de la théorie). Cette séance demandera peut-être à être doublée.
Séance 3 : décision sur la trame du notebook et ébauche de rédaction.
Séance 4 : rédaction.
Séance 5 : rédaction.
Séance 6 : relecture et corrections.

2. My subject [toc]

Deep Visual-Semantic Alignments for Generating Image Descriptions:

2.1. Abstract

We present a model that generates natural language de- scriptions of images and their regions. Our approach lever- ages datasets of images and their sentence descriptions to learn about the inter-modal correspondences between lan- guage and visual data. Our alignment model is based on a novel combination of Convolutional Neural Networks over image regions, bidirectional Recurrent Neural Networks over sentences, and a structured objective that aligns the two modalities through a multimodal embedding. We then describe a Multimodal Recurrent Neural Network architec- ture that uses the inferred alignments to learn to generate novel descriptions of image regions. We demonstrate that our alignment model produces state of the art results in re- trieval experiments on Flickr8K, Flickr30K and MSCOCO datasets. We then show that the generated descriptions sig- nificantly outperform retrieval baselines on both full images and on a new dataset of region-level annotations.

2.2. Introduction

The contributions:
• We develop a deep neural network model that in- fers the latent alignment between segments of sen- tences and the region of the image that they describe. Our model associates the two modalities through a common, multimodal embedding space and a struc- tured objective. We validate the effectiveness of this approach on image-sentence retrieval experiments in which we surpass the state-of-the-art. • We introduce a multimodal Recurrent Neural Network architecture that takes an input image and generates its description in text. Our experiments show that the generated sentences significantly outperform retrieval- based baselines, and produce sensible qualitative pre- dictions. We then train the model on the inferred cor- respondences and evaluate its performance on a new dataset of region-level annotations.

2.3. Related Work

Dense image annotations.
Our work shares the high-level goal of densely annotating the contents of images with many works before us.
[2] [48] the multimodal correspondence between words and images to annotate segments of images.
[34] [18] [15] [33] the problem of holistic scene understanding in which the scene type, objects and their spatial support in the image is inferred.
However, the focus of these works is on correctly labeling scenes, objects and regions with a fixed set of categories, while our focus is on richer and higher-level descriptions of regions.

Generating descriptions.
[21] [49] [13] [43] [23] task as a retrieval problem where the most compatible annotation in the training set is transferred to a test image
[30] [35] [31] task as a retrieval problem where training annotations are broken up and stitched together

[19] [29] [13] [55] [56] [9] [1] generate image captions based on fixed templates that are filled based on the content of the image
[42] [57] generate image captions based on fixed templates that are filled based on generative grammars,
variety of possible outputs is limited.

[26] log-bilinear model that can generate full sentence descriptions for images, but their model uses a fixed window context while our Recurrent Neural Network (RNN) model conditions the probability distribution over the next word in a sentence on all previously generated words.
[38] [54] [8] [25] [12] [5] other using RNNs to generate image descriptions.

Ours simpler but suffers in performance.

Grounding natural language in images.
[27] [39] [60] [36] grounding text in the visual domain.
[16] associate words and images through a semantic embedding.
[24] decompose images and sentences into fragments and infer their inter-modal alignment using a ranking objective. Grounding dependency tree relations,
our model aligns contiguous segments of sentences which are more meaningful, interpretable, and not fixed in length.

Neural networks in visual and language domains.
representing images and words in higher-level representations.
[32] [28] Convolutional Neural Networks (CNNs) have recently emerged as a powerful class of models for image classification and object detection [45] .
[41] [22] [3] pretrained word vectors to obtain low-dimensional representations of words.
[40] [50] language modeling, but we additionally condition these models on images.

amtoine / imgDesc