Semaine 3

Consignes

Avant mardi 6 à minuit:

  • Relire les diapos du cours 3

  • Répondre au quizz sur eCampus (5 points).

  • Rendu d’étape du TP (voir ci-dessous)

TP: votre première analyse de données

Objectif

La semaine dernière, vous vous êtes familiarisé avec le schéma VI-ME-BA-BAR – [VI]sualisation, [MÉ]trique, Référence ([BA]se), [BAR]res d’erreur – en reproduisant une analyse de données préexistante dont l’objet était de classifier pommes et bananes à partir de photographies. Maintenant, c’est à vous de jouer! Vous allez effectuer en binôme votre propre analyse de données.

Vous commencerez par travailler sur l’un des jeux de données fournis, pour classifier poules et canards, mélanomes cancéreux et bénins, émoticons tristes et gais, paumes et dos de la main, chiffres manuscrits zéro et un.

Mais il sera nettement plus intéressant (et amusant!) de travailler sur vos propres images et cela sera récompensé par un bonus si vous le faites. Choisissez vingt images qui se répartissent en deux classes; vous pouvez prendre des photos vous même, ou télécharger des images sur internet (après en avoir vérifié la licence!). Votre défi sera de retrouver ces deux classes automatiquement uniquement à partir du contenu des images, comme pour nos pommes et bananes. Vous veillerez à ce que votre défi ne soit ni trop simple, ni trop compliqué, et confirmerez sa pertinence avec votre enseignant ou enseignante. Vous aurez un bonus pour tout le travail de préparation des données.

Ce travail sera l’objet du premier mini-projet (ou TP long) qui va se dérouler sur les trois semaines qui viennent:

Semaine 3: 29 mars-2 avril (dépôt 6 avril minuit)

  • Choix du binôme (voir annonce sur e-Campus et document partagé)

  • En TP: choisir l’un des jeux de données fournis. Faire tourner l’analyse de données en entier dessus avec des attributs (features) simples et un premier classifieur, afin d’obtenir une performance de référence (baseline) pour ce jeu de données.

  • Chez vous: choix et préparation de votre jeu d’image définitif; refaire tourner l’analyse de donnée en entier pour obtenir une performance de référence.

Semaine 4: 5-9 avril (dépôt 13 avril minuit)

  • Extraction d’attributs plus fins; évaluation de la performance.

Semaine 5: 12-16 avril (dépôt 20 avril minuit)

  • Implantation d’un classifieur; évaluation de la performance.

Vous déposerez chaque semaine votre travail dans son état d’avancement avant mardi minuit. Votre version définitive (mardi 20 avril) sera évaluée par vos enseignants (15 points).

Consignes

Vous documenterez au fur et à mesure votre analyse de données dans le document exécutable analyse de données, en suivant la trame fournie. Gardez notamment une trace des expérimentations intermédiaires («nous avons essayé telle combinaison de features; voici les résultats et la performance obtenue»). Ce document devra rester à tout moment synthétique, suivant notamment les bonnes pratiques expliquées lors du TP 2.

  • Vous mettrez dans le fichier utilities.py les utilitaires du TP2 (load_images, …) que vous souhaiterez réutiliser, ainsi que vos nouvelles fonctions.

  • Lorsque pertinent pour les explications, vous pourrez afficher le code de vos fonctions avec show_source.

  • Complétez régulièrement le document de revue de code pour qu’il affiche le code de toutes les fonctions que vous avez implantées. Vérifiez à chaque fois le résultat des outils de vérifications (flake8, …).

  • Lorsque vous aurez besoin de brouillon – par exemple pour mettre au point du code – créez des petites feuilles Jupyter séparées pour ne pas polluer votre document.

  • Mettez votre propre jeu de données dans un sous-dossier data, en suivant les mêmes conventions de nommage que dans les autres jeux de données: a01.jpg -> a10.jpg pour les images de la première classe; b01.jpg -> b10.jpg pour celles de la deuxième. Vérifiez au préalable la taille individuelle des images; si elle dépasse, mettons, 100~ko par image, réduisez la résolution pour limiter les temps de calcul et la taille de votre dépôt. Vous pouvez pour cela utiliser la commande mogrify -geometry 64x64 *.jpg. Assurez-vous que le répertoire data ne contienne rien d’autre. Lorsque vous avez terminé, utilisez les commandes suivantes pour rajouter les fichiers dans votre dépôt git:

    cd ~/IntroScienceDonnees/Semaine3
    git add data
    

La qualité de la rédaction sera l’un des critères d’évaluation. Vous pouvez rédiger votre analyse de données soit en français, soit en anglais (mais pas un mélange des deux!). Un bonus sera accordé à ceux qui choisiront l’anglais.

Au travail!

  1. Relisez les instructions pour le téléchargement et le dépôt des TPs, ainsi que les bonnes pratiques.

  2. Téléchargez le sujet de TP Semaine3.

  3. Ouvrez la feuille index pour retrouver ces consignes.

  4. Effectuez votre analyse de données dans analyse_de_donnees, en suivant les instructions indiquées

  5. Vérifiez régulièrement votre code à l’aide de la feuille revue_de_code.

Bon TP!