Semaine 7

Objectifs

Vous êtes désormais familiers avec le schéma VI-ME-RÉ-BAR – [VI]sualisation, [ME]sure, [RÉ]férence (baseline), [BAR]res d’erreur, et vous avez appris à classifier des jeux de données simples:

  • Collecter et traiter des images (recentrage automatique, seuillage etc.).

  • Extraire des attributs sur les couleurs (ad-hoc), la forme (ad-hoc ou matched filters) ou les pixels (PCA).

  • Entraîner un classificateur (oneR, k-NN, arbre de décision, perceptron ou autres) sur vos données d’entraînement.

  • Calculer un score de performance du classificateur sur vos données de test.

À l’occasion du second mini-projet, vous allez appliquer ces connaissances et votre savoir faire à vos propres données, en développant de nouveaux aspects de l’analyse (biais sur les méta-données) ou en allant plus loin des les concepts déjà introduits (PCA, nouveaux classificateurs).

Ce travail va se dérouler sur les trois dernières séances:

Semaine 7 : 14 - 18 mars (dépôt le 21 mars à 22h, 5 points)

  • Analyse de biais

  • Manipulation de son (♣).

  • Choix du jeu de données; il consistera typiquement d’images ou photographies que vous aurez prises vous-même ou que vous aurez collectées sur internet. Si vous êtes intéressés vous pouvez faire une analyse sur d’autres données que les images!

Semaine 8 : 28 - 31 mars (dépôt le 4 avril à 22h)

  • Validation du jeu de données auprès de vos chargées et chargés de TP et import de celui-ci dans votre dépôt de la semaine 8. Préparation de votre jeu de données, prétraitement et analyse.

Semaine 9 : 4 - 8 avril (dépôt le 11 avril à 22h)

  • Fin du projet, retour sur les classificateurs.

Semaine 11 : Soutenances de projet

  • Selon les groupes de TD: le 20 ou le 21 avril. Voir le planning sur eCampus.

Le travail se fera en binôme, le même que pour le premier mini-projet sauf demande motivée auprès de vos chargées et chargés de TP.

Support de cours

TP

  • [ ] Téléchargez le sujet de TP Semaine7 (rappel des instructions).

  • [ ] Ouvrez la feuille index pour retrouver ces consignes.

  • [ ] Ouvrez la feuille sur le biais dans les données et suivez les instructions.

  • [ ] Ouvrez la feuille analyse et suivez les instructions pour lancer l’analyse sur le jeu de données fourni.

  • [ ] Ouvrez la feuille sur la manipulation de données audio et suivez les instructions.

Préparation de vos images pour la semaine prochaine

La semaine prochaine (après les examens mi-semestre), vous travaillerez sur vos images. Commencez des à présent à les collecter.

Conseil important : Choisissez des images qui sont toutes dans la même orientation (carrée, portrait ou paysage) car avoir un mélange rend la préparation des données plus complexe.

Voilà comment les préparer :

  • [ ] Déposez votre propre jeu de données dans un sous-dossier data dans IntroSciencesDonnees. Sur JupyterHub, vous pouvez utiliser le bouton Téléverser en haut à droite.

  • [ ] Suivez les mêmes conventions de nommage que lors du premier projet:

    • a01.jpg, a02.jpg, … pour les images de la première classe;

    • b01.jpg, b02.jpg, … pour les images de la deuxième classe.

  • [ ] Vérifiez la taille individuelle des images:

      cd ~/IntroScienceDonnees/data
      ls -lh
    

    Si elle dépasse 50~ko par image, réduisez la résolution pour limiter les temps de calcul et la taille de votre dépôt avant de démarrer le projet 2. Pour cela, utilisez la commande ci-dessous, disponible sur JupyterHub et en salles de TP :

      cd ~/IntroScienceDonnees/data
      mogrify -geometry 256x256 *.jpg 
    

    Vous pourrez ensuite les redimensionner et les recadrer en Python, comme vu la semaine dernière.