Semaine 7, 8 et 9: mini projet 2#
Objectifs#
Vous êtes désormais familiers avec le schéma VI-ME-RÉ-BAR – [VI]sualisation, [ME]sure, [RÉ]férence (baseline), [BAR]res d’erreur, et vous avez appris à classifier des jeux de données simples:
Collecter et traiter des images (recentrage automatique, seuillage etc.).
Extraire des attributs sur les couleurs (ad-hoc), la forme (ad-hoc ou matched filters) ou les pixels (PCA).
Entraîner un classificateur (oneR, k-NN, arbre de décision, perceptron ou autres) sur vos données d’entraînement.
Calculer un score de performance du classificateur sur vos données de test.
À l’occasion du second mini-projet, vous allez appliquer ces connaissances et votre savoir faire à vos propres données, en développant de nouveaux aspects de l’analyse (biais sur les méta-données) ou en allant plus loin des les concepts déjà introduits (PCA, nouveaux classificateurs).
Important
Le travail est à effectuer en binôme, le même que pour le premier mini-projet sauf demande motivée auprès de vos chargées et chargés de TP.
Dépôt le 02 avril à 23h59, soutenance le 3 ou le 5 avril.
Planning#
En amont#
Validation de votre jeu de données par votre chargé.e de TP en semaine 6.
Semaine 7#
Préparation de votre jeu de données, première analyse avec l’ACP et extraction d’attributs
Semaine 8#
Fin de l’extraction d’attributs et retour sur les classificateurs.
Semaine 9#
Retour et amélioration de votre code pour votre propre projet.
Soutenances entre le 03 avril ou le 05 avril selon votre groupe#
La soutenance durera 7min suivies de 3min de questions pour chaque binôme.
Le contenu attendu de votre présentation est disponible dans la feuille 0_diaporama.md. Il consiste en:
la présentation de votre jeu de données,
la présentation de vos préparations de données et attributs choisis/ACP (montrez le code si cela est pertinent),
la présentation des résultats (quel classificateur, taux d’erreur etc),
la présentation des difficultés rencontrées, des biais possibles de vos images,
une conclusion et des perspectives (à quoi pourrait servir votre projet dans notre société ?)
Votre horaire de passage et votre binome (le même qu’au projet 1) sont indiqués ici : https://codimd.math.cnrs.fr/m4cSohttSLyrAPl5Qoe5NQ?view
Posez vos questions relatives à la soutenance sur le forum: nous ne répondrons pas par mail privé.
Autres bonnes pratiques pour le projet#
Gardez une trace des expérimentations intermédiaires («nous avons essayé telle combinaison de features; voici les résultats et la performance obtenue»).
Vous mettrez dans le fichier utilities.py les utilitaires des TP précédents (
load_images
, …) que vous souhaiterez réutiliser, ainsi que vos nouvelles fonctions.Lorsque pertinent pour les explications, vous pourrez afficher le code de vos fonctions avec
show_source
.Complétez régulièrement le paragraphe de revue de code ci-dessous, pour qu’il affiche le code de toutes les fonctions que vous avez implantées. Vérifiez à chaque fois le résultat des outils de vérifications (
flake8
, …).Lorsque vous aurez besoin de brouillon – par exemple pour mettre au point du code – créez des petites feuilles Jupyter séparées pour ne pas polluer votre document.
Au travail!#
Commencez par vérifier votre binôme ici: https://codimd.math.cnrs.fr/m4cSohttSLyrAPl5Qoe5NQ?view . Si il y a une erreur inscrivez la dans le tableau «Je ne suis pas correctement inscrit.e»
Un squelette de diaporama Jupyter vous est fourni; vous pouvez aussi produire un diaporama en pdf.
La feuile d”analyse vous servira à faire votre analyse de données en intégrant ce que vous avez fait dans les feuilles suivantes (ACP ou extraction d’attributs; choix du ou des classificateurs etc). Il y a le squelette d’une analyse de données.
Ouvrez la feuille jeu_de_donnees et suivez les instructions pour charger votre jeu de données (feuille identique à celle de la Semaine 5 + dépot des images via git)
Ouvrez la feuille première analyse ACP pour faire une première analyse de vos images. Le squelette de cette feuille est adaptée pour le jeu de données des pommes et des bananes. Ce code est à modifier pour l’adapter à votre projet.
Ouvrez la feuille extraction d’attributs et suivez les instructions pour prétraiter vos images et en extraire des attributs. Le squelette de cette feuille est adaptée pour le jeu de données des pommes et des bananes. Ce code est à modifier pour l’adapter à votre projet.
Ouvrez la feuille classificateur et suivez les instructions pour faire de nouveaux types de classification. Le squelette de cette feuille est adaptée pour le jeu de données des pommes et des bananes. Ce code est à modifier pour l’adapter à votre projet.
Préparer votre présentation. Elle devra présenter de façon synthétique votre jeu de données, vos expériences, vos observations, vos interprétations.
Astuce
Les feuilles Jupyter fournies sont très guidées. Si vous souhaitez
effectuer d’autres traitements et analyses, ou simplement pour faire
des essais, n’hésitez pas à utiliser de nouvelles feuilles Jupyter
libres. De même, vous pouvez ajouter d’autres fichiers, comme des
images pour illustrer votre diaporama. Assurez-vous de signaler ces
fichiers supplémentaires à git
pour qu’ils soient déposés sur Gitlab
avec le reste de votre projet.
Pour ajouter un fichier
nommé truc.pdf
au dossier Semaine7
:
Ouvrir le tableau de bord
Récupérer/Déposer la Semaine 7
Ajouter une cellule Jupyter de code et y taper la commande suivante :
! cd ~/IntroScienceDonnees/Semaine7; git add truc.pdf
Déposer de nouveau la Semaine 7
Travail en binome et dépôts#
[ ] Vérifiez votre inscription en binôme dans le document partagé.
[ ] La procédure pour le partage du TP est détaillée en Semaine2.
[ ] Révisez les bonnes pratiques vues en semaine 3.
Voir aussi
Pour en savoir plus et pour des suggestions sur comment travailler en binôme, veuillez vous référer à la page web.
Bon Projet!