Semaine 7
Contenu
Semaine 7¶
Objectifs¶
Vous êtes désormais familiers avec le schéma VI-ME-RÉ-BAR – [VI]sualisation, [ME]sure, [RÉ]férence (baseline), [BAR]res d’erreur, et vous avez appris à classifier des jeux de données simples:
Collecter et traiter des images (recentrage automatique, seuillage etc.).
Extraire des attributs sur les couleurs (ad-hoc), la forme (ad-hoc ou matched filters) ou les pixels (PCA).
Entraîner un classificateur (oneR, k-NN, arbre de décision, perceptron ou autres) sur vos données d’entraînement.
Calculer un score de performance du classificateur sur vos données de test.
À l’occasion du second mini-projet, vous allez appliquer ces connaissances et votre savoir faire à vos propres données, en développant de nouveaux aspects de l’analyse (biais sur les méta-données) ou en allant plus loin des les concepts déjà introduits (PCA, nouveaux classificateurs).
Ce travail va se dérouler sur les trois dernières séances:
Semaine 7 : 14 - 18 mars (dépôt le 21 mars à 22h, 5 points)
Analyse de biais
Manipulation de son (♣).
Choix du jeu de données; il consistera typiquement d’images ou photographies que vous aurez prises vous-même ou que vous aurez collectées sur internet. Si vous êtes intéressés vous pouvez faire une analyse sur d’autres données que les images!
Semaine 8 : 28 - 31 mars (dépôt le 4 avril à 22h)
Validation du jeu de données auprès de vos chargées et chargés de TP et import de celui-ci dans votre dépôt de la semaine 8. Préparation de votre jeu de données, prétraitement et analyse.
Semaine 9 : 4 - 8 avril (dépôt le 11 avril à 22h)
Fin du projet, retour sur les classificateurs.
Semaine 11 : Soutenances de projet
Selon les groupes de TD: le 20 ou le 21 avril. Voir le planning sur eCampus.
Le travail se fera en binôme, le même que pour le premier mini-projet sauf demande motivée auprès de vos chargées et chargés de TP.
TP¶
[ ] Téléchargez le sujet de TP
Semaine7
(rappel des instructions).[ ] Ouvrez la feuille index pour retrouver ces consignes.
[ ] Ouvrez la feuille sur le biais dans les données et suivez les instructions.
[ ] Ouvrez la feuille analyse et suivez les instructions pour lancer l’analyse sur le jeu de données fourni.
[ ] Ouvrez la feuille sur la manipulation de données audio et suivez les instructions.
Préparation de vos images pour la semaine prochaine¶
La semaine prochaine (après les examens mi-semestre), vous travaillerez sur vos images. Commencez des à présent à les collecter.
Conseil important : Choisissez des images qui sont toutes dans la même orientation (carrée, portrait ou paysage) car avoir un mélange rend la préparation des données plus complexe.
Voilà comment les préparer :
[ ] Déposez votre propre jeu de données dans un sous-dossier
data
dansIntroSciencesDonnees
. Sur JupyterHub, vous pouvez utiliser le boutonTéléverser
en haut à droite.[ ] Suivez les mêmes conventions de nommage que lors du premier projet:
a01.jpg
,a02.jpg
, … pour les images de la première classe;b01.jpg
,b02.jpg
, … pour les images de la deuxième classe.
[ ] Vérifiez la taille individuelle des images:
cd ~/IntroScienceDonnees/data ls -lh
Si elle dépasse 50~ko par image, réduisez la résolution pour limiter les temps de calcul et la taille de votre dépôt avant de démarrer le projet 2. Pour cela, utilisez la commande ci-dessous, disponible sur JupyterHub et en salles de TP :
cd ~/IntroScienceDonnees/data mogrify -geometry 256x256 *.jpg
Vous pourrez ensuite les redimensionner et les recadrer en Python, comme vu la semaine dernière.