Cours: Initiation à la Science des données
Contenu
Cours: Initiation à la Science des données¶

Présentation de l’UE ISD¶
Sommaire¶
Les enseignantes et enseignants
Qu’est-ce que la science des données ?
Objectifs de l’UE
Liens utiles
Organisation, dates importantes et modalités d’évaluation
Les enseignantes et enseignants¶
Responsables du cours:
Fanny Pouyet, Maitresse de conférences en bioinformatique
Nicolas Thiéry, Professeur en combinatoire
Chargées et chargés de TP:
Balthazar Charles
Stéphanie Chevallier
Marine Djaffardjy
Téo Sanchez
Qu’est-ce que la science des données¶
La science des données, une spécialité interdisciplinaire¶
Les expertises en science des données¶
La science des données correspond à la récupération, l’analyse et l’interprétation de données. Les données doivent etre transformées et préparées (c’est ce qui prend le plus de temps).
Qu’est ce que sont «les données» ?¶
Les données sont diverses. Tout est « données ». Généralement, elles prendront la forme d’une table avec en colonne des attributs et en ligne des instances.
Exemple: L’administration rend disponible de plus en plus de données comme la liste des prénoms donnés à Paris entre 2004 et aujourd’hui (disponible ici: opendata)
Comment obtenir et traiter ce genre de données? (voir ci-après)
Une fois qu’on a cette table, que peut-on en dire ? (voir le 1er TP :) )
#Obtention de la table en Python
## 1. Téléchargement de la liste des prénoms si ce n'est déjà fait
!if [ ! -f liste_des_prenoms.csv ]; then \
curl https://opendata.paris.fr/explore/dataset/liste_des_prenoms/download/\?format\=csv\&timezone\=Europe/Berlin\&lang\=fr\&use_labels_for_header\=true\&csv_separator\=%3B -o liste_des_prenoms.csv; \
fi
## 2. Importation des librairies: pandas pour manipuler des données
import pandas as pd
## 3. Chargement de la table en Python
prenoms = pd.read_csv('liste_des_prenoms.csv', sep=';')
prenoms.head(7)
Objectifs de l’UE¶
Compréhension
On verra que les sciences des données sont omni-présentes dans nos vies. On apprendra aussi à utiliser des outils d’apprentissage statistique (machine learning).
Raisonnement
Être capable de lire une figure/une infographie dans les médias. Être capable de différencier: l’observation (qu’est ce que je vois?) et l’interprétation (qu’est ce que cela veut dire?).
Technicité
Faire de l’analyse de données en Python : l’analyse de tables et la classification d’objets par apprentissage statistique
Liens utiles¶
Page web: cours, sujets de TP, …
Pb de code ? Quelqu’un a surement déjà eu le meme problème, n’hésitez pas a glaner des infos sur stackoverflow ou openclassrooms
Mon mail: fanny.pouyet@universite-paris-saclay.fr
Organisation de l’UE¶
10 semaines avec : 1h à 1h30 de CM et 2h de TP
CM = mise en contexte + présentation des notions
TP = apprentissage pratique + technicité (attention: on ne redéfinira pas les notions en TP!!)
Modalités d’évaluation¶
les TP notés (30% de la note finale)
2 projets en binôme dont le dernier avec soutenance orale finale (sujet: classification d’images à l’aide de méthodes de machine learning) (20% + 30% de la note finale)
2 quizz sur le cours (20% de la note finale)
Infrastructure du cours¶
L’infrastructure est similaire à celle du cours Introduction à la Programmation Impérative:
-
Annonces, Forum d’aide
QCM, salles de TP et horaires, …
page web: matériel pédagogique
Salles de TP au 336
Salles de TP virtuelle: JupyterHub@Paris-Saclay
Forge logicielle GitLab
Script de gestion de devoirs
intro-science-donnees
basé sur travo
Calendrier¶
Semaine 1 et 2 : tutoriels et analyses de données
Semaine 3 : chaine complète en science des données
Semaine 4 et 5 : Projet 1 en binôme
VACANCES de Février
Semaine 6 : Traitement des données
Semaine 7 à 9 : Projet 2 en binôme
Semaine 10 : Soutenances en binôme (début avril)
Rendus des TPs et Projets¶
Avant le lundi 21h00 avec le script intro-science-donnees
(mise en place lors du TP1) pour deux raisons:
nous laisser le temps de les corriger
vous permettre de passer à autre chose