Cours: Initiation à la Science des données#
Présentation de l’UE ISD#
Sommaire#
Les enseignantes et enseignants
Qu’est-ce que la science des données ?
Objectifs de l’UE
Liens utiles
Organisation, dates importantes et modalités d’évaluation
Les enseignantes et enseignants#
Responsable du cours:
Fanny Pouyet, maitresse de conférences en bioinformatique
Chargées et chargés de TP:
Sarah Antier, astronome à l’Observatoire de la Cote d’Azur
Marc Evrard, maître de conférence en NLP
Thomas Gerald, maitre de conférences en NLP
Léa Jouvin, ingénieure au CEA
Clémence Sebe, doctorante en bioinformatique
Les enseignantes et enseignants en CPES#
Chargé de cours:
Bryan Brancotte, ingénieur de recherche en informatique
Chargée et chargé de TP:
Bryan Brancotte, ingénieur de recherche en informatique
Clémence Sebe, doctorante en bioinformatique
Qu’est-ce que la science des données#
La science des données, une spécialité interdisciplinaire#
Selon vous, qu’est-ce que la science des données ? https://app.wooclap.com/DBJNEA
XX TODO MAJ
Les expertises en science des données#
La science des données correspond à la récupération, l’analyse et l’interprétation de données. Les données doivent etre transformées et préparées (c’est ce qui prend le plus de temps).
Qu’est ce que sont «les données» ?#
Les données sont diverses. Tout est « données ». Généralement, elles prendront la forme d’une table avec en colonne des attributs et en ligne des instances.
Exemple: L’administration rend disponible de plus en plus de données comme la liste des prénoms donnés à Paris entre 2004 et aujourd’hui (disponible ici: opendata)
Comment obtenir et traiter ce genre de données? (voir ci-après)
Une fois qu’on a cette table, que peut-on en dire ? (voir le 1er TP)
#Obtention de la table en Python
## 1. Téléchargement de la liste des prénoms si ce n'est déjà fait
!if [ ! -f liste_des_prenoms.csv ]; then \
curl --http1.1 https://opendata.paris.fr/explore/dataset/liste_des_prenoms/download/\?format\=csv\&timezone\=Europe/Berlin\&lang\=fr\&use_labels_for_header\=true\&csv_separator\=%3B -o liste_des_prenoms.csv; \
fi
## 2. Importation des librairies: pandas pour manipuler des données
import pandas as pd
## 3. Chargement de la table en Python
prenoms = pd.read_csv('liste_des_prenoms.csv', sep=';')
prenoms.head(7)
Objectifs de l’UE#
Compréhension
On verra que la science des données est omni-présente dans nos vies. On apprendra aussi à utiliser des outils d’apprentissage statistique (machine learning).
Raisonnement
Être capable de lire une figure/une infographie dans les médias. Être capable de différencier: l’observation (qu’est ce que je vois?) et l’interprétation (qu’est ce que cela veut dire?).
Technicité
Faire de l’analyse de données en Python : l’analyse de tables et la classification d’objets par apprentissage statistique
Liens utiles#
Page web: cours, sujets de TP, …
TODO MAJ
-
Salles de TP et horaires
Annales de QCM
Environnement Jupyter
Pb de code ? Quelqu’un a surement déjà eu le meme problème, n’hésitez pas à glaner des infos sur chatgpt, stackoverflow ou openclassrooms
Si vous avez une question concernant les TP, utilisez exclusivement le forum d’aide
Mon mail: fanny.pouyet@universite-paris-saclay.fr
Organisation de l’UE#
9 semaines avec 1h à 2h de CM et 2h de TP + un oral (semaine du 31 mars au 5 avril)
TP = apprentissage pratique + technicité (attention: on ne redéfinira pas les notions vues en CM!)
CM = mise en contexte + présentation des notions
Modalités d’évaluation#
les rendus de TP (15% de la note finale)
2 projets en binôme (25% + 30% de la note finale)
2 QCM (2x15% de la note finale) sur papier
Y a t il des questions ?
Infrastructure du cours#
L’infrastructure est presque identique à celle du cours Introduction à la Programmation Impérative:
Calendrier#
Semaine 1 : Tutoriels et analyses de données
Semaine 2 : TP analyse de données en binôme
Semaine 3 : Chaine complète en science des données et statistiques (2h de cours: CM3 + CM4)
Semaine 4 et 5 : Projet 1 en binôme (pas de CM le 05/02)
Semaine 6 : Traitement des données
VACANCES de Février
Semaine 7 à 9 : Projet 2 en binôme (1h30-2h de CM en semaine 7 et 8, pas de CM en semaine 9)
Semaine 10 : Soutenances en binôme
Rendus des TPs et Projets#
Avant le mardi 23h59 avec le tableau de bord (mis en place lors du TP1)