Cours: Initiation à la Science des données#

Fanny Pouyet
L1 Informatique
Semestre 2 - 2024
logo Université

Présentation de l’UE ISD#

Sommaire#

  1. Les enseignantes et enseignants

  2. Qu’est-ce que la science des données ?

  3. Objectifs de l’UE

  4. Liens utiles

  5. Organisation, dates importantes et modalités d’évaluation

Les enseignantes et enseignants#

Responsable du cours:

  • Fanny Pouyet, maitresse de conférences en bioinformatique

Chargées et chargés de TP:

  • Sarah Antier, astronome à l’Observatoire de la Cote d’Azur

  • Thomas Gerald, maitre de conférences en NLP

  • Chiara Marmo, ingénieure de recherche en analyse de données

  • Solal Nathan, doctorant en apprentissage automatique

  • Clémence Sebe, doctorante en bioinformatique

  • Nicolas Thiéry, professeur en combinatoire

Les enseignantes et enseignants en CPES#

Chargé de cours:

  • Bryan Brancotte, ingénieur de recherche en informatique

Chargée et chargé de TP:

  • Bryan Brancotte, ingénieur de recherche en informatique

  • Clémence Sebe, doctorante en bioinformatique

Qu’est-ce que la science des données#

La science des données, une spécialité interdisciplinaire#

Selon vous, qu’est-ce que la science des données ? https://app.wooclap.com/DBJNEA

Les expertises en science des données#

La science des données correspond à la récupération, l’analyse et l’interprétation de données. Les données doivent etre transformées et préparées (c’est ce qui prend le plus de temps).

logo Université

Qu’est ce que sont «les données» ?#

Les données sont diverses. Tout est « données ». Généralement, elles prendront la forme d’une table avec en colonne des attributs et en ligne des instances.

Exemple: L’administration rend disponible de plus en plus de données comme la liste des prénoms donnés à Paris entre 2004 et aujourd’hui (disponible ici: opendata)

tableau de prénoms
  • Comment obtenir et traiter ce genre de données? (voir ci-après)

  • Une fois qu’on a cette table, que peut-on en dire ? (voir le 1er TP)

#Obtention de la table en Python
## 1. Téléchargement de la liste des prénoms si ce n'est déjà fait

!if [ ! -f liste_des_prenoms.csv ]; then  \
    curl --http1.1 https://opendata.paris.fr/explore/dataset/liste_des_prenoms/download/\?format\=csv\&timezone\=Europe/Berlin\&lang\=fr\&use_labels_for_header\=true\&csv_separator\=%3B -o liste_des_prenoms.csv; \
fi

## 2. Importation des librairies: pandas pour manipuler des données
import pandas as pd

## 3. Chargement de la table en Python
prenoms = pd.read_csv('liste_des_prenoms.csv', sep=';')
prenoms.head(7)

Objectifs de l’UE#

  • Compréhension

On verra que la science des données est omni-présente dans nos vies. On apprendra aussi à utiliser des outils d’apprentissage statistique (machine learning).

  • Raisonnement

Être capable de lire une figure/une infographie dans les médias. Être capable de différencier: l’observation (qu’est ce que je vois?) et l’interprétation (qu’est ce que cela veut dire?).

  • Technicité

Faire de l’analyse de données en Python : l’analyse de tables et la classification d’objets par apprentissage statistique

Liens utiles#

  1. Page web: cours, sujets de TP, …

  2. Espace e-Campus:

    • Forum d’aide

    • Salles de TP et horaires

    • Annales de QCM

    • Environnement Jupyter

  3. Pb de code ? Quelqu’un a surement déjà eu le meme problème, n’hésitez pas a glaner des infos sur chatgpt, stackoverflow ou openclassrooms

  4. Si vous avez une question concernant les TP, utilisez exclusivement le forum d’aide

  5. Mon mail: fanny.pouyet@universite-paris-saclay.fr

Organisation de l’UE#

  • 9 semaines avec 1h à 1h30 de CM et 2h de TP + un oral (semaine du 29 avril - 3 mai)

  • TP = apprentissage pratique + technicité (attention: on ne redéfinira pas les notions vues en CM!)

  • CM = mise en contexte + présentation des notions

Modalités d’évaluation#

  • les rendus de TP (15% de la note finale)

  • 1 TP en binome noté (15% de la note finale)

  • 2 projets en binôme (15% + 25% de la note finale)

  • 2 QCM (30% de la note finale) sur papier

Y a t il des questions ?

Infrastructure du cours#

L’infrastructure est presque identique à celle du cours Introduction à la Programmation Impérative:

  • Salles de TP virtuelle: MyDocker (service similaire à JupyterHub utilisé au S1 ou pour d’autres cours).

  • Salles de TP en 336

  • Forge logicielle GitLab

  • Gestion de devoirs avec l’outil Travo

Calendrier#

  • Semaine 1 : tutoriels et analyses de données

  • Semaine 2 : TP analyse de données en binôme

  • Semaine 3 : chaine complète en science des données

  • Semaine 4 et 5 : Projet 1 en binôme

  • VACANCES de Février

  • Semaine 6 : Traitement des données

  • Semaine 7 à 9 : Projet 2 en binôme

  • Semaine 10 : Soutenances en binôme

Rendus des TPs et Projets#

Avant le mardi 23h59 avec le tableau de bord (mis en place lors du TP1)