Cours: Initiation à la Science des données

Fanny Pouyet
L1 Informatique
Janvier - Mai 2022
../../_images/logoParisSaclay.png

Présentation de l’UE ISD

Sommaire

  1. Les enseignantes et enseignants

  2. Qu’est-ce que la science des données ?

  3. Objectifs de l’UE

  4. Liens utiles

  5. Organisation, dates importantes et modalités d’évaluation

Les enseignantes et enseignants

Responsables du cours:

  • Fanny Pouyet, Maitresse de conférences en bioinformatique

  • Nicolas Thiéry, Professeur en combinatoire

Chargées et chargés de TP:

  • Balthazar Charles

  • Stéphanie Chevallier

  • Marine Djaffardjy

  • Téo Sanchez

Qu’est-ce que la science des données

La science des données, une spécialité interdisciplinaire

../../_images/wordcloud.png

Les expertises en science des données

La science des données correspond à la récupération, l’analyse et l’interprétation de données. Les données doivent etre transformées et préparées (c’est ce qui prend le plus de temps).

../../_images/dataScience.svg

Qu’est ce que sont «les données» ?

Les données sont diverses. Tout est « données ». Généralement, elles prendront la forme d’une table avec en colonne des attributs et en ligne des instances.

Exemple: L’administration rend disponible de plus en plus de données comme la liste des prénoms donnés à Paris entre 2004 et aujourd’hui (disponible ici: opendata) ../../_images/prenoms.png

  • Comment obtenir et traiter ce genre de données? (voir ci-après)

  • Une fois qu’on a cette table, que peut-on en dire ? (voir le 1er TP :) )

#Obtention de la table en Python
## 1. Téléchargement de la liste des prénoms si ce n'est déjà fait

!if [ ! -f liste_des_prenoms.csv ]; then  \
    curl https://opendata.paris.fr/explore/dataset/liste_des_prenoms/download/\?format\=csv\&timezone\=Europe/Berlin\&lang\=fr\&use_labels_for_header\=true\&csv_separator\=%3B -o liste_des_prenoms.csv; \
fi

## 2. Importation des librairies: pandas pour manipuler des données
import pandas as pd

## 3. Chargement de la table en Python
prenoms = pd.read_csv('liste_des_prenoms.csv', sep=';')
prenoms.head(7)

Objectifs de l’UE

  • Compréhension

On verra que les sciences des données sont omni-présentes dans nos vies. On apprendra aussi à utiliser des outils d’apprentissage statistique (machine learning).

  • Raisonnement

Être capable de lire une figure/une infographie dans les médias. Être capable de différencier: l’observation (qu’est ce que je vois?) et l’interprétation (qu’est ce que cela veut dire?).

  • Technicité

Faire de l’analyse de données en Python : l’analyse de tables et la classification d’objets par apprentissage statistique

Liens utiles

  1. Page web: cours, sujets de TP, …

  2. Espace e-Campus:

  3. Pb de code ? Quelqu’un a surement déjà eu le meme problème, n’hésitez pas a glaner des infos sur stackoverflow ou openclassrooms

  4. Mon mail: fanny.pouyet@universite-paris-saclay.fr

Organisation de l’UE

  • 10 semaines avec : 1h à 1h30 de CM et 2h de TP

  • CM = mise en contexte + présentation des notions

  • TP = apprentissage pratique + technicité (attention: on ne redéfinira pas les notions en TP!!)

Modalités d’évaluation

  • les TP notés (30% de la note finale)

  • 2 projets en binôme dont le dernier avec soutenance orale finale (sujet: classification d’images à l’aide de méthodes de machine learning) (20% + 30% de la note finale)

  • 2 quizz sur le cours (20% de la note finale)

Infrastructure du cours

L’infrastructure est similaire à celle du cours Introduction à la Programmation Impérative:

Calendrier

  • Semaine 1 et 2 : tutoriels et analyses de données

  • Semaine 3 : chaine complète en science des données

  • Semaine 4 et 5 : Projet 1 en binôme

  • VACANCES de Février

  • Semaine 6 : Traitement des données

  • Semaine 7 à 9 : Projet 2 en binôme

  • Semaine 10 : Soutenances en binôme (début avril)

Rendus des TPs et Projets

Avant le lundi 21h00 avec le script intro-science-donnees (mise en place lors du TP1) pour deux raisons:

  • nous laisser le temps de les corriger

  • vous permettre de passer à autre chose