Initiation à la Science des Données#
Cours donné au L1 Mathématique-Informatique (Portail MI, Licences Double Diplôme IM et MNSI) de la Faculté des Sciences d’Orsay de l’Université Paris-Saclay.
Liens#
Contenu#
Ce cours de L1 a un socle pratique important (1h 30 de cours et 2h de TP, jusqu’à mi-avril). Il est agencé de façon à donner un aperçu complet de la chaîne de traitement d’un problème de sciences des données, tout en introduisant des concepts de statistiques. Nous étudierons en particulier un cas de classification d’images. La progression du cours est la suivante:
Première partie:
Introduction et statistiques de base (moyenne, médiane, quartiles)
Visualisation et autres statistiques descriptives (jeux de données divers, observation et description, corrélation)
Chaîne de traitement et interprétation (définition de l’apprentissage statistique, problème de classification d’images, méthodes des plus proches voisins, ensemble d’entraînement / ensemble de test, taux de succès, barres d’erreur)
Représentation des données (extraction et sélection de caractéristiques (features), comment extraire les informations pertinentes d’images ?)
Classificateurs (linéaires, plus proches voisins, arbres de décision, etc.)
Deuxième partie:
Traitement d’images
Réseaux de neurones
Architectures profondes
Ethique et impact environnemental
Les TPs sont de deux types, fournis en alternance: (1) TP courts individuel avec une correction semi-automatique, durée 1 séance; (2) TP longs en binômes. Le dernier TP long se termine par une présentation orale finale. La structure d’un TP long est similaire à celle du TP court qui la précède, et en développe le sujet en vous demandant d’y appliquer d’autres données (soit des données suggérées, soit des données de votre choix).
Pour aller plus loin#
Si vous voulez aller plus loin sur les aspects mathématiques, nous vous conseillons la lecture du livre Introduction au Machine Learning de Chloé Agathe-Azencott en francais. Ce livre est destiné aux étudiants en licence et master d’informatique et fournit les bases algorithmiques et de concepts mathématiques pour comprendre en détail les méthodes de machine learning. Chloé-Agathe Azencott est chercheuse en ML aux mines de paris.
Afin de démystifier ce qu’est l’intelligence artificielle nous vous conseillons la lecture de la BD Comprendre l’intelligence artificielle de Nicolas Sabouret, un professeur d’informatique à l’Université Paris-Saclay !
À propos de ce cours#
Ce cours a été initié en 2019-2020, sous la forme d’une option pour 30 étudiants. À la faveur du changement de maquettes, il a été généralisé depuis 2020-2021 à tous les étudiants de L1 en Math-Info (~200). Isabelle Guyon, pionnière de l’IA, a apporté sa vision en profondeur de la science des données; Nicolas Thiéry son expérience d’enseignement de masse en L1 et d’ingénierie pédagogique (infrastructure Jupyter, GitLab, …); Fanny Pouyet son expérience de terrain de la science des données pour la recherche en bio-informatique.
Le matériel pédagogique – sous licence libre Creative Commons CC-BY-SA – est une production collective ayant bénéficié de l’apport de tous les enseignants des équipes pédagogiques successives:
2019-2020: Isabelle Guyon (cours), Nicolas Thiéry (TP)
2020-2021: Isabelle Guyon (cours, co-responsable), Fanny Pouyet, Albane Saintenoy, Téo Sanchez, Haozhe Sun, Nicolas Thiéry (co-responsable)
2021-2022: Balthazar Charles, Stéphanie Chevalier, Marine Djaffardjy, Fanny Pouyet (cours, co-responsable), Téo Sanchez, Nicolas Thiéry (co-responsable)
2022-2023: Solal Nathan, Nicolas Thiéry (co-responsable), Fanny Pouyet (cours, co-responsable), Yue Ma, Marine Djaffardjy, Tsanta Randriatsitohaina
2023-2024: Sarah Antier, Bryan Brancotte (cours en CPES), Thomas Gerald, Chiara Marmo, Clémence Sebe, Solal Nathan, Fanny Pouyet (cours, responsable) et Nicolas Thiéry