Cours 9: Impact de la science des données et du numérique sur notre société#


Fanny Pouyet
L1 Informatique
Janvier - Avril 2024

Précédemment

  • Inititation à la science des données

  • Initiation à l’apprentissage statistique

  • Classification d’images

Cette semaine

  • Science et société: l’impact de la science des données et du numérique sur notre société (sources: shift project, ADEME et gouvernement)

Numérique : réseaux de communications + terminaux + data centers

Comment maximiser l’impact positif du numérique et de la science des données en minimisant son impact négatif ?

Une question en apparence inutile mais aussi insoluble

Contexte : le numérique dans notre société#

  • Les énergies fossiles représentent 80% de la consommation d’énergie mondiale

  • Elles sont responsables d’une grande partie des émissions de gaz à effet de serre.

  • Ces émissions impactent notre climat et nos sociétés.

  • Le numérique consomme de l’énergie mais permet aussi d’en réduire la consommation en permettant une certaine optimisation

Impacts positifs#

Le numérique pour limiter la consommation d’énergie#

  • utilisation plus efficace des ressources

  • diminution des pertes (capteurs d’humidité,..)

Repose sur de l’analyse des données !

Développement économique et social#

  • augmentation de la productivité des entreprises,

  • création d’emplois,

  • commerce mondialisé

Science ouverte et utilisation critique des données publiques#

Données publiques (https://doi.org/10.1787/09ab162c-en.)

Prenons l’exemple des données publiques de data.gouv.fr, site développé depuis une dizaine d’années:

Ouverture des données: le partage des données dont disposent les institutions (généralement, publiques, depuis la loi Cada 1978) implique:

  • la gratuité,

  • des formats facilement traitables,

  • et réutilisables.

3 objectifs :

  1. améliorer le fonctionnement démocratique (transparence, concertation);

  2. améliorer l’efficacité de l’action publique;

  3. intégration des données dans de nouveaux services à forte valeur ajoutée économique ou sociale.

Avantages :

  • simplification des systèmes d’informations par la création de nouvelles bases de données;

  • accès facilité par internet aux documents administratifs.

  • informations publiques réutilisables à d’autres fins que la mission de service public pour laquelle elles ont été produites ou reçues.

Impacts négatifs#

Effet direct Les TIC (technologies de l’information et de la communication) consomme de l’éléctricité…

3 catégories de TIC (data center, devices, antennes)

Effets indirects

  • Augmentation de l’utilisation des ressources informatiques par sa facilitation (smartphones vs. Nokia 3310)

  • Le cycle de vie du produit pollue (fabrication, transport, utilisation (effet direct), absence de recylage) –> exemple de la production de matériel informatique (métaux rares, pollution loin de la France). Remarque: cours de Ligozat et Frenoux (master HCI) sur l’estimation du cout carbone du cycle de vie des outils informatiques

media/incidences_geostrategiques.png

Consommation énergétique#

  • Etude de 2018 (projection à partir de cette date): 4 scénarios

  • Consommation électrique en 2017 : 21000 TWh (augmentation d’1,5%/an)

  • Consommation actuelle en Europe du coût energétique: Electricity Map

media/DEC.png

Postes de consommation#

10% de la consommation éléctrique en France vient des services numériques. Les objets individuels (ordinateurs, téléphones portables écrans etc.) sont ce qui consomme le plus à l’échelle du Pays (~70%)

Ademe (consommation services umériques)

Nombre de postes numériques par personne#

media/nb_equipement.png

Empreinte carbone des calculs numériques#

L’ADEME (Agence de l’Environnement et de la Maîtrise de l’Energie, créée en 1991) propose des moyens de calculer l’empreinte carbone de nos usages numériques (vie professionnelle ou personnelle)

Simulateur empreinte carbone du numérique

Pour calculer votre empreinte, utilisez le simulateur Impact CO2 développé par l’ADEME

  • Empreinte carbone: équivalent C02 qui prend en compte les différents gaz responsables du changement climatique.

  • Prend en compte chaque étape du cycle de vie des équipements en incluant la fabrication, le transport, l’utilisation et la fin de vie.

  • Bien que le calcul soit critiqué, il donne un ordre de grandeur tout à fait pertinent.

Dans le secteur privé#

Exemple d’estimation moyenne de l’empreinte carbone de l’accès à internet (au 01/01/2022):

  • Réseaux mobiles : 50 gCO2e/Go

  • Réseaux fixes : 3,95 kgCO2e/mois/abonné.

  • L’utilisation des réseaux fixes est à privilégier dès que possible.

Dans le monde de la recherche#

  • Estimer la consommation énergétique d’un entrainement d’un réseau de neurones n’est pas chose facile.

  • Recherche active récente : exemple de calcul de vos émissions, ML CO2 Impact

  • Les émissions dépendent des infrastructures et de votre code.

  • Une thèse en apprentissage statistique émet plusieurs tonnes de CO2.

  • Prenons l’exemple d’une thèse 2018-2022, qui a émis 2,9 tonnes de CO2 (source : doctorant du LISN)

media/These_2p9TCO2.png

Ordre de grandeur et objectif des émissions en France

media/ordre_grandeur_CO2.png

Impact du Deep learning sur notre consommation de ressources#

La consommation d’un ordinateur se répartit grosso modo comme suit:#

media/conso_ordi_perso.png

Les clusters de calculs sont utilisés quotidiennement#

media/nb_NN.png

Le nombre de modèles développés augmente rapidement. La nature du code joue un rôle important:

Par exemple, si on entraine un modèle d’apprentissage de langues la consommation varie d’un facteur 4 entre une utilisation GPU et CPU (Gay et Ligozat, séminaire 2023):

  • GPU : 47KWh pour 150 heures

  • CPU : 188KWh pour 6000 heures

Autre exemple :consommation en joule pour reconnaitre une image, ce qui revient à faire 50km de voitures pour reconnaitre \(10^{12}\) images:

media/GPU_joule_consumption.png

D’après Gay et Ligozat (séminaire 2023 de DataIA)

On cherche à maximiser la précision des modèles, mais n’oubliez pas que cela a un coût énergétique.

media/cout_apprentissage.png

De plus de nombreux Joules sont perdus à cause d’erreurs professionnelles (Khan, 2019):

  • Job crashing (erreurs de code)

  • Optimisation lourde pour ne gagner que quelques % de précisions

  • mauvaise utilisation des GPU

Pour la fin de ce cours#

Projet n°2

Soutenance entre le 03 et le 05 avril pour les IM et MI.

Vérifiez vos binômes et horaire de passage : https://codimd.math.cnrs.fr/m4cSohttSLyrAPl5Qoe5NQ

Organisation: 6 à 7 min de présentaiton en binome, suivi de quelques minutes de questions (1 question de cours et 1 sur la présentation par personne).

Et pour la suite ?#

L2 : Introduction à la science des données

  • Cours assuré par Yue Ma (MCU, LISN)

  • Apprentissage supervisé (classification + régression)

  • Apprentissage non supervisé

  • Evaluations (cross-validation par exemple)

  • Analyses statistiques (un peu plus de mathématiques même si ca restera léger)

  • TP = utilisation de sklearn.

  • Apprentissage par problème

L3: Introduction à l’apprentissage statistique

  • Cours assuré par Francois Landes (MCU, LISN)

  • Algorithme du gradient, du perceptron

  • Les bases mathématiques de l’ACP, descente de gradient

  • TD mais aussi TP avec utilisation de sklearn.

L3: Projet Optionnel de Bioinfo

  • Projet assuré par Fanny Pouyet (MCU, LISN)

  • Science des données appliquée à une problématique liée au changement climatique

  • Repose sur les données du GIEC

M1: HCI Human Computer Interaction: Computer Science and Ecology

  • Cours assuré par Emmanuelle Frenoux et Anne-Laure Ligozat

  • Estimation du cycle de vie d’objets numériques

  • Analyse d’articles scientifiques

Conclusions#

  • Cours d’initiation:

    • Observation n’est pas interprétation (l’observation est toujours possible! normalement elle ne devrait pas poser de problème)

    • identifier la question précise à laquelle on souhaite répondre c’est déjà une large partie du travail en science des données

    • Notions d’apprentissage statistiques, classificateurs, langage python

    • Recul sur l’importance du numérique et des données dans notre société

  • Vous avez récupéré des images, les avez prétraitées, analysées leur composition et vous avez produit un classificateur en python. Auriez-vous pensé faire ca dès la L1 ? Bravo !

Maintenant: QCM2