Résumé étendu#

Souveraineté technologique#

Dans sa réponse au rapport public annuel de la cours de comptes du 27/02/2020 sur « Les infrastructures numériques de l’enseignement supérieur et de la recherche », le président de l’Inria pointait du doigt l’importance des outils type « Jupyter notebook » pour l’enseignement des sciences:

D’autant qu’aux offres Cloud étrangères susmentionnées sont classiquement associées des services proposés gratuitement pour améliorer l’environnement de travail des utilisateurs, services qui ces derniers relativement captifs. Il s’agit d’applications peu connues du grand public, comme par exemple des services très pratiques de type Jupyter notebook pour programmer directement dans un navigateur web en Julia, Python ou R (cf. Colaboratory de Google). Quand on sait l’importance de ces outils dans le domaine du machine learning, et plus généralement pour les sciences des données, on comprend qu’il y a un enjeu de souveraineté à ce que nos étudiants et chercheurs aient accès à des Jupyter notebooks hébergés dans des clouds académiques français : une fois que l’habitude est prise d’utiliser des services de firmes étrangères faute d’alternatives nationales ou européennes convaincantes, il devient très difficile de changer les pratiques, et ce sont des générations entières d’étudiants qui s’habituent à partager leurs données et leurs codes avec des entreprises étrangères, et qui adoptent leurs standards.

Cette dépendance aux solutions propriétaires des GAFAM pour les déploiements à l’échelle de solutions basées sur Jupyter est tout aussi problématique pour les entreprises françaises et européennes où l’écosystème Jupyter est très largement adopté, et ce dans de nombreux secteurs, de l’industrie à la finance (voir les témoignages ci-dessous).

Les développements réalisés pour Candyce vont favoriser la souveraineté technologique en consolidant le tissu économique autour de Jupyter, déjà largement constitué en France, et en essaimant dans tout l’écosystème. Les développements réalisés pour Candyce, publiés sous une licence open-source, favoriseront notamment les déploiements au sein des entreprises françaises, petites et grandes, qui bénéficieront ainsi d’une véritable plateforme de collaboration offrant autant ou plus de flexibilité que les solutions des GAFAM.

De plus Candyce permettra de former les étudiants avec un environnement qu’ils retrouveront quotidiennement plus tard dans leurs études et dans la vie active. Ainsi, les compétences qu’ils auront acquises en termes d’usage et de bonnes pratiques seront directement transférables hors de ce contexte pédagogique.

Le projet Candyce#

Nous proposons le développement et le déploiement d’une plateforme nationale basée sur Jupyter pour :

  • le lycée et les établissements d”enseignement supérieur,

  • et comme solution souveraine liée aux projets de Plateforme des Données de l’Éducation et de Data Space Européen pour l’éducation.

Nous expérimenterons également l’usage de cette infrastructure pour les classes inférieures (collège et primaire).

Cette solution pourra être valorisée immédiatement pour l’enseignement des matières centrées sur le calcul (programmation, science des données, calcul scientifique, mathématiques…) puis sera diffusée auprès des autres communautés pédagogiques pour lesquelles l’utilisation de cette plateforme présente des intérêts pour l’apprentissage de leurs disciplines ou pour développer les compétences de leurs apprenants.

Pour le domaine scolaire, cette plateforme, intégrable aux ENT ou LMS (sur la base de LMS Moodle comme ELEA) doit permettre une identification sur SSO s’appuyant sur EduConnect et utiliser les annuaires de gestion de classe de l’Éducation Nationale pour en faciliter l’accès et l’usage.

Pour le domaine universitaire, cette plateforme, intégrable aux ENT ou LMS (sur la base de LMS Moodle, CANVAS, Chamilo, Claroline Connect, WordPress Learn Dasch, …) doit permettre une identification sur SSO s’appuyant sur les protocoles existants dans les universités (OAuth2.0, OpenID Connect, …) et utiliser les annuaires de gestion de groupe pour en faciliter l’accès et l’usage.

La plateforme se veut une solution plus complète que le patchwork de déploiements actuels de Jupyter dans les différents établissements, universités et académies. Candyce devrait réduire le recours aux solutions des GAFAMs comme Google Colaboratory ou AWS Sagemaker, et permettre le déploiement d’une plateforme souveraine, portée par un opérateur national ou par un acteur privé avec une délégation de service.

Ce développement sera effectué en collaboration avec QuantStack, qui compte les principaux développeurs de Jupyter en Europe et qui a à son actif plusieurs déploiements locaux de JupyterHub (à l’Université de Paris, au CNAM, à l’Inria, et de nombreuses sociétés privées), et OVH qui a déjà intégré une plateforme basée sur Jupyter à son offre de service pour les Data Science et co-maintient le déploiement de MyBinder.

Ce déploiement de Jupyter offrira notamment :

  • Des fonctionnalités d”édition collaborative (similaire à Google Docs), permettant aux enseignants de travailler de façon plus interactive avec les élèves.

  • La mise en conformité des interfaces de Jupyter en termes d”accessibilité (par exemple pour des étudiants malvoyants qui utilisent des lecteurs d’écrans).

  • La mise en place d’outils d”évaluation automatique de notebooks, permettant aux élèves et aux étudiants de tester leurs connaissances ou de mettre en place des corrections automatisées d’un grand nombre de « copies ».

  • Une intégration fine aux systèmes de gestion de classes, via un système RBAC (Role-Based Access Control) permettant à un utilisateur d’être reconnu comme un étudiant pour certains modules et comme un enseignant pour d’autres (comme des doctorants moniteurs effectuant des travaux dirigés), et permettant de préserver son compte utilisateur et son identité numérique tout au long de son parcours.

  • Une flexibilité importante permettant aux enseignants de choisir les paquets logiciels mis à disposition des élèves pour un cours ou un examen, basée sur un principe proche de MyBinder.org.

  • Une architecture élastique permettant d’adapter les ressources Cloud immobilisées par la plateforme au nombre d’utilisateurs connectés (comme c’est le cas actuellement pour le service MyBinder, et les déploiements élastiques de JupyterHub).

  • Un service interopérable avec les LMS existants (comme Moodle), adoptant plusieurs standards d’interopérabilité comme LTI 2.0 pour l’échange de données personnalisées et TinCan xAPI ou Caliper pour ce qui concerne le recueil de traces d’apprentissage permettant de faire des learning analytics et proposer de futurs dispositifs de recommandation.

  • Des outils de télémétrie permettant aux étudiants de mesurer leur propre usage de la plateforme et aux professeurs de visualiser les données correspondant aux contenus qu’ils ont partagés avec leurs élèves. Enfin, une version agrégée de ces données pourra être collectée à des fins d’amélioration de la plateforme, et abondée aux données de la Plateforme des Données de l’Éducation (avec une granularité à définir) à des fins de recherches.

  • La possibilité d’utiliser des environnements « pur front-end » (basé sur la technologie WebAssembly et sur le projet JupyterLite), sans connexion à un serveur pour l’exécution de code, pour les environnements les plus simples.

  • Au-delà de l’initiation à la programmation, la possibilité pour les enseignants de créer des tableaux de bord interactifs basés sur l’outil « Voilà Dashboards » leur permettant de partager avec leurs étudiants des applications éducatives (illustrations interactives de concepts mathématiques, visualisations de données géographiques).

  • Le développement de nouvelles activités de recherche autour des méthodes pédagogiques permises par la plateforme, comme des approches type « classe inversée », la recherche en didactique des sciences (en particulier des sciences informatiques), la recherche sur les « learning analytics », la recherche sur la création de nouvelles formes de coopération et d’interaction Homme-Machine et la conception de nouvelles générations de manuels scolaires intelligents. Les tests utilisateurs sur les cohortes d’enseignants et d’apprenants, ainsi que les données collectées seront autant d’outils pour produire de nouveaux résultats de recherche construits sur le retour effectif d’usage des apprenants et enseignants, et donc aptes à fournir des solutions correspondant à leurs besoins.

Nous suivrons les principes suivants dans la construction de la plateforme :

  • Dès les premières itérations de sa conception, la plateforme sera co-construite avec la communauté d’enseignants ayant déjà travaillé sur des déploiements de Jupyter pour l’enseignement en France, dans le secondaire et le supérieur.

  • La solution étant entièrement basée sur des briques logicielles open-source (dans les écosystèmes de Jupyter, Conda-forge), les évolutions apportées à ces composants seront directement disponibles pour les autres utilisateurs de ces projets. Au-delà des contributions aux briques sous-jacentes, la plateforme elle-même sera mise à disposition de la communauté via une forge ouverte, permettant les contributions de tiers, et offrant un apport significatif non seulement pour notre cas d’usage, mais aussi pour l’ensemble de l’écosystème économique utilisant cette technologie, très implantée en Europe.

  • L’infrastructure développée devra être extensible et interopérable. Une architecture modulaire, basée sur des standards d’interopérabilité, et une spécification formelle des points d’extensions facilitera l’adoption de l’infrastructure dans d’autres contextes.

  • La politique de protection des données devra être exemplaire dans son application des principes de proportionnalité, confidentialité, et de finalité de toute collecte des données utilisateurs.

  • L’ensemble du projet fera l’objet d’une vigilance particulière sur l’axe de l’étude et de la réduction de ses impacts environnementaux. La contribution des outils et services numériques dans les impacts humains sur l’environnement n’est plus à démontrer, et il est désormais indispensable d’appliquer dans un projet de cette envergure les grands principes d”écoconception de services numériques. Pionnier en la matière, Candyce sera également l’occasion de développer, agréger et partager des outils pour accompagner la démarche méthodologique, transposables à d’autres projets multipartenaires de mise en place de services numériques écoconçus.

L’enrichissement de l’expérience d’apprentissage à travers le numérique devient un standard, tant pour renforcer l’interactivité que l’implication et la collaboration. Le format notebooks devient un incontournable de cette expérience, comme le montre les nombreuses solutions émergentes déployées par les géants américains du numérique et déjà intégrées à certaines suites logicielles dédiées à l’éducation et à l’analyse de données scientifiques.

Cette émulation autour du sujet est le signe non seulement de son importance, mais de l’urgence d’agir pour ne pas créer une nouvelle dépendance numérique forte envers l’outre-Atlantique. En s’appuyant sur une solution open-source réputée comme Jupyter, en l’enrichissant des évolutions qui seront faites dans le cadre de Candyce, la France affirme non seulement sa volonté de souveraineté dans l’outillage de ses systèmes éducatifs et scientifiques, mais prépare également le terrain pour porter à l’échelle européenne une telle plateforme mutualisée dont bénéficieront chercheurs et étudiants de toutes les disciplines.