organisation ue donnees massives´

14
Organisation de l’UE Donn ´ ees Massives M2 MAS - MSS & CMI ISI Organisation UE Donn ´ ees Massives er´ emie Bigot & Adrien Richou UFMI, Institut de Math ´ ematiques de Bordeaux - Universit´ e de Bordeaux Master MAS-MSS & CMI ISI Universit ´ e de Bordeaux

Upload: others

Post on 17-Jun-2022

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Organisation UE Donnees Massives

Jeremie Bigot & Adrien Richou

UFMI, Institut de Mathematiques de Bordeaux - Universite de Bordeaux

Master MAS-MSS & CMI ISIUniversite de Bordeaux

Page 2: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Deroulement de l’UE

UE qui compte pour le 2eme semestre du M2, mais qui se derouled’octobre a fevrier - Principales etapes (rouge = notees) :

1 Octobre-Novembre : introduction aux algorithmes stochastiquespour l’apprentissage statistique en grande dimension

modele lineaire, regression logistique, reseaux de neuronesprofonds (deep learning)

2 Octobre - Debut Janvier : Defi IA 2022 - Competition etudianteen science des donnees - applications du “machine learning”

3 De mi-Janvier a fin-Janvier :Big Data, Hadoop et Mapreduce - La statistique a l’ere du stockagedistribue de donnees et notions indispensables au Data ScientistProjet algorithmes stochastiques pour donnees massives

4 Fevrier : projet Open Data (donnees ouvertes)

Page 3: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Deroulement de l’UE

Langage de programmation impose : Python (utilisation pour lascience des donnees)

Utilisation de Notebook Jupyter - Distribution Anaconda ou viaGoogle Collaboratory (outil permettant leur execution sur desserveurs Google equipes de GPU)

Seances en salle machine au CREMI - possibilite d’utiliser sonordinateur personnel

Octobre-Decembre : seances de cours et suivi du Defi IA 2022de 9h30 a 12h20 le vendredi matin

Janvier - Fevrier : plusieurs seances par semaine et travailpersonnel a temps plein sur l’UE (projets algorithmesstochastiques et Open Data)

Page 4: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Defi IA 2020-2021

https://www.kaggle.com/c/defi-ia-insa-toulouse/

L’edition 2020-2021 du Defi IA portait sur le NLP (Natural LanguageProcessing) dont l’objectif etait d’attribuer automatiquement la bonnecategorie d’emploi a une description de poste (probleme declassification a 28 classes).

Page 5: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Defi IA 2021-2022

Competition etudiante (Universites et ecoles d’ingenieur enFrance et en Afrique) en science des donnees organisee parl”Enseeiht (Toulouse) et Meteo France

Theme en 2022 : prediction du cumul de pluies sur des stationsd’observations

Quelques dates :

date de demarrage du concours le 7 octobre 2021date de cloture du concours le 20 janvier 2021date butoir pour les soumissions des predictions des participants le9 janvier 2022

Page 6: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Defi IA 2021-2022

Journee de lancement (presentiel a Toulouse + en ligne et enregistre)le jeudi 7 octobre

14h Accueil, Sixin Zhang

14h10 : Gwennaelle LARVOR

Presentation du sujet du challenge : predire le cumul de pluies surdes stations d’observations

Presentation des activites du Laboratoire d’Intelligence Artificielle(Lab IA) de Meteo-France

15h-15h20 : Max Halford : Manipuler des donnees ephemeresavec git

15h20-15h30 : Questions et resume

Page 7: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Donnees massives?

Une definition imprecise... mais que l’on peut tenter de discuter !

Page 8: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Exemple de donnees de taille modeste

Jeu de donnees dit de “prostate” 1

Donnees issues d’une etude qui analyse la correlation entre le niveaud’un antigene specifique a la prostate (proteine fabriquee par laprostate) et un nombre p = 8 de mesures cliniques chez n = 97hommes qui sont sur le point de subir une operation de la prostate.

Problematique : determiner les relations qui existent (ou pas) entrele niveau de l’antigene et les differentes mesures cliniques

1. Source : R package ElemStatLearn - Donnees issues de l’article :

Stamey, T.A., Kabalin, J.N., McNeal, J.E., Johnstone, I.M., Freiha, F., Redwine, E.A.and Yang, N. (1989). Prostate specific antigen in the diagnosis and treatment ofadenocarcinoma of the prostate : II. radical prostatectomy treated patients, Journal ofUrology 141(5), 1076-1083.

Page 9: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Exemple de donnees de taille modeste

Donnees de “prostate” : tableau avec 97 lignes et 9 colonnes dont lessignifications (en Anglais) sont les suivantes :

lcavol log(cancer volume)lweight log(prostate weight)age agelbph log(benign prostatic hyperplasia amount)svi seminal vesicle invasionlcp log(capsular penetration)gleason Gleason scorepgg45 percentage Gleason scores 4 or 5lpsa log(prostate specific antigen) - Variable a expliquer

Remarque importante : tableau qui peut facilement se stocker enmemoire dans R ou Python !

Page 10: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Modelisation statistique

Observations : (Y1,X1), . . . , (Yn,Xn) avec

Yi ∈ R (variable reponse) et Xi ∈ Rp (variables explicatives),

pour tout 1 ≤ i ≤ n

Pour tout 1 ≤ i ≤ n, les composantes du vecteurXi = (X(1)

i , . . . ,X(p)i ) sont les mesures observees des p variables

pour le i-eme individu

Quelle relation estimer entre Yi et les p variables X(1)i , . . . ,X(p)

i ?

Page 11: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Le modele lineaire en statistique

Modelisation lineaire : il est suppose que

Yi =

p∑j=1

θjX(j)i + εi, pour tout 1 ≤ i ≤ n,

ou θ1, . . . , θp sont des parametres inconnus a estimer, etε1, . . . , εn sont des variables aleatoires (typiquement iid etcentrees) qui representent un bruit additif

Modele lineaire sous forme vectorielle/matricielle :

Y = Xθ + ε

avec Y ∈ Rn, X ∈ Rn×p et ε ∈ Rn

Page 12: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Le modele lineaire en statistique

Principe de minimisation des des moindres carres qui conduit aprendre

θ = (XtX)−1XtY,

comme estimateur du vecteur de parametres θ, sous l’hypothese que

la matrice XtX de taille p× p soit inversible

mais egalement (et l’on en parle peu...)

que le calcul numerique de θ soit faisable sur votre ordinateur !

Donnees de “protaste” : n = 97 et p = 8 - Cadre de la statistique du20eme siecle...

Page 13: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

ILSVRC Challenge (2010) 2

Probleme de classification d’images - Apprentissage : n > 106

images de taille p ≈ 400× 400 > 105 pixels (variables explicatives)labellisees - 1000 classes (variable reponse) et test sur 150 000images

2. Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012)

Page 14: Organisation UE Donnees Massives´

Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI

Alors les donnees massives?

Constat : explosion du stockage des donnees depuis une dizained’annees, et niveau croissant ( ?) de difficulte d’analyse statistique.

Dans le cadre n individus et p variables :1 tableau de donnees que l’on peut stocker en memoire et calcul

matriciel usuel sur l’ensemble des donnees possible en tempsraisonnable via R ou Python (par exemple)

2 donnees que l’on ne peut pas stocker en memoire et/ou calculmatriciel usuel impossible en temps raisonnable surl’ensemble des donnees - Solution = algorithmes stochastiques

3 donnees impossibles a stocker sur un seul ordinateur - versle stockage distribue des donnees et calcul distribue - Solution =Hadoop et Mapreduce !

4 donnees massives, non-structurees et en flux - Bien au dela del’ambition de cette UE !