La valeur du big data pour Air France - KLM - Réalisations & Perspectives - 2 octobre 2014 CUSI Xavier Henderson xahenderson@airfrance.fr
2 Prolégomènes Statistiques, Corrélation & interprétation Fiabilité incertaine
3 Objectifs Mouvement Durable Omniprésent Illustrer les bénéfices (exemple de AFKL) Valeur et valorisation
4 Agenda 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R ANNEXES 1. Air France - KLM 2. Compléments de valorisation 3. Composants Big Data 4. Références
5 Agenda Réalisations et pistes 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R
6 Yield Management - 1 Un challenge de 3 ans de données historiques à traiter Plus de 3 Mds d événements segments PNR (3 ans) Traitement massif enregistrements (bookings) et programme (schedule) Temps de calcul ramené de 3 semaines à 2h45 Approche Big Data parallélisée Hadoop (v1,0!) & MapReduce Importance du réseau (10 Gbps) & Données partagées (NFS) Importance de la proximité données traitements Scalabilité Sources Externes Constituer Historique Operationel Reporting
7 Yield management - 2 Prévisions d annulation Une prévision fine et robuste basée sur les arbres de décision dynamique Chaque attribut du booking peut être utilisé comme variable explicative du taux d annulation Un historique utilisé de plus de 100 Millions de bookings / an, à traiter en quelques heures Estimation dynamique des relations entre les différents attributs Source: (6)
8 Projet Transform Optimisation de scenarii Programme CDG Objectifs - Réduire les correspondances courtes surtout lors des pics matinaux et en fin de journée - Réduire les coûts - Conserver l attractivité horaire du programme, voire l améliorer Travaux - Des dizaines de scenarii métiers valorisés - Reconstitution fine des possibilités de correspondance sur plus de 20 000 origines et destinations - Tenir compte de nombreux critères: haute et basse contribution - Modèles statistiques en analyses multivariées, programmation linéaire Résultat: Adaptation du programme & objectifs atteints
9 Exemples de Réflexions & Prototypes Web crawling de nos principaux clients («revue de presse automatisée») : machine learning avec supervision Objets connectés Monitoring des vols, maintenance préventive Maintenance curative Exemple: US Air Force RFID & tracking des bagages, outils, objets divers NFC: expérimentation à Blagnac Géolocalisation, ibeacons Réalité augmentée Reconnaissance vocale Analyse automatisée des questions et réclamations «voice of the customer»: aide à la décision et text-mining
10 Agenda Valeur et valorisation 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R
11 Valorisation McKinsey Santé US 0,7% croissance/an; 300Md$/an Gouvernement UE 0,5% croissance/an; 250Md$/an Données géolocalisation personnelles 100 Mds$ pour les fournisseurs 700 Mds$ pour les consommateurs Grande distribution US +60% marge nette +0,5%-1%/an productivité Industrie -50% couts de développement & assemblage -7% fonds de roulement Source: (1)
12 Valorisation IDC 1/2 Source: (2)
13 Valorisation IDC 2/2 Source: (2)
14 Comment valoriser? 1/3 S inspirer des principes comptables Biens immatériels & Biens culturels Par les bénéfices potentiels ou réalisés Approche business case / business plan S inspirer de l exemple des autres et des études mckinsey etc. Par la conviction et la foi Aspects juridiques, culturels et sociétaux très forts Mobilité dans la toile vs lois et réglementations fixées géographiquement Difficultés de mesure: par mille, par clic, par seconde Sources : (1), (2), (3), (4), (5), (9, (15), (16 ), (17), (18), (19) - pour tout ce chapitre. Voir annexe pour des compléments
15 Comment valoriser? 2/3 Nouveaux modèles existants en mutation Modèles de l économie de l attention Modèles de l économie des flux, de la diffusion Modèles de l économie de l accès (aux données etc.) Modèles autour de la sécurité Modèles autour des données privées Modèlesdes biens informationnels et culturels numériques Modèles centrés autour du citoyen vs autour du consommateur Économie du (pseudo-)gratuit freeconomics Combats entre distributeurs et producteurs L intermédiaire est le plus fort La longue traine Se décline ensuite: search marketing, behavioral marketing..
16 Comment valoriser? 3/3 Nouveaux modèles à inventer Approche holistique: - Multicritères - Selon angle d approche: économique, social, données personnelles (citoyen ou consommateur?) Ventilation selon composants et acteurs de la création à la consommation Facteur temps Importance des contextes création/temporels/consommation + réglementaire/juridique + sociétal/social + local vs international Vers une valorisation probabiliste? Le total n est pas la somme: holisme Composants subjectifs - objectifs immanents - implicites ou explicites - Composants stochastiques?
17 Agenda Facteurs de succès 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R
18 Facteurs de succès 1. Partir des besoins: stratégie & contexte extérieur 2. Impératifs de tout projet fortement innovant ET transverse Très forte gestion du changement; modèles de maturité Itérations 3. Approche holistique: Nombreux Aspects: métier, communication, changement & RH, prototypage & itérations, gouvernance de l information, capacités analytiques, juridique, architecture, infrastructure informatique, types de données 4. Rester ouvert et prudent: Nouveau paradigme Sciences puis sociétal* Corrélation n est pas causalité * Source : (10)
19 Agenda Mais! 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R Quelques bémols
20 Bémols * Source :(11) et (13) **Source :(12) Difficile de maitriser les concepts et leur fonctionnement: La connaissance, l information, le langage, la communication/transmission, les probabilités/statistiques, le chaos, l entropie* Manque de sensibilisation «données» Incorporel qui tarde a être considéré comme un actif Vols légaux ou non, fuites, pertes, négligences «Privacy by design» Manque de normes et standards au niveau mondial Télécoms Données: syntaxe, sémantique, valorisation, droit à l oubli? Légal et réglementaire: Qui est propriétaire des données? Droit à l oubli Les rythmes de changement sont (trop) rapides L humanité 2.0 ** Russian Hackers Amass Over a Billion Internet Password, NY Times mardi 5 août
21 Agenda Conclusion 1. Réalisations & pistes 2. Valeur et valorisation 3. Facteurs de succès 4. Quelques Bémols 5. Conclusion & Q/R
22 C est déjà là!
23 C est partout: là où il y a de l information Virtuel Web Géo Réel
24 Air France KLM est à bord Depuis ~2008 Réalisations & pistes d exploration tous azimuts Des compétences fortes Recherche Opérationnelle Centre de compétences BI Vision BI & big data
25 Beaucoup de potentiel Cloud Open data Web De la valeur Bénéfices Vols Envie Vie privée, vie professionnelle, vie sociale, la société, la communauté Voir toutes les références en annexe
26 Des risques Disruptif Massif Manque de compétences Vie privée* Sécurité Confusion marketing Brouillage: frontières, modèles *Voir surtout (5) (7) (18) (19) et (20)
27 Questions?
28 Agenda ANNEXES 1. Air-France KLM 2. Compléments de valorisation 3. Composants Big Data 4. Références
29 ANNEXES AIR France - KLM
30 Air France KLM Résultats 2013 Montée en gamme & relation client Source: http://www.airfranceklm.com/
31 La Recherche Opérationnelle Une vision métier transverse: Marketing, Réseau Aérien, Cargo, Personnel Navigant, Exploitation Développer des moteurs d optimisation / prévision Activité de Conseil Stratégique Des techniques à la pointe et innovantes Optimisation Combinatoire en Datamining Statistiques avancées Big data Des sujets à forte plus-value pour nos métiers Yield management Prévisions de recette Passager/Cargo, Etudes Stratégiques
32 Le Décisionnel Un Centre de compétence DGSI unique Développer des solutions Activité de Conseil Une couverture fonctionnelle large & une utilisation importante 80% activités et domaines 8000 utilisateurs et + Une forte évolutivité Vers le quasi-temps réel, vers le big data, vers l analyse prédictive et prescriptive Forte plus-value pour nos métiers
33 ANNEXES COMPLEMENTS DE VALORISATION
34 Autres pistes de valorisation de la donnée Selon typologie contributeur* Producteur (humain, machine, processus) - Matière brute Manipulateur/Transformateur/Agrégateur - Produit avec valeur ajoutée Fournisseur/Transporteur/Éditeur/Courtier - Peut être à plusieurs étapes Analyste/Interprète/Mise en forme/synthèse Consommateur/Décideur/Interprète/Action Gains différenciés selon secteur**: industrie, finance, assurance, santé, télécoms, Stés du Web, Stés TIC, media, surveillance, gouvernement Gains différenciés selon région et selon stade de développement industriel & post industriel** *Sources: (1), (3), (4) & travaux personnels **Sources: (1) et (2)
35 Plus value apportée par le big data au royaume uni Gains de productivité par secteur Plus de 40 Md annuels en 2017 Source (16)
36 Benchmark de données Source (5)
37 Chaine de valeur Source (5)
38 Pour tester la valeur de données personnelles Source (5)
39 Exemples d applications Source (21)
40 ANNEXES COMPOSANTS
41 Composants d une architecture Big Data (IBM) Sources Techniques Device Logs Données Traditionnelles Données Externes Ingestion and Real-time Analytic Zone Ingest Filter, Transform Correlate, Classify Ingest Extract, Annotate Landing & Historical Analytic Zone Analytics MapReduce Documents In Variety of Formats Hive/HBase Col Stores Indexes, facets Models Data Sinks Data Management Warehousing Zone Data Warehouse Analytics Appliance Data Marts Governance & Integration Zone Analytics and Reporting Zone Query Engines Cubes Descriptive, Predictive Models Discovery, Visualizer Search MDM, Metadata, Workbench, Intégration BI / Reporting Exploration / Visualization Functional App Industry App Predictive Analytics Content Analytics Analytic Applications Source : IBM Solconnect13 (2013)
42 Composants d une architecture Big Data (Teradata - source Teradata) Base données TERADATA HADOOP Base données ASTER
43 Architecture logique Source (21)
44 ANNEXES REFERENCES directes utilisées dans ce dossier
45 Références dossier (1) Big data: the new frontier for innovation, competition and productivity - James Manyaka, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers - McKinsey Global Institute - may-june 2011 (2) Collecter les 54 milliards d euros de bénéfices issus des nouveaux usages de la donnée - Sébastien Lamour Livre blanc IDC - mai 2014 (3) Big data comes of age Barry Devlin, Shawn Rogers, John Myers - EMA and 9sight consulting research report - Nov 2012 (4) Operationalizing the Buzz: Big Data 2013 - EMA and 9sight consulting research report - Nov 2013 (5) Comportements culturels et données personnelles au coeur du Big data EY (Ernst & young), Forum d Avignon 2013 (6)At the Big Data Crossroads: turning towards a smarter travel experience - Thomas H. Davenport & Amadeus 2013 (7) Big Data: Seizing Opportunities, Preserving Values - Executive Office of the President (NDLR: of the USA) May 2014 (8) Unlocking Machine Generated Data Barry Devlin - 9sight consulting research report - Sept 2013 (9) Big & Open Data in Europe Warsaw Institute for Economic Studies (WISE Institute) & Demos Europa Sonia Bucholtz,, Maciej Bikowski, Alexander Sniegocki Jan 2014 (10) The Fourth Paradigm: data intensive scientific discovery - Jim Gray (Turing 98), Tony Hey (VP Microsoft Research Connections) Site Microsoft & édition papier oct 2009 (11) Système 1, Système 2, les deux vitesses de la pensée Daniel kahneman (Nobel économie) Sept 2012 (12) Humanité 2.0 La bible du changement Ray Kurweil août 2007 (titre anglais: «The singularity is near») (13) Théorie mathématique de la communication Claude Shannon, Warren Weaver 1975 (1948) (14) L analogie cœur de la pensée Douglas Hofstadter, Emmanuel Sander - 2013 (15) l économie de l attention Emma Bester, doctorat CNAM, Cléo revue.org 2010 (16) Data equity unlocking the value of big data Cebr report for SAS April 2012 (17) IBM a collection of big data success stories IBM - 2012 (18) Big data: its power and perils - IMA & ACCA - Nov 2013 (19) Economie numérique et vie privée Emmanuel Kessous & Bénédicte Rey Hermès 2009 (20) Big data and privacy: a technological perspective - - Executive Office of the President (NDLR: of the USA) May 2014 (21) The Massachusetts Big Data Report, a Foundation For Global Leadership MACP - 2014
46 ANNEXES REFERENCES «Données»
47 Références Sites Web «données» 1/3 Réseaux sociaux - Nombreux groupes linkedin, Facebook etc Sites de SSII et de grands éditeurs (IBM, Oracle, Teradata, SAS) dont Informatica, SAS, Business Objects, Microstrategy, Pentaho, Qlikview, Tableau Souvent une version française est disponible Sites d auteurs (cf diapo auteurs, par ex www.billinmon.com ) Google scholar Pour big data: Les grands noms de la BI et du DW, Alteryx, Attivio, Cloudera, Couchbase, Greenplum, Hortonworks, Karmasphere, Lavastorm, MapR, Mongo, Salesforce, Splunk, Vertica, Aster, Les précurseurs: Google, Amazon, Yahoo, Facebook Académies http://www.datasciencecentral.com/ Toutes ces sources sont précieuses
48 Références Sites Web «données» 2/3 MOOC (Massive Open Online Courses) http://www.ocwconsortium.org/ Open Courseware déclinable sur plusieurs universiés http://www.ted.com/ Ted http://www.ed-online.com.my/ Ed online https://www.coursera.org/ Coursera http://fr.slideshare.net/ Slideshare http://openstudy.com/ Open Study http://www.desire2learn.com/ Desire2learn http://www.desire2learn.com/ Knewton Sites Blackboard (dont nombreuses institutions françaises), Grockit, etc. Youtube Académies et universités: Oregon, MIT, Stanford, Oklahoma, Arizona, Arkansas, Carnegie-Mellon, St Gallen http://mitiq.mit.edu/mitiq/mitiq.aspx http://ualr.edu/informationquality/ et beaucoup d autres Toutes ces sources sont précieuses
49 Références Sites Web «données» 3/3 Sites (white paper, webinars, entretiens, podcasts, de nombreux blogs et Expert Channel http://www.b-eye-network.com http://www.information-management.com/ http:// www.tdan.com http:// www.tdwi.org (aussi BI Journal, What Works..) http://www.infogovcommunity.com/ http://www.dataversity.net/ http://www.aiim.org/ http://www.gfalls.com/ http://bloorgroup.com/ (inside analysis, white papers, The briefing room) http://www.information-management.com/ (DM Radio) http://www.eiminstitute.org/ http://mike2.openmethodology.org/ http://www.datagovernance.com/ http://www.dama.org/ http://dataqualitypro.com/ https://www.sei.cmu.edu/ http://www.iaidq.org/ http://www.datablueprint.com/ http://searchbusinessanalytics.techtarget.com/es sentialguide/guide-to-big-data-analytics-toolstrends-and-best-practices The MDM institute (Aaron Zornes) http:// www.decideo.fr/ (français) http://www.cxp.fr (français) http://www.gouvinfo.net/ et http://www.gouvinfo.org/ (français) http://exqi.asso.fr/ (français) Les sites les plus riches sont en gras
50 Références Auteurs «données» Douglas Adams Markus Helfert Jack E. Olson Sid Adelman Jim Harris Boris Otto Peter Aiken Cindi Howson Dan Power D. P. Ballou Claudia Imhoff Don Peppers & Martha Rogers Carlo Battini W. H. Inmon Platon Laure Berti-Equille Dylan Jones Thomas C. Redman Robin Bloor J. M. Juran Graham Rhind Michael H Brackett Ralph Kimball Philip Russom W.E. Deming John Ladley Steve Sarsfield Barry Devlin Julie Langenkamp Monica Scanapiecca Delphine Clément Henrik Liliendahl Sørensen Robert Seiner Jill Dyché David Loshin G. Shankaranarayan Larry P. English Danette McGilvray William Sharp M. J. Eppler William McKnight Phil Simon Jim Ericson Mark Mosely Chris Sorensen John Evans Larissa Moss John R. Talburt Thomas H. Davenport Daragh O Brien Gwen Thomas Wayne Eckerson Ken O Connor Richard Y Wang Michele Goetz Colin White Aaron Zornes Mes auteurs préférés sont en gras. Et bien d autres