Données numériques: une jungle à défricher - CNRS

Données numériques: une jungle à défricher - CNRS - Revenir à l'accueil

Carte représentant les maladies de 7,2 millions d'Américains

"Comment trier et analyser les masses de données numériques que notre société en général, et la science en particulier, génèrent ? Les scientifiques sont sur le pied de guerre."

Lire la suite :

https://lejournal.cnrs.fr/articles/donnees-numeriques-une-jungle-a-defricher

Voir également :

[TXT]

 Big-DATA-effet-de-mo..> 20-Dec-2014 17:28  8.2M

[TXT]

 Big-Data-Alchemy-Cap..> 20-Dec-2014 17:57  8.1M

[TXT]

 Big-Data-Analyse-des..> 20-Dec-2014 17:28  8.2M

[TXT]

 Big-Data-Big-Data-Fo..> 21-Dec-2014 11:00  1.4M

[TXT]

 Big-Data-Charte-ethi..> 21-Dec-2014 10:38  4.7M

[TXT]

 Big-Data-Comportemen..> 21-Dec-2014 10:35  1.4M

[TXT]

 Big-Data-Comportemen..> 21-Dec-2014 10:38  4.6M

[TXT]

 Big-Data-French-Japa..> 21-Dec-2014 10:35  1.4M

[TXT]

 Big-Data-Institut-Lo..> 20-Dec-2014 18:00  8.2M

[TXT]

 Big-Data-Introductio..> 20-Dec-2014 17:53  4.1M

[TXT]

 Big-Data-L-ecosystem..> 21-Dec-2014 10:36  1.3M

[TXT]

 Big-Data-La-Chaire-A..> 20-Dec-2014 17:54  4.0M

[TXT]

 Big-Data-Le-big-data..> 20-Dec-2014 18:09  4.5M

[TXT]

 Big-Data-Le-defi-MAS..> 21-Dec-2014 11:00  1.5M

[TXT]

 Big-Data-Les-cahiers..> 20-Dec-2014 18:00  8.3M

[TXT]

 Big-Data-MASTODONS-U..> 21-Dec-2014 10:37  2.3M

[TXT]

 Big-Data-Mastere-Spe..> 20-Dec-2014 17:29  8.1M

[TXT]

 Big-Data-Synthese-du..> 20-Dec-2014 17:53  4.1M

[TXT]

 Big-Data-TACKLING-TH..> 20-Dec-2014 17:54  4.0M

[TXT]

 Big-Data-Telecharger..> 20-Dec-2014 18:09  4.4M

[TXT]

 Big-Data-Un-etat-des..> 20-Dec-2014 18:07  4.5M

[TXT]

 Big-Data-Une-approch..> 21-Dec-2014 10:37  2.3M

[TXT]

 Big-Data-Une-approch..> 21-Dec-2014 11:00  1.4M

[TXT]

 Big-Data-et-Graphes-..> 21-Dec-2014 10:36  2.3M

[TXT]

 Big-Data-un-Master-c..> 20-Dec-2014 18:07  4.5M

[TXT]

 White-paper-Big-Data..> 20-Dec-2014 17:57  8.1M

Big Data, Centre de données, stockage de données

Big Data, la déferlante des octets

"D’Internet aux grands instruments de recherche, le volume mondial des données numériques ne cesse d’augmenter. Comment les classer, les stocker, leur donner un sens ? Autant de défis relevés en ce moment même par les scientifiques. Plongez dans l’effervescence du phénomène Big Data."

Lire la suite : https://lejournal.cnrs.fr/dossiers/big-data-la-deferlante-des-octets

https://lejournal.cnrs.fr/dossiers/big-data-la-deferlante-des-octets

07/10/13 1 1 Mastodons Une approche interdisciplinaire des grandes masses de données (Big Data) Mokrane Bouzeghoub DAS INS2I / MI Sommaire • Par$e 1 : Enjeux et probléma$ques des masses de données • Par$e 2 : Le défi Mastodons • Par$e 3 : Focus sur quelques projets 07/10/13 2 Deux constats • La collecte, la produc$on et la dissémina$on à grande échelle de données sont devenues des « réflexes » de la société numérique – Systèmes d’observa$on Espace/Terre, Expérimenta$ons scien$fiques, Simula$on, Réseaux sociaux, … – Déluge de données (Big Data) dont l’amplitude est inimaginable il y a qq années encore. • Le traitement efficace de ces données défie les modèles classiques de calcul, de stockage, de communica$on et d’explora$on des données – Comment analyser ces données, les interpréter et les valoriser en connaissances scien$fiques ou sociétales ? – Quelles avancées technologiques, architecturales et algorithmiques permeZent de répondre à ces défis ? Deux grandes questions • La science est-elle dans les données ? – La valeur de ces données réside dans les indicateurs, les paZerns et les règles/lois qui peuvent en être dérivés (connaissance) – Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que) – Les données peuvent être source de plus-value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité) • Les données nous parlent-elles de notre société ? – Nous disent-elles quelque chose que nous ne sachions déjà ? – Diront-elles quelque chose de nous aux généra$ons futures ? – Ont-elles une objec$vité en elles-mêmes ou sont-elles biaisées par des transforma$ons subjec$ves ? 07/10/13 3 Vers un 4e pilier de la science La disponibilité de très grandes masses de données et la capacité de les traiter de manière efficace est en train de modifier la manière dont nous faisons de la science • 1. Science empirique : observa$ons de phénomènes naturels, évalua$on de faits mesurables, extrac$on de lois générales par raisonnement induc$f • 2. Science théorique : cadre de travail offrant des modèles (mathéma$ques) pour comprendre un certain univers • 3. Science computa$onnelle : simula$on de phénomènes complexes pour comprendre ou valider des théories • 4. Science des données: collecte massive de données et traitement pour en extraire des connaissances nouvelles Qu’est-ce qu’une (très grande) masse de données ? VLDB XLDB Big Data Very Big Data Massive Data Data Deluge Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, …07/10/13 4 Exemple 1 : Linked Open Data Ex: Link Open Data Initiative Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web L’effet “Big Data” ne résulte pas seulement du volume, mais aussi de la mul$plicité des sources et des liens reliant les données entre elles . Exemple 2 : Domaines scientifiques – Observatoire Virtuel / Sloan Digital Sky Survey ü Km2 Télescope : 140 terabytes / 5 jours – Grilles de données ü WLCG du LHC (env 25PB/an) – Génome ü GenBank (Nucleotide): taille doublée tous les 10 mois – Réseaux sociaux ü ex: Facebook, 40 milliards de photos – Open Data (gouvernemental)07/10/13 5 Autres domaines générateurs de grandes masses de données • Commerce et les affaires – SI d’entreprise, Banques, transactions commerciales, systèmes de réservation, … • Gouvernements et organisations – Lois, réglementations, standards, infrastructures, …. • Loisirs – Musique, vidéo, jeux, réseaux sociaux… • Sciences fondamentales – Astronomie, physique et énergie, génome, … • Santé – Dossier médical, sécurité sociale,… • Environnement – Climat, dév durable, pollution, alimentation,… • Humanités et Sciences Sociales – Numérisation du savoir (littérature, histoire,art, srchitectures), données archéologiques… Les applications opérant sur des grandes MdD • Applications d’analyse – Pas de mises à jour, pas de transactions ü OLAP, BI ü Fouille de données ü Apprentissage • Applications scientifiques explorant des domaines inaccessibles à la théorie et à l’expérimentation – Évolution de l’univers – Crash test de véhicules – Prédiction des changements du climat… – …07/10/13 6 La complexité du Big Data est multidimensionnelle (V3) VOLUMETRIE VARIETE VELOCITE • Nombre d’a5ributs/ variables • Nombre d’occurrences/ objets • Fréquence d’acquisiBon des données • Volume des méta données, annotaBons, indexes • Nombre de sources de données • Degré de réplicaBon des données • Volume de données déplacé par les requêtes ou les calculs • Données structurées : Tableaux, Objets (données, codes) • Données semi/nonstructurées : Documents (XML), ressources (RDF) • Données mulB-média : Images, audio, vidéo • Autres données : Graphiques, diagrammes, Séries temporelles, Flux de données / événements • Diversité des modèles et des formats • Diversité des plateformes • Calcul « temps réel » sur des données arrivant en flux • ExécuBon de modèles complexes en simulaBon • Aide à la décision à large échelle (Big Data AnalyBcs) • … La complexité du Big Data est multidimensionnelle (V3) • La Volumétrie – C’est l’axe le mieux maîtrisé aujourd’hui ü par l’uBlisaBon de fermes de PC en Cloud ü par des gros serveurs, (souvent disponibles en open source) chez les pionniers du web (Google, Facebook, eBay, Amazon) • La Variété – la principale source de la « Valeur » ü Par la diversité des contenus ü par le croisement des données mulB-sources – Axe mal maîtrisé encore ü Forte hétérogéneité des formats et des données (sémanBque) • La Vélocité – Défi des nouvelles architectures de calcul et de communica$on ü Modèles de calcul parallèle et distribué ü Réseaux très haut débit ü IndexaBon sémanBque, contextualisaBon07/10/13 7 Fonctions classiques de gestion de données • Traditionnellement regroupées au sein du’n SGBD (offre intégrée) – Un panel riche de produits: Oracle, DB2, SQL Server, MySQL… • Fonctions de base – Fonctions de stockage et d’indexation – Langage de requêtes déclaratif + imbrication dans un langage de programmation – Réécriture et optimisation de requêtes – Cohérence logique et transactionnelle – Connectivité avec d’autres systèmes • Fonctions avancées – Triggers et règles actives – Opérateurs et requêtes OLAP (Cube) – Prise en compte de préférence et requêtes flexibles Nouvelle tendance • Fin de l’ère « One Size Fits All » – Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d’application/type de données • Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents – les fonctions de gestion de données sont enfouies dans des systèmes à plus forte valeur ajoutée (services métiers, process de haut niveau) • La gestion de données: une offre de services web – On n’achète plus un SGBD mais des services Web opérant sur des sources locales ou distribuées – Les services de gestion de données sont sous-jacents au Cloud/Grid07/10/13 8 Les grands challenges dans la gestion des masses de données • La virtualisation du stockage et de l’accès (Grid, Cloud) • L’intégration de données (interopérabilité, médiation, entreposage, • La RI personnalisée et contextualisée • L’analyse complexe à grande échelle • La qualité et protection des données • La visualisation/navigation des masses de données • La préservation des données • …. Challenge 1 : ‘Cloud’ ou Virtualisation du stockage • Bénéfices du Cloud – Pas d’infrastructure à acquérir ni à gérer – Stockage massif de données (à moindre coût) – Accès anytime – anywhere via Internet – Qualité de service – Elasticité • Problèmes scientifiques – Indexation intelligente (sémantique) – Calcul haute performance (//, MapReduce) – Sécurité et Confidentialité (privacy) – Cohérence (réplication) – Préservation des données à Marché gigantesque (100 milliard $ en 2011 selon Merrill Lynch) D C Time R D C R07/10/13 9 Challenge 2 : L’intégration de données • Sémantique des données – Schéma virtuel vs Absence de schémas • Très grande hétérogénéité (Data Space) – Données de capteurs et données de production – Données exactes et données floues/ incomplètes • Sensibilité au contexte et aux préférences – Ethique (« Hippocratic data integration ») • Variabilité – Dynamicité des sources (évolution des mappings) – Données et mappings probabilistes Challenge 3 : Recherche d’information personnalisée et contextualisée • Contexte Web – Réduire la surcharge informationnelle en tenant compte : ü Des préférences utilisateur et du contexte de requêtage ü Apprentissage des profils et contextes • Découverte de ressources complexes – Documents structurés, graphes, images… – Algos d’appariement d’objet complexes • Agrégation d’objets – Construire une réponse cohérente et complexe ü Composition de services Web07/10/13 10 Challenge 4 : Analyse complexe à grande échelle • Analyse en temps réel de flots continus de données émanant de différentes sources – Ex: Découvrir et comprendre les patterns caractéristiques du comportement de certains phénomènes ou certaines populations • Réaction en temps réel à des événements d’alerte – Ex: attaques sur le réseau • Requêtes multidimensionnelles sur des grands ensembles de données – Découvrir des corrélations entre phénomènes Challenge 5 : la qualité des données • profilage des données (Apprentissage statistique) – Extraction de règles de gestion, de patterns de formats ou de patterns d’erreurs – Elimination des doublons/résolution d’entité d’entités – Corrections d’erreurs et complétion • Analyse de processus métiers pour détecter les activités critiques – Sources d’erreurs – Reconfiguration des processus07/10/13 11 Challenge 6 : La visualisation des masses de données • Besoins – Navigation intuitive/contextuelle – Visualisation de phénomènes non perceptibles (durant la simulation) – Analyse /Interaction visuelle • Problèmes – L’approche de visualisation peut-elle aider à la compréhension d’un phénomène – Ou peut-elle introduire un biais et en altérer l’interprétation? • Ex: Visualisation post traitement V.S Visualisation in-situ – Évite des zones d’ombre par perte de calculs intermédiaires – à Coupler la simulation et la visualisation (vars température, pression,…) visualcomplexity.com/vc – Ex: Swiss Nat Supercomputing Center Challenge 7 : La préservation des données • Comment préserver les données à durée de vie illimité? – connaissances scientifiques – produits culturelles – connaissances archéologiques et environnementales – connaissances sociales (recensements) • Comment préserver les données à durée de vie longue mais limitée – patrimoine informationnel des entreprises – Données personnelles (stockées dans les disques privés ou publiés sur le Web) – Données publiques (fichiers sécu, police, …) • Quel coût pour la préservation des données – Coût de conversion des données (formats) – Coût pour la migration des technologies – Coût de maintien des technologies de niche • Quelle stratégie pour les données gérées dans le Cloud ?07/10/13 12 … Autres challenges • Interaction homme-machine générant de très grands volumes de données – vocale, faciale, gestuelle – è plusieurs mega ou giga. • Consommation d’énergie très élevée en raison de milliers de machines // utilisées – Algorithmique spécifique réduisant les transferts de données ü Critères de distribution des données • Acquisition de données – Par numérisation de documents ou d’ouvrages d’art, sites archéologiques, … – Correction et complétion Conclusion : Recherches en masses de données • Un domaine très vaste, en interaction permanente avec toutes les autres domaines des STIC – Architectures machines( HPC), Réseaux, systèmes, GL, IA, différentes théories de l’informatique • Un domaine qui se repositionne périodiquement – En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées – En intégrant de nouveaux besoins et de nouveaux problèmes • Une thématique ouverte à l’interdisciplinaire – Dans ses usages et dans ses exigences Une recherche dominée (ou presque) par des labos industriels de pointe: IBM, Oracle, Google, Yahoo!, Microsoft, Bell Labs…07/10/13 13 25 Le Défi Mastodons Défi MASTODONS • Initiative de la Mission à lInterdisciplinarité du CNRS • S’inscrit dans un mouvement international qui a démarré en 2010 – NITRD, NSF, NIH, AERA… (voir annexe) • Et national (PIA) – Appel Big Data Ministère de l’Industrie (juillet 2012) • Appuyé par les 10 Instituts du CNRS h5p://www.nitrd.gov/Subcommi5ee/bigdata.aspx h5p://cra.org/ccc/resources.php#presentaBons07/10/13 14 Objectifs du défi Mastodons Produire des concepts et des solu$ons qui n'auraient pu être obtenus sans coopéra$on entre les différentes disciplines du CNRS Favoriser l’émergence d’une communauté scien$fique interdisciplinaire autour de la science des données, et produire des solu$ons originales sur le périmètre des données scien8fiques. Enquête pour étayer le défi Mastodons Pour chaque domaine scien$fique, iden$fié comme stratégique dans les ins$tuts, donner : • Descrip$on rapide du domaine (2-3 phrases ou quelques mots clés), • Types de données produits ou consommés, caractéris$ques de ces données (vola$lité, volume, séman$que, hétérogénéité, structure...) • Types de traitements effectués (ou envisagés) sur ces données (modélisa$on, simula$on, appren$ssage, ...) • Verrous scien$fiques posés par la ges$on et l'u$lisa$on de ces données (passage à l'échelle, interpréta$on, annota$on, interroga$on, cohérence, .....) dans le domaine scien$fique considéré 07/10/13 15 Focus de l’appel Mastodons • Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité. • Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. • Recherche, exploration et visualisation de grandes masses de données. • Extraction de connaissances, datamining et apprentissage. • Qualité des données, confidentialité et sécurité des données. • Problèmes de propriété, de droit d’usage, droit à l’oubli. • Préservation/archivage des données pour les générations futures. Les critères de sélection • Vision scien$fique de l’équipe/consor$um sur les thèmes du défi, • Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année, • Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...), • Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet, • Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve dans la recherche. 07/10/13 16 Eligibilité des projets • Projets non éligibles – projets soumis par un seul laboratoire – projets soumis par un consor$um de laboratoires relevant d'un même ins$tut – projets n'incluant aucune UMR CNRS – projets dépassant le nombre de pages demandé (on peut accepter 6 pages maxi). • Projets éligibles mais non souhaités – projets répondant aux critères de l'interdisciplinarité mais ne répondant pas aux thèmes de l'appel (sauf originalité excep$onnelle) – projets soumis à des appels PEPS de ceZe année. – projets prolongent des PEPS déjà terminés en 2012, il faut vérifier la qualité des résultats acquis – projets redondants à ceux déjà financés (même probléma$que, même domaine d'applica$on) : si les équipes sont au même niveau de compétences que celles déjà impliquées, un élargissement du consor$um peut être envisagé pour créer de nouvelles synergies dans le domaine concerné. – projets soumis par des consor$ums (ou des sous-consor$ums) de labos déjà financés par Mastodons 2012. Les projets retenus en 2012 (par domaine d’application) • Physique des par$cules et astrophysique: 1 – Stockage à grande échelles de résultats d’expériences – Simula$on, analyse et visualisa$on è env 15PB/an • Sciences de la terre et de l’univers: 5 – Masses de données sismologiques – Données d’observa$ons astronomiques grand champ è 140 TB/ 5 jours • Environnement, climat, biodiversité: 4 – Analyse de MdD urbaines et environnementales • Biologie: 3 – Défis computa$onnels de séquençage haut débit – Fédéra$on de données en imagerie biomédicale – Etude visuelle et interac$ve des protéomes • Réseaux sociaux: 2 – Reconstruc$on et analyses de réseaux sociaux, cartographie séman$que, – Social compu$ng, intelligence collec$ve • Préserva$on des données: 1 – Enjeux technologiques, sociétaux, coûts, risques 07/10/13 17 Projets complémentaires 2013 • Traitement d’images : 2 – Analyse d’images fondée sur l’informa$on textuelle – Calcul de déforma$on de surfaces par analyse d’images radar haute résolu$on • Radioastronomie : 1 – Calcul distribué sur de très grandes matrices • Appren$ssage sta$s$que : 1 – Op$misa$on à grande échelle • Qualité des données : 1 – Mesures haute résolu$on par des méthodes biophysiques Pilotage et restitution • Coordina$on étroite de l’ensemble des projets – Augmenter la synergie entre projets • Res$tu$on des résultats – Publica$ons de qualité – Colloques è déjà 4 avec près de 300 parBcipants • Financement sur 4 à 5 ans – Selon contraintes budgétaires CNRS – Selon impact et résultats des projets è l’interdisciplinarité doit être une réalité et pas un alibi07/10/13 18 Cartographie des projets retenus en 2012 35 74 UMR 44 UMR 37 projets soumis 16 projets sélec$onnés Répartition par région 07/10/13 19 Répartition par institut porteur Indicateurs de suivi • Pérennité de la coopéra$on • Publica$ons communes • Co-encadrement de thèses • Plateformes de test et d’expérimenta$on • Montage et soumission de nouveaux projets • Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données.07/10/13 20 Evolution à terme • Fin 2012: Extension de deux projets (Aresos et Sabiod) • Fin 2013: Premier Regroupement de projets • Fin 2014: Second regroupement pour abou$r à 6 ou 7 grands clusters • Début 2015: émergence d’un GDR « Siences des données » La suite … • Comment pérenniser la communauté – Réflexion générale sur les regroupements de projets ü Théma$que ü Par domaine d’applica$on – Emergence d’un GDR « Science des données » ü Anima$on scien$fique ü Prospec$ve, veille • Comment la financer au delà du programme CNRS 07/10/13 21 41 Focus sur quelques projets Aresos: analyse de réseaux sociaux Petasky: observation astronomique grand champ Phénotypage et séquençage haut débit Projet ARESOS: Analyse de grands réseaux socio-sémantique – Objec$fs : qui parle, de quoi, comment – Reconnaissance d’acteurs ü Plate-forme d’annota$on ü Analyses linguis$ques sur ensemble de sources hétérogènes – Iden$fica$on de théma$ques – Construc$on de réseaux socio-séman$ques ü Analyse liens entre textes, co-références ü Modèles latents acteurs – théma$ques ü Évolu$on dynamique clusters théma$ques, individus – Analyse sociologique ü Etude des dynamiques sociologiques dans les corpus Défi MASTODONS - Projet ARESOS 42 07/10/13 22 ARESOS - RI sociale • Changement de paradigme en RI – Iden$fica$on et représenta$on des informa$ons sociales et besoins sociaux – Per$nence et qualité de l’informa$on • 3 cadres – Recherche d’informa$on dans microblogs (découverte d’en$tés) ü Per$nence informa$on – ranking (Autorité, crédibilité, temporalité) – CrowdIndexing ü Indexa$on par$cipa$ve, tagging social, – Recommanda$on collabora$ve ü Iden$fier et qualifier les recommanda$ons par groupes d’u$lisateurs ü Analyse des groupes d’u$lisateurs 43 Projet ARESOS: Analyse de grands réseaux socio-sémantique • Laboratoires – CAMS UMR 9557 - INSMI, EHESS, Paris – CSI - UMR 7185 - INSHS, Ecole des Mines, Paris – GIS Ins$tut des Systèmes Complexes de Paris Ile-de-France, (Fédéra$on de 16 ins$tuts et universités), Paris – IRIT, UMR 5505 - INS2I, U. Toulouse 3 – LATTICE, UMR 8094 - INSHS, ENS/ U. Paris 3 – LIG, UMR 5217 - INS2I, U. Joseph Fourrier, Grenoble – LIP6, UMR 7606 - INS2I, U. Pierre et Marie Curie, Paris • 3 Théma$ques + 1 Corpus – Analyse socio-linguis$que de controverse – Recherche d’Informa$on sociale – Dynamicité07/10/13 23 Projet Petasky: observation astronomique grand champ (LSST) • Ges$on des données scien$fiques dans le domaine de la cosmologie et l’astrophysique • How much the (LSST) project will tell us about our solar system, the dark energy problem and more, will depend on how well we can process the informa8on the telescope and its camera send back to us - an es7mated sum of around ten petabytes of data per year. • Plans for sharing the data from LSST with the public are as ambi8ous as the telescope itself LIMOS (UMR CNRS 6158, Clermont-Fd) LIRIS (UMR CNRS 5205, Lyon) LPC (UMR CNRS 6533, Clermont-Fd) APC (UMR CNRS 7164, Paris) LAL (UMR CNRS 8607, Paris) Centre de Calcul de l’IN2P3/CNRS Projet Petasky: observation astronomique grand champ (LSST) • Des dizaines de milliers de milliards d’observa8ons photométriques sur des dizaines de milliards d'objets – 1-10 Millions d’évènements par nuit – 3 Milliards de sources – 16 TB chaque 8 heures avec un taux de 540 MB/seconde • Catalogue objets : – RelaBon avec 500 aZributs, – 40 Milliards de tuples – 100-200 TB • Catalogue transitoires : – 1-3 PB, RelaBon avec 100 aZributs – 5000 Milliards de tuples EsBmaBon en fin de projet : 400 000 Milliards de tuples (différentes versions des données sans prise en compte de la réplicaBon), ≃60 PB 07/10/13 24 Défi de la gestion des données dans LSST • Requêtes sur une centaine d’a5ributs • Analyse en temps réel de 2 TB/heure • Surveillance en temps réel des variaBons de 10 Milliards d’objets • Requêtes type – Point-query (chercher une aiguille dans une bo5e de foin) – CorrélaBons : adresser par paires 109 galaxies – Séries temporelles : 10 ans de données, 1000 visites par pointé, coaddiBon d’images, soustracBon d’images, ... • Passage à l’échelle des ouBls d’aide à la décision • OpBmiser l’organisaBon des données pour l’analyse • Une nouvelle approche pour l’extracBon des connaissances en temps réel Projet Phénotypage et séquençage haut débit • Etude du comportement des plantes, de différents génomes, – Densité végéta$on (nb de feuilles) – Croissance (rapidité, hauteur, encombrement, …) • selon les évolu$ons de leur environnement – Température, – Humidité, – Lumière/Ensoleillement Exemple 400 génomes 3 à 10 plants par génome Plusieurs paramètres environnementaux 10 5 informaBons / jour 07/10/13 25 Partenaires • Info et bio-info – LIRMM, LIFL, IRISA • Phénotypage – INRA • Génome – France Génomique • Biologie-environnement – ISEM 07/10/13 26 51 Annexe Ceux que jai pillés pour construire cette présentation (merci à eux!) • Contributions de l’Alliance Allistene à la nouvelle SNR (cf site Allistène). • Large Scale Data Warehousing: Trends and Observations; Richard Winter (WinterCorp), Pekka Kostamaa (Teradata); Keynote Talk at ICDE 2010. • Big Data and Cloud Computing: New Wine or just New Bottles? Divy Agrawal, Sudipto Das, and Amr El Abbadi, Tutorial at VLDB 2010 • What is new in the cloud? Donald Kossmann, Tutorial at ICDE 2010 • Database Systems Research on Data Mining; Carlos Ordonez and Javier García-García; tutorial at SIGMOD 2010 • Enabling Real Time Data AnalysisDivesh Srivastava, Lukasz Golab, Rick Greer, Theodore Johnson, Joseph Seidel, Vladislav Shkapenyuk, Oliver Spatscheck, Jennifer Yates; AT&T Labs – Research, 2010 • Event processing – past, present, future; Opher Etzion , VLDB 2010 Tutorial • Massive Data: From Acquisition to Knowledge; Min Chu, Stéphane Grumbach, Mohand-Saïd Hacid, Richard Huang, Lionel M. Ni; Panel notes at Challenges for Digital Society for e-Human Conference, 2010 • Data Management in the Cloud -Patrick Valduriez, Esther Pacitti, DNAC Congress, Paris, nov. 2010 • Management of Probabilistic Data: Foundations and Challenges; Nilesh Dalvi and Dan Suciu; lecture Notes, Univerisity of Washington • Computer Science 2.0Computer Science 2.0: A New World of Data ManagementA New World of Data ManagementDr, Michael L. Brodie, Verizon 2010 • Dataspaces: The Tutorial, Alon Halevy, David Maier, VLDB 2008 07/10/13 27 Initiative du Gouvernement Fédéral US (NITRD, 2011) • The Big Data Senior Steering Group (BD SSG) has been formed to identify current big data research and development activities across the Federal government, offer opportunities for coordination, and begin to identify what the goal of a national initiative in this area would look like. As data volumes grow exponentially, so does the concern over data preservation, access, dissemination, and usability. • Research into areas such as automated analysis techniques, data mining, machine learning, privacy, and database interoperability are underway at many agencies and will help identify how big data can enable science in new ways and at new levels. • The science of data includes the processes of turning data into knowledge, data mining and visualization, interoperability, search and discovery, and semantics.ScopeBD SSG was formed to identify programs across the Federal government and bring together experts to help define a potential national initiative in this area. • BD SSG has been asked to identify current technology projects as well as educational offerings, competitions, and funding mechanisms that take advantage of innovation in the private sector. Missions • Current functions and activities include: – Collecting information on current activities across the Federal Government. – Creating a high-level vision of the goals of a potential national initiative. – Developing the appropriate documents and descriptions to aid discussion within the government, and where appropriate, the private sector. – Developing implementation strategies that leverage current investments and resources. h5p://www.nitrd.gov/Subcommi5ee/bigdata.aspx h5p://cra.org/ccc/resources.php#presentaBons 07/10/13 28 NSF Program (2011) • New Program to Help Scientists Share Large Data Sets – , the DataNet Federation Consortium, • $8-million program from the National Science Foundation. • The program involves six different research centers in an effort to make it easier and faster to access and share large and complex data sets. • The grant money from the NSF will come in over a span of five years, and it will benefit scientists from hundreds of universities working in biology, hydrology, oceanography, social science, and learning behavior NIH Common Funds (2011) • Meeting the Challenge of Big Data in Biomedical and Translational Science (see “Cross-Cutting Issues in Computation and Informatics” in Innovation Brainstorm ideas) ! http://commonfund.nih.gov/InnovationBrainstorm/07/10/13 29 AERA Grant Program (2012) • With support from the National Science Foundation (NSF), the AERA Grants Program announces its Research Grants competition. • The program seeks to stimulate research on U.S. education issues using data from the largescale, national and international data sets supported by the National Center for Education Statistics (NCES), NSF, and other federal agencies, and to increase the number of education researchers using these data sets. • The program supports research projects that are quantitative in nature, include the analysis of existing data from NCES, NSF or other federal agencies, and have U.S. education policy relevance. h5p://www.aera.net/grantsprogram/res_training/res_grants/rgfly.html Titre du projet Porteur UMR Impliquées Instituts/Organismes 1- Projets fédérateurs : DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments Kegl Balazs LAL, LIP, LRI IN2P3, INS2I Gaia: l’origine et l’évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI EPINES: production, distribution et analyse des résultats de simulations climatiques. Dufresne Jean-Louis IPSL, KerData INSU, INRIA CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques: études de l’intérieur de la Terre à partir des champs d’onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/ INP AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3 DCSHD : Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA Les projets retenus en 2012 (Liste exhaustive) 07/10/13 30 Titre du projet Porteur UMR Impliquées Instituts/ Organismes 2- Projets ciblés : Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS COMOTEX: COMmande temps réel de systèmes d'Optique adaptative à très grand nombre de degrés de liberté pour les Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC AMADOUER: Analyse de MAsse de DOnnées de l’Urbain et l’EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, iRTSV INS2I, INSB, CEA SCB: Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA 3- Projet d'Animation : PREDON: La préservation et l’exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3 Les projets retenus en 2013

Title: Une approche interdisciplinaire des grandes masses de données (Défi Mastodons)

Speaker: Mokrane Bouzeghoub

Abstract: De nombreux domaines scientifiques (ex : cartographie du génome, observatoire virtuel en astronomie, simulation en physique et énergie), économiques (ex : e-commerce, systèmes décisionnels), ou sociétaux (ex : réseaux sociaux, bibliothèques numériques, distribution de contenus multimédia) produisent et consomment des volumes de données considérables. Le CNRS, à travers ses unités de recherche et ses grands instruments, capitalise plusieurs centaines, voire milliers, de bases de données et de corpus d'informations dont les volumes croissent de façon exponentielle. Le but du défi MASTODONS est d'identifier et de soutenir des actions de recherche dont les résultats ne pourraient être obtenus sans une fertilisation croisée et sans une synergie effective entre chercheurs de différentes disciplines. Ces actions de recherche doivent couvrir aussi bien les verrous scientifiques posés par l'utilisation à grande échelle des données (sémantique, stockage, recherche, visualisation, ...) que l'impact sociétal qu'induisent les technologies proposées (protection de la vie privée, préservation de la connaissance, ...). L'exposé fait le point sur cette approche interdisciplinaire des masses de données et sur les enjeux scientifiques et économique de cette problématique, en particulier dans le contexte d'un organisme scientifique comme le CNRS.

Slides: PDF

Affiliation: Université de Versailles Saint-Quentin-en-Yvelines – CNRS INS2I Institut des Sciences de l'Information et de leurs Interactions

Email: Mokrane.Bouzeghoub@cnrs-dir.fr

Web Site: www.prism.uvsq.fr/~mok/Bienv.html

Big Data French-Japanese Workshop Tuesday November 18 th – Wednesday November 19 th, 2014 at the Embassy of France in Japan, Tokyo Scientific guidance of Prof. Masaru Kitsuregawa, Prof. Ken-ichi Kawarabayashi, and Prof. Patrick Valduriez Tuesday 18 th 08:30 Opening of Registration 09:00 – 09:05 Welcome Address Jacques Maleval, Counselor for Science and Technology, Embassy of France in Japan Introduction 09:05 – 09:20 09:20 – 09:35 Towards Japanese and French Collaboration on Big Data Masaru Kitsuregawa, Director General, National Institute of Informatics (NII) Big data for social solution Masao Sakauchi, President, National Institute of Information and Communication Technologies (NICT) Session 1 Processing Big Data / Chairman : (Machine Learning, Data Mining, social network, multimedia…) 09:35 – 10:00 10:00 – 10:25 Title TBD Nozha Boujemaa, Inria Large Graphs: Analysis and Efficient Algorithm Ken-ichi Kawarabayashi, National Institute of Informatics (NII) 10:25 – 10:45 Coffee Break 10:45 – 11:10 11:10 – 11:35 11:35 – 12:00 How Can Multimedia Analysis Contribute to Big Data? Shin’ichi Satoh, National Institute of Informatics (NII) Big Data Analytics and Pattern Mining Florent Masseglia, Inria Exploratory Visual Analytics for Personalized Medicine and Urban Informatics Yuzuru Tanaka, Hokkaido University2 12:00 – 12:25 Querying Graph Repositories by Aggregated Search Mohand S. Hacid, LIRIS, Lyon University, INSA Lyon 12:25 – 13:25 Photo session & Lunch 13:25 – 14:50 14:50 – 15:15 15:15 – 14:40 Crowdsourcing and Big Data Analytics Hisashi Kashima, Kyoto University Big Data challenges in modern astronomy Farouk Toumani, CNRS, LIMOS Novel machine learning approach for high-level real nursing activity analysis based on sensor data Naonori Ueda, NTT Communication Science Laboratories Session 2 Big data & business intelligence / Chairman : 14:40 – 15:05 15:05 – 15:30 How In-Memory Analytics Is Accelerating Business Performance in the Big Data Area Antoine Chambille, QuartetFS Construction of a Bayesian network model for the prediction of medical costs of lifestyle-related diseases and its applications Toshinori Miyoshi, Hitachi, Ltd., Central Research Laboratory 15:30 – 15:55 Implementing big data projects in industry. What can we already do and where do we still need research Françoise Soulié Fogelman, TeraLab, Institute Mines-Telecom 15:55 – 16:20 Data Visualisation for Genome Science: Chrovis Kunihiro Nishimura, Xcoo, Inc. 16:20 – 16:40 Coffee Break Session 3 Big Data & Privacy protection / Chairman : 16:40 – 17:00 Privacy issues in big data Sebastien Gambs, University of Rennes 1 - Inria 17:00 – 17:20 Institutional Revision for Utilization and Protection of Personal Data In Japan Ichiro Satoh, National Institute of Informatics (NII) 17:20 – 18:30 Panel Discussion : Privacy protection / Moderator : 3 Wednesday 19 th 08:30 Opening of Registration Session 4 Big Data for Transportation / Chairman : Prof. Masao Sakauchi 09:00 – 09:25 Big Data for ITS Florence Sedes, IRIT 09:25 – 09:50 Deep Semantic Analysis of Textual Big Data for Understanding Global Issues Kentaro Torisawa, National Institute of Information and Communication Technologies (NICT) 09:50 – 10:15 Big Data for ITS : Title TBD Clement Nouvel, Renault-Nissan 10:15 – 10:40 Traffic monitoring immediately after a major natural disaster using probe data Masao Kuwahara, Tohoku University 10:40 – 11:00 Coffee Break Session 5 Big Data for Biodiversity and Agriculture / Chairman : 11:00 – 11:25 11:25 – 11:50 11:50 – 12:15 BioAcoustic data processing, application to marine (cetacean) and forest (bird) wildlife scaled monitoring Hervé Glotin, CNRS/ LSIS Big Data for Agriculture Masayuki Hirafuji, National Agriculture and Food Research Organization (NARO) and University of Tsukuba Big data and Plant Phenotyping Pascal Neveu, INRA 12:15 – 13:15 Lunch Break Session 6 Big Data for Life sciences / Chairman : 13:15 – 13:40 An affordable, usable, sustainable and preventive healthcare system for unreached people Naoki Nakashima, Kyushu University 13:40 – 14:05 Title TBD Magnus Fontes, Institut Pasteur4 14:05 – 14:30 Statistically Sound Data Mining for Biomedical Applications Koji Tsuda, Tokyo University Session 6 Hardware and Infrastructures for Big Data / Chairman : 14:30 – 14:55 New hardware directions for servers and big-data Marc Duranton, CEA 14:55 – 15:20 Accelerator Design for Various NOSQL Databases Hiroki Matsutani, Keio University 15:20 – 15:45 Title TBD Levent Gurgen, CEA 15:45 – 16:10 Smart meters, projet Wi-SUN : Title TBD Hiroshi Harada, NICT/Kyoto University 16:10– 16:30 Coffee Break Session 7 Japanese and French Collaboration / Chairman : 16:30 – 17:30 Point of view of ANR Martine Garnier, ANR Point of view of MIC TBD JST initiatives in the area of Big Data Kazuo Iwano, JST-CRDS Point of view of Inria Helene Kirchner, Inria Japanese French-Laboratory on Informatics Philippe Codognet, JFLI Point of view of CNRS Anne Doucet, CNRS 17:30 – 18:20 Panel Discussion : New FR-JP collaborations /Moderator : Participants : MIC, ANR, JST, Inria, CNRS, NII, NICT, JFLI 18:20 – 18:30 Conclusion : Dr. Nozha Boujemaa 18:40 – 20:40 Reception at the Residence of France Thursday 20th 10:00 – 14:00 Visit of the National Institute of Informatics and lunch Comportements culturels et données personnelles au cœur du Big data Entre la nécessaire protection et une exploitation au service des nouveaux équilibres économiquesSommaire 1. Faire parler le Big data : un nouveau pouvoir p. 7 dans le secteur médiatique et culturel • Du Big data au Worthy data p. 8 • La donnée personnelle culturelle au cœur de l'émergence p. 14 d'un nouveau marché stratégique 2. Pouvoirs en équilibre et responsabilités partagées : p. 19 les nouveaux contours du Big data • La réglementation, impulsion économique p. 21 pour les acteurs de Big data en Europe • Quelle fiscalité 3.0 pour l'économie digitale ? p. 33 • Responsabilités citoyennes p. 37 3. Vers un nouveau paradigme économique p. 39 propice à l’innovation et la création • Opposer le principe de précaution au Big data : p. 40 un risque réel pour l’innovation • Le temps de l'action p. 42 • La nouvelle chaîne de valeur de la donnée personnelle culturelle p. 47 La donnée personnelle culturelle au cœur du Big data p. 50 Infographie La présente publication peut être téléchargée sur les sites d’EY (www.ey.com/mediaentertainment) et du Forum d’Avignon (www.forum-avignon.org).Comportements culturels et données personnelles au cœur du Big data | 3 Avant-propos Depuis 2008, EY analyse les grandes thématiques inscrites au programme du Forum, pour leur donner, en capitalisant sur son expertise et son expérience reconnue dans le secteur, une traduction concrète à travers l’identification d’enseignements majeurs. Année après année, EY a observé et décrypté les mouvements à l’œuvre dans l’industrie des médias et des contenus, face à une révolution digitale qui a rebattu les cartes des forces en présence, à travers le prisme de la propriété intellectuelle (« La propriété intellectuelle à l’ère du numérique »), de la monétisation (« Monétiser les médias numériques ») ou encore de la vitesse de diffusion (« Maîtriser le tempo, organiser la relation entre le temps et la valeur dans l’industrie des médias et du divertissement »). L’écosystème qui s’est progressivement structuré semblait tendre jusqu’à présent vers un point d’équilibre entre les opérateurs de l'Internet, de télécomunications et les groupes médias. Néanmoins les enseignements de nos dernières études laissaient déjà entrevoir la déferlante Big data, qui pourrait introduire un nouveau facteur de déstabilisation, laissant un nombre restreint d’acteurs, capables de faire parler le Big data, détenir le pouvoir de contrôler et de prévoir. La donnée personnelle culturelle, autour de laquelle se structure aujourd’hui un marché à la recherche de nouveaux équilibres, est à l'origine d’une ruée d’acteurs des secteurs numérique, médiatique et culturel, parce qu'elle vaut de l'or. Méthodologie de l’étude : Pour mieux comprendre, analyser et interpréter ces nouveaux enjeux de contrôle et la structuration d’un nouveau marché autour de la donnée personnelle culturelle, EY a rencontré et interrogé des dirigeants d’institutions et d'entreprises représentatives du secteur, dont la Réunion des musées nationaux - Grand Palais, l’INA, Solocal (PagesJaunes), Criteo, InterCloud, Kantar Media... Cette étude qui a mobilisé nos experts du secteur Médias et Divertissement, se fonde sur leurs points de vue, notre recherche sectorielle et nos propres analyses. 6 ans de partenariat entre EY et le Forum d’Avignon La vocation première du Forum d’Avignon est de se faire l’écho des enjeux qui comptent pour les industries de l’art et de la création. Le partenariat qui lie depuis maintenant six ans EY au Forum témoigne d’un engagement commun, aux côtés des grands acteurs de l’univers des médias et du divertissement. Remerciements EY tient à remercier vivement pour leurs éclairages : Roei Amit (Directeur adjoint chargé du numérique, Réunion des musées nationaux - Grand Palais), Christophe Benavent (Professeur, Responsable du Master Marketing opérationnel international, Université Paris Ouest), Julien Billot (Directeur général adjoint en charge du segment média, Solocal - ex PagesJaunes), Jérôme Dilouya (Fondateur et Président-directeur général, Intercloud), Denis Gaucher (Directeur exécutif Ad Intelligence Europe, Kantar Media), Alban de Nervaux (Directeur de la stratégie et du développement, Réunion des musées nationaux - Grand Palais), Alexandra Pelissero (Directrice de la communication, Criteo), Stéphane Ramezi (Responsable des éditions multimédia, INA). Nous tenons aussi à remercier, pour leur apport lors des groupes de travail : Benoît Tabaka (Directeur des politiques publiques, Google France), Pierre Geslot (Responsable Projets Lectures numériques, France Télécom Group), Laure Kaltenbach (Directrice générale, Forum d'Avignon), Olivier Le Guay (Responsable éditorial, Forum d'Avignon).4 | Comportements culturels et données personnelles au cœur du Big data C’est l’évolution de l’humanité tout entière qui est indissociable des traces, empreintes et autres indices que nous laissons derrière nous. Avec l’avènement de l’ère numérique et l’apparition des traces immatérielles dont nous marquons la toile et que nous pouvons désormais collecter, stocker et analyser à l’infini1, nous est aujourd’hui donné un pouvoir inédit. Au pouvoir régalien, détrôné peu à peu par l’ouverture du savoir au plus grand nombre à travers l’imprimerie, la radio et la télévision - et duquel le règne d’Internet a semblé définitivement nous affranchir - succède aujourd’hui le pouvoir de contrôler et de prévoir, grâce à l’ouverture de données publiques et personnelles de tous à un nombre d’acteurs restreints, capables de faire parler le « Big data ». Volume, variété et vélocité : c’est en ces trois mots que peut se résumer le Big data, pour exprimer le volume inédit de données produites et échangées par un nombre croissant de canaux (web, objets connectés au web et entre eux, plateformes), la variété de ces données (avec une part croissante de données non structurées et volatiles2) et enfin la vélocité, qui désigne la vitesse, toujours plus grande, de ces échanges. Le Big data représente une formidable matière première pour qui saura en extraire la substantifique moelle, avec à la clé des opportunités de création de valeur qui pourront irriguer l’ensemble des secteurs d’activité de l’économie réelle… et en particulier celui de l’industrie médiatique et culturelle. Car au cœur de cette masse de données vertigineuse brille une catégorie de données qui vaut de l’or : la donnée personnelle culturelle. Lorsque nous observons le bouleversement des rapports de force entre opérateurs Internet, opérateurs de réseaux et groupes médias, sous l’effet de l’explosion des traces et informations liées à la révolution digitale, force est de constater la ruée de tous ces acteurs vers cette donnée personnelle culturelle, nouveau sésame qui leur ouvrirait les portes de l’intimité de l’être. À la fois miroir de nos goûts et de nos aspirations et reflet de l’image sociale que nous souhaitons renvoyer, la donnée personnelle culturelle représente en effet un fragment de notre identité. Une donnée d’autant plus précieuse qu’elle introduit un rapport inédit en réconciliant l’empreinte et le calcul3 : si, à la manière d’une photographie, la donnée numérique conserve la trace de notre activité digitale, elle s’en distingue toutefois par sa disponibilité au calcul. Contrairement à une simple photographie, qui comme le rappelait Roland Barthes4, « ne se distingue jamais de son référent, de ce qu'elle représente. [Le référent] s'entête à être toujours là, il adhère », la donnée personnelle numérique est détachable et calculable. Empreintes, fresques, statuettes, parchemins, hiéroglyphes et toute autre forme de production culturelle ou artistique sont autant de traces matérielles laissées à la postérité, de façon consciente ou non, qui nous ont permis de reconstituer des pans entiers de l’histoire de nos civilisations, pour forger notre savoir et notre culture. 1 Un yottaoctet est la capacité annoncée du nouveau data center de la NSA (National Security Agency) pour 2013, soit mille fois la totalité des données enregistrées en 2011 dans le monde - Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 2 Données de géolocalisation, événementielles 3 Louise Merzeau « Faire mémoire des traces numériques », E-dossiers de l’audiovisuel, Sciences humaines et sociales et patrimoine numérique, INA, mis en ligne en juin 2012 4 Roland Barthes, La chambre claire - éd. Gallimard, 1980 ÉditoComportements culturels et données personnelles au cœur du Big data | 5 5 Kord Davis, "Ethics of Big data – balancing risk and innovation" - ed. O’Reilly Media, septembre 2012 6 René Trégouët, Sénateur, « Des pyramides du pouvoir aux réseaux de savoirs - Tome 1 », Rapport d'information 331 - 1997/1998 - Commission des Finances, site internet du Sénat, consulté le 10 octobre 2013 Bruno Perrin Associé EY Responsable du secteur Technologies Médias Télécoms en France En effet, la dimension révolutionnaire du "Big data bang" réside dans l’autonomisation des processus de production et d’échanges massifs, continus et toujours plus rapides de données ubiquitaires. Dans le domaine des contenus culturels, l’offre devient alors pléthorique. Mais à travers le téléchargement, le visionnage, l'échange de ces contenus culturels, les données personnelles du consommateur, tendent à se disperser de façon incontrôlée. Et alors qu'Internet peut apparaître comme un lieu de normalisation et de surveillance, se pose avec acuité la question du pouvoir de contrôle que permet la connaissance intime des comportements et des données personnelles culturels. Et avec elle, la question du respect de ces données et de la nécessité de développer des réponses concertées impliquant les acteurs de l’écosystème des contenus culturels numériques et des alliances autour de valeurs et impératifs communs : "Big data is ethically neutral, the use of Big data is not5". Ainsi, si le Big data apparaît comme une rupture majeure qui nous ferait définitivement quitter une ère, dont l'épuisement des ressources fait poindre les limites, pour entrer dans une économie du savoir et de la connaissance prometteuse, il est urgent d’apprendre à préserver la fragilité de cette ressource qu’est la donnée personnelle culturelle, dont la pérennité repose sur les équilibres subtils et les responsabilités partagées, qui jetteront les premiers jalons de ce nouveau marché en pleine structuration. C’est à travers la protection de cet écosystème par un filtre de confiance que ses acteurs pourront conserver un équilibre entre liberté et contrôle. Un contrôle qui implique également de ne pas se soumettre à la tyrannie de la donnée, dans une tentative de profilage qui, poussée à l’extrême, enfermerait chaque individu dans des résultats qui ne laisseraient aucune chance à la sérendipité ; au risque de tomber sous la domination d’une culture unique… Des craintes qui, en leur temps, avaient déjà été imputées à l’imprimerie, ou au latin à la Renaissance6… Au-delà des gains d’efficacité et de performance espérés, à travers une connaissance affinée du comportement de ses publics et usagers et donc d’une plus grande capacité d’anticipation de leurs attentes, les données personnelles culturelles représentent pour le secteur de l’industrie médiatique et culturelle une formidable opportunité de révolutionner leur modèle économique pour stimuler la création... à l'infini.| 7 1. Faire parler le Big data : un nouveau pouvoir dans le secteur médiatique et culturel8 | Comportements culturels et données personnelles au cœur du Big data 1 « Big data, nouveaux défis », Revue de l’Association Telecom ParisTech Alumni, n° 169, juillet 2013 2 Une pile de DVD de la hauteur de la tour Montparnasse = 1 pétaoctet (équivalences : 1 zettaoctet = 1021 octets ou 106 pétaoctets) - Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 Une explosion des traces numériques Depuis quelques années, les données numériques connaissent une croissance exponentielle et forment une masse gigantesque de data, autrement appelée Big data. L’augmentation de cette masse de données s’explique par trois facteurs, connus sous la formule des 3V : • Le boom du volume de données émises : l’individu, de plus en plus nomade, produit davantage de données, laissant derrière lui en temps réel des traces numériques toujours plus fraîches. En parallèle, les capacités de stockage augmentent également de façon exponentielle, ce qui permet de conserver un historique de toutes ces traces numériques. En 2013, les volumes de données créées ou manipulées auront dépassé les 4 zettaoctets1, soit l’équivalent d’une pile de dvd mesurant la hauteur de… 4 millions de tours Montparnasse2. • La variété des outils connectés s’étend : du portable au réfrigérateur, de la tablette à la voiture intelligente en passant par la smart TV, le nombre d’objets connectés explose, comme en témoigne la demande croissante d’adresses IP. Capables de communiquer entre eux, ces objets qui forment « l’Internet des objets », peuvent tracer leurs utilisateurs et envoyer des informations précises sur leurs mouvements et habitudes, même quand ceux-ci ne les utilisent pas. Une variété qui qualifie également la masse non structurée des données produites par ces multiples sources, qui émettent des données présentant autant de codes, langages et formats différents. • La vélocité de l’information, à savoir la vitesse à laquelle les données sont traitées simultanément, augmente elle aussi : ces données circulent toujours plus vite, émises par des sources toujours plus interconnectées et interdépendantes, dans des réseaux qui fonctionnent de moins en moins en silos. En naviguant sur Internet, un utilisateur laisse des traces de natures variées. Ces données sont collectées selon différents modes opératoires et lui sont rattachées a priori ou a posteriori, selon qu’il se sera identifié volontairement, ou qu’il sera identifiable par recoupement (ex. : cookies, adresse IP, adresse MAC). Aux 3V du Big data s’ajoute la valeur que représentent ces données, pour l’entreprise mais aussi pour l’utilisateur. En effet, l’exploitation de ces « traces » numériques peut offrir aux utilisateurs un réel confort de navigation et leur fournir des services de qualité (mise à disposition d’une boîte mail, obtention d’applications gratuites, jeux gratuits, etc.), sans contreparties financières directes. Conscientes de la forte valeur de ces données, les entreprises tentent d’instaurer ou de gérer une relation donnant-donnant, visant à récompenser les utilisateurs qui transmettent leurs données personnelles, en leur offrant des produits ou services pour les inciter à révéler leurs préférences de consommation et des centres d’intérêt, via, par exemple, des commentaires sur les réseaux. Toutefois, proposer des services additionnels contre les données cédées suppose un équilibre délicat pour les entreprises : les consommateurs, pas toujours conscients de la portée de ce rapport donnant-donnant, peuvent se montrer réticents à l’idée d’être considérés comme des produits monétisables. D’où l’importance de porter à leur connaissance ce qu’ils sont en mesure de faire pour contrôler leurs données personnelles. • En savoir plus p. 37 Cette masse de données numériques, à l’instar de la masse monétaire, aurait-elle atteint un seuil suffisamment critique pour faire fonctionner un système économique à part entière ? Existe-t-il une hiérarchie de valeur entre ces traces numériques ? Quelle est la valeur de cette donnée numérique ? Du Big data au Worthy data Des traces à l’ADN de l’être numériqueComportements culturels et données personnelles au cœur du Big data | 9 Octet 1 o Kilo-octet (Ko) 1 000 octets 30 Ko Une page de texte Word Exaoctet (Eo) 1 000 Po Mégaoctet (Mo) 1 000 Ko 5 Mo Un morceau de musique Gigaoctet (Go) 1 000 Mo 1 Go Un film de 2 heures Téraoctet (To) 1 000 Go 1 To 6 millions de livres numérisés Pétaoctet (Po) 1 000 To 1 Po Une pile de DVD de la hauteur de la tour Montparnasse Zettaoctet (Zo) 1 000 Eo 1 Zo La totalité des données enregistrées en 2011 Yottaoctet (Yo) 1 000 Zo 1 Yo Capacité du data center de la NSA exaoctets de données générées depuis les premières mesures 5 jusqu’en 2003 2 En 2011, il fallait 2 jours pour les générer 2 En 2013, il faut 10 minutes pour les générer 24 h 24 h 10 min De l'octet au yottaoctet, l'échelle des données Source : chiffres CNRS Quelles traces laissées par une simple recherche culturelle sur le web ? Exemple : réservation d’une entrée pour une exposition au Grand Palais Source : EY © Services en contrepartie • Rapidité de navigation • Confort d’utilisation • Richesse des informations et des services en ligne • Gratuité des informations obtenues et accès aux services Action utilisateur Session utilisateur • Moteur de recherche • Messagerie • Site tiers • Réseau social… Logiciel • Navigateur • Système d’exploitation Physique • Équipement (smartphone/ tablette/ordinateur) • Type de connexion • Adresse IP/Adresse MAC • Localisation (ADSL) : DSLAM • Géolocalisation (mobile, wifi) Traces numériques à caractère majoritairement personnel • Données de contact (âge, sexe, coordonnées…) • Données de connaissance (CSP, intérêts, relations, profil de consommation…) • Niveau d’équipement (type, résolution d’écran…) • Vitesse et données techniques de connexion • Statistiques/comportement de navigation • Pays/zone géographique/localisation • Environnement logiciel • Informations collectées par cookies • Favoris, historique, paramètres, préférences de navigation 145 milliards de mails envoyés 4,5 milliards de recherches sur Google 104 000 heures de vidéos mises en ligne sur YouTube 400 millions de tweets postés 552 millions d’utilisateurs se connectent à Facebook 24h dans la vie du Big data Source : CNRS10 | Comportements culturels et données personnelles au cœur du Big data « Avec le Big data, le nerf de la guerre est le contexte. Dans les années 90, le contenu était roi, désormais, c’est le bon contenu dans le bon contexte qui est roi, ce que l'on peut résumer par la formule "content is king, but context is King Kong". L’Institut National de l’Audiovisuel a parfaitement pris conscience que la donnée numérique, enrichie d’éléments de contexte, voyait sa valeur augmenter sensiblement du fait de services et de contenus proposés mieux personnalisés et plus pertinents. » Stéphane Ramezi, Responsable des éditions multimédia à l’INA Donner de la cohérence aux traces numériques Individuelles, hétérogènes, multiples et éparses, les traces numériques collectées en temps réel n’ont, prises isolément, aucune valeur. Leur valeur vient du sens qu’on arrive à en tirer, en termes de corrélation ou de prédictibilité. Il est possible de donner du sens à ces données en les rattachant à leur cause commune : le comportement d’un être humain. De cette façon, on peut non seulement espérer comprendre le comportement d’un individu à travers les traces qu’il laisse, mais aussi, in fine, recomposer l’ADN de son « être numérique ». Il arrive que les images physique et numérique d’un individu se recoupent. Le simple achat d’une carte de transport par exemple : un individu qui passera, tous les soirs à 18h sauf le week-end, le portique du métro avec son titre de transport et laissera dans le même laps de temps des traces de recherches sur Internet à partir de son téléphone portable, sèmera suffisamment d’indices pour permettre de décrypter ses habitudes ; il s’agit sans nul doute de son trajet à la sortie du travail. Mais il arrive parfois que l’être physique et l’être numérique projettent des images différentes. On peut par exemple avoir une interprétation erronée d’une information transmise sur un réseau social, telle que « j’aime » ou « j’y étais » : prise isolément, une telle information sera non seulement trop parcellaire pour prétendre décrypter un comportement ou une personnalité, mais surtout, elle ne correspondra pas forcément à l’identité de l’être physique en termes de niveau social, d’éducation, etc. Dans tous les cas, que l’image projetée de l’être numérique se recoupe ou non avec l’image réelle de l’être physique, l’image numérique aura un sens si elle s’inscrit dans une cohérence dans le temps. C’est à cette condition que les traces laissées par l’être numérique pourront donner un caractère prédictif aux modèles statistiques, et ainsi générer de la valeur. Recomposer l’ADN de l’être numérique à travers des algorithmes toujours plus pointus Au-delà de la collecte de données et de leur stockage, l’intelligence algorithmique est indispensable pour donner un sens à la masse de données que forment les « traces » laissées par chaque individu connecté. Cette intelligence algorithmique vise à regrouper et confronter des données numériques issues de sources diverses pour créer et caractériser l’ADN d’un être numérique, afin de décrypter et d’anticiper ses comportements dans des environnements différents. Il faut donc contextualiser la donnée qui, seule, n’aura aucun sens, mais prendra toute sa valeur dans la mise en relation avec une multitude d’autres données. C’est ce pouvoir de contextualisation qui permettra à l’entreprise de proposer la bonne offre à la bonne cible, au bon moment, à travers le bon canal... en somme d’enrichir, personnaliser et valoriser son offre de contenus et services. Comportements culturels et données personnelles au cœur du Big data | 11 Prévoir le comportement de l’être numérique Parallèlement, ou au-delà de la corrélation avec le contexte, l’intelligence algorithmique vise à établir des liens de cause à effet pour mieux prévoir les comportements de l’être numérique. C’est en ce sens qu’œuvrent les informaticiens et data analysts qui élaborent les algorithmes. Ces modèles à visée prédictive sont déjà largement utilisés. Les recommandations de sites d’achats de biens et services culturels en ligne tels que Netflix ou Amazon reposent sur des modèles capables de prévoir ce qu’un individu serait en mesure d’apprécier au regard de ses achats antérieurs, mais aussi d’achats similaires effectués par d’autres consommateurs, afin de lui proposer des produits en conséquence. La valeur d’une trace numérique : un arbitrage entre cash-flow futur et coût de collecte/analyse Le décryptage de l’ADN d’un être numérique a un coût (collecte de la donnée, stockage, décryptage de l’information via des algorithmes performants). Le défi majeur réside ainsi dans les coûts et investissements élevés que représentent les infrastructures de traitement de données volumineuses, en trouvant notamment un moyen de valoriser et monétiser les nouvelles analyses rendues possibles grâce aux données issues du Big data. Avec, à la clé, l’optimisation des cash-flows générés par la justesse des prédictions des comportements numériques, tout en gardant la maîtrise des coûts de développement d’algorithmes, d’achat informations, de collecte et de stockage. Face à la déferlante des données et au phénomène de ruée vers ce nouvel or numérique, il faut garder à l’esprit que toutes ces données n’ont pas la même valeur. Une échelle de valeur va donc s’établir, la valeur d’une donnée variant selon ce qu’elle révèle ou non sur l’ADN de l’être numérique. Si, par exemple, une adresse ou un numéro de téléphone pouvaient avoir de la valeur à l’époque du télémarketing de masse, ils se révèlent aujourd’hui bien moins précieux que des données sur les centres d’intérêt ou les dernières recherches d’un individu. C’est pourquoi, dans cet amas enchevêtré de données de toutes natures, se détache aujourd’hui une pépite prometteuse de laquelle on pourra extraire des worthy data : il s’agit de la donnée personnelle culturelle. Le Big data implique le traitement de données volumineuses (nombreuses sources d’historiques, bases de corrélations, etc.) en un temps raisonnable, voire en temps réel. Bien souvent, une combinaison de méthodes statistiques classiques (statistiques descriptives, segmentation, scoring, etc.) et de solutions de calcul permettent de résoudre ces difficultés. Par exemple, la parallélisation des calculs répète les mêmes calculs sur des groupes de données séparés, des séquences, avant de les réconcilier, afin qu’ils soient globalement effectués de manière plus rapide. Cette méthode de calcul est combinée avec des estimateurs statistiques pour converger vers une réponse la plus juste possible dans le délai imparti. Il est à noter que les formes de statistiques descriptives auxquelles on aboutit aujourd’hui sont plus pures qu’à l’époque où l’on ne disposait que d’échantillons de données qu’il fallait extrapoler (du fait des coûts de récolte, de stockage et de traitement). Raison pour laquelle la quantité de données disponibles et leur traitement ne sont aujourd’hui plus une limite, permettant ainsi de travailler sur des données plus exhaustives. Évolution des modes calculatoires12 | Comportements culturels et données personnelles au cœur du Big data La donnée personnelle culturelle : une data qui vaut de l’or Une forte demande en données personnelles culturelles numériques Bien plus que la consommation de biens et services matériels, qui satisfont les besoins fondamentaux et primaires, celle de biens et services culturels en dit beaucoup sur nos préférences, nos centres d’intérêt et nos aspirations. Elle touche ainsi à notre identité, non seulement dans ce qu’elle a de plus intime, mais aussi dans ce qu’elle a de plus social et communautaire : les biens et services culturels que nous consommons, ou nos comportements culturels, participent en effet largement de l’image que nous souhaitons renvoyer dans notre environnement social. C’est pourquoi nous partageons volontiers notre expérience et notre avis sur un livre, un film, un jeu, un concert ou une exposition avec nos amis ou communautés en ligne, tout comme avec les éditeurs de contenus en ligne. La donnée personnelle culturelle renferme des informations contextuelles fortes et permet de qualifier de façon assez précise le pouvoir d’achat de l’être numérique mais aussi de prévoir son comportement. C’est pourquoi, en raison de sa valeur intrinsèquement élevée, elle figure aujourd’hui au centre de toutes les attentions des acteurs du Big data. Il existe d’ores et déjà une demande sur le marché de la donnée personnelle culturelle, largement portée par des groupes tels que la Fnac et Amazon. Ils valorisent ces données personnelles culturelles pour packager, adapter et cibler leurs offres en conséquence. Mais, si la demande est bien là, qu’en est-il de l’offre ? Comportement culturel de l’homo conexus à l’origine de la donnée personnelle culturelle Depuis plusieurs années, le temps consacré à la consommation de contenus culturels ne cesse d’augmenter, une tendance amplifiée par le fait que le consommateur est désormais un homo conexus, connecté, mobile et multitâches. Un phénomène à l’origine de l’explosion des traces personnelles culturelles laissées par l’homo conexus, parallèlement à l’augmentation des données émises par l’Internet des objets, qu’elles soient produites par son comportement culturel… : • … numérique : moteurs de recherche, transactions de biens et services culturels (billeterie, livres, musique…), consultation et partage de vidéos/musique/séries en streaming, réseaux sociaux, portails médias, etc. ; • … ou physique : une séance de cinéma ou la visite d’une exposition peuvent laisser des traces via les moteurs de recherche, les images et commentaires postés sur les réseaux sociaux, la géolocalisation. Mais aussi, une simple soirée devant la télévision : aujourd’hui, 52 % des commentaires sur Facebook portent sur les programmes diffusés à la télévision. Comportements culturels et données personnelles au cœur du Big data | 13 Si, du côté de l’offre, la donnée personnelle culturelle est longtemps restée cantonnée à l’analyse des paiements, on observe aujourd’hui chez les entreprises et établissements du secteur médiatique et culturel un prolongement de l’expérience culturelle en-deçà et au-delà des transactions de paiement. Ces acteurs tendent à enrichir leurs offres de services culturels via un continuum de services. Ceci permet de prolonger l’expérience culturelle des clients et de nouer une relation d’engagement avec eux. Une relation qui fournira de précieuses informations client, à condition d’être capable d’engranger et de lier efficacement une quantité et une variété inédites d’informations, générées dans des espaces et temporalités différents. 1 Selon une définition consacrée, est une « donnée publique culturelle » la donnée produite ou détenue par un établissement, organisme ou service culturel ayant une activité culturelle réelle et effective (Source : Guide Data Culture). Ex. : inventaire du fonds artistique, horaire d'ouverture, catalogue d'exposition, œuvre du domaine public... 2 Données sur les actes d'achats de biens et services culturels. Ex. : nombre d'entrées en salle, vente de disques, entrées aux musées, détenteurs de cartes d'abonnement, ventes Amazon... 3 Données de contact et qualification collectées au travers des opérations des acteurs de l'industrie culturelle. Ex. : abonnés de l'espace personnel du Louvre, participants aux jeux-concours de promotion musicale, abonnés newsletters, données de navigation... 4 Ensemble des données permettant de connaître les préférences culturelles des consommateurs. Ex. : discussions dans des forums, réseaux sociaux, avis et commentaires sur des œuvres/artistes... Benchmark de données : la donnée personnelle culturelle se distingue Données marketing3 Moyen Fort Moyen Moyen Moyen Données personnelles culturelles4 Fort Moyen Fort Fort Fort Volume de données Degré de digitalisation Variété de format Intimité Multiplicité des sources Données publiques culturelles1 Faible Faible Fort Faible Fort Données transactionnelles2 Fort Moyen Faible Moyen Moyen Les comportements culturels, davantage que les traditionnels CSP, apportent de la valeur aux profils numériques. Une production de données toujours plus exhaustive, pour une meilleure appréhension du comportement culturel de l’être numérique Source : EY ©14 | Comportements culturels et données personnelles au cœur du Big data La donnée personnelle culturelle au cœur de l'émergence d'un marché stratégique Un marché en pleine structuration, sous l’effet de lourds investissements 1 « Social TV : Facebook partagera ses données avec TF1 et Canal+ », Le Monde, 7 octobre 2013 2 GAFA désigne les Big 4 du numérique : Google, Apple, Facebook, Amazon 3 Début 2012, Google avait numérisé plus de 20 millions d’ouvrages (Jennifer Howard, “Google Begins to Scale Back Its Scanning of Books From University Libraries”, 9 mars 2012, site visité le 10 octobre 2013) et le coût de numérisation de l’intégralité du catalogue de la Bibliothèque nationale de France (BNF), soit environ 15 millions d’ouvrages, est estimé à 750 millions (selon Yann Gaillard, rapporteur spécial de la Commission des finances pour la mission « Culture » et auteur du rapport intitulé : « La politique du livre face au défi du numérique. ») La valeur élevée de la donnée personnelle culturelle numérique est source d’importants mouvements d’acteurs et fait l’objet de lourds investissements. Un marché hautement stratégique est en train de se dessiner à la faveur d’un double phénomène de rapprochement et de convergence, avec : • D’une part (tendance 1), les entreprises et établissements médiatiques et culturels qui innovent pour proposer un continuum de services, afin d’enrichir et de prolonger l’expérience culturelle en recueillant des informations précieuses sur les préférences de consommation de biens et services culturels. Exemple : grâce au partenariat signé entre TF1 et Facebook en octobre 2013, le réseau social partagera ses données avec le groupe audiovisuel français qui bénéficiera des outils Facebook dédiés au suivi et à l’analyse des conversations autour des programmes TV. Ces outils permettront à TF1 de mesurer le nombre de publications autour d’un sujet précis et de les analyser, mais aussi d’afficher et de mesurer, pendant la diffusion de ses programmes, le taux de conversations en temps réel sur le réseau social, qui rassemble 26 millions d’utilisateurs en France et génère « 52 % des commentaires sur la télévision1 ». • D’autre part (tendance 2), les leaders du numérique, les GAFA2, qui possèdent déjà des infrastructures de données et sont utilisateurs de données personnelles culturelles, investissent pour se rapprocher de la production de données personnelles culturelles, mais aussi pour produire et diffuser eux-mêmes des contenus culturels. Exemple : l'Institut culturel de Google intègre différents projets dont Google Art Project, qui permet de se promener dans les galeries de 151 musées ou lieux culturels en ligne à travers le monde (Versailles, Quai Branly, MoMa, The National Gallery à Londres, Fondation Neslon Mandela, etc.). Ce service repose sur des bases de données utilisant différentes technologies de l’opérateur et collectant des données personnelles culturelles à l’échelle internationale, avec un effet multiplicateur fort via les réseaux sociaux. Et avec une volonté forte de développer des standards communs ou interopérables pour les musées à travers le monde. Cette invitation dans le monde la culture vient compléter les investissements du groupe dans les secteurs de la vidéo (rachat de YouTube pour 1,65 milliards de dollars en 2006), du livre (plusieurs centaines de millions d’euros3 ), des contenus audiovisuels (films et séries provenant des catalogues de grands studios américains ou de chaînes de télévision telle que BBC, etc.). Amazon s’invite également dans le marché de l’art en lançant, en août 2013, Amazon Art, une plateforme proposant à la vente plus de 40 000 œuvres en provenance de 150 galeries à travers le monde, des plus exceptionnelles aux plus accessibles, avec la volonté clairement affichée de toucher une audience plus large. Structuration d’un nouveau marché stratégique Tendance 1 Être à la fois producteur et utilisateur de données personnelles culturelles Tendance 2 Entrée des GAFA2 sur le marché des données personnelles culturelles Infrastructure Big data Serveurs, data centers, bases de données, algorithmes… Producteurs de données personnelles culturelles • Établissements culturels • Créateurs de contenus créatifs et culturels Ex. : musées, bibliothèques Utilisateurs de données personnelles culturelles • Groupes de médias - Producteurs, diffuseurs, distributeurs de contenus culturels Ex. : diffuseurs TV, éditeurs • Sociétés de marketing digital Distributeurs de produits et services culturels en ligne Ex. : Amazon, La Fnac Les champions du numérique Ex. : Amazon, Apple, Google Acteurs des Infrastructures de données Acteurs des échanges de données personnelles culturelles Source : EY ©Comportements culturels et données personnelles au cœur du Big data | 15 Infrastructure Big data : de quoi parle-t-on ? L'information sur la localisation géographique des data centers est très difficile à obtenir et jugée stratégique par les grands acteurs du secteur. Sur la base des informations publiques disponibles et pour les data centers vendant leurs services, EY a réalisé une carte anamorphose des data centers, qui montre l'avancée des États-Unis en matière de capacité de stockage de données, par rapport à l'Europe et aux autres régions du monde. Les capacités de stockage dont se dotent les grands collecteurs de données sont bien supérieures aux besoins à très court terme comme en atteste la capacité du dernier data center de la National Security Agency (NSA), qui atteint 1 yottaoctet4. En outre, l’analyse des charges et revenus des GAFA montre que si la R&D, le stockage et le traitement des données constituent une part significative des coûts, l’exploitation directe des données Big data ne constitue qu’une faible partie des revenus, l’essentiel5 de ces derniers provenant de la publicité ou de la distribution. 4 Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 5 Les revenus issus de l’exploitation directe des données Big data sont issus de la vente de services de stockage, de traitement et analyses de données Big data, Jeffrey Kelly, David Floyer, Dave Vellante, Stu Miniman, "Big Data Vendor Revenue and Market Forecast 2012-2017", Wikibon, octobre 2013 Si on compare, par grande zone géographique, les pourcentages de data centers dans le monde aux pourcentages de PBN mondial, on constate que certaines régions sont surreprésentées en data centers par rapport à leur poids économique (% de leur PNB/PNB mondial). Ainsi, l’Amérique du Nord a généré 26 % du PNB mondial en 2012 tandis qu’elle abritait 44 % des data centers proposant des services commerciaux. Europe 33 % 25 % Asie 10 % 32 % Autres pays 8 % 4 % Afrique 1 % 2 % Moyen-Orient 2 % 4 % USA/Canada 44 % 26 % Amérique du Sud 2 % 7 % Part de data center Part du PNB mondial Carte en anamorphose des data centers Source : EY ©16 | Comportements culturels et données personnelles au cœur du Big data Caractéristiques du marché de la donnée personnelle culturelle Pour mieux cerner le marché du Big data et en comprendre les règles du jeu, il convient d’analyser les caractéristiques des principales forces en présence. Des coûts marginaux dégressifs Les investissements initiaux sont principalement relatifs à « l’infrastructure Big data » : serveurs, data centers, algorithmes. Si la collecte massive de données personnelles, ainsi que le développement des algorithmes pour les exploiter nécessitent de lourds investissements de départ pour fournir le service au premier client, les coûts nécessaires à l'acquisition de clients supplémentaires sont dégressifs. Un marché où seuls quelques acteurs pourront survivre à moyen terme Toutes les entreprises n’ont pas les moyens d’investir dans cette infrastructure dont le niveau déterminera la qualité de l’exploitation des data. Ainsi, les chances de réussite d’un nouvel acteur sont loin d’être certaines, d’autant que celui-ci risque d’encourir des sunk costs importants. Par ailleurs, l’acteur qui possède la plus grande masse d’informations (réseau social, application, operating system, etc.) et dispose des algorithmes les plus puissants attirera davantage de clients et collectera d'autant plus de données fiables additionnelles. Ceci aura pour conséquence de renforcer la qualité de ses analyses et de ses algorithmes et, in fine, sa position sur le marché. Cet effet « boule de neige » (winner-take-all effect) ajouté à la barrière du coût initial, aux fortes économies d’échelles et à un niveau important de sunk costs tend inévitablement à concentrer le marché à moyen terme. Un marché touchant au « bien commun » Le marché de la donnée personnelle culturelle est sensible car les informations concernant les comportements culturels d'une population donnée et leur exploitation sont souvent issues de statistiques ou d’enquêtes publiques et traitées/analysées à l’échelle nationale, par les instituts de statistiques publics. Rappelons par ailleurs que la propriété intellectuelle culturelle tombe dans le domaine public après une longue période d’exploitation par les auteurs et producteurs de ces données/ contenus1. « Les opérateurs tels que Google, Amazon ou Microsoft construisent leurs propres data centers. Google construit même les machines à l’intérieur de ses data centers. » Jérôme Dilouya, Fondateur et Président-directeur général d’Intercloud 1 « La propriété intellectuelle à l’ère du numérique – Défis et opportunités pour le secteur Médias et Divertissement », EY, Novembre 2011 « Nous sommes face à l’enjeu suivant : qui va gagner la course au CRM du web ? […] Celui qui aura atteint la masse critique de données aura gagné la course de vitesse du CRM digital. » Roei Amit, Directeur adjoint chargé du numérique à la Réunion des musées nationaux - Grand Palais (Rmn-GP)Comportements culturels et données personnelles au cœur du Big data | 17 Des caractéristiques de marché proches de celles d’une infrastructure essentielle ? Investissements initiaux important puis coût marginal faible, sunk costs élevés, fortes économies d’échelle, winner-take-all effects, domaine touchant au bien commun, traditionnellement animé par des organismes publics, etc. : ces éléments, caractéristiques des monopoles naturels, sont longuement décrits dans la littérature économique. Au regard des grandes tendances qui ont marqué certains secteurs avec monopoles naturels, comme les télécoms ou les chemins de fer, l’enjeu consiste à identifier l'infrastructure essentielle et ses marchés Amont et Aval afin de favoriser la concurrence et la diversité des acteurs sur ces marchés. Dans cette optique, l’infrastructure et l’échange de données constituent-ils un marché pertinent ? Est-ce une infrastructure essentielle ? Existe-t-il des acteurs dominants sur ce marché qui doivent être régulés ? De tels marchés ont besoin d'éléments de structuration pour arriver à leur point d'équilibre à moyen et long termes. En outre, au cœur de ce marché en construction, ce sont les données de milliards d’individus connectés, générant des zettaoctets de données numériques collectées et utilisées par un nombre relativement restreint d’acteurs économiques, qui sont en jeu. Là aussi, dans un souci d’équilibre à long terme, la réglementation a un rôle à jouer pour instaurer une relation de transparence et de confiance entre les entreprises et les individus. C’est en leur donnant un droit de regard et de contrôle renforcés sur leur identité numérique que ces êtres numériques continueront à avoir une existence et à produire des données créatrices de valeur. Les caractéristiques d’une infrastructure essentielle • Caractéristiques techniques - Indivisibilité technique (indivisibilité des investissements) - Longue durée de vie - Produit faisant l’objet de peu d’échanges - Produit faisant souvent partie d’un tout, difficile à isoler techniquement • Caractéristiques économiques - Fonction de coûts sous-additive (existence d’économies d'échelle) - Coûts irrécupérables importants (investissements non réversibles) - Externalités de réseau (prime au leader, effet boule de neige, importance d'une masse critique de consommateurs, anticipations auto-réalisatrices...) - Guerre des standards empêchant d'avoir des produits substituables • Caractéristiques socio-économiques - Coordination et planification centralisées - Traditionnellement détenue par l'État - Traditionnellement considérée comme touchant au « bien commun » « Plusieurs milliards d'individus génèrent et échangent des informations personnelles en temps réel tout autour de la planète, bouleversant la science, l'économie et les relations de pouvoir. La gestion des données s'affirme ainsi comme une infrastructure essentielle de la mondialisation, qui doit être régulée alors qu'elle s'affranchit des États et des frontières. » Nicolas Baverez, « La révolution Big data », Le Point, mai 2013| 19 2. Pouvoirs en équilibre et responsabilités partagées : les nouveaux contours du Big data20 | Comportements culturels et données personnelles au cœur du Big data La masse de traces numériques disponibles est désormais suffisante pour permettre de suivre et de modéliser des « êtres numériques » rationnels et cohérents. Dans cette course à l’extraction et à l’analyse de données pertinentes, se dessinent les contours d’un marché à part entière : il s’agit du marché des données personnelles culturelles numériques. S’il ouvre des perspectives économiques prometteuses et étonnantes, ce nouveau marché doit cependant être accompagné dans sa structuration et son développement. En effet, pour garantir son développement harmonieux à moyen et long termes et favoriser un nouvel écosystème économique innovant et créateur de valeur pérenne, il faut s’assurer que l’échange et l’utilisation massive des données personnelles culturelles se fassent dans le respect de la vie privée de chaque individu, premier producteur de données personnelles culturelles. Mais aussi favoriser les investissements des entreprises quant à la collecte et à l’organisation des données et enfin instaurer une saine concurrence économique. « Si l’on veut construire une innovation durable, qui ne soit pas rejetée par l’utilisateur, les entreprises doivent apporter des garanties en termes de protection des données personnelles. Ce n’est pas un coût, c’est un investissement. » Isabelle Falque Pierrotin, « Data, la nouvelle ruée vers l’or », Enjeux Les Échos, mars 2013 Comportements culturels et données personnelles au cœur du Big data | 21 La réglementation, impulsion économique pour les acteurs de Big data en Europe La protection comme facteur de confiance Un fort besoin de confiance quant à la gestion des données personnelles Les réseaux sociaux se font souvent écho des manquements en matière de respect de la vie privée ou de sécurité informatique et propagent souvent le « buzz » autour de pratiques contraires à la loi sur la protection des données. La protection des données personnelles apparaît ainsi au centre des préoccupations des consommateurs, qui questionnent de plus en plus les entreprises et responsables du traitement sur les garanties et la sécurité qu’ils peuvent garantir aux données personnelles qu'ils leur confient. Les questions les plus fréquemment posées sont relatives à la localisation de ces données, aux mesures de sécurité mises en place pour les protéger contre des accès non autorisés, à l’usage qui en est fait par le responsable de traitement, à qui elles sont destinées, etc. Dans un contexte où les questions de confidentialité et de vie privée suscitent un intérêt grandissant chez l’ensemble des parties prenantes, de plus en plus d'entreprises intègrent cette dimension dans leurs actions de communication, tentant ainsi de démontrer l'importance qu'elles attachent à la protection de la vie privée de leurs clients. Au-delà de l’aspect juridique, la conformité à la réglementation en matière de protection des données personnelles devient un moyen efficace pour les entreprises de communiquer sur leur engagement éthique et sociétal. Le respect des bonnes pratiques en matière de protection des données à caractère personnel constitue indéniablement un avantage concurrentiel pour les entreprises, quel que soit leur secteur d'activité, mais également un moyen de se prémunir du risque de réputation. Partant du postulat reconnu que la rétention d’un client requiert un investissement bien moindre que son acquisition, les entreprises déploient des stratégies pour maintenir et entretenir la fidélité de leurs clients. Celle-ci repose essentiellement sur la confiance, laquelle ne peut être construite qu’en s'appuyant sur les deux notions fondamentales que sont la connaissance et la reconnaissance. La connaissance enregistre « l’historique du client », c'est-à-dire ses interactions avec les différents services de l’entreprise, auxquelles s’ajoutent des informations relatives aux produits. La reconnaissance est la réponse personnalisée selon le client : il s’agit donc de s’appuyer sur la connaissance du client pour lui apporter une réponse ciblée, voire de devancer ses attentes. L'évolution constante des technologies qui a rythmé les dix dernières années, à laquelle s’ajoute le décalage qui existe encore trop souvent entre les engagements, volontaires ou imposés, en matière de protection des données et les pratiques de traitement des données, ont pour effet de renforcer les attentes des consommateurs en matière de confiance et de transparence.22 | Comportements culturels et données personnelles au cœur du Big data Comment définir aujourd’hui une donnée à caractère personnel ? Définir la notion de « donnée à caractère personnel » n'est pas chose aisée en raison de son caractère mouvant, parfois subjectif ou relatif, mais avant tout contextuel. La directive 95/46, qui constitue le socle communautaire en matière de protection des données personnelles, définit une « donnée à caractère personnel » comme « toute information concernant une personne physique identifiée ou identifiable (personne concernée) ; est réputée identifiable une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro d'identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale ». D’autres définitions existent : « nous ne devrions plus parler de données personnelles, mais de données relationnelles et transactionnelles. Nous devons abandonner la vision des données personnelles comme une chose définie.1 » En effet, les données qui, prises indépendamment, peuvent sembler insignifiantes, sont assemblées et analysées pour recréer des profils individuels ou définir des identités numériques à partir d’éléments de personnalité réels. Souvent, il suffit d’une date et du lieu de naissance pour identifier un individu. Mais l’usage des réseaux sociaux, ainsi que des moteurs de recherche ou des services de messagerie peuvent donner une vision précise de cet individu à travers le prisme de ses goûts, de ses habitudes, de ses projets ou de ses croyances. Au risque de voir toutes ces données combinées afin d'identifier un individu, sans même connaître précisément son nom. La quantité de données qui sont désormais collectées, traitées et stockées sur chaque personne permet d'aller beaucoup plus loin et contribue à un profilage très précis des individus avec la possibilité - en fonction des catégories de données traitées – de produire des modèles probabilistes pour en apprendre davantage sur leur croyance religieuse, leur opinion politique, leur mode de vie, leur orientation sexuelle et bien d'autres aspects de leur vie personnelle et intime. La question se pose donc de redéfinir les catégories de données qui doivent être considérées comme sensibles et donc réglementées plus strictement par la loi. En effet, des données collectées à partir de ce que peut lire, écouter ou regarder un individu peuvent fournir des indications sur son orientation politique, ses croyances religieuses ou même son orientation sexuelle, et de facto relever du statut juridique protecteur des données sensibles. Force est de constater que les données culturelles, qu’elles répondent ou non à la définition des données sensibles, doivent faire l’objet d’une protection en cela qu’elles relèvent de l’intimité d’un individu. Cette question est d'autant plus cruciale dans le contexte du développement de Big data et du cloud computing qui, par économie d'échelle, peuvent induire une augmentation de tous les risques soulevés par les questions suivantes : • Où sont stockées les données personnelles ? • Les données personnelles sont-elles sécurisées ? • Est-ce qu’un individu possède encore le contrôle de ses données ? • Comment un individu peut-il s’opposer au traitement de ses données ? • Comment un individu peut-il récupérer ses données ? La question de la confiance devient encore plus fondamentale lorsqu’il est question de bâtir une relation durable avec les utilisateurs et clients, afin de répondre à des doutes ou des craintes qui pourraient freiner le développement de ce qui semble être appelé à devenir un levier majeur de création de valeur dans l’industrie médiatique et culturelle. Conjointement à ces initiatives privées, les acteurs publics doivent mener les actions qui s’imposent afin d’assurer un niveau adéquat de protection des données personnelles et soutenir la croissance du secteur, à l’image des politiques adoptées dans de nombreux pays pour offrir un cadre au commerce en ligne. 1 Dominique Boulier, Vie Privée à l’Horizon 2020, Cahier IP n° 1, CNIL, novembre 2012Comportements culturels et données personnelles au cœur du Big data | 23 Comment les données personnelles sont-elles collectées et traitées ? Boîte à outils évaluer le respect de la vie privée Privacy Score attribue une note aux sites web en fonction de leur niveau de conscience et du respect de la vie privée. www.privacyscore.com Traquer les trackers The Guardian a mis en place une application en ligne afin de permettre aux internautes de comprendre comment ils sont suivis en ligne et par qui. Les cercles rouges sont les dix premières sociétés de tracking les plus prolifiques ; les cercles bleus se réfèrent aux 100 sites les plus populaires qui les utilisent. www.theguardian.com Quelle est la valeur des données personnelles ? Le site du Financial Times permet de calculer combien de commerçants feraient payer des données personnelles sur la base de nombreux critères comme l'âge, le travail, la famille, les maladies ou les activités potentielles. www.ft.com Contrôler l’information - configurer son navigateur web Tous les navigateurs Internet permettent le blocage des cookies de suivi. Certains navigateurs comme Mozilla Firefox permettent de choisir une option spécifique, laquelle consiste à informer les sites web qu’on ne souhaite pas être suivi par des annonceurs et autres tiers. Respecter ce paramètre est facultatif, les sites web n’étant pas tenus de respecter la volonté des internautes. Il est également possible de mettre en œuvre des plug-in supplémentaires pour surveiller l’intégralité des données recueillies à partir des appareils, la façon dont elles sont traitées et éventuellement, s'opposer à toute collecte de données.24 | Comportements culturels et données personnelles au cœur du Big data États-Unis/Europe : deux approches différentes de la protection des données personnelles En termes de politique publique, des approches différentes peuvent être mises en avant afin d’aborder la question de la vie privée et de la protection des données personnelles, à l’instar des États-Unis et de l’Europe qui ont une conception radicalement différente des concepts de « protection de la vie privée » et de « donnée à caractère personnel ». La première différence entre ces deux approches réside dans la spécificité du système américain où les lois fédérales coexistent avec les lois de chacun des cinquante États, ce qui place les ÉtatsUnis au premier rang des pays ayant adopté le plus grand nombre de lois dans le domaine de la protection de la vie privée et des données à caractère personnel. La deuxième différence consiste dans le fait qu’aux États-Unis, il n'existe pas un corps unique de règles protégeant la vie privée (à l’exception du Privacy Act de 1974 qui donne aux citoyens le droit de connaître les informations que le gouvernement fédéral détient à leur sujet et de corriger ou d’obtenir réparation si leurs données sont utilisées de manière non autorisée). Aux États-Unis, la protection de la vie privée est déclinée par secteur d’activités, industrie, ou toute autre segmentation qui concernent par exemple le secteur de l’enfance ("Children's Online Privacy Protection Act" - COPPA) de 1998 qui protège les données personnelles des enfants de la collecte et du détournement de leurs données sur les sites internet commerciaux), le secteur financier ("The Financial Services Modernisation Act" ou "Gramm-Leach-Bliley Act" de 1999 qui règlemente les conditions de communication à des tiers d’informations personnelles détenues par les institutions financières) ou encore des lois qui protègent la santé comme le "Health Insurance Portability and Accountability Act" (HIPAA) de 1996 qui met en place des standards pour l’échange électronique d’informations médicales afin de protéger la vie privée des patients. De nombreux textes vont protéger les données mais de manière sectorielle et non de manière transversale. Dans le secteur des médias, on peut citer le "Cable Communications Policy Act", le "Telecommunications Act" ou le "Videotape Privacy Protection Act". Au-delà de l’aspect législatif, la principale différence entre le droit à la vie privée aux États-Unis et au sein de l'Union européenne est d’ordre philosophique. Alors qu’aux États-Unis, la loi sur la vie privée est axée sur la protection du consommateur et vise à atteindre un équilibre entre la vie privée et l'efficacité de l’entreprise, l’Union européenne considère le respect de la vie privée comme un droit fondamental du citoyen, supérieur à tout autre intérêt commercial. La loi américaine sur la protection de la vie privée entend protéger le consommateur plutôt que l'individu et sanctionnera les manœuvres déceptives ou trompeuses plutôt que le non-respect de règles de protection des libertés publiques. Enfin, une autre différence marquante est certainement l’accent particulier mis par la réglementation nord-américaine sur la protection de la sécurité des données, notamment à travers l'obligation de notifier les failles de sécurité. Plusieurs États nordaméricains ont depuis longtemps édicté des lois qui mettent à la charge des organisations des obligations de notifier les failles de sécurité. Ainsi, la grande majorité des États américains dispose de lois qui vont imposer aux entreprises la mise en place de procédures particulières en cas de vol ou de perte de données personnelles. Cette réglementation contraint les entreprises à renforcer leurs mesures de sécurité internes, et cela afin d’éviter des procédures coûteuses et préjudiciables à leur image de marque en cas de publicité voulue ou subie. Au niveau européen, l'obligation de notifier les failles de sécurité ne fait aujourd’hui pas encore partie du droit positif en matière de protection des données dans le cadre de la directive européenne 95/46, même si elle existe déjà pour les prestataires de communication électronique en application de la directive 2002/58 sur la vie privée. Toutefois, le projet de règlement pour la protection des données publié par la Commission européenne devant refondre le cadre européen de la protection des données prévoit une obligation similaire qui s'appliquera à tous les responsables de traitement et sous-traitants en Europe.Comportements culturels et données personnelles au cœur du Big data | 25 À cet égard, il est intéressant de souligner que les différences entre ces deux approches ont vocation à se réduire compte tenu des enjeux d’interopérabilité nécessités par l’augmentation croissante des flux transatlantiques de données. En effet, au moment où la Commission européenne a publié le projet de règlement pour la protection des données le 25 janvier 2012, la Maison Blanche publiait un mois plus tard le projet de loi relatif au respect de la vie privée des consommateurs. La comparaison entre ces deux projets de réforme constitue une brillante illustration des ambitions d’harmonisation entre les deux approches. « L'Union européenne et les législations américaines commencent à utiliser le même langage en ce qui concerne la loi sur la protection des données, tant sur la définition juridique proposée que sur les grands principes mis en œuvre.1 » Donc si les deux projets de réforme sont issus de sources de droit différentes, ils convergent par l’émergence actuelle de dénominateurs communs et notamment la prise en compte de l’importance d’une responsabilisation des opérateurs (concept d’accountability qui va être introduit en droit européen) et la nécessité de fournir des garanties adéquates pour les personnes afin de maîtriser les menaces pour la vie privée issues des technologies. 1 Traduction libre de Gabriela Zanfir - "European Integration Realities and Perspectives: EU and US Data Protection Reforms. A Comparative View." projet de réglementation en europe Sources • Un corps unique de règles protégeant la vie privée et les données personnelles des citoyens. • Directives transposées dans les 28 États membres. Philosophie/Objectifs • La défense du droit à la vie privée comme droit fondamental supérieur à tout autre intérêt commercial. • Une prise en compte à géométrie variable des risques liés à la sécurité informatique, notamment s'agissant des obligations de notification des failles de sécurité aujourd'hui limitées aux seuls prestataires de communications électroniques. projet de réglementation aux États-Unis Sources • Absence de corps unique de règles protégeant la vie privée mais des réglementations sectorielles. • Lois différentes dans les 50 États sur les questions de sécurité informatique et de protection de la vie privée. Philosophie/Objectifs • La protection du consommateur et la poursuite d'un équilibre entre protection de la vie privée et intérêt business. • La sécurité informatique au cœur des dispositifs réglementaires de protection des données notamment au travers des obligations de notification des failles de sécurité imposées à toutes les entreprises.26 | Comportements culturels et données personnelles au cœur du Big data Ce qui va changer en Europe en matière de protection des données personnelles : des droits renforcés pour les individus, une responsabilisation accrue des organisations, des technologies respectueuses de la vie privée et plus de sanctions Le projet de Règlement (proposition de la Commission européenne avant la prise en compte des amendements du Parlement européen) sur la protection des données personnelles renforcera les droits des citoyens en introduisant les règles suivantes : • Création d'un « droit à l'oubli » pour aider les citoyens à gérer les risques en matière de protection des données en ligne. Lorsque la personne concernée ne voudra plus que ses données soient traitées et qu'il n’existe pas de motif légitime d’en maintenir le traitement, les données seront effacées. Ces règles ont pour visée de renforcer les droits des individus. Il ne s’agit pas de supprimer des événements passés ou de restreindre la liberté de la presse. • Création d'un droit à la portabilité des données personnelles d'un fournisseur de service à un autre. • Renforcement du principe du « consentement », lequel lorsqu’il est nécessaire doit être donné de manière explicite. • Obligation mise à la charge des entreprises et des organisations d’avertir sans délai injustifié les particuliers des failles de sécurité relatives à leurs données personnelles qui seraient susceptibles de leur nuire. Ils devront également informer l'autorité compétente de protection des données. • Amélioration des voies de recours administratives et judiciaires en cas de violation des droits de protection des données. • Responsabilité accrue et application du principe d’accountability (« obligation de rendre compte aux parties prenantes ») des responsables de traitement - à travers des évaluations des risques en matière de protection des données, des délégués à la protection des données et à travers les principes de « privacy by design » et « privacy by default ». Les démarches « privacy by design » et « privacy by default » vont également venir renforcer l’effectivité des règles européennes en matière de protection des données - ce qui signifie que les garanties de protection des données seront intégrées au sein des produits et des services, et que des paramètres respectant la protection des données personnelles deviendront la norme - par exemple sur les réseaux sociaux. Ces règles vont renforcer les droits des personnes d'une manière pratique. Grâce à ces règles plus strictes de protection des données, la Commission européenne a pour objectif de contribuer à accroître la confiance dans les services en ligne, afin que les citoyens soient en mesure d’utiliser les nouvelles technologies avec plus de confiance en bénéficiant des avantages du marché intérieur. Les autres avancées du projet de règlement sont les suivantes : • Un seul corps de règles sur la protection des données, valable dans toute l'UE. • Un interlocuteur unique : les entreprises n'auront en principe qu'à traiter avec une seule autorité de protection des données au niveau national, à savoir l’autorité compétente dans l'État membre où elles ont leur établissement principal. • Les personnes auront le droit de se référer à leur autorité nationale de protection des données, même lorsque leurs données personnelles sont traitées en dehors de leur pays d'origine. • Les règles de l'Union européenne s'appliquent aussi aux sociétés non établies dans l'Union européenne, si elles offrent des biens ou des services au sein de l'Union européenne ou si elles surveillent le comportement en ligne des citoyens. • Des responsabilités accrues et l’avènement du principe d’accountability pour les responsables de traitement des données personnelles. • Les contraintes administratives telles que les exigences de notification systématiques pour les entreprises responsables de traitement des données personnelles seront supprimées. Source : Commission européenne - le projet est encore en discussion (processus de codécision entre le Parlement européen et le Conseil)Comportements culturels et données personnelles au cœur du Big data | 27 Big data et protection des données personnelles culturelles La question de la protection des données personnelles est au cœur du marché du Big data culturel, puisque les données personnelles culturelles reflètent la personnalité d’un individu. Le culturel, c’est la « donnée de l’intimité », pour autant la donnée culturelle n’est pas spécifiquement réglementée par le droit positif (directive européenne de 1995) et n’est pas appréhendée par le projet de Règlement sur la protection des données personnelles en cours de discussion à Bruxelles (le vote, initialement prévu au premier semestre 2014, pourrait être reporté en 2015 - Conseil européen, 25 octobre 2013). Par ailleurs, et c’est aussi un enjeu fondamental, il est important que le droit reconnaisse la valeur patrimoniale de ces données. Le nouveau cadre réglementaire européen en matière de données personnelles demeurera certainement plus ambitieux par rapport aux règles en vigueur dans le reste du monde. Il pourrait contribuer au développement des acteurs de Big data en Europe dans la mesure où il va renforcer le niveau de sécurité et confiance apporté que les acteurs européens seront tenus d’offrir aux individus dont ils traitent les données. La protection et la valorisation des données personnelles en tant qu’actif des entreprises Les données personnelles sont aujourd’hui au cœur de l'innovation et de la publicité en ligne et constituent « un type d'actif pour les entreprises1 ». Appelées à devenir l’un des moteurs de l’économie numérique, elles font l’objet d’investissements massifs. Paradoxalement, les outils juridiques à disposition des entreprises pour protéger et valoriser leurs données semblent aujourd’hui trop limités pour appréhender de manière adéquate cet actif stratégique. Les outils juridiques existants • La protection des bases de données Les bases de données sont définies comme des recueils d’œuvres, de données disposées de manière systématique ou méthodique et individuellement accessibles par des moyens électroniques ou tout autre moyen. La protection légale des bases de données est double : • Le droit d’auteur protège la structure de la base de données si celle-ci peut être considérée comme originale au regard de l’organisation du choix des rubriques et de leur disposition. Il n’a pas vocation à protéger le contenu informationnel de la base. • ►Le droit sui generis des producteurs de bases de données permet quant à lui de protéger l’investissement réalisé pour compiler le contenu de la base et pourrait donc palier, dans une certaine mesure, les limites du droit d’auteur. Pour autant, cette protection est limitée dans sa portée dans la mesure où elle n'offre que la possibilité d’interdire la reprise d’une part quantitativement ou qualitativement substantielle du contenu de la base. Ces deux régimes de protection ont des objets différents (originalité du contenant c’est-à-dire de la structure, de la présentation de la base vs. investissement dans le contenu c’est-à- dire dans la constitution de la base). Pour autant, leur articulation ne permet pas de couvrir réellement l’intégralité de la valeur de l’information même structurée au sein d’une base de données : • ►Le droit d’auteur protège une « coquille vide », la structure et l’organisation de la base et non pas l’information qu’elle contient (sauf si celle-ci est protégeable indépendamment de son inclusion dans la base, par exemple des titres d’œuvres protégées par le droit d’auteur). • ►Le droit sui generis permet la protection indirecte de l’information dans la mesure où elle octroie au producteur de la base de données le droit d’en interdire l’exploitation par un tiers, mais sous réserve d’apporter la preuve du caractère (qualitativement ou quantitativement) substantiel de la réutilisation ou de l’extraction du contenu de la base de données et surtout de la consistance des investissements réalisés en amont pour la constituer. Le droit des bases de données ne permet donc pas la protection de tout type d’information, des informations potentiellement stratégiques peuvent ne pas être éligibles à la protection prévue par le droit des bases de données. 1 Competition and personal data protection, Joaquin Almunia, Vice President of the European Commission responsible for Competition Policy, Privacy Platform event: Competition and Privacy in Markets of Data, Brussels, 26 November 2012, SPEECH/12/86028 | Comportements culturels et données personnelles au cœur du Big data • La protection des informations par le biais du savoir-faire Le savoir-faire est une notion à géométrie variable, dont la définition peut beaucoup varier d’un pays à l’autre. En France par exemple, il n’existe pas de définition juridique précise de cette notion. Elle se trouve donc limitée à une valeur qui peut faire l’objet d’accords de licence ou de cession auprès de tiers souhaitant bénéficier des connaissances qu’il recouvre. Pour autant, elle n’est pas directement protégeable par un titre de propriété industriel qu’il serait aisé de défendre. Le savoir-faire est un bien économique pouvant être valorisé dans le patrimoine d’une entreprise. Mais il n’est pas un bien juridique et ne peut être considéré isolément comme l’objet d’un droit privatif. Le savoir-faire entendu comme connaissance technique transmissible et non immédiatement accessible au public n’est visé par les textes que sous l’aspect pénal très particulier de la violation du secret de fabrique. Or cette notion ne désigne que les seuls secrets utilisables dans le domaine de l’industrie, sous forme de méthodes, de procédés ou matières utilisées (Cass. Crim., 24 juin 1985, n° 83-92.873). En revanche, elle n’appréhende pas les méthodes commerciales ou les secrets de commerce (fichiers clients par exemple). La valeur économique résultant des investissements effectués afin de développer un savoir-faire n’est donc protégeable que sur le terrain du droit commun de l’action en concurrence déloyale ou en parasitisme, qui sont susceptibles de révéler deux types de difficultés : • ►La nécessité de faire la preuve d’une faute, d’un préjudice et d’un lien de causalité entre la faute et le préjudice (à l’inverse la violation d’un droit de propriété intellectuelle qui ne requiert que la preuve de l’existence du droit et de l’acte de violation). • ►L’octroi de dommages-intérêts ne couvrira que très rarement l’intégralité des préjudices subis par le titulaire du savoir-faire et cela d’autant qu’une fois le savoir-faire divulgué, il perdra une grande partie de sa valeur et ne bénéficiera plus d’aucune protection. La faiblesse du régime de protection du savoir-faire, des innovations non éligibles à la protection par le droit d’auteur ou la propriété industrielle est un frein à la valorisation du patrimoine immatériel des entreprises. Pourtant les accords ADPIC qui ont pour objet de définir les règles minimales de protection de la propriété intellectuelle par les pays membres de l’OMC opèrent un rapprochement entre secret et savoir-faire et couvrent la notion plus large de « renseignement non divulgué ». Cette notion permet de fonder une interdiction générale d’usurpation et d’usage d’informations, de renseignements confidentiels ou de techniques et procédés ayant une valeur commerciale, qui ne sont pas généralement connus et ne sont pas aisément accessibles. Si la conception française du secret est très étroite et que des incriminations pénales ne sont retenues qu’en ce qui concerne les secrets de fabrique, parallèlement, d’autres pays ont retenu une notion plus proche de la lettre des accords ADPIC, permettant ainsi une protection plus large du patrimoine informationnel des entreprises, comme par exemple : • En ►Italie : protection des informations relatives à l’entreprise et à son expérience technico-industrielle, y compris son expérience commerciale si ces informations sont secrètes et ont une valeur économique. • ►Aux États-Unis : protection des informations financières économiques ou commerciales.Comportements culturels et données personnelles au cœur du Big data | 29 De nouveaux outils juridiques à développer pour protéger les actifs des entreprises Une réflexion globale sur la protection juridique des investissements effectués pour valoriser le patrimoine informationnel des entreprises doit être conduite, afin d’élaborer des outils juridiques permettant aux acteurs de Big data, y incluant les entreprises du secteur culturel, de valoriser les investissements réalisés autour de Big data pour mieux connaître leurs clients et leur proposer de nouveaux services. Une logique de droit d’auteur pour valoriser les actifs résultant des données personnelles Outre la question de la protection purement juridique, plusieurs réflexions ont été menées à un niveau gouvernemental sur la distorsion existante entre la valeur réelle et la valeur comptable des données personnelles. Du point de vue des États, cette distorsion crée aujourd’hui un obstacle du point de vue de la fiscalité des GAFAdont le modèle économique repose essentiellement sur l’exploitation des données de leurs utilisateurs et dont les profits ne sont pas toujours correctement appréhendés par les États où leurs services sont distribués. Nicolas Collin et Pierre Colin, les auteurs du rapport sur la fiscalité du numérique, proposent de calquer la protection des données personnelles sur le régime du droit d’auteur. Pour mémoire, le droit d’auteur présente deux composantes distinctes : • ►Des droits moraux d’autoriser ou d’interdire la diffusion d’une œuvre. • Des droits patrimoniaux garantissant aux auteurs une juste rémunération au titre de l’exploitation commerciale de leurs œuvres. Sur cette base, le rapport propose de reconnaître la composante patrimoniale des données à caractère personnel en permettant aux personnes concernées d’appréhender la valeur réelle des données les concernant comme contrepartie des services « gratuits » disponibles sur Internet pour le grand public. La composante droit moral serait, quant à elle, calquée sur la réglementation en matière de protection à caractère personnel. Ainsi, les entreprises qui pourraient démontrer le respect de la loi Informatique et Libertés, pourraient bénéficier de l’application d’un taux de fiscalité réduit. • En savoir plus p. 3730 | Comportements culturels et données personnelles au cœur du Big data Droit de la concurrence et structuration des marchés sur l’échange de données personnelles Un marché « biface » selon la Commission européenne Jusqu'à présent, du point de vue du bon fonctionnement des marchés, le point de convergence entre les données personnelles et le droit de la concurrence a rarement été traité. En effet, le terme d'« actif » pour qualifier les données personnelles a été utilisé pour la première fois par la Commission européenne dans l’affaire de la fusion entre Google et DoubleClick en 20081. Pour la Commission européenne, les acteurs du marché de la publicité en ligne, tels que les moteurs de recherche, opèrent sur un marché biface2. D'un côté du marché, le fournisseur de services en ligne propose des services gratuits (moteurs de recherche, e-mails, le contenu, etc.) aux utilisateurs. De l'autre côté du marché, le fournisseur de services en ligne propose des services payants pour les annonceurs. En d'autres termes, sur le premier côté du marché, les utilisateurs bénéficient de services gratuits en échange du recueil de leurs données et de l'autre côté du marché, ces données sont monétisées auprès des annonceurs3. Les profits des nouveaux acteurs du numérique ne proviennent pas directement des services qu'ils fournissent aux utilisateurs mais sont issus de leur activité publicitaire ou de la distribution. • En savoir plus p. 15 Un marché à analyser selon le droit de la concurrence À l'heure actuelle, une grande majorité des données personnelles sont collectées par une poignée de fournisseurs de services en ligne qui, en tant que leaders de l'innovation sur leur marché, ont la capacité de recueillir de grandes quantités de données. La législation relative à la protection des données à caractère personnel et le droit de la concurrence ne poursuivent pas les mêmes fins : la réglementation relative à la protection des données vise à la protection de la vie privée alors que le droit de la concurrence vise à assurer une concurrence effective sur le marché. En conséquence, la possibilité de contrebalancer la montée en puissance des principaux fournisseurs de services en ligne quant à la collecte et à l’usage de données personnelles doit être recherchée tant dans le droit de la concurrence que du droit de la protection des données. Diverses pratiques pourraient être qualifiées, en vertu du droit de la concurrence, d'ententes anticoncurrentielles ou d'abus de position dominante. De telles pratiques peuvent se manifester au moment de l'acquisition de données personnelles ou lorsqu’une entreprise empêche d'autres d’acquérir de telles données. Pourrait également être qualifié d’abus le fait, pour une entreprise, de détenir à elle seule des données considérées comme indispensables pour les autres opérateurs (selon la doctrine des « infrastructures essentielles ») et de s’en réserver l’usage, en se prévalant éventuellement du droit de la propriété intellectuelle, notamment ici du droit spécifique sur les bases de données. Enfin, les données personnelles, comme « actifs », peuvent être prises en compte dans l'analyse d’impact sur la concurrence d’une opération de fusion ou de rapprochement de deux ou plusieurs entreprises, analyse dite de « contrôle des concentrations ». 1 Décision de la Commission européenne du 11 mars 2008 déclarant une opération de concentration compatible avec le marché commun et le fonctionnement de l’accord EEE, Affaire n° COMP/M.4731 - Google/DoubleClick 2 EU Commission, Case No COMP/M.5727 – Microsoft/Yahoo! Search Business, 18/02/2010, §100 3 Personal data, will Competition Law collide with privacy? – Competition law and personal data: Preliminary thoughts on a complex issue, D. Geradin and M. Kuschewsky, Concurrences n° 2-2013Comportements culturels et données personnelles au cœur du Big data | 31 Deux exemples de pratiques anticoncurrentielles peuvent être mis en avant : tout d’abord, des accords d'exclusivité conclus entre les fournisseurs de services en ligne et les éditeurs avec pour effet d'empêcher d'autres fournisseurs de services en ligne de recueillir des données et ensuite le fait d’empêcher les utilisateurs de transférer leur données d'un fournisseur de services en ligne à l'autre. • Les accords d'exclusivité Les fournisseurs de services en ligne peuvent conclure des accords avec des éditeurs prévoyant que l'éditeur utilise exclusivement les services du fournisseur, comme un moteur de recherche, sur son site Internet3. Conformément à ces accords, l'éditeur ne peut pas recourir aux services prestés par d'autres fournisseurs de services en ligne. En conséquence, surtout lorsqu’une multitude d’accords d’exclusivité est conclue entre éditeurs de services et un fournisseur de services en ligne unique, les autres fournisseurs de services en ligne sont empêchés de recueillir des données auprès des éditeurs qui, liés par leurs accords exclusifs, ne peuvent pas conclure d'autres accords3. Ces accords d'exclusivité peuvent également être conclus entre des fournisseurs de services en ligne et des fournisseurs de logiciels ou de matériels informatiques lorsque les services prestés par le fournisseur de services en ligne sont paramétrés par défaut sur ce type de matériel4. • Interdiction de la portabilité des données L'interdiction de la portabilité des données fait référence à la pratique mise en œuvre par les prestataires de services en ligne qui consiste à interdire aux utilisateurs de transférer leurs données à caractère personnel à un autre fournisseur de service en ligne. La portabilité des données constitue l'une des nouveautés du projet de Règlement sur la protection des données générales (article 18)5. L'interdiction de la portabilité des données pourrait empêcher les annonceurs d'exporter les données d’une campagne de publicité d'une plateforme à une autre3. 4 Ces accords d'exclusivité « sont susceptibles d’exclure les concurrents sur le marché, surtout quand ils sont conclus par des entreprises en position dominante », et a fortiori si un ensemble d’accords de cette nature a été conclu. 5 Proposal for a regulation of the European parliament and of the council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), 2012/0011, 25/01/2012 Dans l'analyse des fusions Dans le cas de la fusion entre Google et Doubleclick, la Commission européenne a examiné l'effet de l’accroissement de la quantité de renseignements personnels obtenus par l'entité issue de l’opération. Dans ce cas, « l'enquête a révélé que la combinaison des informations sur les comportements de recherche et le comportement de navigation web ne donnerait pas un avantage concurrentiel dans le secteur de la publicité tel qu’il ne pourrait être reproduit par d'autres concurrents qui ont accès à des données d'utilisation du web similaires ». Si cet élément a bien été pris en compte dans l’analyse de l’opération de fusion impliquant notamment Google, il n'a pas abouti ici à la conclusion que la fusion pourrait avoir un effet anticoncurrentiel. Pratiques anticoncurrentielles dans l'acquisition de données : empêcher d’autres opérateurs d’acquérir ces données 32 | Comportements culturels et données personnelles au cœur du Big data Quels facteurs d’équilibre possibles ? Dans le cas où des acteurs dominants seraient identifiés sur ce marché, comme ayant des caractéristiques proches d'une « infrastructure essentielle », certains outils existent pour réguler ces situations et ont été largement testés dans d’autres secteurs, comme celui des télécoms. Une Autorité peut, par exemple, réguler le marché ex-ante en obligeant la publication d’offres de référence, fixant certains tarifs (ou les fixant à moyen terme), en favorisant l’entrée d’acteurs sur des marchés de niche, en favorisant la portabilité des données ou en obligeant les acteurs dominants à réaliser certaines séparations fonctionnelles. On peut imaginer également que le régulateur mette l’accent sur les utilisateurs, obligeant les acteurs à une concurrence par la qualité. Pour ce faire, l’Autorité de la concurrence a identifié des mesures en vue de renforcer l’usage des données personnelles comme levier de différenciation concurrentielle : • Le droit à la portabilité des données peut limiter le risque de blocage par la promotion d’une adhésion cumulative ou alternative aux divers réseaux sociaux par exemple. • La durée de stockage des données doit être proportionnée à l'objectif poursuivi par le responsable du traitement et raisonnable ; la limiter pourrait abaisser les barrières à l'entrée. • La transparence sur la nature des données collectées, sur la finalité du traitement et les destinataires de l'information donnerait aux utilisateurs les moyens de comparer les offres sur la base du critère de la protection des données personnelles, leur donnant le pouvoir de contrôler l'utilisation de leurs données personnelles1. 1 « Données personnelles, le droit de la concurrence doit-il prendre en compte la protection de la vie privée ? – Le point de vue de l’Autorité française de la concurrence », Bruno Lasserre, Président de l’Autorité française de la concurrence, Concurrences n° 2-2013, p. 28Comportements culturels et données personnelles au cœur du Big data | 33 Quelle fiscalité 3.0 pour l'économie digitale ? Au-delà des défis que pose l’adaptation de la fiscalité internationale aux enjeux de l’économie numérique, le sujet de la fiscalisation des données est désormais clairement identifié. Les questions qui se posent à cet égard sont multiples et complexes : • Doit-il y avoir un lien direct entre fiscalité et data et si oui pourquoi ? (justification économique, contrainte budgétaire, protection de la concurrence, émergence de champions nationaux, partage de la valeur entre les opérateurs et créateurs). • Faut-il mettre en place une fiscalité spécifique au numérique en général et aux data en particulier ? Si oui, comment taxer les data ? • La fiscalité doit-elle vraiment être un instrument de contrepouvoir dans le cadre de l’ère numérique ? Ou doit-elle simplement s’adapter aux nouvelles réalités ? 2013, un momentum pour la fiscalité de l’économie numérique Jamais les efforts menés par les États pour restaurer l’équilibre de leurs finances publiques n’ont été aussi intenses, se traduisant par des hausses d’impôts généralisées dans la plupart des pays matures. L’économie du numérique est particulièrement visée, dans le cadre d’une volonté clairement affichée par les États de réaligner les recettes fiscales avec le lieu de génération du chiffre d’affaires, voire même de destination des services et biens numériques. En parallèle, les déficits budgétaires réduisent le financement public en faveur de la culture en général, et du développement de la création en particulier. Le constat est désormais unanime : il est nécessaire d’adapter les règles de la fiscalité internationale aux nouvelles réalités du monde numérique et des nouvelles technologies, principalement en ce qui concerne les règles de territorialité de l’impôt sur les sociétés et les taxes indirectes assises sur le chiffre d’affaires. En effet, par l’effet combiné de la dématérialisation systématique des services et des biens et de modèles d’affaires bipolaires2 (fondés principalement sur les incorporels et les technologies de l’information), il n’y a souvent plus de nexus suffisamment caractérisé permettant d’allouer le droit d’imposer aux États sur le territoire desquels les services sont délivrés ou bien le chiffre d’affaires se trouve généré par l’utilisation (payante ou non) d’Internet par des consommateurs toujours plus connectés3. 2 Modèle d’affaires adossant une activité dite « gratuite » à une activité rémunérée, localisée le plus souvent dans des territoires différents 3 Nicolas Collin et Pierre Colin, Mission d’expertise sur la fiscalité de l’économie numérique, janvier 201334 | Comportements culturels et données personnelles au cœur du Big data En outre, les différences de régimes fiscaux (taux, bases, régimes fiscaux dits de faveur etc.) entre les pays, parfois au sein de mêmes zones économiques (ex. : Union européenne) créent des disparités fiscales entre les acteurs de l’économie du numérique en fonction de leur taille (multinationales versus PME/ETI) et localisation (États-Unis, Europe, pays émergents). Elles se traduisent également pour les États par des déperditions significatives de recettes dont l’effet est aggravé par une compétition fiscale accrue entre ces mêmes États comme parfois par des pratiques optimisées de la part des opérateurs globalisés. Les États ont réagi vigoureusement depuis 2012 et ont convenu en 2013 d’un plan d’actions ambitieux à court terme, incluant notamment : • Le Programme « BEPS » en 15 points de l’OCDE, visant à lutter contre l’érosion de la base d’imposition et le transfert des bénéfices (juin 2013), lequel intègre précisément la prise en compte des défis fiscaux posées par l’économie numérique comme point d’action n° 1. • L’harmonisation au sein de l’Union européenne des règles de TVA en matière de traitements et services rendus par voie électronique (nouveau régime unifié à partir du 1er janvier 2015, généralisant l’imposition dans l’État de consommation). • Compte tenu de l’envergure internationale et politique de cette approche, il s’écoulera un certain temps entre le lancement de ces plans d’actions et réformes et leur impact dans l’économie réelle. De même, l’harmonisation au sein de l’Union européenne des règles de TVA soulève encore certains problèmes d’application et il n’a pas été possible d’accélérer son entrée en vigueur avant 2015, alors même que cette problématique est connue de longue date. Ce sujet de l’économie numérique est récemment venu à l’ordre du jour du Conseil de l’Union européenne, lors d’une réunion qui s’est tenue les 24 et 25 octobre 2013. Ces difficultés théoriques comme pratiques s’expliquent principalement par la complexité et la spécificité des modèles d’affaires de l’économie numérique qui ne sont toujours pas parfaitement appréhendées par les concepts et outils fiscaux traditionnels. À cet égard, un mouvement d’opinion de plus en plus fort se fait jour au sein des acteurs et experts de l’économie du numérique pour contester la nécessité d’une fiscalité spécifique au monde numérique, les technologies digitales imprégnant en effet tous les pans de l’économie (industries, services, secteurs marchand et non marchand, privé et public) et nécessitant donc un approche globale, si ce n’est de droit commun.Comportements culturels et données personnelles au cœur du Big data | 35 1 Taxe sur les recettes publicitaires proposée par M. Le Sénateur Marini (France) dès 2010 2 Taxes sur les téléphones mobiles intelligents préconisées par le Rapport de la Mission Lescure en 2013 (France), mais non retenues par le gouvernement français 3 Par exemple : niveau d’information de l’utilisateur sur ses droits à la protection des données personnelles, recueil de consentement et facilité de l’exercice de ses droits via l’interface, ouverture à la concurrence et nouveaux services, accès des données à des tiers, etc. Plusieurs acteurs publics ont milité pour la mise en place de mesures fiscales spécifiques au numérique et/ou touchant plus spécifiquement les géants internationaux de l’Internet. Les buts poursuivis étaient multiples et divers : • Financement de la culture, pour les pays dotés d’une politique fiscale volontariste en la matière. • Restauration des finances publiques. • Équilibrage du taux effectif d’imposition entre les acteurs nationaux et multinationaux. • Restauration du lien direct entre territorialité de l’impôt et source de la valeur économique à l’ère digitale. La France est sans doute le laboratoire d’idées le plus dynamique en la matière, comme l’a révélé l’étude des Politiques Fiscales dans le domaine de la Culture menée par EY pour le Forum d’Avignon sur la période 2009-2012, identifiant près de 50 incitations fiscales et 15 taxes spécifiques au domaine culturel. La question de la fiscalisation des données y avait dès lors suscité un vif débat, qui trouve désormais écho au plan international. Après les concepts, rapidement abandonnés, de taxe assise sur les recettes publicitaires générées sur Internet1, de taxation de la bande passante, de taxe « au clic » ou de taxe assise sur les activités de fabrication et ventes de téléphones mobiles2, c’est le concept de taxe assise sur les données lancé en France qui a été le plus novateur, et sans doute le plus polémique au plan international. Imaginé par Nicolas Collin et Pierre Colin dans leur rapport, ce concept visait à créer une fiscalité propre liée à l’exploitation des données issues du suivi régulier et systématique de l’activité des utilisateurs sur un territoire donné. Reposant sur le constat de l’importance de la collecte et de l’utilisation des data et données dans la chaîne de valeur et le chiffre d’affaires des opérateurs du numérique, ce concept a, sur le papier, le mérite d’un fait générateur simple et garantissant la neutralité du prélèvement. De façon plus novatrice, cette proposition ne visait pas tant à maximiser le volume des recettes fiscales nouvelles mais, de manière très ambitieuse, à renforcer les libertés individuelles et la concurrence en favorisant les comportements vertueux des opérateurs utilisant les datas (via l’application de taux d’imposition réduits ou dégressifs selon les comportements observés à l’aune de critère de conformité prédéfini3). Toutefois, bien que séduisant intellectuellement, ce concept de taxation « vertueuse » des données a été largement critiqué au plan international, notamment car il pose, au-delà des débats idéologiques, des difficultés extrêmes et non résolues d’application et de mise en œuvre et pourrait par ailleurs se traduire dans les faits par une augmentation du coût final pour le consommateur. Il n’a dès lors pas été retenu par le Conseil National du Numérique (septembre 2013) dans son avis n° 2013-3, lequel a privilégié une stratégie de négociation politique pour une réforme internationale des règles de la fiscalité des entreprises. Le sujet reviendra peut-être sur le devant de la scène, notamment au plan européen, notamment sur le fondement d’une justification à taxer les exportations de données à partir du territoire de l’Union européenne. Consensus autour de la non-taxation des données36 | Comportements culturels et données personnelles au cœur du Big data 1 EY Global Survey Report "Tax Considerations in cloud Computing", March 2012 Une récente étude EY1 observait que les problématiques et enjeux liés à l’utilisation croissante de services via le Cloud dans l’économie numérique étaient encore très largement ignorés ou laissés de côté, notamment : • Une fiscalité inadaptée ou complexe dans de nombreux pays, règles non uniformes. • La caractérisation des revenus générés via le Cloud au regard des règles de retenues à la source (withholding tax). Dans le contexte globalisé et hautement technologique de l’économie numérique, il est plus que jamais nécessaire de privilégier une action coordonnée au plan international, afin d’adapter et d’uniformiser les règles de la fiscalité. Au plan local, et sans brider l’action des législateurs nationaux, il semble clair que les efforts devront d’abord porter, d’une part, sur la simplification des régimes fiscaux, bien trop complexes à ce jour, et d’autre part, sur une meilleure sécurité des opérateurs confrontés à des changements de législations permanents. Sans nier la véritable nécessité d’améliorer et harmoniser les régimes fiscaux et de restaurer les finances publiques des États, les opérateurs du numérique, petits comme grands, restent toujours dans l’attente de politiques fiscales claires et lisibles axées sur le long terme et permettant d’assurer le développement des champions de demain. Plutôt que de créer de nouveaux impôts ou de nouvelles normes, ne faudrait-il pas tout simplement appliquer ceux existants et, si besoin, se contenter de les adapter ou de les améliorer ? Les pistes de réflexions de l'OCDE devraient désormais privilégier à court terme la mise à jour de la définition fiscale de l’établissement stable et la réforme des standards internationaux en matière de prix de transfert. À moyen terme, les États souhaiteront sans doute revisiter les principes de territorialité de l’impôt sur les sociétés en matière de services numériques, compte tenu en effet de ce que les États devraient être logiquement tentés, au plan national, de privilégier l’imposition sur le lieu de destination des services. Dans ce contexte, tout le défi des travaux désormais lancés au niveau de l’OCDE sera de prendre en compte les réalités du numérique pour créer enfin une fiscalité 3.0 adaptée au nouveau monde digital et ce sur la base d'un socle commun et homogène, afin d'éviter des approches disparates au niveau national. Prochaines étapes pour la fiscalité 3.0Comportements culturels et données personnelles au cœur du Big data | 37 Responsabilités citoyennes Contrôler ses propres données Face à la montée du contrôle des données émises par les individus ou leurs objets connectés, une prise de conscience s’impose, tout en excluant le renoncement à toute activité numérique, qui ne concerne qu’une partie infime de la population. Les recommandations de la Commission européenne en matière de droit à l’oubli, de renforcement des principes de consentement et d’amélioration des voies de recours administratif et judiciaires vont dans le sens d’un contrôle du contrôle. Les recommandations et le renforcement de la notion de responsabilisation (accountability) des « opérateurs d’accès/ services Internet » vont de pair avec la confiance et l’e-réputation – actif clé pour l’ensemble des acteurs du marché. • Voir schéma ci-dessous Les effets conjugués d’une conscience plus aiguë du nécessaire contrôle sur ses propres données d’une part et de la Directive européenne d’autre part, redonneront confiance et pouvoir de contrôle aux citoyens. Comment contrôler ses propres traces et données numériques a priori et a posteriori ? Traces numériques à caractère majoritairement personnel • Niveau d’équipement (smartphone, résolution d’écran…) • Vitesse et données techniques de connexion • Statistiques/comportement de surf • Pays/zone géographique/localisation • Données anonymes brutes • Environnement logiciel • Informations collectées par cookies • Favoris, historique, paramètres, préférences de navigation (rattachés à un login) • Données de contact (âge, sexe, coordonnées…) • Données de connaissance (CSP, intérêts, relations, profil de consommation…) Contrôler ses données Actions techniques et légales • Droit d’accès et de rectification aux données personnelles (loi informatique et libertés) • Droit d’opposition • Droit de sortie de fichier client (se désinscrire) OPT-OUT • Demande de droit d’utilisation (géolocalisation, données personnelles..) • Demande d’acception cookies • Avertissement niveau de confidentialité sur réseaux sociaux OPT-IN Comportement • Non création de comptes utilisateurs (rarement possible) • Non utilisation des nouveaux services online/ cloud (de moins en moins possible) • Automodération (réseaux sociaux) Anticipation utilisateur Physique • Équipement (smartphone/ tablette/ordinateur) • Type de connexion • Adresse IP/Adresse MAC • Localisation (ADSL) : DSLAM • Géolocalisation (mobile, wifi) Logiciel • Navigateur • Système d’exploitation Session utilisateur • Moteur de recherche • Messagerie • Site tiers • Réseau social Action utilisateur Source : EY ©| 39 3. Vers un nouveau paradigme économique propice à l’innovation et la création40 | Comportements culturels et données personnelles au cœur du Big data Opposer le principe de précaution au Big data : un risque réel pour l’innovation Masse critique d’informations et niveaux d’analyses : l’exploitation économique de la data est-elle réellement incompatible avec le respect de la vie privée ? La thermodynamique La thermodynamique, qui a permis le développement de l’industrie du XIXe siècle en basant ses analyses uniquement sur des indicateurs « macro », vise à comprendre les échanges d’énergie et de chaleur. Elle est riche en applications pratiques que nous utilisons tous les jours : moteurs, réfrigérateurs, turbines ou encore réacteurs. Les modèles ont besoin de très peu de grandeurs pour décrire le comportement des systèmes et leur évolution, principalement Entropie, Température, Pression, Volume. L’efficacité de ces prédictions macroscopiques est tout à fait étonnante quand on sait qu’au niveau microscopique, ces comportements sont la résultante des particules composant les gaz et les liquides et que chaque particule est définie a minima par son vecteur vitesse (3 données) et sa position (3 données) soit des milliards d’informations nécessaires. Cette efficacité de l’analyse macroscopique réside dans le fait qu’un grand nombre d’états microscopiques sont possibles pour un même état macroscopique. Aussi, la température est la résultante d’un niveau d’agitation de molécules, qui peuvent se trouver dans des milliards de configurations possibles pour une même mesure de la température. Ainsi, la thermodynamique nous enseigne que l’on est capable de prendre des décisions sur la base d’une mesure d’un indicateur « macro » comme la température sans pour autant avoir besoin de mesurer toutes les grandeurs au niveau « micro » (positions, mouvements des milliards de molécules à l’origine du niveau de la température). Par exemple, il est possible de pasteuriser du jus de pomme en maintenant une température de 75° . Pour ce faire, il n’est pas nécessaire de modéliser ce qui se passe au niveau de chaque molécule (niveau « micro »). Par analogie avec le Big data, il est possible de prendre des décisions en analysant les comportements « macro » d’un groupe d’individus sans avoir besoin d’identifier parfaitement le comportement intime de chacun. A-t-on besoin de tout connaître de M. ou Mme X pour faire des prédictions sur une population de grande taille ? En d’autres termes, est-il nécessaire d’associer la somme d’informations collectées à une personne clairement identifiée (nom, adresse…) afin de lui proposer de façon plus adaptée certains produits ? On pourrait imaginer que les grandeurs de mesures sont « macro » et très précises pour permettre une adaptation parfaite à la demande. Cependant la demande, grandeur macroscopique, est la résultante de nombreuses demandes individuelles (microscopiques) qui peuvent rester anonymes. Le retour au niveau « micro » pour l’acte d’achat peut s’analyser de la même façon : une campagne de publicité avec les bons messages envoyés à la population idoine pourrait s’avérer plus efficace qu’un envoi ciblé personnel.Comportements culturels et données personnelles au cœur du Big data | 41 La physique quantique La physique nous enseigne que l’analyse microscopique, domaine de la physique quantique du XXe siècle, est aléatoire par nature et que la précision infinie de la mesure est vaine (on ne peut connaître en même temps la position et la vitesse d’une particule). Enfin, à ce niveau, l’observation interfère avec l’expérience. En d’autres termes, l’observation modifie le comportement des particules. La génomique Si la cartographie du génome d’un individu ne permet, au niveau « micro », que d’émettre des probabilités de réalisation (maladies, etc.), au niveau « macro », la combinaison de ces probabilités individuelles permettra de révéler, sur une population de grande taille, les risques et opportunités réels, justifiant ainsi des investissements d’ampleur permettant d’améliorer la santé des individus (R&D, vaccins, traitements). On peut comprendre que si l’on respecte la confidentialité des décryptages individuels permettant, par leur combinaison, d’aboutir à des découvertes et des décisions d'investissement, l’équilibre entre progrès et respect de la vie privé est atteint. Par analogie avec le Big data, il en ressort que l’observation « microscopique » d’un individu modifierait son comportement. Lorsqu’une personne se sait « observée », elle tend à modifier son comportement, rendant ce dernier moins prédictible. D’où l’importance d’un environnement sécurisé, de confiance, afin que les individus se sentent libres et décisionnaires de leurs comportements et ne soient pas réticents à échanger ou communiquer leurs données. Ce que nous enseigne la science Applications au Big data : Big data et respect de la vie privée peuvent être conciliables dans un environnement réglementé et sécurisé. La thermodynamique Il est possible de prendre une décision sur la base d'une mesure d'un indicateur « macro » sans avoir besoin de mesurer toutes les grandeurs au niveau « micro ». La physique quantique L'observation microscopique modifie le comportement des particules, rendant aléatoire et vaine la précision infinie de la mesure. La génomique La combinaison de décryptages au niveau « micro » permet, dans le respect de la confidentialité, d'aboutir à des découvertes sources de progrès. Source : EY ©42 | Comportements culturels et données personnelles au cœur du Big data Le temps de l'action Il serait illusoire d’imaginer pouvoir ignorer le « Big data bang », voire s’en barricader : la vitesse exponentielle avec laquelle la masse de données générées augmente et est stockée, la progression des outils d’analyse et de rapprochement de ces données ainsi que la capacité et l’intérêt que suscitent ces résultats rendent irréaliste un moratoire. Si l’avenir n’est pas totalement clair, il est cependant certain que ceux qui n’auront pas su considérer le défi dès maintenant seront les grands perdants. Ainsi, il est urgent d’opposer le « principe d’innovation » au « principe de précaution ». Invoqué face aux dangers, certes réels, que l’exploitation du Big data ferait courir à notre intimité ou à notre identité numérique, le « principe de précaution » n’apparaît pourtant pas comme une réponse adaptée. Nous devons en passer par une nécessaire phase d’expérimentation test & learn, et les erreurs, voire abus, propres à cette phase de transition, devraient éveiller les consciences, en particulier chez ceux qui ont subi l’expérience désagréable d’une mise à nu en ligne de leur vie « privée ». Ces écueils obligeront parfois certains à déployer leur capacité de rebond pour faire peau neuve, en renonçant à leur identité numérique première et aux traces qui pouvaient y être associées.Comportements culturels et données personnelles au cœur du Big data | 43 1. Établir un diagnostic • Dresser une cartographie des données disponibles, qu’elles soient internes (données métiers) ou externes (sites web, réseaux sociaux, open data). • Évaluer la qualité et la pertinence des données au regard des priorités de développement (ex. : financement de la création, innovation, services, étude ou segmentation des publics/ clients, valorisation des données, efficacité opérationnelle, etc.) 2. Se doter d’une structure décisionnelle et de compétences clés • Définir l’organisation et la gouvernance adéquates pour l’exploitation de données en pensant l’organisation de façon transverse. • Renforcer les compétences analytiques, mathématiques, statistiques et sociologiques pour la gestion et l’exploitation des données - que ce soit en croissance organique, par rachat de sociétés digitales ou via des partenariats. En d’autres termes, les entreprises devront se doter de data scientists, ces experts « capables de traiter le déluge de données et d’en tirer toute la quintessence décisionnelle et managériale1 ». 3. Se doter d’une stratégie et d’un plan d’action • Identifier et mettre en œuvre des leviers d’enrichissement de la connaissance client, notamment en : - Incitant les clients encore non connus (lecteurs achetant en point de vente, public des salles de spectacle et de cinéma, etc.) à s’identifier via un programme de fidélité, en favorisant les actes d’achat sur Internet. - Analysant les comportements clients : contenus générés sur les réseaux sociaux, parcours client web, historique des transactions et contenus consultés. • Identifier le niveau de moyens adaptés à la stratégie : il est indispensable de bien déterminer la donnée utile pour éviter un stockage systématique coûteux et inexploitable, et de privilégier les approches test & learn éprouvées par les grands acteurs du digital, consistant à lancer des chantiers tests et mesurer régulièrement et systématiquement leur efficacité afin de les améliorer rapidement, voire à les suspendre si besoin. 4. Développer et insuffler en interne une culture de la data Dans le secteur médiatique et culturel, le niveau de maturité face à la data diffère selon les acteurs : ceux qui ont un accès direct à leurs publics, avec des bases de clients ou d’abonnés (groupes de presse, exploitants de salles…) ont déjà une bonne appréhension de ces sujets et une culture du marketing direct. L’enjeu d’une approche Big data est de consolider et d’exploiter des données dans un contexte de croissance en volume, en vitesse et en variété des sources - notamment digitales - difficiles à réconcilier avec les données historiques. C’est une opportunité, mais aussi un défi de taille à relever, pour des acteurs tels que les diffuseurs audiovisuels et les créateurs de contenus, qui, traditionnellement n’avaient pas de lien direct avec leurs audiences. Le développement de la culture et des compétences d’exploitation de la donnée client varie également en fonction des services : les métiers marketing ont déjà intégré ces logiques, tandis que les équipes éditoriales et créatives se l’approprient plus difficilement – voire y sont réticentes, pouvant considérer que l’exploitation des données est incompatible avec leurs règles éthiques. Or les outils d’analyse des audiences et d’identification des tendances doivent être envisagés comme des sources complémentaires visant à alimenter leurs contenus et non à se substituer à leur travail de recherche et de hiérarchisation. Et le succès rencontré par les infographies, fortement relayées sur les réseaux sociaux, montre que l’audience est réceptive à l’information quantitative visuelle. Engager cette mutation interne ne suffira probablement pas à extraire toute la quintessence de la data. C’est en nouant des alliances que les acteurs de l’écosystème culturel pourront capitaliser sur les données personnelles culturelles pour innover et créer de nouvelles propositions de valeur. Entrer dans l’ère du Big data : par où commencer ? 1 « Big data – nouveaux défis », Telecom ParisTech, N° 169, juillet 201344 | Comportements culturels et données personnelles au cœur du Big data Enrichir la donnée collectée La gestion de la donnée et son exploitation sur le mode du Big data sont au cœur du modèle économique des grands acteurs globaux du digital. En dépit de l’intérêt que représente l’enjeu de la valorisation des données personnelles, les acteurs français sont en retard par rapport aux acteurs globaux du numérique, qui se sont positionnés comme des distributeurs ou diffuseurs de référence de la création. Citons par exemple Amazon, qui utilise ainsi les données (pages consultées, historique d’achat, listes de souhaits…) pour recommander des contenus et produits à ses clients : 35 % de ses ventes seraient liées à cette mécanique. Ou encore Apple, leader de la distribution de musique avec iTunes, qui analyse les bibliothèques musicales de ses utilisateurs (composition, titres les plus écoutés…) pour recommander de nouveaux artistes ou disques. À l’image d’autres industries, les acteurs de l’industrie médiatique et culturelle peuvent imaginer valoriser les données personnelles afin d’affiner la connaissance de leurs publics, à travers par exemple : • L’analyse rationnelle de la propagation et des contenus des messages (positifs ou négatifs) sur les réseaux sociaux, à l’image des travaux réalisés dans les transports (Quantas Airline, RATP) ou dans le secteur bancaire (Bank of America) ; L’identification d’opportunités de diffuser des créations en fonction des centres d’intérêt et des goûts avérés des utilisateurs ou des communautés. • L’anticipation des comportements, comme l’analyse de la fréquentation d’une zone touristique ou d’une salle de concert. • L’analyse croisée de données externes (réseaux sociaux, etc.) et internes (données de navigation, historiques de consultation/achat, centres d’intérêt, etc.) pour mieux connaître les attentes et les intégrer dans la conception des contenus et services proposés. C’est en adoptant une « approche data », comme levier d’optimisation de la valeur client, que les acteurs de l’industrie culturelle pourront relever les trois défis que sont la relation avec les publics et audiences, la diffusion des créations et contenus ainsi que le financement de la création. 1. Assurer la diffusion et l'interaction des œuvres avec leur public Dans le secteur médiatique et culturel, le développement de la « connaissance client » permet de répondre à un défi majeur qui consiste à instaurer une relation privilégiée et pérenne avec les publics. C’est en particulier le cas pour la production d’événements, de contenus et de créations, afin de créer des projets et contenus au plus près des publics visés. Dans les médias, des outils d’analyse des tendances comme Trendsboard utilisent les données issues des réseaux sociaux et blogs pour identifier les sujets qui commencent à faire l’actualité, permettant ainsi aux rédactions d’anticiper des « buzz » ou de couvrir certains événements, jusqu’alors imprévisibles. Proposer une interaction personnalisée en fonction des données analysées apparaît alors comme un levier clé pour créer ou renforcer la relation de proximité avec son public : • L’exploitation des données est un levier de promotion de la diversité culturelle, aussi bien dans les lieux que via les supports numériques. La proposition de contenus sur la base de l’analyse des centres d’intérêts, sur le modèle des moteurs de recommandation, suscite ainsi la rencontre entre les œuvres et leur public. • La collecte et l’exploitation de données personnelles sur les publics permet de prolonger la relation au-delà d’un événement donné (spectacle vivant, visite d’un musée, visionnage d’un film…), à travers l’animation de communautés et la proposition de services et contenus complémentaires. • Dans l’industrie audiovisuelle, les offres proposées sur les supports numériques permettent de développer et de valoriser une connaissance individualisée des audiences. Focus : Acquisition de droits Une société comme Netflix combine deux sources d’information pour définir sa stratégie d’achat de droits pour son offre de vidéo par abonnement : l’analyse des contenus les plus regardés (thématiques, acteurs, formats, etc.) et celle des contenus les plus piratés.Comportements culturels et données personnelles au cœur du Big data | 45 2. Obtenir une vision globale du parcours des publics Les outils utilisés pour la collecte et l’exploitation de données sont souvent inadaptés et/ou fragmentés du fait de logiques de fonctionnement d’activités en silos. Ainsi, un établissement public comme la Rmn-GP1 ne peut, à ce jour, savoir si une personne qui a acheté un livre donné dans une de ses 40 librairies ou boutiques pourrait être intéressée par une exposition au Grand Palais, au Musée du Luxembourg ou tout autre service, comme un abonnement à une newsletter ou un parcours à thème autour d’un artiste précis. En effet, les informations qui permettraient d’établir de tels liens ou prédictions ne sont actuellement pas disponibles, soit parce qu’elles ne sont pas collectées, soit parce qu’elles sont dispersées au sein de différentes bases de données gérées par divers systèmes d’information, non encore interopérables à ce jour. L’enjeu est donc double : il faut non seulement investir pour se doter des compétences nécessaires en CRM mais aussi assurer la transversalité entre les services impliqués dans la collecte et le traitement de données. Cette vision globale est indispensable pour proposer une expérience plus personnalisée et contextualisée et espérer ainsi la prolonger dans le cadre d’une relation d’engagement. De même les lieux culturels (galeries, sites touristiques, musées…) deviendraient plus accessibles grâce à l’utilisation de données sur le trafic ou la fréquentation. Si les projets sont nombreux dans le domaine des transports publics, il reste encore beaucoup à faire sur les lieux culturels. L’analyse de la fréquentation permet d’informer en temps réel les potentiels visiteurs, par exemple, sur la durée d’attente à l’entrée d’une exposition, et elle pourrait également permettre de définir des tarifications fines en fonction du remplissage. La construction d’une vision globale du parcours des publics pourra également s’appuyer sur l’ouverture et la réutilisation des données publiques culturelles. L’open data culturelle doit s’inscrire en complément des actions que les acteurs des industries culturelles et créatives mèneront pour utiliser et valoriser leurs données. Offrir la possibilité à des acteurs tiers, et notamment des start-ups, d’utiliser les données des acteurs de la culture élargit considérablement le champ des possibles, notamment pour créer des services pour les usagers ou clients. 3. Assurer le financement de la création Les données peuvent être mises à la disposition d’autres acteurs de la culture, de la distribution, des réseaux sociaux, etc. pour qu’ils puissent les utiliser en l’état ou les intégrer dans d’autres combinaisons de données, dans une approche d’ouverture des données (open data) ou dans une logique commerciale. Une utilisation commerciale des données permet ainsi de créer des offres de contenus gratuites ou partiellement gratuites grâce à la publicité. Pour les annonceurs, les audiences ont d’autant plus de valeur qu’elles sont qualifiées et permettent un ciblage efficace, d’où l’importance de la donnée récente, même anonyme. Les données personnelles culturelles ont, dès lors, un rôle majeur à jouer dans un contexte où le secteur culturel cherche et invente de nouveaux modèles de financement. Dès aujourd'hui, ces données sont au cœur du financement participatif, dont le modèle repose sur la création de communautés identifiées, d'individus connectés qui s'engagent personnellement pour financer un projet créatif. Le crowdfunding est aussi générateur de données (d'un genre comparable aux réseaux sociaux) et, si les sites ne monétisent pas cette donnée sur un mode publicitaire, ils peuvent s'en servir pour animer le réseau et faire des recommandations et contribuer à accroître les financements. Demain, les données personnelles culturelles seront sans nul doute un nouveau relais de financement, dans un contexte marqué par la raréfaction des financements publics. Un projet culturel pourrait demain valoriser, au moment de son financement, sa capacité à générer des données pour le distributeur, au même titre qu'il peut générer des ventes. Les plans de financement de projets cinématographiques ou discographiques pourraient, par exemple, intégrer la valorisation des données nouvelles collectées : un producteur exécutif céderait à un co-producteur le droit d’administrer la communauté de fans de l’œuvre créée, et les revenus publicitaires éventuellement générés. 1 Réunion des musées nationaux - Grand Palais46 | Comportements culturels et données personnelles au cœur du Big data En France, plusieurs entreprises et établissements publics ont déjà rendu publiques leurs données culturelles Depuis l'ouverture en 2011 du portail data.gouv.fr, le ministère de la Culture et de la Communication s’attache à recenser et mettre à disposition des développeurs différents jeux de données tels que la liste des établissements publics culturels géolocalisés et de leur offre éditoriale, les données de la médiathèque de l'architecture et du patrimoine (liste des immeubles protégés au titre des monuments historiques, liste des objets mobiliers propriété publique classés au titre des monuments historiques), ou encore une trentaine de jeux de données du Centre national du cinéma et de l’image animée (CNC), comme par exemple les recettes à l’international des films français ou la liste des établissements cinématographiques. De nombreuses villes et régions ont quant à elles initié l’ouverture des données publiques, qui peuvent être des statistiques démographiques (anonymisées), aussi bien que la liste des lieux de tournage de film et les statistiques de consultations d’ouvrages en bibliothèques. L’ouverture de ces données, croisées avec les centres d’intérêt d’individus ou de communautés, représente non seulement l’opportunité de développer de nouveaux services et usages, mais aussi de faciliter la promotion et l’accès à la culture. De nombreuses applications s’appuyant sur les données culturelles ouvertes existent déjà : • Les cartes interactives, comme le module développé par le ministère de la Culture et de la Communication représentant l’ensemble des lieux culturels français sous forme de galaxie, ou Cartographone, carte regroupant les lieux de tournage de film à Paris. • Les interfaces de visualisation de données, avec par exemple un article du journal Le Monde contenant un module permettant de visualiser de façon interactive les statistiques de consultation des ouvrages dans les bibliothèques parisiennes. • Les applications utilitaires, permettant par exemple de trouver la bibliothèque la plus proche, des informations sur les musées de la ville (comme Musambule à Marseille), ou encore des agendas culturels multi-éditeurs (tels que Cibul en région PACA). • La visite augmentée : comme Culture Clic, proposant non seulement des informations pratiques sur les musées français mais aussi un catalogue de 900 œuvres visualisables en réalité augmentée.Comportements culturels et données personnelles au cœur du Big data | 47 La nouvelle chaîne de valeur de la donnée personnelle culturelle Nouveaux acteurs Le marché de la donnée personnelle culturelle est en pleine structuration : tout au long de la chaîne de valeur de la data se déplacent et se positionnent producteurs, agrégateurs et utilisateurs de données personnelles culturelles. Un marché qui devrait continuer à évoluer et faire émerger de nouveaux acteurs et de nouveaux métiers : des pure players qui se spécialiseront dans la production/sourcing de data, d’autres dans l'agrégation et l’analyse de data (croiser les données des sourceurs entre elles et avec d’autres données, afin de les contextualiser et de fournir l’analyse nécessaire aux utilisateurs) et les utilisateurs de données personnelles qui vont développer des services et applications ciblés et à plus forte valeur ajoutée. Tous ces services auront besoin de l’infrastructure Big data, faisant intervenir une autre catégorie d’acteurs. Le bon fonctionnement de l’ensemble de l’écosystème de la donnée personnelle culturelle dépend de ce que nous appellerons le « filtre de confiance ». Le marché devrait donc évoluer vers une séparation entre la data et son utilisation, une évolution qui aurait le triple avantage d’apporter une réponse à un marché qui évoluerait vers un monopole naturel, à l’enjeu des données nominatives collectées/ échangées et de libérer tout le potentiel de la donnée en matière d’innovation. • Voir schéma p. 48 Les acteurs de la nouvelle chaîne de valeur de la data • Les producteurs de données : ils constitueraient de véritables bases de données fiables qui, grâce à leur capital confiance, pourraient être revendues à des tiers. • Les agrégateurs de données : ils agrégeraient, croiseraient et contextualiseraient ces données à des fins d’analyse. • Les utilisateurs de données : ils développeraient, à partir des analyses obtenues, des nouveaux services et nouvelles applications. Ces utilisateurs peuvent être des entreprises de média et des start-up développant des applications spécifiques et ciblées pour ces groupes de média ou des établissements culturels (application dédiée en marge de l'exposition Hopper au Grand Palais). • Les opérateurs d’infrastructures du Big data : nouveaux acteurs du numériques, opérateurs de télécommunications… • Les gestionnaires d’infrastructures : ils pourront louer, en plus de leurs capacités de stockage, des capacités de calcul à des sociétés ayant des besoins ponctuels en matière de traitement de Big data. • Des acteurs de confiance s’assurant du maintien de l’intégrité/qualité des données, depuis leur sourcing jusqu’à leur utilisation, rassurant ainsi utilisateur et consommateur finaux. Cette phase est indispensable pour garantir, par exemple, que la version électronique d’une œuvre, téléchargée en ligne (e-book) corresponde à l’œuvre originale.48 | Comportements culturels et données personnelles au cœur du Big data Acteurs des Infrastructures de données Les acteurs de la nouvelle chaîne de valeur de la data Où et comment se positionner Les champions du numérique et les entreprises culturelles vont chercher à étendre leur présence au sein de la chaîne de valeur de la data, horizontalement (de la production à l’utilisation de la data) et/ou verticalement (de l’infrastructure Big data aux services destinés aux utilisateurs et clients finaux). Ils procéderont par croissance interne ou externe, par des alliances avec des pure players, etc. Des business models (pure players) et univers de services innovants vont émerger/se développer : • Le Sourcing (producteur de données fiables). • La spécialisation dans le développement de services et d’applications mobiles ultra-ciblés (exemple du marché du jeu vidéo mobile). • La certification et l’audit liés à la sécurisation des données tout au long de la chaîne de valeur, pour répondre aux exigences de transparence et de confiance des consommateurs et utilisateurs, mais aussi prévenir le risque de réputation. « Filtre de confiance » - Réglementation et sécurisation de la data Données émises Données analysées Données améliorées (feedback) Source : EY © Infrastructure Big data Acteurs des échanges de données personnelles culturelles Producteurs de data (exemples) • Réseaux de transport • Collectivités locales/ territoriales • Établissements publics culturels • Exploitants de salles Croisement entre : données produites autres données de contexte (CSP des habitants/quartier, habitudes de déplacements pendant les vacances scolaires, météos locales, etc.) Agrégateurs de data Utilisateurs Prise de décision • + efficace • + rapide • + réactive Innovation • Nouveaux services • Développement d’applications Découverte (sérendipité)Infographie La donnée personnelle culturelle au cœur du Big dataLa donnée personnelle culturelle, une data qui vaut de l’or Du Big data à la Big value Un marché qui se structure autour de la donnée personnelle culturelle Vers un écosystème basé sur la confiance Collecte, stockage et mise à disposition (réseau, capacités...) Acteurs de confiance Réglementation Sécurisation Certification Homo conexus et objets connectés Émetteurs de data Production de données personnelles culturelles Open data Producteurs de data Établissements culturels, exploitants de salles, librairies Infrastructure Big data Data centers, serveurs, bases de données Traitement, calcul et analyses de données Agrégateurs de data Algorithmes, etc. Nouveaux services, applications, etc. Collecte, stockage, calcul, mise à disposition de capacités Utilisateurs Entreprises innovantes, créateurs de contenus Emploi Innovation (4,4 millions d’emplois créés d’ici 2015) Homo conexus 2, 3 milliards dans le monde en 2013 Internet des objets 20 milliards d’objets connectés dans le monde en 2013 + Explosion des traces numériques 4 zettaoctets de données en 2013, soit une pile de DVD de la hauteur de 4 millions de tours Montparnasse Big data Bang Données personnelles culturelles Données de l’intimité, issues du comportement culturel GAFA* Établissements culturels Industrie des médias et de l’entertainment 50 | Comportements culturels et données personnelles au cœur du Big data Source : EY © * GAFA : Google, Apple, Facebook, AmazonLa donnée personnelle culturelle, une data qui vaut de l’or Du Big data à la Big value Un marché qui se structure autour de la donnée personnelle culturelle Vers un écosystème basé sur la confiance Collecte, stockage et mise à disposition (réseau, capacités...) Acteurs de confiance Réglementation Sécurisation Certification Homo conexus et objets connectés Émetteurs de data Production de données personnelles culturelles Open data Producteurs de data Établissements culturels, exploitants de salles, librairies Infrastructure Big data Data centers, serveurs, bases de données Traitement, calcul et analyses de données Agrégateurs de data Algorithmes, etc. Nouveaux services, applications, etc. Collecte, stockage, calcul, mise à disposition de capacités Utilisateurs Entreprises innovantes, créateurs de contenus Emploi Innovation (4,4 millions d’emplois créés d’ici 2015) Homo conexus 2, 3 milliards dans le monde en 2013 Internet des objets 20 milliards d’objets connectés dans le monde en 2013 + Explosion des traces numériques 4 zettaoctets de données en 2013, soit une pile de DVD de la hauteur de 4 millions de tours Montparnasse Big data Bang Données personnelles culturelles Données de l’intimité, issues du comportement culturel GAFA* Établissements culturels Industrie des médias et de l’entertainment Cette étude a été réalisée par EY, sous la direction de Bruno Perrin, Fabrice Naftalski et Régis Houriez, avec la participation de Marie-Pierre Bonnet-Desplan, Solenne Blanc, Vincent Placer, Louisa Melbouci, Pierrick Vaudour, Guillaume Marcerou, Sébastien Bardou, Aurèle Tabuchi, Colin Garnier, France de Roquemaurel à la rédaction et Sandrine da Cunha au graphisme. EY | Audit | Conseil | Fiscalité & Droit | Transactions EY est un des leaders mondiaux de l’audit, du conseil, de la fiscalité et du droit, des transactions. Partout dans le monde, notre expertise et la qualité de nos services contribuent à créer les conditions de la confiance dans l’économie et les marchés financiers. Nous faisons grandir les talents afin qu’ensemble, ils accompagnent les organisations vers une croissance pérenne. C’est ainsi que nous jouons un rôle actif dans la construction d’un monde plus juste et plus équilibré pour nos équipes, nos clients et la société dans son ensemble. EY désigne l’organisation mondiale et peut faire référence à l’un ou plusieurs des membres d’Ernst & Young Global Limited, dont chacun est une entité juridique distincte. Ernst & Young Global Limited, société britannique à responsabilité limitée par garantie, ne fournit pas de prestations aux clients. Retrouvez plus d’informations sur notre organisation sur www.ey.com. © 2013 Ernst & Young et Associés Tous droits réservés. Studio EY France - 1309SG178 SCORE France N° 13-032 Photos : © Fotolia - © Gettyimages - © EY Document imprimé conformément à l’engagement d’EY de réduire son empreinte sur l’environnement. Cette publication a valeur d’information générale et ne saurait se substituer à un conseil professionnel en matière comptable, fiscale ou autre. Pour toute question spécifique, vous devez vous adresser à vos conseillers. ey.com/fr L'écosystème du calcul intensif et des données : la vision du CNRS M. Daydé Directeur du Comité d’Orientation pour le Calcul Intensif au CNRS Délégué Scientifique CNRS / INS2 Rôle et missions du COCIN - Créé en Décembre 2010 - Réflexion collective sur les besoins, la structuration et les évolutions en calcul intensif au CNRS - Prospective sur les besoins des différentes communautés, proposition de maintenance et de développement coordonné des moyens / ressources liées au calcul intensif. - Dix personnalités scientifiques désignées par chacun des instituts du CNRS plus le Directeur de l'IDRIS. - Le président et directeur désignés par le Président du CNRSBig Data & HPC : des enjeux stratégiques • Au cœur des grandes avancées de la recherche scientifique: Ø Génome humain, découverte potentielle du boson de Higgs, évolution du climat, risques naturels, pollution atmosphérique, environnement… • De nombreux autres défis scientifiques : Ø Structure de l’univers, astrophysique, neuroscience, combustion, sismologie, climat, biologie et recherche médicale, matériaux, …. • Enjeu stratégique de compétitivité et d’attractivité internationale: multiples champs disciplinaires; importantes retombées socio-économiques • Modélisation et simulation : 3ème piliers de la science après la théorie et l’expérimentation • L’exploitation des données (« Big Data ») est maintenant considérée comme considérée comme le 4ème plier de la science Big Data : un sujet d’actualité • Accumulation de données issues des capteurs, communications, stockage pour business, science, gouvernements, société, …. • Google, Yahoo!, Microsoft, … ont créé une nouvelle activité économique en récupérant des informations libres de droit sur le Web et en les présentant aux utilisateurs de façon exploitable • Les moteurs de recherche ont transformé notre façon d’accéder à l’information Mais les données sont au cœur des préoccupations des scientifiques depuis longtemps Large Synoptic Survey Telescope (LSST): Installed in Chile, records 30 1012 bytes of images per day i.e. 2 Sloan Digital Sky Surveys per day (based on 2.5 m telescop installed at Apache Point Observatory, New Mexico) Objectif : study origines of universe Large Hadron Collider (LHC): Particles accelerator to understand the structure of universe Will generate 60 terabytes of data per day i.e. 15 petabytes per yearMotivations (3) : le déluge de données en biologie • Avancées spectaculaires des nouvelles techniques d’analyse génomique (séquençage « massif », Next Generation Sequencing ou NGS) • Cas des progrès en protéomique (spectrométrie de masse hybride), en biologie cellulaire (microscopie optique 4D, cryotomographie 300kV-FEG/Polara-Titan, cytométrie de masse…) et en imagerie médicale (par résonance magnétique à très haut champ à plus de 7 Tesla). • Objectifs : • Comprendre le fonctionnement du vivant à différentes échelles (cellule, organes, organisme, populations, écosystèmes) • Pour réaliser des progrès importants pour la santé, en accompagnement d’une médecine « personnalisée ». Big Data dans le monde scientifique Nature, 7209(4), Sept. 2008 « Above all, data on today’s scale require scientific and computational intelligence. Google may now have its critics, but no one can deny its impact, which ultimately stems from the cleverness on its informatics. The future of science depends in part on such cleverness again being applied to data for their own sake, complementing scientific hypotheses as a basis for exploring i n f o r m a t i o n cornucopia. »Historique • Tout au long de l’histoire les recensements dans les pays ont été un réel challenge • Recensement de 1890 aux USA avec les cartes inventées par Herman Hollerith : base de la compagnie qui devint IBM Big Data: which specificities ? • Volume: • > PetaBytes which is a challenge for storage architectures • Variety: • Diversity of contents, formats and data, structured, unstructured • Velocity: • A challenge for networks • New models for processing streams of data • Veracity (quality / thruthfulness) • Data often souvent “write-once, read-many”(WORM), sometime costly to acquire • Hopefully, analysis can often be highly parallelized • Value of dataWhat do we mean by Big ? 4X·HVWFHTX·XQHWUqVJUDQGH PDVVHGHGRQQpHV" 9/'% ;/'% %LJ'DWD 9HU\%LJ'DWD 0DVVLYH'DWD 'DWD'HOXJH *UDQGHV&RQIGXGRPDLQH9/'%;/'%,&'(('%7« From Mokrane Bouzeghoub (CNRS / INS2I) Laboratoire d'InfoRmatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon http://liris.cnrs.fr Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouciBig Data : Grandes Masses de Données Age du Big Data ! H. Kheddouci BDF 2014Nouveau modèle de données Le Modèle de Génération/Consommation de la donnée a changé Ancien modèle : Quelques compagnies génèrent des données, les autres sont des consommateurs de données Nouveau Modèle : nous sommes tous des générateurs de données, et nous sommes tous des consommateurs de données H. Kheddouci BDF 2014Générateurs des Big Data Média et réseaux sociaux (tous des générateurs de données) Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) H. Kheddouci BDF 2014Générateurs des Big Data Média et réseaux sociaux (tous des générateurs de données) Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) H. Kheddouci BDF 2014Age du Big Data “Data is a new class of economic asset, like currency and gold.” Source: World Economic Forum 2012 H. Kheddouci BDF 2014Big Data Un enjeu scientifique important : H. Kheddouci BDF 2014Big Data Définitions … “Big Data” is a massive volume of both structured and unstructured data that is so large that it's difficult to process with traditional database and software techniques.” “Big Data” is data whose scale, diversity, and complexity require new architectures, models, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it… Avec quels modèles ? H. Kheddouci BDF 2014Big Data & Graphs ? temps Emetteur Récepteur Type de mess. 1 S1 S2 A 2 S1 S3 C 3 S2 S4 B 4 S4 S2 A 5 S3 S5 C …. …. …. …. Base de données Données D1 D2 D3 D4 D5 …. Attribut n. 3444 2112 5858 600 2333 …. …. …. …. …. …. …. …. Naturellement, les graphes et les données sont liés : - Linked open Data (graphe d’interaction entre données) - Des objets du Web sont des graphes (XML, RDF, …) - Graphes des amis de Facebook - Graphe de connaissances de Google - Graphes extraits de grandes base de données H. Kheddouci BDF 2014Big Data Big Graphs Big Data Graphs + Big Data & Big Graphs H. Kheddouci BDF 2014Big Graphs for Big Data Verrous Big Data Solutions à base de graphes Indexation et stockage Partitionnement de graphes Flux de données (Vélocité) Analyse de flux de graphes Visualisation des données Visualisation de graphes H. Kheddouci BDF 2014Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Big Graphs (Milliards de nœuds et arêtes) 1 machine ? Combien de : - RAM? - Disque ? possible ? H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Big Graphs (Milliards de nœuds et arêtes) 1 machine ? k machines possible ? H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Big Graphs (Milliards de nœuds et arêtes) 1 machine ? k machines possible ? OUI H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Big Graphs (Milliards de nœuds et arêtes) 1 machine ? k clusters possible ? OUI Comment découper le grand graphe ? H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Comment découper le grand graphe en k partitions ? H. Kheddouci BDF 2014Etant donné un graphe G = (N, E, WN, WE) òN = sommets, òWN = poids sur les sommets òE = arêtes òWE = poids des arêtes Ex: N = {données}, WN = {vecteurs d’attributs de données}, arête (j,k) dans E : j envoie WE(j,k) mots au k Choisir une partition N = N1 U N2 U … U NP telle que ò La somme des poids des nœuds dans chaque Nj est “presque le même” ò La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est minimisée Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N1 U N2 1 (2) 2 (2) 3 (1) 4 (3) 5 (1) 6 (2) 7 (3) 8 (1) 5 4 6 1 2 1 2 2 3 1 Big Graphs for Big Data Partitionnement de graphes de données H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données 1 (2) 2 (2) 3 (1) 4 (3) 5 (1) 6 (2) 7 (3) 8 (1) 4 6 1 2 1 2 2 3 1 5 Etant donné un graphe G = (N, E, WN, WE) òN = sommets, òWN = poids sur les sommets òE = arêtes òWE = poids des arêtes Ex: N = {données}, WN = {vecteurs d’attributs de données}, arête (j,k) dans E : j envoie WE(j,k) mots au k Choisir une partition N = N1 U N2 U … U NP telle que ò La somme des poids des nœuds dans chaque Nj est “presque le même” ò La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est minimisée Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N1 U N2 H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : ò partitionnement spectral ò partitionnement géométrique ò partitionnement en graphes Multi-niveaux H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : ò partitionnement spectral ò partitionnement géométrique ò partitionnement en graphes Multi-niveaux 3 Phases òcompresser òPartitionner òDécompresser H. Kheddouci BDF 2014Compresser (couplage maximum) partitionnement équilibré décompresser Big Graphs for Big Data Partitionnement de graphes de données Partitionnement en graphes Multi-niveaux H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données 2 1 3 Graphes de données Graphes résumé Densité Autres propriétés ? Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) H. Kheddouci BDF 2014Big Graphs for Big Data Partitionnement de graphes de données 2 1 3 Graphes de données Graphes résumé Densité Autres propriétés Approximer : - La recherche de motifs - Construction de communautés - …. ? Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) H. Kheddouci BDF 2014Ensemble d’arêtes Séparateur : Es (sous-ensemble de E) sépare G si en retirant Es de E donne 2 composantes connexes de tailles égales, N: N1 and N2 Ensemble de sommets Séparateur : Ns (sous-ensemble de N) sépare G si en retirant Ns et toutes leurs arêtes incidentes donne 2 composantes connexes de tailles égales, N: N1 and N2 G = (N, E), sommets N et arêtes E Ns = sommets verts Big Graphs for Big Data Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement H. Kheddouci BDF 2014Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes H. Kheddouci BDF 2014Big Graphs for Big Data Analyse de graphes de données en flux Flux de données : Un flux de données est une séquence de données : a1, a2, …, an . òFlux de prix òFlux de paquets IP Les données ont différentes formes dans différentes applications. òValeur scalaire òTuple ò … La sémantique des données est également différente dans différentes applications. H. Kheddouci BDF 2014Big Graphs for Big Data Analyse de graphes en flux Modèle de traitement de flux : Accès séquentiel au flux de données Ordre des données dans le flux n’est pas contrôlé par l’algorithme et peut être artificiel. Petit espace de travail comparé à la longueur du flux n : ò Polylog n ò ne Petit nombre de passes sur le flux : ò Une passe ò Un nombre constant de passes Temps de traitement d’une donnée est court 30Big Graphs for Big Data Analyse de graphes en flux Graphe en flux Graphe est ordonné : Partitionner • aléatoire • Parcours en largeur d’abord • Parcours en profondeur d’abord Toute machine possède noeuds 1 Buffer possible de taille 31Des travaux existent : òTester la connectivité, ò Tester la planarité, ò construction d’arbre couvrant, ò … Re-penser les problèmes de graphes classiques dans le modèle streaming, notamment pour l’organisation des données : clustering, détection de propriétés structurelles, etc Big Graphs for Big Data Analyse de graphes en flux H. Kheddouci BDF 2014 32Heuristiques pour le partitionnement de graphes en flux : ò Linear Deterministic Greedy LDG (Stanton and Kliot 2012) ò FENNEL (Tsourakakis et al. 2013) ò Restreaming graph partitioning (Nishimura et al. 2013) Big Graphs for Big Data Analyse de graphes en flux H. Kheddouci BDF 2014 33Nouvelle Méthode : Partial Restreaming Model Modèle du Restreaming partiel (Echbarthi et Kheddouci 2014) Ce modèle consiste en 2 phases : ÿ 1ère phase: Restreaming d’une portion du graphe, d’une fenêtre de taille choisie. ÿ2ème phase: Le reste du graphe est traité en une seule passe du stream. H. Kheddouci BDF 2014ÿDans le modèle du restreaming partiel, on sélectionne des portions du graphe de taille n/k* qui vérifient des propriétés pertinentes dans le graphe : • Densité de la portion >= psi* densité du graphe • Degré moyen de la portion >= eta * degré moyen du graphe • …. Méthode proposée: Restreaming partiel H. Kheddouci BDF 2014Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes H. Kheddouci BDF 2014Big Graphs for Big Data Visualisation des grands graphes H. Kheddouci BDF 2014Big Graphs for Big Data Visualisation de grands graphes • Comment visualiser les grands graphes de données ? • Quels algorithmes et techniques pour explorer visuellement le grand graphe ? H. Kheddouci BDF 2014Big Graphs for Big Data Visualisation de grands graphes • Communautés/clustering/classification • Recherche de motifs fréquents • Visualisation d’échantillons représentatifs, de sous-graphes, etc • Visualisation 2D, 3D • Combiner la fouille visuelle avec l’exploration algorithmique des grands graphes. H. Kheddouci BDF 2014Big Data et Graphes, Ce n’est que le début de l’histoire …. !! H. Kheddouci BDF 2014 16/05/2014 1 1 Une approche interdisciplinaire des grandes masses de données (Défi Mastodons) Mokrane Bouzeghoub DAS INS2I / MI Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini$ée en 2007 avec une dizaine de sources de données interconnectées Aujourd’hui, plusieurs centaines de sources connectées et ouvertes16/05/2014 2 Qu’est-ce qu’une (très grande) masse de données ? VLDB XLDB Big Data Very Big Data Massive Data Data Deluge Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, … Les grandes questions du Big Data • La science est-elle dans les masses de données ? – La valeur de ces données réside dans les indicateurs, les pa@erns et les règles/lois qui peuvent en être dérivés (connaissance) – Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que) – Les données peuvent être source de plus-value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité, manipula$on) • Les masses de données nous parlent-elles de notre société ? – Nous disent-elles quelque chose que nous ne sachions déjà ? – Diront-elles quelque chose de nous aux généra$ons futures ? – Ont-elles une objec$vité en elles-mêmes ou sont-elles biaisées par des transforma$ons subjec$ves ? • Les masses de données génèrent-elles une valeur économique ? – Quels sont les secteurs privilégiés ? – Quel retour sur inves$ssement ? – Quel rôle pour ces données (ma$ère première, produits dérivés, capital, …) ? – Quel statut pour ces données (propriété privée, domaine publique, objet commercial)? 16/05/2014 3 La complexité multidimensionnelle du Big Data • La Volumétrie – Un défi pour les architectures de stockage (au delà du PB) • La Variété – Diversité des contenus – Forte hétérogénéité des formats et des données • La Vélocité – Défi pour les nouveaux réseaux de communicaHon – Nouveaux modèles de calcul sur des données en flux • La Validité / Véracité – Qualité des sources de données: fraîcheur, exacHtude, … – Qualité des processus de producHon/transformaHon Les grands challenges scientifiques du Big Data • Stockage dans le Cloud – Performance des accès, disponibilité – Sécurité des données et des traitements • Complexité du calcul – Analyse en temps réel de flux conHnus de données émanant de différentes sources – Requêtes mulHdimensionnelles sur des grands ensembles de données • Séman$que des données – IndexaHon sémanHque (ontologies), indexaHon parHcipaHve (folksonomies) – ExtracHon et interprétaHon de connaissances • Consomma$on d’énergie – Ressources à énergie limitée (ex. capteurs) – OpHmisaHon du transfert des données • Impact sociétal – ProtecHon de la vie privée, Droit à l’oubli – A qui apparHennent les données, les connaissances? è 120 kWh/an/Tera-octet stocké par CCIN2P3 è 1M€ /an facture électricité pour l’IDRIS16/05/2014 4 Caractéristiques du domaine • Un domaine très vaste, – en interaction permanente avec les autres disciplines scientifiques • Un domaine qui se repositionne périodiquement – En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées – En intégrant de nouveaux besoins et de nouveaux problèmes • Une recherche dominée (ou presque) par des labos industriels : – Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsoft … Quelques initiatives en Big Data • USA : Plusieurs acteurs dont – Gouvt US: Big Data Research and Development Ini$a$ve (Mars 2012) ü 250M$ / an dont 60 pour les projets de recherche ü mis en œuvre par NSF, NIH, DOD, DOE, USGS) – Accel Partners: fond d’inves$ssement ! 60 M$ / an de sou$en à la créa$on de startups dans le Big Data • UK: Plusieurs ini$a$ves dont – ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M£. – BBSRC (2012): 75 M£ pour améliorer la disponibilité des Big Data • France – PIA: Appel ‘Cloud Comp & Big Data Ministère de l’Industrie (juillet 2012): 25 M€ – CNRS: Ini$a$ve interdisciplinaire (Mastodons): 700K€/an sur 4/5 ans? 16/05/2014 5 Objectifs du défi Mastodons Produire des concepts et des solu$ons qui n'auraient pu être obtenus sans coopéra$on entre les différentes disciplines Favoriser l’émergence d’une communauté scien$fique interdisciplinaire autour de la science des données, et produire des solu$ons originales sur le périmètre des données scien$fiques. Focus de l’appel Mastodons • Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité • Calcul intensif sur des grands volumes de données parallélisme dirigé par les données • Recherche, exploration et visualisation de grandes masses de données • Extraction de connaissances, datamining et apprentissage • Qualité des données, confidentialité et sécurité des données • Problèmes de propriété, de droit d’usage, droit à l’oubli • Préservation/archivage des données pour les générations futures16/05/2014 6 Les critères de sélection • Vision scien$fique de l’équipe/consor$um sur les thèmes du défi • Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année • Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...) • Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet • Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve dans la recherche. ! l’interdisciplinarité doit être une réalité et pas un alibi Indicateurs de suivi • Pérennité de la coopéra$on • Publica$ons communes • Co-encadrement de thèses • Plateformes de test et d’expérimenta$on • Montage et soumission de nouveaux projets • Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données.16/05/2014 7 Mastodons : Chiffres clés • Défi lancé en 2012, avec un second appel en 2013 • Projets de 3 à 5 ans • Budget : environ 700 à 850 K€/an • Nb de soumissions: 57 – Nb d’UMR impliquées: + 100, Couvrant les 10 ins$tuts • Nb de projets retenus: 20 – Nb d’UMR impliquées: 69, couvrant les 10 ins$tuts – Nb de CH/EC impliqués: près de 300 – Montant alloué/projet : 30 à 80 K€ • Partenaires hors CNRS – INRIA, INRA, IRSTEA, INSERM, CEA, ONERA – Universités et écoles Types de données visés dans les projets retenus • Cosmologie, astrophysique – Dynamique de la Cartographie céleste • Sciences de la terre et de l’univers (traitement d’images) – Modélisa$on, déforma$on de la croute terrestre • Environnement, climat, biodiversité – simula$on • Biologie – Génome, phénotypage • Réseaux sociaux – RI, analyse d’opinions, santé 16/05/2014 8 Deux ans après… Gros projets phares • PetaSky+Gaia +Amadeus – Cosmologie • Aresos – Réseaux sociaux • Phénotypage, Sabiod – Biologie végétale, Bio-acous$que Projets ciblés excellents • Comotex – Cde Tps réel de syst op$que • Display – Distr proc. For VLA in Radioastronomy • Mesure-HD – Mesures hautes résolu$on • Prospectom – Etude interac$ve des protéomes par appren$ssage stat. et intégr de données spectrométriques + Un projet émergent sur le crowdsourcing: CrowdHealth Mastodons : La suite … • Comment pérenniser la communauté – Réflexion générale sur les regroupements de projets ü Théma$que ü Par domaine d’applica$on – Structura$on et anima$on de la communauté ‘Big Data’ ü Emergence d’un GDR « Big Data, Science des données » • Comment la financer au delà du programme CNRS – CNRS, au delà de 2015? – ANR ? – COST / H2020 ? – Autre ini$a$ve ? 16/05/2014 9 Conclusion • La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc$on et d’exploita$on des données (existants ou à créer) – Avec un sou$en fort en ingénierie – Une véritable interdisciplinarité – Un code clair sur l’accès aux données et leur u$lisa$on Big Data, la déferlante des octets | CNRS le journal 04/03/14 12:30 file:///Users/Mokrane-CNRS/Desktop/Big%20Data,%20la%20déferlante%20des%20octets%20%7C%20CNRS%20le%20journal.webarchive Page 1 sur 10 Donner du sens à la science Suivre Rechercher Se connecter / S'inscrire      Types VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Rechercher  Partager l'article 1" MASTODONS Un défi CNRS sur les « Big Data » Mokrane Bouzeghoub Séminaire DUs INSHS - 6/12/2012 Qu’est qu’une (très grande) masse de données ? VLDB XLDB Big Data Very Big Data Massive Data Data Deluge Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, …Exemples I Link Open Data Initiative Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Youtube 60h de vidéo/mn Facebook 40 Mds de photos GoogleEarth 70 TB LSST 16 TB toutes les 8 heuresLes dimensionnalités des masses de données • Nombre dʼattributs (de variables) • Nombre dʼoccurrences/objets • Nombre de sources de données • Fréquence dʼacquisition des données • Degré de réplication des données • Volume des méta données, annotations, indexes • Volume de données déplacé par les requêtes ou les calculsDiversité des sources de données et des types de données • Données structurées – Tableaux – Objets (données, codes) • Données semi/non-structurées – Documents (XML), ressources (RDF) • Données multi-média – Images – audio – video • Autres données – Graphiques, diagrammes – Séries temporelles – Flux de données / événements – …. BD et fichiers d’entreprises Données WEB et Réseaux Sociaux Données de Capteurs Données d’expériences scientifiques (ex: simu) Grands corpus culturels et scientifiques (Digital Libraries) Objec&fs)du)défi)Mastodons) Produire)des)concepts)et)des)solu&ons)qui)n'auraient) pu)être)obtenus)sans)coopéra&on)entre)les) différentes)disciplines)du)CNRS.)) Favoriser)l’émergence)d’une)communauté) scien&fique)interdisciplinaire)autour)de)la)science)des) données,)et)produire)des)solu&ons)originales)sur)le) périmètre!des!données!scien/fiques.))Pilotage)et)res&tu&on) • Coordina&on)étroite)de)l’ensemble)des)projets) – Augmenter)la)synergie)entre)projets) • Res&tu&on)des)résultats) – Publica&ons)de)qualité) – Colloques)! déjà"4"avec"près"de"300"par2cipants" • Financement)sur)4)à)5)ans) – Selon)contraintes)budgétaires)CNRS) – Selon)impact)et)résultats)des)projets) !!l’interdisciplinarité!doit!être!une!réalité!et!pas!un!alibiApports spécifiques des SHS • Sémantique des données – Méta données, annotations, interprétation • Protection de la vie privée – Confidentialité, droit à lʼoubli – Éthique, réglementations • Aide à lʼanalyse à grande échelle (très grands corpus) – Réseaux sociaux, Open data • Apports linguistiques – Outils formels, constitution dʼontologies • Préservation à long terme – Connaissances scientifiques, patrimoine culturel • …Cartographie)des)projets)retenus)) en)2012) 9" 74)UMR) 44)UMR) 37)projets) soumis) 16)projets)) sélec&onnés)Les)projets)retenus)en)2012) • Physique)des)par&cules:)1) – Stockage)à)grande)échelles)de)résultats)d’expériences) – Simula&on,)analyse)et)visualisa&on)) " !))))env 15PB/an • Sciences)de)la)terre)et)de)l’univers:)5) – Masses)de)données)sismologiques) – Origine)et)évolu&on)de)notre)galaxie:)données) d’observa&ons)astronomiques)grand)champ)))) " !))140)terabytes)/)5)jours) • Environnement,)climat,)biodiversité:))4) – Analyse)de)MdD)urbaines)et)environnementales)Les)projets)retenus)en)2012) • Biologie:)3) – Défis)computa&onnels)de)séquençage)haut)débit) – Fédéra&on)de)données)en)imagerie)biomédicale) – Etude)visuelle)et))interac&ve)des)protéomes) • Réseaux)sociaux:)2) – Reconstruc&on)et)analyses)de)réseaux)sociaux,) cartographie)séman&que,)) – Social)compu&ng,)intelligence)collec&ve) • Préserva&on)des)données:)1) – Enjeux)technologiques,)sociétaux,)coûts,)risques)Projets)impliquant))des)UMR)INSHS) Titre du projet Porteur UMR Impliquées Instituts/ Organism es Projet SENSE : Socialized Network Science Pablo Jensen LP, LIP, IXXI, Max Weber INP, INS2I, INSHS ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio‐ Sémantiques Patrick Gallinari LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS AMADOUER: Analyse de MAsse de DOnnées de l’Urbain et l’EnviRonnement Attila Baskurt LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS PREDON: La préservation et l’exploitation des données scientifiques à long terme Cristine Diacanou l CPPM, LPCCG, LAPP IN2P3 ET L CHARTE ET ET BIG FACIILITER LA CR L’E LA DIFFUSION DES D THIQUE G DATA REATION, ECHANGE DONNEES1 Sommaire UN TRAVAIL A PLUSIEURS VOIX .................................................................................................................................. 4 CONTENU DE LA CHARTE ............................................................................................................................................ 4 COMMENT UTILISER CETTE CHARTE ? ........................................................................................................................ 4 LICENCE.. .................................................................................................................................................................. 4 ENGAGEMENT ............................................................................................................................................................ 5 LES DONNEES ............................................................................................................................................................ 7 TRAÇABILITE ............................................................................................................................................................. 9 PROPRIETE INTELLECTUELLE .................................................................................................................................... 13 REGLEMENTATIONS SPECIFIQUES ............................................................................................................................. 15 PREFACE 2 3 La disponibilité des grandes masses de données (Big Data) permet d’en extraire des connaissances impossibles à appréhender autrement. Cela leur confère une importance stratégique et établit une barrière entre ceux qui peuvent y accéder et les autres. Dans l’objectif d’en garantir l’accès au plus grand nombre pour les besoins de la recherche, des initiatives ont été lancées au plan international pour partager ces données (Data Sharing). On peut mettre dans cette notion de partage une simple idée de distribution la plus ouverte possible, mais on peut aussi l’étendre à la production, la validation et l’enrichissement collaboratifs des données, et à leur utilisation pour développer et évaluer les technologies dans beaucoup de domaines. Cela passe par l’identification et la trace de l’utilisation de ces données, dans une approche qui doit être coordonnée et internationale pour pouvoir être effective. La myriadisation du travail parcellisé, ou crowdsourcing, peut être mise au service des activités de production et d’enrichissement des données. Elle apporte la possibilité d’établir un contact avec la « foule » internationale, et toute la force de travail qu’elle représente, mais soulève en même temps les problèmes éthiques d’une activité qui échappe aux règles habituelles du droit du travail. Consciente de ces enjeux et de l’urgence de les traiter, les rédacteurs se sont saisis ces questions et propose aux chercheurs et aux industriels cette charte afin d’encourager les aspects hautement positifs liés au Big Data, et décourager les effets potentiellement néfastes qui pourraient les limiter ou les inverser. J. Mariani Directeur de l’Institut des technologies Multilingues et Multimédias de l’Information (IMMI-CNRS) La création, la maintenance, la diffusion et l'utilisation de données de toutes sortes est un enjeu économique majeur. Qu'il s'agisse de données démographiques, personnelles, de relevés de capteurs, de documents, thésaurus, ontologies. Ces bases de données sont essentielles à la création et la maintenance de nouveaux services. L'apparition du Cloud computing, de l'Open Data et du Big Data rendent ces questions particulièrement sensibles. Cependant, l'utilisation ou la réutilisation des données se heurtent trop souvent à des freins qui en empêchent l'exploitation optimale : provenance parfois opaque (en particulier dans les cas de " crowdsourcing "), traçabilité inexistante, protection intellectuelle incertaine, une qualité difficile à évaluer a priori. Dès lors, sécuriser la création de données est un facteur de compétitivité. Cette charte Ethique & Big Data se donne comme objectif de fournir des garanties concernant la maintenabilité des données, leur traçabilité, leur qualité, l'impact sur l'emploi, réduire le risque juridique. Cette charte vise à harmoniser les rapports entre producteurs, fournisseurs et utilisateurs de données sur le plan du respect des lois, de celui de l'éthique, et garantir la confiance dans les rapports entre l'ensemble des acteurs impliqués. Alain Couillault, APROGED, Professeur associé Université de La Rochelle 4 Un travail à plusieurs voix Cette charte a été conçue à l’initiative de l’APROGED, de l’ATALA, de l’AFCP et de CAP DIGITAL. Plusieurs associations et partenaires ont collaboré à sa rédaction et à sa diffusion. Contenu de la charte La Charte Ethique & Big data comprend quatre volets principaux qui concernent la description des données, la traçabilité, la propriété intellectuelle et les réglementations spécifiques. Pour chacun de ces volets, la charte considère ce qui se passe avant, pendant, et après la constitution des données. Comment utiliser cette charte ? La Charte Ethique & Big data fournit une trame de description des corpus de données et sert de memorandum des points à décrire lorsque l'on met à disposition des données, que ce soit à usage commercial ou académique, payant ou gratuit. Les éléments prévus dans la charte sont à remplir par le fournisseur, qui s'engage ainsi sur son contenu. Il arrive, fréquemment, qu’un jeu de données soit construit par rassemblement, enrichissement, altération d’un ou plusieurs jeux de données existants. Dans ces cas, il convient de remplir les éléments de la Charte pour le seul jeu de données auquel elle correspond, en y faisant référence, le cas échéant, aux chartes des jeux de données utilisés. Licence Cette Charte Ethique & Big data est distribuée sous licence Creative Common CC BY-N 3.0 FR, avec attribution suivante : « Rédacteurs Gilles Adda, AFCP, CNRS-LIMSI, Christelle Ayache, Cap Digital, Alain Couillault, Apoliade, Aproged, Université de La Rochelle, Karën Fort, ATALA, Loria / LIPN, Pierre-Olivier Gibert, Digital Ethics, François Hanat, Cap Digital, Hugues de Mazancourt, Aproged, Eptica-Lingway. Animateur du groupe de travail « Ethique et Big Data » organisé par l’Aproged : Alain Couillault, Contributeurs : Daniel Bourcier, CNRS CERSA, Marie-Odile Charaudeau, Aproged, Primaveri de Filippi, CNRS CERSA, Olivier Itéanu, Aproged, Benoît Sagot, Aproged, INRIA/Paris VII, Joseph Mariani, CNRS Limsi/IMMI, Jamel Mostefa, ELRA/ELDA, Laurent PREVEL, Aproged. » La charte est disponible en ligne à l’adresse http://wiki.ethique-big-data.org 5 Engagement Charte Ethique et Big Data pour une activité générale non réglementée Par l’adhésion à la présente Charte, je m’engage dans mes activités relatives à l’accès, à l’extraction, à la réutilisation de données dans le cadre d’une activité faisant appel à des jeux de données, à respecter les principes suivants : • exercer mon activité dans le respect des principes éthiques, et ce, envers les individus auxquels ces données sont liées, les personnes et entités intervenant à la collecte, la transformation ou la diffusion de ces données • garantir autant que possible la traçabilité des données et d’informer l’ensemble des acteurs qui peuvent avoir à connaître des informations de traçabilité • respecter l’ensemble des droits attachés aux données, que ces droits soient liés à l’acquisition ou à la transformation des données • respecter les législations afférentes à la diffusion de données, qu’elles soient générales ou spécifiques à la nature des données concernées. A cette fin, je remplis la présente Charte Ethique et Big Data et m’engage sur les informations qu’elle contient. A _______________, le _________________ LES DONNEES LES DONNEES 6 7 Les données Nom du recueil de données : Nom et coordonnées de l’institution ou de la personne responsable des données : Personne(s) à contacter : Responsable(s) de la charte : Disponibilité des données (site Internet, CD-ROM...) : Quelle est la nature des données fournies? Décrire les support, mode de fourniture (cf. support physique vs. flux d'informations) Si possible, indiquer précisément les références du document qui décrit les données fournies TRAÇABILITE TRAÇABILITE 8 9 Traçabilité La notion de traçabilité couvre l'ensemble des aspects permettant de connaître le contenu d'une source de données, et de retracer le processus de fabrication, Origine des données S'agit-il : de données primaires (créées directement par le fournisseur), de données consolidées de différents fournisseurs de données construites à partir de données tierces (enrichissement) ? Dans les deux derniers cas, fournir, pour chacune des sources la charte correspondante ou les coordonnées de l'organisation d'où viennent les données, ainsi que le contact permettant d'obtenir les informations afférentes, ou la mention explicite et argumentée que la charte ne s'applique pas. Auteurs, processus de recrutement Dans le cas de données primaires provenant de contributeurs humains, préciser la typologie des contributeurs la nature des relations contractuelles avec le fournisseur le mode de rémunération Dans le cas d'utilisation de crowdsourcing, préciser : les critères de sélection des travailleurs, la ou les plateformes utilisées, le mode et le montant de la rémunération. Si les données contiennent des données liées aux contributeurs humains, préciser : si un consentement a été demandé, si une trace matérielle existe de ce consentement. la nature de l'information fournie afin que le consentement soit éclairé, 10 Processus de fabrication ou de transformation des données : A. Si les données dont l'origine a été spécifiée dans la section Origine des données ont subi une quelconque transformation: Décrire les processus de transformation. B. pour les processus d'enrichissement de données, décrire la nature de l'enrichissement. Préciser pour chaque processus, s'il s'agit d'un travail manuel ou automatique C. Dans le cas où un travail manuel est impliqué, indiquer : la typologie des intervenants, la nature des relations contractuelles, le mode de rémunération. D. Dans le cas d'utilisation de crowdsourcing, préciser : les critères de sélection des travailleurs, la ou les plateformes utilisées, le mode et le montant de la rémunération. E. Dans le cas où un outil informatique est impliqué, décrire : la nature et la fonction de l'outil, la nature de la propriété intellectuelle et la nature de la licence attachées à cet outil. F. Dans le cas où les données contiennent des informations personnelles, préciser : les moyens permettant de s'assurer que la transformation est compatible avec le consentement décrit dans la section Auteurs, processus de recrutement, si une anonymisation a été effectuée, et la manière dont elle a été faite. 11 Processus de validation des données G. Préciser si un processus de validation des données a été appliqué. Dans la négative, dire pourquoi un tel processus n'a pas été nécessaire Dans l'affirmative, décrire le processus de validation, et en particulier : o le pourcentage des données validées, o le mode de sélection des données validées, o si la validation a été faite en interne ou en externe, si la validation a été externe, la nature de l'organisme de validation. o si la validation a été faite à l'aide d'outils automatiques, ou a nécessité une intervention humaine, décrire la nature des outils, préciser le profil des validateurs. o décrire la méthode de validation, et en particulier : les critères de validation, si ces critères impliquent l'utilisation de métriques, décrire ces métriques. o donner le résultat (qualitatif et quantitatif) de la validation, o s'il s'agit de données évolutives, indiquer : si la validation est identique sur les données archivées, et les données nouvelles, la fréquence de validation. PROPRIETE INTELLECTUELLE PROPRIETE INTELLECTUELLE 12 Propriété intellectuelle Licence d'utilisation de(s) source(s) H. En cas de réutilisation de données, décrire les restrictions légales ou contrac exemple, nature de la licence, la source doit La fourniture respecte des licences affectées aux sources d'information. Par exemple, les sources sont elles libres et ouvertes (OpenData...) Sont-elles soumises à une licence particulière Droits du fournisseur sur les données I. En cas d'utilisation de données tierces, le signataire de la charte a particulier, l'origine des données (copyright) doit Altération de licence liée au traitement des données J. En cas d'intervention d'un tiers sur les donn stagiaire...), préciser le cas échéant quels sont les droits de chacun sur les données (dans la mesure du possible, utiliser une licence pour de chacun). Licence d'utilisation Préciser la (ou les) licence(s) attachée(s) aux données fournies. (on veillera à ce que la licence précise s'il existe des restrictions quant à la rediffusion de ces résultats). Propriété intellectuelle d'utilisation de(s) source(s) En cas de réutilisation de données, estrictions légales ou contractuelles sur les données utilisées (par exemple, nature de la licence, la source doit-elle être citée? Etc. La fourniture respecte-t-elle ces restrictions ? On veillera notamment à la vi des licences affectées aux sources d'information. Par exemple, les sources sont elles libres et ouvertes (OpenData...) ? elles soumises à une licence particulière ? à droit d'auteur Droits du fournisseur sur les données En cas d'utilisation de données tierces, le signataire de la charte a-t-il des obligations par rapport à ses fournisseurs? En particulier, l'origine des données (copyright) doit-elle être mentionnée licence liée au traitement des données En cas d'intervention d'un tiers sur les données (salarié, contractant, préciser le cas échéant quels sont les droits de chacun sur les données (dans la mesure du possible, utiliser une licence pour préciser les droits et les obligations Préciser la (ou les) licence(s) attachée(s) aux données fournies. (on veillera à ce que la licence précise s'il existe des restrictions quant à la rediffusion de ces 13 tuelles sur les données utilisées (par elle être citée? Etc. ) On veillera notamment à la viralité des licences affectées aux sources d'information. Par exemple, les sources sont- ? à droit d'auteur ? il des obligations par rapport à ses fournisseurs? En elle être mentionnée ? ées (salarié, contractant, préciser le cas échéant quels sont les droits de chacun sur les données (dans la préciser les droits et les obligations Préciser la (ou les) licence(s) attachée(s) aux données fournies. (on veillera à ce que la licence précise s'il existe des restrictions quant à la rediffusion de ces REGLEMENTATIONS SPECIFIQUES REGLEMENTATIONS SPECIFIQUES 14 15 Réglementations spécifiques Certaines données peuvent être soumises à des réglementations d’ordre public qui s’imposent pour des raisons impératives de protection, de sécurité ou de moralité. Les fournisseurs ne peuvent y déroger. Le non-respect de ces réglementations peut donner lieu à des sanctions pénales ou prononcées par des autorités administratives indépendantes (CNIL, AMF, Autorité de la Concurrence). Le respect de ces réglementations est donc une des conditions de la légalité de l'utilisation ou la réutilisation des données. Préciser si la nature des données fournies ressort d'une ou plusieurs réglementations spécifiques. Si oui, préciser la ou lesquelles. le fournisseur respecte-t-il ces réglementations ? Il est de la responsabilité du fournisseur de rechercher les réglementations applicables. Pour information, il existe des réglementations d’ordre public qui visent explicitement les données : Loi informatique et libertés relatives aux données personnelles Sur le site de la CNIL Droits des producteurs de bases de données (LIVRE III - Titre IV du Code de la Propriété intellectuelle) Par ailleurs, suivant les secteurs d’activité, des réglementations spécifiques peuvent nécessiter de modifier les conditions de collecte d’utilisation et de réutilisation des données. Préalablement, à la mise en œuvre du traitement, une recherche sur les réglementations applicables s’impose. En particulier, les activités traitant des données personnelles, financières, de santé ou couvertes par un secret doivent faire l’objet d’une vigilance particulière. Le correspondant informatique et libertés (CIL), présent dans de nombreuses entreprises, administrations ou collectivités locales est par exemple à même de renseigner ou d'instruire ce type de demandes. Comportements culturels et données personnelles au cœur du Big data Entre la nécessaire protection et une exploitation au service des nouveaux équilibres économiquesSommaire 1. Faire parler le Big data : un nouveau pouvoir p. 7 dans le secteur médiatique et culturel • Du Big data au Worthy data p. 8 • La donnée personnelle culturelle au cœur de l'émergence p. 14 d'un marché stratégique 2. Pouvoirs en équilibre et responsabilités partagées : p. 19 les nouveaux contours du Big data • La réglementation, impulsion économique p. 21 pour les acteurs de Big data en Europe • Quelle fiscalité 3.0 pour l'économie digitale ? p. 33 • Responsabilités citoyennes p. 37 3. Vers un nouveau paradigme économique p. 39 propice à l’innovation et la création • Opposer le principe de précaution au Big data : p. 40 un risque réel pour l’innovation • Le temps de l'action p. 42 • La nouvelle chaîne de valeur de la donnée personnelle culturelle p. 47 La donnée personnelle culturelle au cœur du Big data p. 50 Infographie La présente publication peut être téléchargée sur les sites d’EY (www.ey.com/mediaentertainment) et du Forum d’Avignon (www.forum-avignon.org).Comportements culturels et données personnelles au cœur du Big data | 3 Avant-propos Depuis 2008, EY analyse les grandes thématiques inscrites au programme du Forum, pour leur donner, en capitalisant sur son expertise et son expérience reconnue dans le secteur, une traduction concrète à travers l’identification d’enseignements majeurs. Année après année, EY a observé et décrypté les mouvements à l’œuvre dans l’industrie des médias et des contenus, face à une révolution digitale qui a rebattu les cartes des forces en présence, à travers le prisme de la propriété intellectuelle (« La propriété intellectuelle à l’ère du numérique »), de la monétisation (« Monétiser les médias numériques ») ou encore de la vitesse de diffusion (« Maîtriser le tempo, organiser la relation entre le temps et la valeur dans l’industrie des médias et du divertissement »). L’écosystème qui s’est progressivement structuré semblait tendre jusqu’à présent vers un point d’équilibre entre les opérateurs de l'Internet, de télécomunications et les groupes médias. Néanmoins les enseignements de nos dernières études laissaient déjà entrevoir la déferlante Big data, qui pourrait introduire un nouveau facteur de déstabilisation, laissant un nombre restreint d’acteurs, capables de faire parler le Big data, détenir le pouvoir de contrôler et de prévoir. La donnée personnelle culturelle, autour de laquelle se structure aujourd’hui un marché à la recherche de nouveaux équilibres, est à l'origine d’une ruée d’acteurs des secteurs numérique, médiatique et culturel, parce qu'elle vaut de l'or. Méthodologie de l’étude : Pour mieux comprendre, analyser et interpréter ces nouveaux enjeux de contrôle et la structuration d’un nouveau marché autour de la donnée personnelle culturelle, EY a rencontré et interrogé des dirigeants d’institutions et d'entreprises représentatives du secteur, dont la Réunion des musées nationaux - Grand Palais, l’INA, Solocal (PagesJaunes), Criteo, InterCloud, Kantar Media... Cette étude qui a mobilisé nos experts du secteur Médias et Divertissement, se fonde sur leurs points de vue, notre recherche sectorielle et nos propres analyses. 6 ans de partenariat entre EY et le Forum d’Avignon La vocation première du Forum d’Avignon est de se faire l’écho des enjeux qui comptent pour les industries de l’art et de la création. Le partenariat qui lie depuis maintenant six ans EY au Forum témoigne d’un engagement commun, aux côtés des grands acteurs de l’univers des médias et du divertissement. Remerciements EY tient à remercier vivement pour leurs éclairages : Roei Amit (Directeur adjoint chargé du numérique, Réunion des musées nationaux - Grand Palais), Christophe Benavent (Professeur, Responsable du Master Marketing opérationnel international, Université Paris Ouest), Julien Billot (Directeur général adjoint en charge du segment média, Solocal - ex PagesJaunes), Jérôme Dilouya (Fondateur et Président-directeur général, Intercloud), Denis Gaucher (Directeur exécutif Ad Intelligence Europe, Kantar Media), Alban de Nervaux (Directeur de la stratégie et du développement, Réunion des musées nationaux - Grand Palais), Alexandra Pelissero (Directrice de la communication, Criteo), Stéphane Ramezi (Responsable des éditions multimédia, INA). Nous tenons aussi à remercier, pour leur apport lors des groupes de travail : Benoît Tabaka (Directeur des politiques publiques, Google France), Pierre Geslot (Responsable Projets Lectures numériques, France Télécom Group), Laure Kaltenbach (Directrice générale, Forum d'Avignon), Olivier Le Guay (Responsable éditorial, Forum d'Avignon).4 | Comportements culturels et données personnelles au cœur du Big data C’est l’évolution de l’humanité tout entière qui est indissociable des traces, empreintes et autres indices que nous laissons derrière nous. Avec l’avènement de l’ère numérique et l’apparition des traces immatérielles dont nous marquons la toile et que nous pouvons désormais collecter, stocker et analyser à l’infini1, nous est aujourd’hui donné un pouvoir inédit. Au pouvoir régalien, détrôné peu à peu par l’ouverture du savoir au plus grand nombre à travers l’imprimerie, la radio et la télévision - et duquel le règne d’Internet a semblé définitivement nous affranchir - succède aujourd’hui le pouvoir de contrôler et de prévoir, grâce à l’ouverture de données publiques et personnelles de tous à un nombre d’acteurs restreints, capables de faire parler le « Big data ». Volume, variété et vélocité : c’est en ces trois mots que peut se résumer le Big data, pour exprimer le volume inédit de données produites et échangées par un nombre croissant de canaux (web, objets connectés au web et entre eux, plateformes), la variété de ces données (avec une part croissante de données non structurées et volatiles2) et enfin la vélocité, qui désigne la vitesse, toujours plus grande, de ces échanges. Le Big data représente une formidable matière première pour qui saura en extraire la substantifique moelle, avec à la clé des opportunités de création de valeur qui pourront irriguer l’ensemble des secteurs d’activité de l’économie réelle… et en particulier celui de l’industrie médiatique et culturelle. Car au cœur de cette masse de données vertigineuse brille une catégorie de données qui vaut de l’or : la donnée personnelle culturelle. Lorsque nous observons le bouleversement des rapports de force entre opérateurs Internet, opérateurs de réseaux et groupes médias, sous l’effet de l’explosion des traces et informations liées à la révolution digitale, force est de constater la ruée de tous ces acteurs vers cette donnée personnelle culturelle, nouveau sésame qui leur ouvrirait les portes de l’intimité de l’être. À la fois miroir de nos goûts et de nos aspirations et reflet de l’image sociale que nous souhaitons renvoyer, la donnée personnelle culturelle représente en effet un fragment de notre identité. Une donnée d’autant plus précieuse qu’elle introduit un rapport inédit en réconciliant l’empreinte et le calcul3 : si, à la manière d’une photographie, la donnée numérique conserve la trace de notre activité digitale, elle s’en distingue toutefois par sa disponibilité au calcul. Contrairement à une simple photographie, qui comme le rappelait Roland Barthes4, « ne se distingue jamais de son référent, de ce qu'elle représente. [Le référent] s'entête à être toujours là, il adhère », la donnée personnelle numérique est détachable et calculable. Empreintes, fresques, statuettes, parchemins, hiéroglyphes et toute autre forme de production culturelle ou artistique sont autant de traces matérielles laissées à la postérité, de façon consciente ou non, qui nous ont permis de reconstituer des pans entiers de l’histoire de nos civilisations, pour forger notre savoir et notre culture. 1 Un yottaoctet est la capacité annoncée du nouveau data center de la NSA (National Security Agency) pour 2013, soit mille fois la totalité des données enregistrées en 2011 dans le monde - Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 2 Données de géolocalisation, événementielles 3 Louise Merzeau « Faire mémoire des traces numériques », E-dossiers de l’audiovisuel, Sciences humaines et sociales et patrimoine numérique, INA, mis en ligne en juin 2012 4 Roland Barthes, La chambre claire - éd. Gallimard, 1980 ÉditoComportements culturels et données personnelles au cœur du Big data | 5 5 Kord Davis, "Ethics of Big data – Balancing risk and innovation" - ed. O’Reilly Media, Septembre 2012 6 René Trégouët, Sénateur, « Des pyramides du pouvoir aux réseaux de savoirs - Tome 1 », Rapport d'information 331 - 1997/1998 - Commission des Finances, site internet du Sénat, consulté le 10 octobre 2013 Bruno Perrin Associé EY Responsable du secteur Technologies Médias Télécoms en France En effet, la dimension révolutionnaire du "Big data bang" réside dans l’autonomisation des processus de production et d’échanges massifs, continus et toujours plus rapides de données ubiquitaires. Dans le domaine des contenus culturels, l’offre devient alors pléthorique. Mais à travers le téléchargement, le visionnage, l'échange de ces contenus culturels, les données personnelles du consommateur, tendent à se disperser de façon incontrôlée. Et alors qu'Internet peut apparaître comme un lieu de normalisation et de surveillance, se pose avec acuité la question du pouvoir de contrôle que permet la connaissance intime des comportements et des données personnelles culturels. Et avec elle, la question du respect de ces données et de la nécessité de développer des réponses concertées impliquant les acteurs de l’écosystème des contenus culturels numériques et des alliances autour de valeurs et impératifs communs : "Big data is ethically neutral, the use of Big data is not5". Ainsi, si le Big data apparaît comme une rupture majeure qui nous ferait définitivement quitter une ère, dont l'épuisement des ressources fait poindre les limites, pour entrer dans une économie du savoir et de la connaissance prometteuse, il est urgent d’apprendre à préserver la fragilité de cette ressource qu’est la donnée personnelle culturelle, dont la pérennité repose sur les équilibres subtils et les responsabilités partagées, qui jetteront les premiers jalons de ce nouveau marché en pleine structuration. C’est à travers la protection de cet écosystème par un filtre de confiance que ses acteurs pourront conserver un équilibre entre liberté et contrôle. Un contrôle qui implique également de ne pas se soumettre à la tyrannie de la donnée, dans une tentative de profilage qui, poussée à l’extrême, enfermerait chaque individu dans des résultats qui ne laisseraient aucune chance à la sérendipité ; au risque de tomber sous la domination d’une culture unique… Des craintes qui, en leur temps, avaient déjà été imputées à l’imprimerie, ou au latin à la Renaissance6… Au-delà des gains d’efficacité et de performance espérés, à travers une connaissance affinée du comportement de ses publics et usagers et donc d’une plus grande capacité d’anticipation de leurs attentes, les données personnelles culturelles représentent pour le secteur de l’industrie médiatique et culturelle une formidable opportunité de révolutionner leur modèle économique pour stimuler la création... à l'infini.| 7 1. Faire parler le Big data : un nouveau pouvoir dans le secteur médiatique et culturel8 | Comportements culturels et données personnelles au cœur du Big data 1 « Big data, nouveaux défis », Revue de l’Association Telecom ParisTech Alumni, n° 169, juillet 2013 2 Une pile de DVD de la hauteur de la tour Montparnasse = 1 pétaoctet (équivalences : 1 zettaoctet = 1021 octets ou 106 pétaoctets) - Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 Une explosion des traces numériques Depuis quelques années, les données numériques connaissent une croissance exponentielle et forment une masse gigantesque de data, autrement appelée Big data. L’augmentation de cette masse de données s’explique par trois facteurs, connus sous la formule des 3V : • Le boom du volume de données émises : l’individu, de plus en plus nomade, produit davantage de données, laissant derrière lui en temps réel des traces numériques toujours plus fraîches. En parallèle, les capacités de stockage augmentent également de façon exponentielle, ce qui permet de conserver un historique de toutes ces traces numériques. En 2013, les volumes de données créées ou manipulées auront dépassé les 4 zettaoctets1, soit l’équivalent d’une pile de DVD mesurant la hauteur de… 4 millions de tours Montparnasse2. • La variété des outils connectés s’étend : du portable au réfrigérateur, de la tablette à la voiture intelligente en passant par la smart TV, le nombre d’objets connectés explose, comme en témoigne la demande croissante d’adresses IP. Capables de communiquer entre eux, ces objets qui forment « l’Internet des objets », peuvent tracer leurs utilisateurs et envoyer des informations précises sur leurs mouvements et habitudes, même quand ceux-ci ne les utilisent pas. Une variété qui qualifie également la masse non structurée des données produites par ces multiples sources, qui émettent des données présentant autant de codes, langages et formats différents. • La vélocité de l’information, à savoir la vitesse à laquelle les données sont traitées simultanément, augmente elle aussi : ces données circulent toujours plus vite, émises par des sources toujours plus interconnectées et interdépendantes, dans des réseaux qui fonctionnent de moins en moins en silos. En naviguant sur Internet, un utilisateur laisse des traces de natures variées. Ces données sont collectées selon différents modes opératoires et lui sont rattachées a priori ou a posteriori, selon qu’il se sera identifié volontairement, ou qu’il sera identifiable par recoupement (ex. : cookies, adresse IP, adresse MAC). Aux 3V du Big data s’ajoute la valeur que représentent ces données, pour l’entreprise mais aussi pour l’utilisateur. En effet, l’exploitation de ces « traces » numériques peut offrir aux utilisateurs un réel confort de navigation et leur fournir des services de qualité (mise à disposition d’une boîte mail, obtention d’applications gratuites, jeux gratuits, etc.), sans contreparties financières directes. Conscientes de la forte valeur de ces données, les entreprises tentent d’instaurer ou de gérer une relation donnant-donnant, visant à récompenser les utilisateurs qui transmettent leurs données personnelles, en leur offrant des produits ou services pour les inciter à révéler leurs préférences de consommation et des centres d’intérêt, via, par exemple, des commentaires sur les réseaux. Toutefois, proposer des services additionnels contre les données cédées suppose un équilibre délicat pour les entreprises : les consommateurs, pas toujours conscients de la portée de ce rapport donnant-donnant, peuvent se montrer réticents à l’idée d’être considérés comme des produits monétisables. D’où l’importance de porter à leur connaissance ce qu’ils sont en mesure de faire pour contrôler leurs données personnelles. • En savoir plus p. 37 Cette masse de données numériques, à l’instar de la masse monétaire, aurait-elle atteint un seuil suffisamment critique pour faire fonctionner un système économique à part entière ? Existe-t-il une hiérarchie de valeur entre ces traces numériques ? Quelle est la valeur de cette donnée numérique ? Du Big data au Worthy data Des traces à l’ADN de l’être numériqueComportements culturels et données personnelles au cœur du Big data | 9 Octet 1 o Kilo-octet (Ko) 1 000 octets 30 Ko Une page de texte Word Exaoctet (Eo) 1 000 Po Mégaoctet (Mo) 1 000 Ko 5 Mo Un morceau de musique Gigaoctet (Go) 1 000 Mo 1 Go Un film de 2 heures Téraoctet (To) 1 000 Go 1 To 6 millions de livres numérisés Pétaoctet (Po) 1 000 To 1 Po Une pile de DVD de la hauteur de la tour Montparnasse Zettaoctet (Zo) 1 000 Eo 1 Zo La totalité des données enregistrées en 2011 Yottaoctet (Yo) 1 000 Zo 1 Yo Capacité du data center de la NSA exaoctets de données générées depuis les premières mesures 5 jusqu’en 2003 2 En 2011, il fallait 2 jours pour les générer 2 En 2013, il faut 10 minutes pour les générer 24 h 24 h 10 min De l'octet au yottaoctet, l'échelle des données Source : chiffres CNRS Quelles traces laissées par une simple recherche culturelle sur le web ? Exemple : réservation d’une entrée pour une exposition au Grand Palais Source : EY © Logiciel • Navigateur • Système d’exploitation Physique • Équipement (smartphone/ tablette/ordinateur) • Type de connexion • Adresse IP/Adresse MAC • Localisation (ADSL) : DSLAM • Géolocalisation (mobile, wifi) Action utilisateur Services en contrepartie Traces numériques à caractère majoritairement personnel • Rapidité de navigation • Confort d’utilisation • Richesse des informations et des services en ligne • Gratuité des informations obtenues et accès aux services Session utilisateur • Moteur de recherche • Messagerie • Site tiers • Réseau social… • Données de contact (âge, sexe, coordonnées…) • Données de connaissance (CSP, intérêts, relations, profil de consommation…) • Niveau d’équipement (type, résolution d’écran…) • Vitesse et données techniques de connexion • Statistiques/comportement de navigation • Pays/zone géographique/localisation • Environnement logiciel • Informations collectées par cookies • Favoris, historique, paramètres, préférences de navigation 145 milliards de mails envoyés 4,5 milliards de recherches sur Google 104 000 heures de vidéos mises en ligne sur YouTube 400 millions de tweets postés 552 millions d’utilisateurs se connectent à Facebook 24h dans la vie du Big data Source : CNRS10 | Comportements culturels et données personnelles au cœur du Big data « Avec le Big data, le nerf de la guerre est le contexte. Dans les années 90, le contenu était roi, désormais, c’est le bon contenu dans le bon contexte qui est roi, ce que l'on peut résumer par la formule "content is king, but context is King Kong". L’Institut National de l’Audiovisuel a parfaitement pris conscience que la donnée numérique, enrichie d’éléments de contexte, voyait sa valeur augmenter sensiblement du fait de services et de contenus proposés mieux personnalisés et plus pertinents. » Stéphane Ramezi, Responsable des éditions multimédia à l’INA Donner de la cohérence aux traces numériques Individuelles, hétérogènes, multiples et éparses, les traces numériques collectées en temps réel n’ont, prises isolément, aucune valeur. Leur valeur vient du sens qu’on arrive à en tirer, en termes de corrélation ou de prédictibilité. Il est possible de donner du sens à ces données en les rattachant à leur cause commune : le comportement d’un être humain. De cette façon, on peut non seulement espérer comprendre le comportement d’un individu à travers les traces qu’il laisse, mais aussi, in fine, recomposer l’ADN de son « être numérique ». Il arrive que les images physique et numérique d’un individu se recoupent. Le simple achat d’une carte de transport par exemple : un individu qui passera, tous les soirs à 18h sauf le week-end, le portique du métro avec son titre de transport et laissera dans le même laps de temps des traces de recherches sur Internet à partir de son téléphone portable, sèmera suffisamment d’indices pour permettre de décrypter ses habitudes ; il s’agit sans nul doute de son trajet à la sortie du travail. Mais il arrive parfois que l’être physique et l’être numérique projettent des images différentes. On peut par exemple avoir une interprétation erronée d’une information transmise sur un réseau social, telle que « j’aime » ou « j’y étais » : prise isolément, une telle information sera non seulement trop parcellaire pour prétendre décrypter un comportement ou une personnalité, mais surtout, elle ne correspondra pas forcément à l’identité de l’être physique en termes de niveau social, d’éducation, etc. Dans tous les cas, que l’image projetée de l’être numérique se recoupe ou non avec l’image réelle de l’être physique, l’image numérique aura un sens si elle s’inscrit dans une cohérence dans le temps. C’est à cette condition que les traces laissées par l’être numérique pourront donner un caractère prédictif aux modèles statistiques, et ainsi générer de la valeur. Recomposer l’ADN de l’être numérique à travers des algorithmes toujours plus pointus Au-delà de la collecte de données et de leur stockage, l’intelligence algorithmique est indispensable pour donner un sens à la masse de données que forment les « traces » laissées par chaque individu connecté. Cette intelligence algorithmique vise à regrouper et confronter des données numériques issues de sources diverses pour créer et caractériser l’ADN d’un être numérique, afin de décrypter et d’anticiper ses comportements dans des environnements différents. Il faut donc contextualiser la donnée qui, seule, n’aura aucun sens, mais prendra toute sa valeur dans la mise en relation avec une multitude d’autres données. C’est ce pouvoir de contextualisation qui permettra à l’entreprise de proposer la bonne offre à la bonne cible, au bon moment, à travers le bon canal... en somme d’enrichir, personnaliser et valoriser son offre de contenus et services. Comportements culturels et données personnelles au cœur du Big data | 11 Prévoir le comportement de l’être numérique Parallèlement, ou au-delà de la corrélation avec le contexte, l’intelligence algorithmique vise à établir des liens de cause à effet pour mieux prévoir les comportements de l’être numérique. C’est en ce sens qu’œuvrent les informaticiens et data analysts qui élaborent les algorithmes. Ces modèles à visée prédictive sont déjà largement utilisés. Les recommandations de sites d’achats de biens et services culturels en ligne tels que Netflix ou Amazon reposent sur des modèles capables de prévoir ce qu’un individu serait en mesure d’apprécier au regard de ses achats antérieurs, mais aussi d’achats similaires effectués par d’autres consommateurs, afin de lui proposer des produits en conséquence. La valeur d’une trace numérique : un arbitrage entre cash-flow futur et coût de collecte/analyse Le décryptage de l’ADN d’un être numérique a un coût (collecte de la donnée, stockage, décryptage de l’information via des algorithmes performants). Le défi majeur réside ainsi dans les coûts et investissements élevés que représentent les infrastructures de traitement de données volumineuses, en trouvant notamment un moyen de valoriser et monétiser les nouvelles analyses rendues possibles grâce aux données issues du Big data. Avec, à la clé, l’optimisation des cash-flows générés par la justesse des prédictions des comportements numériques, tout en gardant la maîtrise des coûts de développement d’algorithmes, d’achat informations, de collecte et de stockage. Face à la déferlante des données et au phénomène de ruée vers ce nouvel or numérique, il faut garder à l’esprit que toutes ces données n’ont pas la même valeur. Une échelle de valeur va donc s’établir, la valeur d’une donnée variant selon ce qu’elle révèle ou non sur l’ADN de l’être numérique. Si, par exemple, une adresse ou un numéro de téléphone pouvaient avoir de la valeur à l’époque du télémarketing de masse, ils se révèlent aujourd’hui bien moins précieux que des données sur les centres d’intérêt ou les dernières recherches d’un individu. C’est pourquoi, dans cet amas enchevêtré de données de toutes natures, se détache aujourd’hui une pépite prometteuse de laquelle on pourra extraire des worthy data : il s’agit de la donnée personnelle culturelle. Le Big data implique le traitement de données volumineuses (nombreuses sources d’historiques, bases de corrélations, etc.) en un temps raisonnable, voire en temps réel. Bien souvent, une combinaison de méthodes statistiques classiques (statistiques descriptives, segmentation, scoring, etc.) et de solutions de calcul permettent de résoudre ces difficultés. Par exemple, la parallélisation des calculs répète les mêmes calculs sur des groupes de données séparés, des séquences, avant de les réconcilier, afin qu’ils soient globalement effectués de manière plus rapide. Cette méthode de calcul est combinée avec des estimateurs statistiques pour converger vers une réponse la plus juste possible dans le délai imparti. Il est à noter que les formes de statistiques descriptives auxquelles on aboutit aujourd’hui sont plus pures qu’à l’époque où l’on ne disposait que d’échantillons de données qu’il fallait extrapoler (du fait des coûts de récolte, de stockage et de traitement). Raison pour laquelle la quantité de données disponibles et leur traitement ne sont aujourd’hui plus une limite, permettant ainsi de travailler sur des données plus exhaustives. Évolution des modes calculatoires12 | Comportements culturels et données personnelles au cœur du Big data La donnée personnelle culturelle : une data qui vaut de l’or Une forte demande en données personnelles culturelles numériques Bien plus que la consommation de biens et services matériels, qui satisfont les besoins fondamentaux et primaires, celle de biens et services culturels en dit beaucoup sur nos préférences, nos centres d’intérêt et nos aspirations. Elle touche ainsi à notre identité, non seulement dans ce qu’elle a de plus intime, mais aussi dans ce qu’elle a de plus social et communautaire : les biens et services culturels que nous consommons, ou nos comportements culturels, participent en effet largement de l’image que nous souhaitons renvoyer dans notre environnement social. C’est pourquoi nous partageons volontiers notre expérience et notre avis sur un livre, un film, un jeu, un concert ou une exposition avec nos amis ou communautés en ligne, tout comme avec les éditeurs de contenus en ligne. La donnée personnelle culturelle renferme des informations contextuelles fortes et permet de qualifier de façon assez précise le pouvoir d’achat de l’être numérique mais aussi de prévoir son comportement. C’est pourquoi, en raison de sa valeur intrinsèquement élevée, elle figure aujourd’hui au centre de toutes les attentions des acteurs du Big data. Il existe d’ores et déjà une demande sur le marché de la donnée personnelle culturelle, largement portée par des groupes tels que la Fnac et Amazon. Ils valorisent ces données personnelles culturelles pour packager, adapter et cibler leurs offres en conséquence. Mais, si la demande est bien là, qu’en est-il de l’offre ? Comportement culturel de l’homo conexus à l’origine de la donnée personnelle culturelle Depuis plusieurs années, le temps consacré à la consommation de contenus culturels ne cesse d’augmenter, une tendance amplifiée par le fait que le consommateur est désormais un homo conexus, connecté, mobile et multitâches. Un phénomène à l’origine de l’explosion des traces personnelles culturelles laissées par l’homo conexus, parallèlement à l’augmentation des données émises par l’Internet des objets, qu’elles soient produites par son comportement culturel… : • … numérique : moteurs de recherche, transactions de biens et services culturels (billeterie, livres, musique…), consultation et partage de vidéos/musique/séries en streaming, réseaux sociaux, portails médias, etc. ; • … ou physique : une séance de cinéma ou la visite d’une exposition peuvent laisser des traces via les moteurs de recherche, les images et commentaires postés sur les réseaux sociaux, la géolocalisation. Mais aussi, une simple soirée devant la télévision : aujourd’hui, 52 % des commentaires sur Facebook portent sur les programmes diffusés à la télévision. Comportements culturels et données personnelles au cœur du Big data | 13 Si, du côté de l’offre, la donnée personnelle culturelle est longtemps restée cantonnée à l’analyse des paiements, on observe aujourd’hui chez les entreprises et établissements du secteur médiatique et culturel un prolongement de l’expérience culturelle en-deçà et au-delà des transactions de paiement. Ces acteurs tendent à enrichir leurs offres de services culturels via un continuum de services. Ceci permet de prolonger l’expérience culturelle des clients et de nouer une relation d’engagement avec eux. Une relation qui fournira de précieuses informations client, à condition d’être capable d’engranger et de lier efficacement une quantité et une variété inédites d’informations, générées dans des espaces et temporalités différents. 1 Selon une définition consacrée, est une « donnée publique culturelle » la donnée produite ou détenue par un établissement, organisme ou service culturel ayant une activité culturelle réelle et effective (Source : Guide Data Culture). Ex. : inventaire du fonds artistique, horaire d'ouverture, catalogue d'exposition, œuvre du domaine public... 2 Données sur les actes d'achats de biens et services culturels. Ex. : nombre d'entrées en salle, vente de disques, entrées aux musées, détenteurs de cartes d'abonnement, ventes Amazon... 3 Données de contact et qualification collectées au travers des opérations des acteurs de l'industrie culturelle. Ex. : abonnés de l'espace personnel du Louvre, participants aux jeux-concours de promotion musicale, abonnés newsletters, données de navigation... 4 Ensemble des données permettant de connaître les préférences culturelles des consommateurs. Ex. : discussions dans des forums, réseaux sociaux, avis et commentaires sur des œuvres/artistes... Benchmark de données : la donnée personnelle culturelle se distingue Données marketing3 Moyen Fort Moyen Moyen Moyen Données personnelles culturelles4 Fort Moyen Fort Fort Fort Volume de données Degré de digitalisation Variété de format Intimité Multiplicité des sources Données publiques culturelles1 Faible Faible Fort Faible Fort Données transactionnelles2 Fort Moyen Faible Moyen Moyen Les comportements culturels, davantage que les traditionnels CSP, apportent de la valeur aux profils numériques. Une production de données toujours plus exhaustive, pour une meilleure appréhension du comportement culturel de l’être numérique Source : EY ©14 | Comportements culturels et données personnelles au cœur du Big data La donnée personnelle culturelle au cœur de l'émergence d'un marché stratégique Un marché en pleine structuration, sous l’effet de lourds investissements 1 « Social TV : Facebook partagera ses données avec TF1 et Canal+ », Le Monde, 7 octobre 2013 2 GAFA désigne les Big 4 du numérique : Google, Apple, Facebook, Amazon 3 Début 2012, Google avait numérisé plus de 20 millions d’ouvrages (Jennifer Howard, “Google Begins to Scale Back Its Scanning of Books From University Libraries”, 9 mars 2012, site visité le 10 octobre 2013) et le coût de numérisation de l’intégralité du catalogue de la Bibliothèque nationale de France (BNF), soit environ 15 millions d’ouvrages, est estimé à 750 millions (selon Yann Gaillard, rapporteur spécial de la Commission des finances pour la mission « Culture » et auteur du rapport intitulé : « La politique du livre face au défi du numérique. ») La valeur élevée de la donnée personnelle culturelle numérique est source d’importants mouvements d’acteurs et fait l’objet de lourds investissements. Un marché hautement stratégique est en train de se dessiner à la faveur d’un double phénomène de rapprochement et de convergence, avec : • D’une part (tendance 1), les entreprises et établissements médiatiques et culturels qui innovent pour proposer un continuum de services, afin d’enrichir et de prolonger l’expérience culturelle en recueillant des informations précieuses sur les préférences de consommation de biens et services culturels. Exemple : grâce au partenariat signé entre TF1 et Facebook en octobre 2013, le réseau social partagera ses données avec le groupe audiovisuel français qui bénéficiera des outils Facebook dédiés au suivi et à l’analyse des conversations autour des programmes TV. Ces outils permettront à TF1 de mesurer le nombre de publications autour d’un sujet précis et de les analyser, mais aussi d’afficher et de mesurer, pendant la diffusion de ses programmes, le taux de conversations en temps réel sur le réseau social, qui rassemble 26 millions d’utilisateurs en France et génère « 52 % des commentaires sur la télévision1 ». • D’autre part (tendance 2), les leaders du numérique, les GAFA2, qui possèdent déjà des infrastructures de données et sont utilisateurs de données personnelles culturelles, investissent pour se rapprocher de la production de données personnelles culturelles, mais aussi pour produire et diffuser eux-mêmes des contenus culturels. Exemple : l'Institut culturel de Google intègre différents projets dont Google Art Project, qui permet de se promener dans les galeries de 151 musées ou lieux culturels en ligne à travers le monde (Versailles, Quai Branly, MoMa, The National Gallery à Londres, Fondation Neslon Mandela, etc.). Ce service repose sur des bases de données utilisant différentes technologies de l’opérateur et collectant des données personnelles culturelles à l’échelle internationale, avec un effet multiplicateur fort via les réseaux sociaux. Et avec une volonté forte de développer des standards communs ou interopérables pour les musées à travers le monde. Cette invitation dans le monde la culture vient compléter les investissements du groupe dans les secteurs de la vidéo (rachat de YouTube pour 1,65 milliards de dollars en 2006), du livre (plusieurs centaines de millions d’euros3 ), des contenus audiovisuels (films et séries provenant des catalogues de grands studios américains ou de chaînes de télévision telle que BBC, etc.). Amazon s’invite également dans le marché de l’art en lançant, en août 2013, Amazon Art, une plateforme proposant à la vente plus de 40 000 œuvres en provenance de 150 galeries à travers le monde, des plus exceptionnelles aux plus accessibles, avec la volonté clairement affichée de toucher une audience plus large. Structuration d’un nouveau marché stratégique Tendance 1 Être à la fois producteur et utilisateur de données personnelles culturelles Tendance 2 Entrée des GAFA2 sur le marché des données personnelles culturelles Infrastructure Big data Serveurs, data centers, bases de données, algorithmes… Producteurs de données personnelles culturelles • Établissements culturels • Créateurs de contenus créatifs et culturels Ex. : musées, bibliothèques Utilisateurs de données personnelles culturelles • Groupes de médias - Producteurs, diffuseurs, distributeurs de contenus culturels Ex. : diffuseurs TV, éditeurs • Sociétés de marketing digital Distributeurs de produits et services culturels en ligne Ex. : Amazon, La Fnac Les champions du numérique Ex. : Amazon, Apple, Google Acteurs des Infrastructures de données Acteurs des échanges de données personnelles culturelles Source : EY ©Comportements culturels et données personnelles au cœur du Big data | 15 Infrastructure Big data : de quoi parle-t-on ? L'information sur la localisation géographique des data centers est très difficile à obtenir et jugée stratégique par les grands acteurs du secteur. Sur la base des informations publiques disponibles et pour les data centers vendant leurs services, EY a réalisé une carte anamorphose des data centers, qui montre l'avancée des États-Unis en matière de capacité de stockage de données, par rapport à l'Europe et aux autres régions du monde. Les capacités de stockage dont se dotent les grands collecteurs de données sont bien supérieures aux besoins à très court terme comme en atteste la capacité du dernier data center de la National Security Agency (NSA), qui atteint 1 yottaoctet4. En outre, l’analyse des charges et revenus des GAFA montre que si la R&D, le stockage et le traitement des données constituent une part significative des coûts, l’exploitation directe des données Big data ne constitue qu’une faible partie des revenus, l’essentiel5 de ces derniers provenant de la publicité ou de la distribution. 4 Sarah Belouezzane et Cécile Ducourtieux, « Vertigineux "Big data" », Le Monde, 26 décembre 2012 5 Les revenus issus de l’exploitation directe des données Big data sont issus de la vente de services de stockage, de traitement et analyses de données Big data, Jeffrey Kelly, David Floyer, Dave Vellante, Stu Miniman, "Big Data Vendor Revenue and Market Forecast 2012-2017", Wikibon, octobre 2013 Si on compare, par grande zone géographique, les pourcentages de data centers dans le monde aux pourcentages de PBN mondial, on constate que certaines régions sont surreprésentées en data centers par rapport à leur poids économique (% de leur PNB/PNB mondial). Ainsi, l’Amérique du Nord a généré 26 % du PNB mondial en 2012 tandis qu’elle abritait 44 % des data centers proposant des services commerciaux. Europe 33 % 25 % Asie 10 % 32 % Autres pays 8 % 4 % Afrique 1 % 2 % Moyen-Orient 2 % 4 % USA/Canada 44 % 26 % Amérique du Sud 2 % 7 % Part de data center Part du PNB mondial Carte en anamorphose des data centers Source : EY ©16 | Comportements culturels et données personnelles au cœur du Big data Caractéristiques du marché de la donnée personnelle culturelle Pour mieux cerner le marché du Big data et en comprendre les règles du jeu, il convient d’analyser les caractéristiques des principales forces en présence. Des coûts marginaux dégressifs Les investissements initiaux sont principalement relatifs à « l’infrastructure Big data » : serveurs, data centers, algorithmes. Si la collecte massive de données personnelles, ainsi que le développement des algorithmes pour les exploiter nécessitent de lourds investissements de départ pour fournir le service au premier client, les coûts nécessaires à l'acquisition de clients supplémentaires sont dégressifs. Un marché où seuls quelques acteurs pourront survivre à moyen terme Toutes les entreprises n’ont pas les moyens d’investir dans cette infrastructure dont le niveau déterminera la qualité de l’exploitation des data. Ainsi, les chances de réussite d’un nouvel acteur sont loin d’être certaines, d’autant que celui-ci risque d’encourir des sunk costs importants. Par ailleurs, l’acteur qui possède la plus grande masse d’informations (réseau social, application, operating system, etc.) et dispose des algorithmes les plus puissants attirera davantage de clients et collectera d'autant plus de données fiables additionnelles. Ceci aura pour conséquence de renforcer la qualité de ses analyses et de ses algorithmes et, in fine, sa position sur le marché. Cet effet « boule de neige » (winner-take-all effect) ajouté à la barrière du coût initial, aux fortes économies d’échelles et à un niveau important de sunk costs tend inévitablement à concentrer le marché à moyen terme. Un marché touchant au « bien commun » Le marché de la donnée personnelle culturelle est sensible car les informations concernant les comportements culturels d'une population donnée et leur exploitation sont souvent issues de statistiques ou d’enquêtes publiques et traitées/analysées à l’échelle nationale, par les instituts de statistiques publics. Rappelons par ailleurs que la propriété intellectuelle culturelle tombe dans le domaine public après une longue période d’exploitation par les auteurs et producteurs de ces données/ contenus1. « Les opérateurs tels que Google, Amazon ou Microsoft construisent leurs propres data centers. Google construit même les machines à l’intérieur de ses data centers. » Jérôme Dilouya, Fondateur et Président-directeur général d’Intercloud 1 « La propriété intellectuelle à l’ère du numérique – Défis et opportunités pour le secteur Médias et Divertissement », EY, Novembre 2011 « Nous sommes face à l’enjeu suivant : qui va gagner la course au CRM du web ? […] Celui qui aura atteint la masse critique de données aura gagné la course de vitesse du CRM digital. » Roei Amit, Directeur adjoint chargé du numérique à la Réunion des musées nationaux - Grand Palais (Rmn-GP)Comportements culturels et données personnelles au cœur du Big data | 17 Des caractéristiques de marché proches de celles d’une infrastructure essentielle ? Investissements initiaux important puis coût marginal faible, sunk costs élevés, fortes économies d’échelle, winner-take-all effects, domaine touchant au bien commun, traditionnellement animé par des organismes publics, etc. : ces éléments, caractéristiques des monopoles naturels, sont longuement décrits dans la littérature économique. Au regard des grandes tendances qui ont marqué certains secteurs avec monopoles naturels, comme les télécoms ou les chemins de fer, l’enjeu consiste à identifier l'infrastructure essentielle et ses marchés Amont et Aval afin de favoriser la concurrence et la diversité des acteurs sur ces marchés. Dans cette optique, l’infrastructure et l’échange de données constituent-ils un marché pertinent ? Est-ce une infrastructure essentielle ? Existe-t-il des acteurs dominants sur ce marché qui doivent être régulés ? De tels marchés ont besoin d'éléments de structuration pour arriver à leur point d'équilibre à moyen et long termes. En outre, au cœur de ce marché en construction, ce sont les données de milliards d’individus connectés, générant des zettaoctets de données numériques collectées et utilisées par un nombre relativement restreint d’acteurs économiques, qui sont en jeu. Là aussi, dans un souci d’équilibre à long terme, la réglementation a un rôle à jouer pour instaurer une relation de transparence et de confiance entre les entreprises et les individus. C’est en leur donnant un droit de regard et de contrôle renforcés sur leur identité numérique que ces êtres numériques continueront à avoir une existence et à produire des données créatrices de valeur. Les caractéristiques d’une infrastructure essentielle • Caractéristiques techniques - Indivisibilité technique (indivisibilité des investissements) - Longue durée de vie - Produit faisant l’objet de peu d’échanges - Produit faisant souvent partie d’un tout, difficile à isoler techniquement • Caractéristiques économiques - Fonction de coûts sous-additive (existence d’économies d'échelle) - Coûts irrécupérables importants (investissements non réversibles) - Externalités de réseau (prime au leader, effet boule de neige, importance d'une masse critique de consommateurs, anticipations auto-réalisatrices...) - Guerre des standards empêchant d'avoir des produits substituables • Caractéristiques socio-économiques - Coordination et planification centralisées - Traditionnellement détenue par l'État - Traditionnellement considérée comme touchant au « bien commun » « Plusieurs milliards d'individus génèrent et échangent des informations personnelles en temps réel tout autour de la planète, bouleversant la science, l'économie et les relations de pouvoir. La gestion des données s'affirme ainsi comme une infrastructure essentielle de la mondialisation, qui doit être régulée alors qu'elle s'affranchit des États et des frontières. » Nicolas Baverez, « La révolution Big data », Le Point, mai 2013| 19 2. Pouvoirs en équilibre et responsabilités partagées : les nouveaux contours du Big data20 | Comportements culturels et données personnelles au cœur du Big data La masse de traces numériques disponibles est désormais suffisante pour permettre de suivre et de modéliser des « êtres numériques » rationnels et cohérents. Dans cette course à l’extraction et à l’analyse de données pertinentes, se dessinent les contours d’un marché à part entière : il s’agit du marché des données personnelles culturelles numériques. S’il ouvre des perspectives économiques prometteuses et étonnantes, ce nouveau marché doit cependant être accompagné dans sa structuration et son développement. En effet, pour garantir son développement harmonieux à moyen et long termes et favoriser un nouvel écosystème économique innovant et créateur de valeur pérenne, il faut s’assurer que l’échange et l’utilisation massive des données personnelles culturelles se fassent dans le respect de la vie privée de chaque individu, premier producteur de données personnelles culturelles. Mais aussi favoriser les investissements des entreprises quant à la collecte et à l’organisation des données et enfin instaurer une saine concurrence économique. « Si l’on veut construire une innovation durable, qui ne soit pas rejetée par l’utilisateur, les entreprises doivent apporter des garanties en termes de protection des données personnelles. Ce n’est pas un coût, c’est un investissement. » Isabelle Falque Pierrotin, « Data, la nouvelle ruée vers l’or », Enjeux Les Échos, mars 2013 Comportements culturels et données personnelles au cœur du Big data | 21 La réglementation, impulsion économique pour les acteurs de Big data en Europe La protection comme facteur de confiance Un fort besoin de confiance quant à la gestion des données personnelles Les réseaux sociaux se font souvent écho des manquements en matière de respect de la vie privée ou de sécurité informatique et propagent souvent le « buzz » autour de pratiques contraires à la loi sur la protection des données. La protection des données personnelles apparaît ainsi au centre des préoccupations des consommateurs, qui questionnent de plus en plus les entreprises et responsables du traitement sur les garanties et la sécurité qu’ils peuvent garantir aux données personnelles qu'ils leur confient. Les questions les plus fréquemment posées sont relatives à la localisation de ces données, aux mesures de sécurité mises en place pour les protéger contre des accès non autorisés, à l’usage qui en est fait par le responsable de traitement, à qui elles sont destinées, etc. Dans un contexte où les questions de confidentialité et de vie privée suscitent un intérêt grandissant chez l’ensemble des parties prenantes, de plus en plus d'entreprises intègrent cette dimension dans leurs actions de communication, tentant ainsi de démontrer l'importance qu'elles attachent à la protection de la vie privée de leurs clients. Au-delà de l’aspect juridique, la conformité à la réglementation en matière de protection des données personnelles devient un moyen efficace pour les entreprises de communiquer sur leur engagement éthique et sociétal. Le respect des bonnes pratiques en matière de protection des données à caractère personnel constitue indéniablement un avantage concurrentiel pour les entreprises, quel que soit leur secteur d'activité, mais également un moyen de se prémunir du risque de réputation. Partant du postulat reconnu que la rétention d’un client requiert un investissement bien moindre que son acquisition, les entreprises déploient des stratégies pour maintenir et entretenir la fidélité de leurs clients. Celle-ci repose essentiellement sur la confiance, laquelle ne peut être construite qu’en s'appuyant sur les deux notions fondamentales que sont la connaissance et la reconnaissance. La connaissance enregistre « l’historique du client », c'est-à-dire ses interactions avec les différents services de l’entreprise, auxquelles s’ajoutent des informations relatives aux produits. La reconnaissance est la réponse personnalisée selon le client : il s’agit donc de s’appuyer sur la connaissance du client pour lui apporter une réponse ciblée, voire de devancer ses attentes. L'évolution constante des technologies qui a rythmé les dix dernières années, à laquelle s’ajoute le décalage qui existe encore trop souvent entre les engagements, volontaires ou imposés, en matière de protection des données et les pratiques de traitement des données, ont pour effet de renforcer les attentes des consommateurs en matière de confiance et de transparence.22 | Comportements culturels et données personnelles au cœur du Big data Comment définir aujourd’hui une donnée à caractère personnel ? Définir la notion de « donnée à caractère personnel » n'est pas chose aisée en raison de son caractère mouvant, parfois subjectif ou relatif, mais avant tout contextuel. La directive 95/46, qui constitue le socle communautaire en matière de protection des données personnelles, définit une « donnée à caractère personnel » comme « toute information concernant une personne physique identifiée ou identifiable (personne concernée) ; est réputée identifiable une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro d'identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale ». D’autres définitions existent : « nous ne devrions plus parler de données personnelles, mais de données relationnelles et transactionnelles. Nous devons abandonner la vision des données personnelles comme une chose définie.1 » En effet, les données qui, prises indépendamment, peuvent sembler insignifiantes, sont assemblées et analysées pour recréer des profils individuels ou définir des identités numériques à partir d’éléments de personnalité réels. Souvent, il suffit d’une date et du lieu de naissance pour identifier un individu. Mais l’usage des réseaux sociaux, ainsi que des moteurs de recherche ou des services de messagerie peuvent donner une vision précise de cet individu à travers le prisme de ses goûts, de ses habitudes, de ses projets ou de ses croyances. Au risque de voir toutes ces données combinées afin d'identifier un individu, sans même connaître précisément son nom. La quantité de données qui sont désormais collectées, traitées et stockées sur chaque personne permet d'aller beaucoup plus loin et contribue à un profilage très précis des individus avec la possibilité - en fonction des catégories de données traitées – de produire des modèles probabilistes pour en apprendre davantage sur leur croyance religieuse, leur opinion politique, leur mode de vie, leur orientation sexuelle et bien d'autres aspects de leur vie personnelle et intime. La question se pose donc de redéfinir les catégories de données qui doivent être considérées comme sensibles et donc réglementées plus strictement par la loi. En effet, des données collectées à partir de ce que peut lire, écouter ou regarder un individu peuvent fournir des indications sur son orientation politique, ses croyances religieuses ou même son orientation sexuelle, et de facto relever du statut juridique protecteur des données sensibles. Force est de constater que les données culturelles, qu’elles répondent ou non à la définition des données sensibles, doivent faire l’objet d’une protection en cela qu’elles relèvent de l’intimité d’un individu. Cette question est d'autant plus cruciale dans le contexte du développement de Big data et du cloud computing qui, par économie d'échelle, peuvent induire une augmentation de tous les risques soulevés par les questions suivantes : • Où sont stockées les données personnelles ? • Les données personnelles sont-elles sécurisées ? • Est-ce qu’un individu possède encore le contrôle de ses données ? • Comment un individu peut-il s’opposer au traitement de ses données ? • Comment un individu peut-il récupérer ses données ? La question de la confiance devient encore plus fondamentale lorsqu’il est question de bâtir une relation durable avec les utilisateurs et clients, afin de répondre à des doutes ou des craintes qui pourraient freiner le développement de ce qui semble être appelé à devenir un levier majeur de création de valeur dans l’industrie médiatique et culturelle. Conjointement à ces initiatives privées, les acteurs publics doivent mener les actions qui s’imposent afin d’assurer un niveau adéquat de protection des données personnelles et soutenir la croissance du secteur, à l’image des politiques adoptées dans de nombreux pays pour offrir un cadre au commerce en ligne. 1 Dominique Boulier, Vie Privée à l’Horizon 2020, Cahier IP n° 1, CNIL, novembre 2012Comportements culturels et données personnelles au cœur du Big data | 23 Comment les données personnelles sont-elles collectées et traitées ? Boîte à outils ÉVALUER LE RESPECT DE LA VIE PRIVÉE Privacy Score attribue une note aux sites web en fonction de leur niveau de conscience et du respect de la vie privée. www.privacyscore.com TRAQUER LES TRACKERS The Guardian a mis en place une application en ligne afin de permettre aux internautes de comprendre comment ils sont suivis en ligne et par qui. Les cercles rouges sont les dix premières sociétés de tracking les plus prolifiques ; les cercles bleus se réfèrent aux 100 sites les plus populaires qui les utilisent. www.theguardian.com QUELLE EST LA VALEUR DES DONNÉES PERSONNELLES ? Le site du Financial Times permet de calculer combien de commerçants feraient payer des données personnelles sur la base de nombreux critères comme l'âge, le travail, la famille, les maladies ou les activités potentielles. www.ft.com CONTRÔLER L’INFORMATION - CONFIGURER SON NAVIGATEUR WEB Tous les navigateurs permettent le blocage des cookies de suivi. Certains navigateurs comme Mozilla Firefox permettent de choisir une option spécifique, laquelle consiste à informer les sites web qu’on ne souhaite pas être suivi par des annonceurs et autres tiers. Respecter ce paramètre est facultatif, les sites web n’étant pas tenus de respecter la volonté des internautes. Il est également possible de mettre en œuvre des plug-in supplémentaires pour surveiller l’intégralité des données recueillies à partir des appareils, la façon dont elles sont traitées et éventuellement, s'opposer à toute collecte de données.24 | Comportements culturels et données personnelles au cœur du Big data États-Unis/Europe : deux approches différentes de la protection des données personnelles En termes de politique publique, des approches différentes peuvent être mises en avant afin d’aborder la question de la vie privée et de la protection des données personnelles, à l’instar des États-Unis et de l’Europe qui ont une conception radicalement différente des concepts de « protection de la vie privée » et de « donnée à caractère personnel ». La première différence entre ces deux approches réside dans la spécificité du système américain où les lois fédérales coexistent avec les lois de chacun des cinquante États, ce qui place les ÉtatsUnis au premier rang des pays ayant adopté le plus grand nombre de lois dans le domaine de la protection de la vie privée et des données à caractère personnel. La deuxième différence consiste dans le fait qu’aux États-Unis, il n'existe pas un corps unique de règles protégeant la vie privée (à l’exception du Privacy Act de 1974 qui donne aux citoyens le droit de connaître les informations que le gouvernement fédéral détient à leur sujet et de corriger ou d’obtenir réparation si leurs données sont utilisées de manière non autorisée). Aux États-Unis, la protection de la vie privée est déclinée par secteur d’activités, industrie, ou toute autre segmentation qui concernent par exemple le secteur de l’enfance ("Children's Online Privacy Protection Act" - COPPA) de 1998 qui protège les données personnelles des enfants de la collecte et du détournement de leurs données sur les sites internet commerciaux), le secteur financier ("The Financial Services Modernisation Act" ou "Gramm-Leach-Bliley Act" de 1999 qui règlemente les conditions de communication à des tiers d’informations personnelles détenues par les institutions financières) ou encore des lois qui protègent la santé comme le "Health Insurance Portability and Accountability Act" (HIPAA) de 1996 qui met en place des standards pour l’échange électronique d’informations médicales afin de protéger la vie privée des patients. De nombreux textes vont protéger les données mais de manière sectorielle et non de manière transversale. Dans le secteur des médias, on peut citer le "Cable Communications Policy Act", le "Telecommunications Act" ou le "Videotape Privacy Protection Act". Au-delà de l’aspect législatif, la principale différence entre le droit à la vie privée aux États-Unis et au sein de l'Union européenne est d’ordre philosophique. Alors qu’aux États-Unis, la loi sur la vie privée est axée sur la protection du consommateur et vise à atteindre un équilibre entre la vie privée et l'efficacité de l’entreprise, l’Union européenne considère le respect de la vie privée comme un droit fondamental du citoyen, supérieur à tout autre intérêt commercial. La loi américaine sur la protection de la vie privée entend protéger le consommateur plutôt que l'individu et sanctionnera les manœuvres déceptives ou trompeuses plutôt que le non-respect de règles de protection des libertés publiques. Enfin, une autre différence marquante est certainement l’accent particulier mis par la réglementation nord-américaine sur la protection de la sécurité des données, notamment à travers l'obligation de notifier les failles de sécurité. Plusieurs États nordaméricains ont depuis longtemps édicté des lois qui mettent à la charge des organisations des obligations de notifier les failles de sécurité. Ainsi, la grande majorité des États américains dispose de lois qui vont imposer aux entreprises la mise en place de procédures particulières en cas de vol ou de perte de données personnelles. Cette réglementation contraint les entreprises à renforcer leurs mesures de sécurité internes, et cela afin d’éviter des procédures coûteuses et préjudiciables à leur image de marque en cas de publicité voulue ou subie. Au niveau européen, l'obligation de notifier les failles de sécurité ne fait aujourd’hui pas encore partie du droit positif en matière de protection des données dans le cadre de la directive européenne 95/46, même si elle existe déjà pour les prestataires de communication électronique en application de la directive 2002/58 sur la vie privée. Toutefois, le projet de règlement pour la protection des données publié par la Commission européenne devant refondre le cadre européen de la protection des données prévoit une obligation similaire qui s'appliquera à tous les responsables de traitement et sous-traitants en Europe.Comportements culturels et données personnelles au cœur du Big data | 25 À cet égard, il est intéressant de souligner que les différences entre ces deux approches ont vocation à se réduire compte tenu des enjeux d’interopérabilité nécessités par l’augmentation croissante des flux transatlantiques de données. En effet, au moment où la Commission européenne a publié le projet de règlement pour la protection des données le 25 janvier 2012, la Maison Blanche publiait un mois plus tard le projet de loi relatif au respect de la vie privée des consommateurs. La comparaison entre ces deux projets de réforme constitue une brillante illustration des ambitions d’harmonisation entre les deux approches. « L'Union européenne et les législations américaines commencent à utiliser le même langage en ce qui concerne la loi sur la protection des données, tant sur la définition juridique proposée que sur les grands principes mis en œuvre.1 » Donc si les deux projets de réforme sont issus de sources de droit différentes, ils convergent par l’émergence actuelle de dénominateurs communs et notamment la prise en compte de l’importance d’une responsabilisation des opérateurs (concept d’accountability qui va être introduit en droit européen) et la nécessité de fournir des garanties adéquates pour les personnes afin de maîtriser les menaces pour la vie privée issues des technologies. 1 Traduction libre de Gabriela Zanfir - "European Integration Realities and Perspectives: EU and US Data Protection Reforms. A Comparative View." RÉGLEMENTATION EN EUROPE Sources • Un corps unique de règles protégeant la vie privée et les données personnelles des citoyens. • Directives transposées dans les 28 États membres. Philosophie/Objectifs • La défense du droit à la vie privée comme droit fondamental supérieur à tout autre intérêt commercial. • Une prise en compte à géométrie variable des risques liés à la sécurité informatique, notamment s'agissant des obligations de notification des failles de sécurité aujourd'hui limitées aux seuls prestataires de communications électroniques. RÉGLEMENTATION AUX ÉTATS-UNIS Sources • Absence de corps unique de règles protégeant la vie privée mais des réglementations sectorielles. • Lois différentes dans les 50 États sur les questions de sécurité informatique et de protection de la vie privée. Philosophie/Objectifs • La protection du consommateur et la poursuite d'un équilibre entre protection de la vie privée et intérêt business. • La sécurité informatique au cœur des dispositifs réglementaires de protection des données notamment au travers des obligations de notification des failles de sécurité imposées à toutes les entreprises.26 | Comportements culturels et données personnelles au cœur du Big data Ce qui va changer en Europe en matière de protection des données personnelles : des droits renforcés pour les individus, une responsabilisation accrue des organisations, des technologies respectueuses de la vie privée et plus de sanctions Le projet de Règlement (proposition de la Commission européenne avant la prise en compte des amendements du Parlement européen) sur la protection des données personnelles renforcera les droits des citoyens en introduisant les règles suivantes : • Création d'un « droit à l'oubli » pour aider les citoyens à gérer les risques en matière de protection des données en ligne. Lorsque la personne concernée ne voudra plus que ses données soient traitées et qu'il n’existe pas de motif légitime d’en maintenir le traitement, les données seront effacées. Ces règles ont pour visée de renforcer les droits des individus. Il ne s’agit pas de supprimer des événements passés ou de restreindre la liberté de la presse. • Création d'un droit à la portabilité des données personnelles d'un fournisseur de service à un autre. • Renforcement du principe du « consentement », lequel lorsqu’il est nécessaire doit être donné de manière explicite. • Obligation mise à la charge des entreprises et des organisations d’avertir sans délai injustifié les particuliers des failles de sécurité relatives à leurs données personnelles qui seraient susceptibles de leur nuire. Ils devront également informer l'autorité compétente de protection des données. • Amélioration des voies de recours administratives et judiciaires en cas de violation des droits de protection des données. • Responsabilité accrue et application du principe d’accountability (« obligation de rendre compte aux parties prenantes ») des responsables de traitement - à travers des évaluations des risques en matière de protection des données, des délégués à la protection des données et à travers les principes de « privacy by design » et « privacy by default ». Les démarches « privacy by design » et « privacy by default » vont également venir renforcer l’effectivité des règles européennes en matière de protection des données - ce qui signifie que les garanties de protection des données seront intégrées au sein des produits et des services, et que des paramètres respectant la protection des données personnelles deviendront la norme - par exemple sur les réseaux sociaux. Ces règles vont renforcer les droits des personnes d'une manière pratique. Grâce à ces règles plus strictes de protection des données, la Commission européenne a pour objectif de contribuer à accroître la confiance dans les services en ligne, afin que les citoyens soient en mesure d’utiliser les nouvelles technologies avec plus de confiance en bénéficiant des avantages du marché intérieur. Les autres avancées du projet de règlement sont les suivantes : • Un seul corps de règles sur la protection des données, valable dans toute l'UE. • Un interlocuteur unique : les entreprises n'auront en principe qu'à traiter avec une seule autorité de protection des données au niveau national, à savoir l’autorité compétente dans l'État membre où elles ont leur établissement principal. • Les personnes auront le droit de se référer à leur autorité nationale de protection des données, même lorsque leurs données personnelles sont traitées en dehors de leur pays d'origine. • Les règles de l'Union européenne s'appliquent aussi aux sociétés non établies dans l'Union européenne, si elles offrent des biens ou des services au sein de l'Union européenne ou si elles surveillent le comportement en ligne des citoyens. • Des responsabilités accrues et l’avènement du principe d’accountability pour les responsables de traitement des données personnelles. • Les contraintes administratives telles que les exigences de notification systématiques pour les entreprises responsables de traitement des données personnelles seront supprimées. Source : Commission européenne - le projet est encore en discussion (processus de codécision entre le Parlement européen et le Conseil)Comportements culturels et données personnelles au cœur du Big data | 27 Big data et protection des données personnelles culturelles La question de la protection des données personnelles est au cœur du marché du Big data culturel, puisque les données personnelles culturelles reflètent la personnalité d’un individu. Le culturel, c’est la « donnée de l’intimité », pour autant la donnée culturelle n’est pas spécifiquement réglementée par le droit positif (directive européenne de 1995) et n’est pas appréhendée par le projet de Règlement sur la protection des données personnelles en cours de discussion à Bruxelles (le vote, initialement prévu au premier semestre 2014, pourrait être reporté en 2015 - Conseil européen, 25 octobre 2013). Par ailleurs, et c’est aussi un enjeu fondamental, il est important que le droit reconnaisse la valeur patrimoniale de ces données. Le nouveau cadre réglementaire européen en matière de données personnelles demeurera certainement plus ambitieux par rapport aux règles en vigueur dans le reste du monde. Il pourrait contribuer au développement des acteurs de Big data en Europe dans la mesure où il va renforcer le niveau de sécurité et confiance apporté que les acteurs européens seront tenus d’offrir aux individus dont ils traitent les données. La protection et la valorisation des données personnelles en tant qu’actif des entreprises Les données personnelles sont aujourd’hui au cœur de l'innovation et de la publicité en ligne et constituent « un type d'actif pour les entreprises1 ». Appelées à devenir l’un des moteurs de l’économie numérique, elles font l’objet d’investissements massifs. Paradoxalement, les outils juridiques à disposition des entreprises pour protéger et valoriser leurs données semblent aujourd’hui trop limités pour appréhender de manière adéquate cet actif stratégique. Les outils juridiques existants • La protection des bases de données Les bases de données sont définies comme des recueils d’œuvres, de données disposées de manière systématique ou méthodique et individuellement accessibles par des moyens électroniques ou tout autre moyen. La protection légale des bases de données est double : • Le droit d’auteur protège la structure de la base de données si celle-ci peut être considérée comme originale au regard de l’organisation du choix des rubriques et de leur disposition. Il n’a pas vocation à protéger le contenu informationnel de la base. • ►Le droit sui generis des producteurs de bases de données permet quant à lui de protéger l’investissement réalisé pour compiler le contenu de la base et pourrait donc palier, dans une certaine mesure, les limites du droit d’auteur. Pour autant, cette protection est limitée dans sa portée dans la mesure où elle n'offre que la possibilité d’interdire la reprise d’une part quantitativement ou qualitativement substantielle du contenu de la base. Ces deux régimes de protection ont des objets différents (originalité du contenant c’est-à-dire de la structure, de la présentation de la base vs. investissement dans le contenu c’est-à- dire dans la constitution de la base). Pour autant, leur articulation ne permet pas de couvrir réellement l’intégralité de la valeur de l’information même structurée au sein d’une base de données : • ►Le droit d’auteur protège une « coquille vide », la structure et l’organisation de la base et non pas l’information qu’elle contient (sauf si celle-ci est protégeable indépendamment de son inclusion dans la base, par exemple des titres d’œuvres protégées par le droit d’auteur). • ►Le droit sui generis permet la protection indirecte de l’information dans la mesure où elle octroie au producteur de la base de données le droit d’en interdire l’exploitation par un tiers, mais sous réserve d’apporter la preuve du caractère (qualitativement ou quantitativement) substantiel de la réutilisation ou de l’extraction du contenu de la base de données et surtout de la consistance des investissements réalisés en amont pour la constituer. Le droit des bases de données ne permet donc pas la protection de tout type d’information, des informations potentiellement stratégiques peuvent ne pas être éligibles à la protection prévue par le droit des bases de données. 1 Competition and personal data protection, Joaquin Almunia, Vice President of the European Commission responsible for Competition Policy, Privacy Platform event: Competition and Privacy in Markets of Data, Brussels, 26 November 2012, SPEECH/12/86028 | Comportements culturels et données personnelles au cœur du Big data • La protection des informations par le biais du savoir-faire Le savoir-faire est une notion à géométrie variable, dont la définition peut beaucoup varier d’un pays à l’autre. En France par exemple, il n’existe pas de définition juridique précise de cette notion. Elle se trouve donc limitée à une valeur qui peut faire l’objet d’accords de licence ou de cession auprès de tiers souhaitant bénéficier des connaissances qu’il recouvre. Pour autant, elle n’est pas directement protégeable par un titre de propriété industriel qu’il serait aisé de défendre. Le savoir-faire est un bien économique pouvant être valorisé dans le patrimoine d’une entreprise. Mais il n’est pas un bien juridique et ne peut être considéré isolément comme l’objet d’un droit privatif. Le savoir-faire entendu comme connaissance technique transmissible et non immédiatement accessible au public n’est visé par les textes que sous l’aspect pénal très particulier de la violation du secret de fabrique. Or cette notion ne désigne que les seuls secrets utilisables dans le domaine de l’industrie, sous forme de méthodes, de procédés ou matières utilisées (Cass. Crim., 24 juin 1985, n° 83-92.873). En revanche, elle n’appréhende pas les méthodes commerciales ou les secrets de commerce (fichiers clients par exemple). La valeur économique résultant des investissements effectués afin de développer un savoir-faire n’est donc protégeable que sur le terrain du droit commun de l’action en concurrence déloyale ou en parasitisme, qui sont susceptibles de révéler deux types de difficultés : • ►La nécessité de faire la preuve d’une faute, d’un préjudice et d’un lien de causalité entre la faute et le préjudice (à l’inverse la violation d’un droit de propriété intellectuelle qui ne requiert que la preuve de l’existence du droit et de l’acte de violation). • ►L’octroi de dommages-intérêts ne couvrira que très rarement l’intégralité des préjudices subis par le titulaire du savoir-faire et cela d’autant qu’une fois le savoir-faire divulgué, il perdra une grande partie de sa valeur et ne bénéficiera plus d’aucune protection. La faiblesse du régime de protection du savoir-faire, des innovations non éligibles à la protection par le droit d’auteur ou la propriété industrielle est un frein à la valorisation du patrimoine immatériel des entreprises. Pourtant les accords ADPIC qui ont pour objet de définir les règles minimales de protection de la propriété intellectuelle par les pays membres de l’OMC opèrent un rapprochement entre secret et savoir-faire et couvrent la notion plus large de « renseignement non divulgué ». Cette notion permet de fonder une interdiction générale d’usurpation et d’usage d’informations, de renseignements confidentiels ou de techniques et procédés ayant une valeur commerciale, qui ne sont pas généralement connus et ne sont pas aisément accessibles. Si la conception française du secret est très étroite et que des incriminations pénales ne sont retenues qu’en ce qui concerne les secrets de fabrique, parallèlement, d’autres pays ont retenu une notion plus proche de la lettre des accords ADPIC, permettant ainsi une protection plus large du patrimoine informationnel des entreprises, comme par exemple : • En ►Italie : protection des informations relatives à l’entreprise et à son expérience technico-industrielle, y compris son expérience commerciale si ces informations sont secrètes et ont une valeur économique. • ►Aux États-Unis : protection des informations financières économiques ou commerciales.Comportements culturels et données personnelles au cœur du Big data | 29 De nouveaux outils juridiques à développer pour protéger les actifs des entreprises Une réflexion globale sur la protection juridique des investissements effectués pour valoriser le patrimoine informationnel des entreprises doit être conduite, afin d’élaborer des outils juridiques permettant aux acteurs de Big data, y incluant les entreprises du secteur culturel, de valoriser les investissements réalisés autour de Big data pour mieux connaître leurs clients et leur proposer de nouveaux services. Une logique de droit d’auteur pour valoriser les actifs résultant des données personnelles Outre la question de la protection purement juridique, plusieurs réflexions ont été menées à un niveau gouvernemental sur la distorsion existante entre la valeur réelle et la valeur comptable des données personnelles. Du point de vue des États, cette distorsion crée aujourd’hui un obstacle du point de vue de la fiscalité des GAFAdont le modèle économique repose essentiellement sur l’exploitation des données de leurs utilisateurs et dont les profits ne sont pas toujours correctement appréhendés par les États où leurs services sont distribués. Nicolas Collin et Pierre Colin, les auteurs du rapport sur la fiscalité du numérique, proposent de calquer la protection des données personnelles sur le régime du droit d’auteur. Pour mémoire, le droit d’auteur présente deux composantes distinctes : • ►Des droits moraux d’autoriser ou d’interdire la diffusion d’une œuvre. • Des droits patrimoniaux garantissant aux auteurs une juste rémunération au titre de l’exploitation commerciale de leurs œuvres. Sur cette base, le rapport propose de reconnaître la composante patrimoniale des données à caractère personnel en permettant aux personnes concernées d’appréhender la valeur réelle des données les concernant comme contrepartie des services « gratuits » disponibles sur Internet pour le grand public. La composante droit moral serait, quant à elle, calquée sur la réglementation en matière de protection à caractère personnel. Ainsi, les entreprises qui pourraient démontrer le respect de la loi Informatique et Libertés, pourraient bénéficier de l’application d’un taux de fiscalité réduit. • En savoir plus p. 3730 | Comportements culturels et données personnelles au cœur du Big data Droit de la concurrence et structuration des marchés sur l’échange de données personnelles Un marché « biface » selon la Commission européenne Jusqu'à présent, du point de vue du bon fonctionnement des marchés, le point de convergence entre les données personnelles et le droit de la concurrence a rarement été traité. En effet, le terme d'« actif » pour qualifier les données personnelles a été utilisé pour la première fois par la Commission européenne dans l’affaire de la fusion entre Google et DoubleClick en 20081. Pour la Commission européenne, les acteurs du marché de la publicité en ligne, tels que les moteurs de recherche, opèrent sur un marché biface2. D'un côté du marché, le fournisseur de services en ligne propose des services gratuits (moteurs de recherche, e-mails, le contenu, etc.) aux utilisateurs. De l'autre côté du marché, le fournisseur de services en ligne propose des services payants pour les annonceurs. En d'autres termes, sur le premier côté du marché, les utilisateurs bénéficient de services gratuits en échange du recueil de leurs données et de l'autre côté du marché, ces données sont monétisées auprès des annonceurs3. Les profits des nouveaux acteurs du numérique ne proviennent pas directement des services qu'ils fournissent aux utilisateurs mais sont issus de leur activité publicitaire ou de la distribution. • En savoir plus p. 15 Un marché à analyser selon le droit de la concurrence À l'heure actuelle, une grande majorité des données personnelles sont collectées par une poignée de fournisseurs de services en ligne qui, en tant que leaders de l'innovation sur leur marché, ont la capacité de recueillir de grandes quantités de données. La législation relative à la protection des données à caractère personnel et le droit de la concurrence ne poursuivent pas les mêmes fins : la réglementation relative à la protection des données vise à la protection de la vie privée alors que le droit de la concurrence vise à assurer une concurrence effective sur le marché. En conséquence, la possibilité de contrebalancer la montée en puissance des principaux fournisseurs de services en ligne quant à la collecte et à l’usage de données personnelles doit être recherchée tant dans le droit de la concurrence que du droit de la protection des données. Diverses pratiques pourraient être qualifiées, en vertu du droit de la concurrence, d'ententes anticoncurrentielles ou d'abus de position dominante. De telles pratiques peuvent se manifester au moment de l'acquisition de données personnelles ou lorsqu’une entreprise empêche d'autres d’acquérir de telles données. Pourrait également être qualifié d’abus le fait, pour une entreprise, de détenir à elle seule des données considérées comme indispensables pour les autres opérateurs (selon la doctrine des « infrastructures essentielles ») et de s’en réserver l’usage, en se prévalant éventuellement du droit de la propriété intellectuelle, notamment ici du droit spécifique sur les bases de données. Enfin, les données personnelles, comme « actifs », peuvent être prises en compte dans l'analyse d’impact sur la concurrence d’une opération de fusion ou de rapprochement de deux ou plusieurs entreprises, analyse dite de « contrôle des concentrations ». 1 Décision de la Commission européenne du 11 mars 2008 déclarant une opération de concentration compatible avec le marché commun et le fonctionnement de l’accord EEE, Affaire n° COMP/M.4731 - Google/DoubleClick 2 Commission européenne, Affaire n° COMP/M.5727 – Microsoft/Yahoo! Search Business, 18/02/2010, §100 3 Personal data, will Competition Law collide with privacy? – Competition law and personal data: Preliminary thoughts on a complex issue, D. Geradin and M. Kuschewsky, Concurrences n° 2-2013Comportements culturels et données personnelles au cœur du Big data | 31 Deux exemples de pratiques anticoncurrentielles peuvent être mis en avant : tout d’abord, des accords d'exclusivité conclus entre les fournisseurs de services en ligne et les éditeurs avec pour effet d'empêcher d'autres fournisseurs de services en ligne de recueillir des données et ensuite le fait d’empêcher les utilisateurs de transférer leur données d'un fournisseur de services en ligne à l'autre. • Les accords d'exclusivité Les fournisseurs de services en ligne peuvent conclure des accords avec des éditeurs prévoyant que l'éditeur utilise exclusivement les services du fournisseur, comme un moteur de recherche, sur son site Internet3. Conformément à ces accords, l'éditeur ne peut pas recourir aux services prestés par d'autres fournisseurs de services en ligne. En conséquence, surtout lorsqu’une multitude d’accords d’exclusivité est conclue entre éditeurs de services et un fournisseur de services en ligne unique, les autres fournisseurs de services en ligne sont empêchés de recueillir des données auprès des éditeurs qui, liés par leurs accords exclusifs, ne peuvent pas conclure d'autres accords3. Ces accords d'exclusivité peuvent également être conclus entre des fournisseurs de services en ligne et des fournisseurs de logiciels ou de matériels informatiques lorsque les services prestés par le fournisseur de services en ligne sont paramétrés par défaut sur ce type de matériel4. • Interdiction de la portabilité des données L'interdiction de la portabilité des données fait référence à la pratique mise en œuvre par les prestataires de services en ligne qui consiste à interdire aux utilisateurs de transférer leurs données à caractère personnel à un autre fournisseur de service en ligne. La portabilité des données constitue l'une des nouveautés du projet de Règlement sur la protection des données générales (article 18)5. L'interdiction de la portabilité des données pourrait empêcher les annonceurs d'exporter les données d’une campagne de publicité d'une plateforme à une autre3. 4 Ces accords d'exclusivité « sont susceptibles d’exclure les concurrents sur le marché, surtout quand ils sont conclus par des entreprises en position dominante », et a fortiori si un ensemble d’accords de cette nature a été conclu 5 Proposal for a regulation of the European parliament and of the council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), 2012/0011, 25/01/2012 Dans l'analyse des fusions Dans le cas de la fusion entre Google et Doubleclick, la Commission européenne a examiné l'effet de l’accroissement de la quantité de renseignements personnels obtenus par l'entité issue de l’opération. Dans ce cas, « l'enquête a révélé que la combinaison des informations sur les comportements de recherche et le comportement de navigation web ne donnerait pas un avantage concurrentiel dans le secteur de la publicité tel qu’il ne pourrait être reproduit par d'autres concurrents qui ont accès à des données d'utilisation du web similaires ». Si cet élément a bien été pris en compte dans l’analyse de l’opération de fusion impliquant notamment Google, il n'a pas abouti ici à la conclusion que la fusion pourrait avoir un effet anticoncurrentiel. Pratiques anticoncurrentielles dans l'acquisition de données : empêcher d’autres opérateurs d’acquérir ces données 32 | Comportements culturels et données personnelles au cœur du Big data Quels facteurs d’équilibre possibles ? Dans le cas où des acteurs dominants seraient identifiés sur ce marché, comme ayant des caractéristiques proches d'une « infrastructure essentielle », certains outils existent pour réguler ces situations et ont été largement testés dans d’autres secteurs, comme celui des télécoms. Une Autorité peut, par exemple, réguler le marché ex-ante en obligeant la publication d’offres de référence, fixant certains tarifs (ou les fixant à moyen terme), en favorisant l’entrée d’acteurs sur des marchés de niche, en favorisant la portabilité des données ou en obligeant les acteurs dominants à réaliser certaines séparations fonctionnelles. On peut imaginer également que le régulateur mette l’accent sur les utilisateurs, obligeant les acteurs à une concurrence par la qualité. Pour ce faire, l’Autorité de la concurrence a identifié des mesures en vue de renforcer l’usage des données personnelles comme levier de différenciation concurrentielle : • Le droit à la portabilité des données peut limiter le risque de blocage par la promotion d’une adhésion cumulative ou alternative aux divers réseaux sociaux par exemple. • La durée de stockage des données doit être proportionnée à l'objectif poursuivi par le responsable du traitement et raisonnable ; la limiter pourrait abaisser les barrières à l'entrée. • La transparence sur la nature des données collectées, sur la finalité du traitement et les destinataires de l'information donnerait aux utilisateurs les moyens de comparer les offres sur la base du critère de la protection des données personnelles, leur donnant le pouvoir de contrôler l'utilisation de leurs données personnelles1. 1 « Données personnelles, le droit de la concurrence doit-il prendre en compte la protection de la vie privée ? – Le point de vue de l’Autorité française de la concurrence », Bruno Lasserre, Président de l’Autorité française de la concurrence, Concurrences n° 2-2013, p. 28Comportements culturels et données personnelles au cœur du Big data | 33 Quelle fiscalité 3.0 pour l'économie digitale ? Au-delà des défis que pose l’adaptation de la fiscalité internationale aux enjeux de l’économie numérique, le sujet de la fiscalisation des données est désormais clairement identifié. Les questions qui se posent à cet égard sont multiples et complexes : • Doit-il y avoir un lien direct entre fiscalité et data et si oui pourquoi ? (justification économique, contrainte budgétaire, protection de la concurrence, émergence de champions nationaux, partage de la valeur entre les opérateurs et créateurs). • Faut-il mettre en place une fiscalité spécifique au numérique en général et aux data en particulier ? Si oui, comment taxer les data ? • La fiscalité doit-elle vraiment être un instrument de contrepouvoir dans le cadre de l’ère numérique ? Ou doit-elle simplement s’adapter aux nouvelles réalités ? 2013, un momentum pour la fiscalité de l’économie numérique Jamais les efforts menés par les États pour restaurer l’équilibre de leurs finances publiques n’ont été aussi intenses, se traduisant par des hausses d’impôts généralisées dans la plupart des pays matures. L’économie du numérique est particulièrement visée, dans le cadre d’une volonté clairement affichée par les États de réaligner les recettes fiscales avec le lieu de génération du chiffre d’affaires, voire même de destination des services et biens numériques. En parallèle, les déficits budgétaires réduisent le financement public en faveur de la culture en général, et du développement de la création en particulier. Le constat est désormais unanime : il est nécessaire d’adapter les règles de la fiscalité internationale aux nouvelles réalités du monde numérique et des nouvelles technologies, principalement en ce qui concerne les règles de territorialité de l’impôt sur les sociétés et les taxes indirectes assises sur le chiffre d’affaires. En effet, par l’effet combiné de la dématérialisation systématique des services et des biens et de modèles d’affaires bipolaires2 (fondés principalement sur les incorporels et les technologies de l’information), il n’y a souvent plus de nexus suffisamment caractérisé permettant d’allouer le droit d’imposer aux États sur le territoire desquels les services sont délivrés ou bien le chiffre d’affaires se trouve généré par l’utilisation (payante ou non) d’Internet par des consommateurs toujours plus connectés3. 2 Modèle d’affaires adossant une activité dite « gratuite » à une activité rémunérée, localisée le plus souvent dans des territoires différents 3 Nicolas Collin et Pierre Colin, Mission d’expertise sur la fiscalité de l’économie numérique, janvier 201334 | Comportements culturels et données personnelles au cœur du Big data En outre, les différences de régimes fiscaux (taux, bases, régimes fiscaux dits de faveur etc.) entre les pays, parfois au sein de mêmes zones économiques (ex. : Union européenne) créent des disparités fiscales entre les acteurs de l’économie du numérique en fonction de leur taille (multinationales versus PME/ETI) et localisation (États-Unis, Europe, pays émergents). Elles se traduisent également pour les États par des déperditions significatives de recettes dont l’effet est aggravé par une compétition fiscale accrue entre ces mêmes États comme parfois par des pratiques optimisées de la part des opérateurs globalisés. Les États ont réagi vigoureusement depuis 2012 et ont convenu en 2013 d’un plan d’actions ambitieux à court terme, incluant notamment : • Le Programme « BEPS » en 15 points de l’OCDE, visant à lutter contre l’érosion de la base d’imposition et le transfert des bénéfices (juin 2013), lequel intègre précisément la prise en compte des défis fiscaux posées par l’économie numérique comme point d’action n° 1. • L’harmonisation au sein de l’Union européenne des règles de TVA en matière de traitements et services rendus par voie électronique (nouveau régime unifié à partir du 1er janvier 2015, généralisant l’imposition dans l’État de consommation). • Compte tenu de l’envergure internationale et politique de cette approche, il s’écoulera un certain temps entre le lancement de ces plans d’actions et réformes et leur impact dans l’économie réelle. De même, l’harmonisation au sein de l’Union européenne des règles de TVA soulève encore certains problèmes d’application et il n’a pas été possible d’accélérer son entrée en vigueur avant 2015, alors même que cette problématique est connue de longue date. Ce sujet de l’économie numérique est récemment venu à l’ordre du jour du Conseil de l’Union européenne, lors d’une réunion qui s’est tenue les 24 et 25 octobre 2013. Ces difficultés théoriques comme pratiques s’expliquent principalement par la complexité et la spécificité des modèles d’affaires de l’économie numérique qui ne sont toujours pas parfaitement appréhendées par les concepts et outils fiscaux traditionnels. À cet égard, un mouvement d’opinion de plus en plus fort se fait jour au sein des acteurs et experts de l’économie du numérique pour contester la nécessité d’une fiscalité spécifique au monde numérique, les technologies digitales imprégnant en effet tous les pans de l’économie (industries, services, secteurs marchand et non marchand, privé et public) et nécessitant donc un approche globale, si ce n’est de droit commun.Comportements culturels et données personnelles au cœur du Big data | 35 1 Taxe sur les recettes publicitaires proposée par M. Le Sénateur Marini (France) dès 2010 2 Taxes sur les téléphones mobiles intelligents préconisées par le Rapport de la Mission Lescure en 2013 (France), mais non retenues par le gouvernement français 3 Par exemple : niveau d’information de l’utilisateur sur ses droits à la protection des données personnelles, recueil de consentement et facilité de l’exercice de ses droits via l’interface, ouverture à la concurrence et nouveaux services, accès des données à des tiers, etc. Plusieurs acteurs publics ont milité pour la mise en place de mesures fiscales spécifiques au numérique et/ou touchant plus spécifiquement les géants internationaux de l’Internet. Les buts poursuivis étaient multiples et divers : • Financement de la culture, pour les pays dotés d’une politique fiscale volontariste en la matière. • Restauration des finances publiques. • Équilibrage du taux effectif d’imposition entre les acteurs nationaux et multinationaux. • Restauration du lien direct entre territorialité de l’impôt et source de la valeur économique à l’ère digitale. La France est sans doute le laboratoire d’idées le plus dynamique en la matière, comme l’a révélé l’étude des Politiques Fiscales dans le domaine de la Culture menée par EY pour le Forum d’Avignon sur la période 2009-2012, identifiant près de 50 incitations fiscales et 15 taxes spécifiques au domaine culturel. La question de la fiscalisation des données y avait dès lors suscité un vif débat, qui trouve désormais écho au plan international. Après les concepts, rapidement abandonnés, de taxe assise sur les recettes publicitaires générées sur Internet1, de taxation de la bande passante, de taxe « au clic » ou de taxe assise sur les activités de fabrication et ventes de téléphones mobiles2, c’est le concept de taxe assise sur les données lancé en France qui a été le plus novateur, et sans doute le plus polémique au plan international. Imaginé par Nicolas Collin et Pierre Colin dans leur rapport, ce concept visait à créer une fiscalité propre liée à l’exploitation des données issues du suivi régulier et systématique de l’activité des utilisateurs sur un territoire donné. Reposant sur le constat de l’importance de la collecte et de l’utilisation des data et données dans la chaîne de valeur et le chiffre d’affaires des opérateurs du numérique, ce concept a, sur le papier, le mérite d’un fait générateur simple et garantissant la neutralité du prélèvement. De façon plus novatrice, cette proposition ne visait pas tant à maximiser le volume des recettes fiscales nouvelles mais, de manière très ambitieuse, à renforcer les libertés individuelles et la concurrence en favorisant les comportements vertueux des opérateurs utilisant les datas (via l’application de taux d’imposition réduits ou dégressifs selon les comportements observés à l’aune de critère de conformité prédéfini3). Toutefois, bien que séduisant intellectuellement, ce concept de taxation « vertueuse » des données a été largement critiqué au plan international, notamment car il pose, au-delà des débats idéologiques, des difficultés extrêmes et non résolues d’application et de mise en œuvre et pourrait par ailleurs se traduire dans les faits par une augmentation du coût final pour le consommateur. Il n’a dès lors pas été retenu par le Conseil National du Numérique (septembre 2013) dans son avis n° 2013-3, lequel a privilégié une stratégie de négociation politique pour une réforme internationale des règles de la fiscalité des entreprises. Le sujet reviendra peut-être sur le devant de la scène, notamment au plan européen, par exemple sur le fondement d’une justification à taxer les exportations de données à partir du territoire de l’Union européenne. Consensus autour de la non-taxation des données36 | Comportements culturels et données personnelles au cœur du Big data 1 EY Global Survey Report "Tax Considerations in cloud Computing", March 2012 Une récente étude EY1 observait que les problématiques et enjeux liés à l’utilisation croissante de services via le Cloud dans l’économie numérique étaient encore très largement ignorés ou laissés de côté, notamment : • Une fiscalité inadaptée ou complexe dans de nombreux pays, règles non uniformes. • La caractérisation des revenus générés via le Cloud au regard des règles de retenues à la source (withholding tax). Dans le contexte globalisé et hautement technologique de l’économie numérique, il est plus que jamais nécessaire de privilégier une action coordonnée au plan international, afin d’adapter et d’uniformiser les règles de la fiscalité. Au plan local, et sans brider l’action des législateurs nationaux, il semble clair que les efforts devront d’abord porter, d’une part, sur la simplification des régimes fiscaux, bien trop complexes à ce jour, et d’autre part, sur une meilleure sécurité des opérateurs confrontés à des changements de législations permanents. Sans nier la véritable nécessité d’améliorer et harmoniser les régimes fiscaux et de restaurer les finances publiques des États, les opérateurs du numérique, petits comme grands, restent toujours dans l’attente de politiques fiscales claires et lisibles axées sur le long terme et permettant d’assurer le développement des champions de demain. Plutôt que de créer de nouveaux impôts ou de nouvelles normes, ne faudrait-il pas tout simplement appliquer ceux existants et, si besoin, se contenter de les adapter ou de les améliorer ? Les pistes de réflexions de l'OCDE devraient désormais privilégier à court terme la mise à jour de la définition fiscale de l’établissement stable et la réforme des standards internationaux en matière de prix de transfert. À moyen terme, les États souhaiteront sans doute revisiter les principes de territorialité de l’impôt sur les sociétés en matière de services numériques, compte tenu en effet de ce que les États devraient être logiquement tentés, au plan national, de privilégier l’imposition sur le lieu de destination des services. Dans ce contexte, tout le défi des travaux désormais lancés au niveau de l’OCDE sera de prendre en compte les réalités du numérique pour créer enfin une fiscalité 3.0 adaptée au nouveau monde digital et ce sur la base d'un socle commun et homogène, afin d'éviter des approches disparates au niveau national. Prochaines étapes pour la fiscalité 3.0Comportements culturels et données personnelles au cœur du Big data | 37 Responsabilités citoyennes Contrôler ses propres données Face à la montée du contrôle des données émises par les individus ou leurs objets connectés, une prise de conscience s’impose, tout en excluant le renoncement à toute activité numérique, qui ne concerne qu’une partie infime de la population. Les recommandations de la Commission européenne en matière de droit à l’oubli, de renforcement des principes de consentement et d’amélioration des voies de recours administratif et judiciaires vont dans le sens d’un contrôle du contrôle. Les recommandations et le renforcement de la notion de responsabilisation (accountability) des « opérateurs d’accès/ services Internet » vont de pair avec la confiance et l’e-réputation – actif clé pour l’ensemble des acteurs du marché. • Voir schéma ci-dessous Les effets conjugués d’une conscience plus aiguë du nécessaire contrôle sur ses propres données d’une part et de la Directive européenne d’autre part, redonneront confiance et pouvoir de contrôle aux citoyens. Comment contrôler ses propres traces et données numériques a priori et a posteriori ? Traces numériques à caractère majoritairement personnel • Niveau d’équipement (smartphone, résolution d’écran…) • Vitesse et données techniques de connexion • Statistiques/comportement de surf • Pays/zone géographique/localisation • Données anonymes brutes • Environnement logiciel • Informations collectées par cookies • Favoris, historique, paramètres, préférences de navigation (rattachés à un login) • Données de contact (âge, sexe, coordonnées…) • Données de connaissance (CSP, intérêts, relations, profil de consommation…) Contrôler ses données Actions techniques et légales • Droit d’accès et de rectification aux données personnelles (loi informatique et libertés) • Droit d’opposition • Droit de sortie de fichier client (se désinscrire) OPT-OUT • Demande de droit d’utilisation (géolocalisation, données personnelles..) • Demande d’acception cookies • Avertissement niveau de confidentialité sur réseaux sociaux OPT-IN Comportement • Non création de comptes utilisateurs (rarement possible) • Non utilisation des nouveaux services online/ cloud (de moins en moins possible) • Automodération (réseaux sociaux) Anticipation utilisateur Physique • Équipement (smartphone/ tablette/ordinateur) • Type de connexion • Adresse IP/Adresse MAC • Localisation (ADSL) : DSLAM • Géolocalisation (mobile, wifi) Logiciel • Navigateur • Système d’exploitation Session utilisateur • Moteur de recherche • Messagerie • Site tiers • Réseau social Action utilisateur Source : EY ©| 39 3. Vers un nouveau paradigme économique propice à l’innovation et la création40 | Comportements culturels et données personnelles au cœur du Big data Opposer le principe de précaution au Big data : un risque réel pour l’innovation Masse critique d’informations et niveaux d’analyses : l’exploitation économique de la data est-elle réellement incompatible avec le respect de la vie privée ? La thermodynamique La thermodynamique, qui a permis le développement de l’industrie du XIXe siècle en basant ses analyses uniquement sur des indicateurs « macro », vise à comprendre les échanges d’énergie et de chaleur. Elle est riche en applications pratiques que nous utilisons tous les jours : moteurs, réfrigérateurs, turbines ou encore réacteurs. Les modèles ont besoin de très peu de grandeurs pour décrire le comportement des systèmes et leur évolution, principalement Entropie, Température, Pression, Volume. L’efficacité de ces prédictions macroscopiques est tout à fait étonnante quand on sait qu’au niveau microscopique, ces comportements sont la résultante des particules composant les gaz et les liquides et que chaque particule est définie a minima par son vecteur vitesse (3 données) et sa position (3 données) soit des milliards d’informations nécessaires. Cette efficacité de l’analyse macroscopique réside dans le fait qu’un grand nombre d’états microscopiques sont possibles pour un même état macroscopique. Aussi, la température est la résultante d’un niveau d’agitation de molécules, qui peuvent se trouver dans des milliards de configurations possibles pour une même mesure de la température. Ainsi, la thermodynamique nous enseigne que l’on est capable de prendre des décisions sur la base d’une mesure d’un indicateur « macro » comme la température sans pour autant avoir besoin de mesurer toutes les grandeurs au niveau « micro » (positions, mouvements des milliards de molécules à l’origine du niveau de la température). Par exemple, il est possible de pasteuriser du jus de pomme en maintenant une température de 75° . Pour ce faire, il n’est pas nécessaire de modéliser ce qui se passe au niveau de chaque molécule (niveau « micro »). Par analogie avec le Big data, il est possible de prendre des décisions en analysant les comportements « macro » d’un groupe d’individus sans avoir besoin d’identifier parfaitement le comportement intime de chacun. A-t-on besoin de tout connaître de M. ou Mme X pour faire des prédictions sur une population de grande taille ? En d’autres termes, est-il nécessaire d’associer la somme d’informations collectées à une personne clairement identifiée (nom, adresse…) afin de lui proposer de façon plus adaptée certains produits ? On pourrait imaginer que les grandeurs de mesures sont « macro » et très précises pour permettre une adaptation parfaite à la demande. Cependant la demande, grandeur macroscopique, est la résultante de nombreuses demandes individuelles (microscopiques) qui peuvent rester anonymes. Le retour au niveau « micro » pour l’acte d’achat peut s’analyser de la même façon : une campagne de publicité avec les bons messages envoyés à la population idoine pourrait s’avérer plus efficace qu’un envoi ciblé personnel.Comportements culturels et données personnelles au cœur du Big data | 41 La physique quantique La physique nous enseigne que l’analyse microscopique, domaine de la physique quantique du XXe siècle, est aléatoire par nature et que la précision infinie de la mesure est vaine (on ne peut connaître en même temps la position et la vitesse d’une particule). Enfin, à ce niveau, l’observation interfère avec l’expérience. En d’autres termes, l’observation modifie le comportement des particules. La génomique Si la cartographie du génome d’un individu ne permet, au niveau « micro », que d’émettre des probabilités de réalisation (maladies, etc.), au niveau « macro », la combinaison de ces probabilités individuelles permettra de révéler, sur une population de grande taille, les risques et opportunités réels, justifiant ainsi des investissements d’ampleur permettant d’améliorer la santé des individus (R&D, vaccins, traitements). On peut comprendre que si l’on respecte la confidentialité des décryptages individuels permettant, par leur combinaison, d’aboutir à des découvertes et des décisions d'investissement, l’équilibre entre progrès et respect de la vie privé est atteint. Par analogie avec le Big data, il en ressort que l’observation « microscopique » d’un individu modifierait son comportement. Lorsqu’une personne se sait « observée », elle tend à modifier son comportement, rendant ce dernier moins prédictible. D’où l’importance d’un environnement sécurisé, de confiance, afin que les individus se sentent libres et décisionnaires de leurs comportements et ne soient pas réticents à échanger ou communiquer leurs données. Ce que nous enseigne la science Applications au Big data : Big data et respect de la vie privée peuvent être conciliables dans un environnement réglementé et sécurisé. La thermodynamique Il est possible de prendre une décision sur la base d'une mesure d'un indicateur « macro » sans avoir besoin de mesurer toutes les grandeurs au niveau « micro ». La physique quantique L'observation microscopique modifie le comportement des particules, rendant aléatoire et vaine la précision infinie de la mesure. La génomique La combinaison de décryptages au niveau « micro » permet, dans le respect de la confidentialité, d'aboutir à des découvertes sources de progrès. Source : EY ©42 | Comportements culturels et données personnelles au cœur du Big data Le temps de l'action Il serait illusoire d’imaginer pouvoir ignorer le « Big data bang », voire s’en barricader : la vitesse exponentielle avec laquelle la masse de données générées augmente et est stockée, la progression des outils d’analyse et de rapprochement de ces données ainsi que la capacité et l’intérêt que suscitent ces résultats rendent irréaliste un moratoire. Si l’avenir n’est pas totalement clair, il est cependant certain que ceux qui n’auront pas su considérer le défi dès maintenant seront les grands perdants. Ainsi, il est urgent d’opposer le « principe d’innovation » au « principe de précaution ». Invoqué face aux dangers, certes réels, que l’exploitation du Big data ferait courir à notre intimité ou à notre identité numérique, le « principe de précaution » n’apparaît pourtant pas comme une réponse adaptée. Nous devons en passer par une nécessaire phase d’expérimentation test & learn, et les erreurs, voire abus, propres à cette phase de transition, devraient éveiller les consciences, en particulier chez ceux qui ont subi l’expérience désagréable d’une mise à nu en ligne de leur vie « privée ». Ces écueils obligeront parfois certains à déployer leur capacité de rebond pour faire peau neuve, en renonçant à leur identité numérique première et aux traces qui pouvaient y être associées.Comportements culturels et données personnelles au cœur du Big data | 43 1. Établir un diagnostic • Dresser une cartographie des données disponibles, qu’elles soient internes (données métiers) ou externes (sites web, réseaux sociaux, open data). • Évaluer la qualité et la pertinence des données au regard des priorités de développement (ex. : financement de la création, innovation, services, étude ou segmentation des publics/ clients, valorisation des données, efficacité opérationnelle, etc.) 2. Se doter d’une structure décisionnelle et de compétences clés • Définir l’organisation et la gouvernance adéquates pour l’exploitation de données en pensant l’organisation de façon transverse. • Renforcer les compétences analytiques, mathématiques, statistiques et sociologiques pour la gestion et l’exploitation des données - que ce soit en croissance organique, par rachat de sociétés digitales ou via des partenariats. En d’autres termes, les entreprises devront se doter de data scientists, ces experts « capables de traiter le déluge de données et d’en tirer toute la quintessence décisionnelle et managériale1 ». 3. Se doter d’une stratégie et d’un plan d’action • Identifier et mettre en œuvre des leviers d’enrichissement de la connaissance client, notamment en : - Incitant les clients encore non connus (lecteurs achetant en point de vente, public des salles de spectacle et de cinéma, etc.) à s’identifier via un programme de fidélité, en favorisant les actes d’achat sur Internet. - Analysant les comportements clients : contenus générés sur les réseaux sociaux, parcours client web, historique des transactions et contenus consultés. • Identifier le niveau de moyens adaptés à la stratégie : il est indispensable de bien déterminer la donnée utile pour éviter un stockage systématique coûteux et inexploitable, et de privilégier les approches test & learn éprouvées par les grands acteurs du digital, consistant à lancer des chantiers tests et mesurer régulièrement et systématiquement leur efficacité afin de les améliorer rapidement, voire à les suspendre si besoin. 4. Développer et insuffler en interne une culture de la data Dans le secteur médiatique et culturel, le niveau de maturité face à la data diffère selon les acteurs : ceux qui ont un accès direct à leurs publics, avec des bases de clients ou d’abonnés (groupes de presse, exploitants de salles…) ont déjà une bonne appréhension de ces sujets et une culture du marketing direct. L’enjeu d’une approche Big data est de consolider et d’exploiter des données dans un contexte de croissance en volume, en vitesse et en variété des sources - notamment digitales - difficiles à réconcilier avec les données historiques. C’est une opportunité, mais aussi un défi de taille à relever, pour des acteurs tels que les diffuseurs audiovisuels et les créateurs de contenus, qui, traditionnellement n’avaient pas de lien direct avec leurs audiences. Le développement de la culture et des compétences d’exploitation de la donnée client varie également en fonction des services : les métiers marketing ont déjà intégré ces logiques, tandis que les équipes éditoriales et créatives se l’approprient plus difficilement – voire y sont réticentes, pouvant considérer que l’exploitation des données est incompatible avec leurs règles éthiques. Or les outils d’analyse des audiences et d’identification des tendances doivent être envisagés comme des sources complémentaires visant à alimenter leurs contenus et non à se substituer à leur travail de recherche et de hiérarchisation. Et le succès rencontré par les infographies, fortement relayées sur les réseaux sociaux, montre que l’audience est réceptive à l’information quantitative visuelle. Engager cette mutation interne ne suffira probablement pas à extraire toute la quintessence de la data. C’est en nouant des alliances que les acteurs de l’écosystème culturel pourront capitaliser sur les données personnelles culturelles pour innover et créer de nouvelles propositions de valeur. Entrer dans l’ère du Big data : par où commencer ? 1 « Big data – nouveaux défis », Telecom ParisTech, N° 169, juillet 201344 | Comportements culturels et données personnelles au cœur du Big data Enrichir la donnée collectée La gestion de la donnée et son exploitation sur le mode du Big data sont au cœur du modèle économique des grands acteurs globaux du digital. En dépit de l’intérêt que représente l’enjeu de la valorisation des données personnelles, les acteurs français sont en retard par rapport aux acteurs globaux du numérique, qui se sont positionnés comme des distributeurs ou diffuseurs de référence de la création. Citons par exemple Amazon, qui utilise ainsi les données (pages consultées, historique d’achat, listes de souhaits…) pour recommander des contenus et produits à ses clients : 35 % de ses ventes seraient liées à cette mécanique. Ou encore Apple, leader de la distribution de musique avec iTunes, qui analyse les bibliothèques musicales de ses utilisateurs (composition, titres les plus écoutés…) pour recommander de nouveaux artistes ou disques. À l’image d’autres industries, les acteurs de l’industrie médiatique et culturelle peuvent imaginer valoriser les données personnelles afin d’affiner la connaissance de leurs publics, à travers par exemple : • L’analyse rationnelle de la propagation et des contenus des messages (positifs ou négatifs) sur les réseaux sociaux, à l’image des travaux réalisés dans les transports (Quantas Airline, RATP) ou dans le secteur bancaire (Bank of America) ; L’identification d’opportunités de diffuser des créations en fonction des centres d’intérêt et des goûts avérés des utilisateurs ou des communautés. • L’anticipation des comportements, comme l’analyse de la fréquentation d’une zone touristique ou d’une salle de concert. • L’analyse croisée de données externes (réseaux sociaux, etc.) et internes (données de navigation, historiques de consultation/achat, centres d’intérêt, etc.) pour mieux connaître les attentes et les intégrer dans la conception des contenus et services proposés. C’est en adoptant une « approche data », comme levier d’optimisation de la valeur client, que les acteurs de l’industrie culturelle pourront relever les trois défis que sont la relation avec les publics et audiences, la diffusion des créations et contenus ainsi que le financement de la création. 1. Assurer la diffusion et l'interaction des œuvres avec leur public Dans le secteur médiatique et culturel, le développement de la « connaissance client » permet de répondre à un défi majeur qui consiste à instaurer une relation privilégiée et pérenne avec les publics. C’est en particulier le cas pour la production d’événements, de contenus et de créations, afin de créer des projets et contenus au plus près des publics visés. Dans les médias, des outils d’analyse des tendances comme Trendsboard utilisent les données issues des réseaux sociaux et blogs pour identifier les sujets qui commencent à faire l’actualité, permettant ainsi aux rédactions d’anticiper des « buzz » ou de couvrir certains événements, jusqu’alors imprévisibles. Proposer une interaction personnalisée en fonction des données analysées apparaît alors comme un levier clé pour créer ou renforcer la relation de proximité avec son public : • L’exploitation des données est un levier de promotion de la diversité culturelle, aussi bien dans les lieux que via les supports numériques. La proposition de contenus sur la base de l’analyse des centres d’intérêts, sur le modèle des moteurs de recommandation, suscite ainsi la rencontre entre les œuvres et leur public. • La collecte et l’exploitation de données personnelles sur les publics permet de prolonger la relation au-delà d’un événement donné (spectacle vivant, visite d’un musée, visionnage d’un film…), à travers l’animation de communautés et la proposition de services et contenus complémentaires. • Dans l’industrie audiovisuelle, les offres proposées sur les supports numériques permettent de développer et de valoriser une connaissance individualisée des audiences. Focus : Acquisition de droits Une société comme Netflix combine deux sources d’information pour définir sa stratégie d’achat de droits pour son offre de vidéo par abonnement : l’analyse des contenus les plus regardés (thématiques, acteurs, formats, etc.) et celle des contenus les plus piratés.Comportements culturels et données personnelles au cœur du Big data | 45 2. Obtenir une vision globale du parcours des publics Les outils utilisés pour la collecte et l’exploitation de données sont souvent inadaptés et/ou fragmentés du fait de logiques de fonctionnement d’activités en silos. Ainsi, un établissement public comme la Rmn-GP1 ne peut, à ce jour, savoir si une personne qui a acheté un livre donné dans une de ses 40 librairies ou boutiques pourrait être intéressée par une exposition au Grand Palais, au Musée du Luxembourg ou tout autre service, comme un abonnement à une newsletter ou un parcours à thème autour d’un artiste précis. En effet, les informations qui permettraient d’établir de tels liens ou prédictions ne sont actuellement pas disponibles, soit parce qu’elles ne sont pas collectées, soit parce qu’elles sont dispersées au sein de différentes bases de données gérées par divers systèmes d’information, non encore interopérables à ce jour. L’enjeu est donc double : il faut non seulement investir pour se doter des compétences nécessaires en CRM mais aussi assurer la transversalité entre les services impliqués dans la collecte et le traitement de données. Cette vision globale est indispensable pour proposer une expérience plus personnalisée et contextualisée et espérer ainsi la prolonger dans le cadre d’une relation d’engagement. De même les lieux culturels (galeries, sites touristiques, musées…) deviendraient plus accessibles grâce à l’utilisation de données sur le trafic ou la fréquentation. Si les projets sont nombreux dans le domaine des transports publics, il reste encore beaucoup à faire sur les lieux culturels. L’analyse de la fréquentation permet d’informer en temps réel les potentiels visiteurs, par exemple, sur la durée d’attente à l’entrée d’une exposition, et elle pourrait également permettre de définir des tarifications fines en fonction du remplissage. La construction d’une vision globale du parcours des publics pourra également s’appuyer sur l’ouverture et la réutilisation des données publiques culturelles. L’open data culturelle doit s’inscrire en complément des actions que les acteurs des industries culturelles et créatives mèneront pour utiliser et valoriser leurs données. Offrir la possibilité à des acteurs tiers, et notamment des start-ups, d’utiliser les données des acteurs de la culture élargit considérablement le champ des possibles, notamment pour créer des services pour les usagers ou clients. 3. Assurer le financement de la création Les données peuvent être mises à la disposition d’autres acteurs de la culture, de la distribution, des réseaux sociaux, etc. pour qu’ils puissent les utiliser en l’état ou les intégrer dans d’autres combinaisons de données, dans une approche d’ouverture des données (open data) ou dans une logique commerciale. Une utilisation commerciale des données permet ainsi de créer des offres de contenus gratuites ou partiellement gratuites grâce à la publicité. Pour les annonceurs, les audiences ont d’autant plus de valeur qu’elles sont qualifiées et permettent un ciblage efficace, d’où l’importance de la donnée récente, même anonyme. Les données personnelles culturelles ont, dès lors, un rôle majeur à jouer dans un contexte où le secteur culturel cherche et invente de nouveaux modèles de financement. Dès aujourd'hui, ces données sont au cœur du financement participatif, dont le modèle repose sur la création de communautés identifiées, d'individus connectés qui s'engagent personnellement pour financer un projet créatif. Le crowdfunding est aussi générateur de données (d'un genre comparable aux réseaux sociaux) et, si les sites ne monétisent pas cette donnée sur un mode publicitaire, ils peuvent s'en servir pour animer le réseau et faire des recommandations et contribuer à accroître les financements. Demain, les données personnelles culturelles seront sans nul doute un nouveau relais de financement, dans un contexte marqué par la raréfaction des financements publics. Un projet culturel pourrait demain valoriser, au moment de son financement, sa capacité à générer des données pour le distributeur, au même titre qu'il peut générer des ventes. Les plans de financement de projets cinématographiques ou discographiques pourraient, par exemple, intégrer la valorisation des données nouvelles collectées : un producteur exécutif céderait à un co-producteur le droit d’administrer la communauté de fans de l’œuvre créée, et les revenus publicitaires éventuellement générés. 1 Réunion des musées nationaux - Grand Palais46 | Comportements culturels et données personnelles au cœur du Big data En France, plusieurs entreprises et établissements publics ont déjà rendu publiques leurs données culturelles Depuis l'ouverture en 2011 du portail data.gouv.fr, le ministère de la Culture et de la Communication s’attache à recenser et mettre à disposition des développeurs différents jeux de données tels que la liste des établissements publics culturels géolocalisés et de leur offre éditoriale, les données de la médiathèque de l'architecture et du patrimoine (liste des immeubles protégés au titre des monuments historiques, liste des objets mobiliers propriété publique classés au titre des monuments historiques), ou encore une trentaine de jeux de données du Centre national du cinéma et de l’image animée (CNC), comme par exemple les recettes à l’international des films français ou la liste des établissements cinématographiques. De nombreuses villes et régions ont quant à elles initié l’ouverture des données publiques, qui peuvent être des statistiques démographiques (anonymisées), aussi bien que la liste des lieux de tournage de film et les statistiques de consultations d’ouvrages en bibliothèques. L’ouverture de ces données, croisées avec les centres d’intérêt d’individus ou de communautés, représente non seulement l’opportunité de développer de nouveaux services et usages, mais aussi de faciliter la promotion et l’accès à la culture. De nombreuses applications s’appuyant sur les données culturelles ouvertes existent déjà : • Les cartes interactives, comme le module développé par le ministère de la Culture et de la Communication représentant l’ensemble des lieux culturels français sous forme de galaxie, ou Cartographone, carte regroupant les lieux de tournage de film à Paris. • Les interfaces de visualisation de données, avec par exemple un article du journal Le Monde contenant un module permettant de visualiser de façon interactive les statistiques de consultation des ouvrages dans les bibliothèques parisiennes. • Les applications utilitaires, permettant par exemple de trouver la bibliothèque la plus proche, des informations sur les musées de la ville (comme Musambule à Marseille), ou encore des agendas culturels multi-éditeurs (tels que Cibul en région PACA). • La visite augmentée : comme Culture Clic, proposant non seulement des informations pratiques sur les musées français mais aussi un catalogue de 900 œuvres visualisables en réalité augmentée.Comportements culturels et données personnelles au cœur du Big data | 47 La nouvelle chaîne de valeur de la donnée personnelle culturelle Nouveaux acteurs Le marché de la donnée personnelle culturelle est en pleine structuration : tout au long de la chaîne de valeur de la data se déplacent et se positionnent producteurs, agrégateurs et utilisateurs de données personnelles culturelles. Un marché qui devrait continuer à évoluer et faire émerger de nouveaux acteurs et de nouveaux métiers : des pure players qui se spécialiseront dans la production/sourcing de data, d’autres dans l'agrégation et l’analyse de data (croiser les données des sourceurs entre elles et avec d’autres données, afin de les contextualiser et de fournir l’analyse nécessaire aux utilisateurs) et les utilisateurs de données personnelles qui vont développer des services et applications ciblés et à plus forte valeur ajoutée. Tous ces services auront besoin de l’infrastructure Big data, faisant intervenir une autre catégorie d’acteurs. Le bon fonctionnement de l’ensemble de l’écosystème de la donnée personnelle culturelle dépend de ce que nous appellerons le « filtre de confiance ». Le marché devrait donc évoluer vers une séparation entre la data et son utilisation, une évolution qui aurait le triple avantage d’apporter une réponse à un marché qui évoluerait vers un monopole naturel, à l’enjeu des données nominatives collectées/ échangées et de libérer tout le potentiel de la donnée en matière d’innovation. • Voir schéma p. 48 Les acteurs de la nouvelle chaîne de valeur de la data • Les producteurs de données : ils constitueraient de véritables bases de données fiables qui, grâce à leur capital confiance, pourraient être revendues à des tiers. • Les agrégateurs de données : ils agrégeraient, croiseraient et contextualiseraient ces données à des fins d’analyse. • Les utilisateurs de données : ils développeraient, à partir des analyses obtenues, des nouveaux services et nouvelles applications. Ces utilisateurs peuvent être des entreprises de média et des start-up développant des applications spécifiques et ciblées pour ces groupes de média ou des établissements culturels (application dédiée en marge de l'exposition Hopper au Grand Palais). • Les opérateurs d’infrastructures du Big data : nouveaux acteurs du numériques, opérateurs de télécommunications… • Les gestionnaires d’infrastructures : ils pourront louer, en plus de leurs capacités de stockage, des capacités de calcul à des sociétés ayant des besoins ponctuels en matière de traitement de Big data. • Des acteurs de confiance s’assurant du maintien de l’intégrité/qualité des données, depuis leur sourcing jusqu’à leur utilisation, rassurant ainsi utilisateur et consommateur finaux. Cette phase est indispensable pour garantir, par exemple, que la version électronique d’une œuvre, téléchargée en ligne (e-book) corresponde à l’œuvre originale.48 | Comportements culturels et données personnelles au cœur du Big data Acteurs des Infrastructures de données Les acteurs de la nouvelle chaîne de valeur de la data Où et comment se positionner Les champions du numérique et les entreprises culturelles vont chercher à étendre leur présence au sein de la chaîne de valeur de la data, horizontalement (de la production à l’utilisation de la data) et/ou verticalement (de l’infrastructure Big data aux services destinés aux utilisateurs et clients finaux). Ils procéderont par croissance interne ou externe, par des alliances avec des pure players, etc. Des business models (pure players) et univers de services innovants vont émerger/se développer : • Le Sourcing (producteur de données fiables). • La spécialisation dans le développement de services et d’applications mobiles ultra-ciblés (exemple du marché du jeu vidéo mobile). • La certification et l’audit liés à la sécurisation des données tout au long de la chaîne de valeur, pour répondre aux exigences de transparence et de confiance des consommateurs et utilisateurs, mais aussi prévenir le risque de réputation. « Filtre de confiance » - Réglementation et sécurisation de la data Données émises Données analysées Données améliorées (feedback) Source : EY © Infrastructure Big data Acteurs des échanges de données personnelles culturelles Producteurs de data (exemples) • Réseaux de transport • Collectivités locales/ territoriales • Établissements publics culturels • Exploitants de salles Croisement entre : données produites autres données de contexte (CSP des habitants/quartier, habitudes de déplacements pendant les vacances scolaires, météos locales, etc.) Agrégateurs de data Utilisateurs Prise de décision • + efficace • + rapide • + réactive Innovation • Nouveaux services • Développement d’applications Découverte (sérendipité)Infographie La donnée personnelle culturelle au cœur du Big dataLa donnée personnelle culturelle, une data qui vaut de l’or Du Big data à la Big value Un marché qui se structure autour de la donnée personnelle culturelle Vers un écosystème basé sur la confiance Collecte, stockage et mise à disposition (réseau, capacités...) Acteurs de confiance Réglementation Sécurisation Certification Homo conexus et objets connectés Émetteurs de data Production de données personnelles culturelles Open data Producteurs de data Établissements culturels, exploitants de salles, librairies Infrastructure Big data Data centers, serveurs, bases de données Traitement, calcul et analyses de données Agrégateurs de data Algorithmes, etc. Nouveaux services, applications, etc. Collecte, stockage, calcul, mise à disposition de capacités Utilisateurs Entreprises innovantes, créateurs de contenus Emploi Innovation (4,4 millions d’emplois créés d’ici 2015) Homo conexus 2, 3 milliards dans le monde en 2013 Internet des objets 20 milliards d’objets connectés dans le monde en 2013 + Explosion des traces numériques 4 zettaoctets de données en 2013, soit une pile de DVD de la hauteur de 4 millions de tours Montparnasse Big data Bang Données personnelles culturelles Données de l’intimité, issues du comportement culturel GAFA* Établissements culturels Industrie des médias et de l’entertainment 50 | Comportements culturels et données personnelles au cœur du Big data Source : EY © * GAFA : Google, Apple, Facebook, AmazonLa donnée personnelle culturelle, une data qui vaut de l’or Du Big data à la Big value Un marché qui se structure autour de la donnée personnelle culturelle Vers un écosystème basé sur la confiance Collecte, stockage et mise à disposition (réseau, capacités...) Acteurs de confiance Réglementation Sécurisation Certification Homo conexus et objets connectés Émetteurs de data Production de données personnelles culturelles Open data Producteurs de data Établissements culturels, exploitants de salles, librairies Infrastructure Big data Data centers, serveurs, bases de données Traitement, calcul et analyses de données Agrégateurs de data Algorithmes, etc. Nouveaux services, applications, etc. Collecte, stockage, calcul, mise à disposition de capacités Utilisateurs Entreprises innovantes, créateurs de contenus Emploi Innovation (4,4 millions d’emplois créés d’ici 2015) Homo conexus 2, 3 milliards dans le monde en 2013 Internet des objets 20 milliards d’objets connectés dans le monde en 2013 + Explosion des traces numériques 4 zettaoctets de données en 2013, soit une pile de DVD de la hauteur de 4 millions de tours Montparnasse Big data Bang Données personnelles culturelles Données de l’intimité, issues du comportement culturel GAFA* Établissements culturels Industrie des médias et de l’entertainment Comportements culturels et données personnelles au cœur du Big data | 51 Source : EY ©Contacts Bruno Perrin Associé, Ernst & Young et Associés Responsable du secteur Technologies, Médias et Télécoms en France Tél. : + 33 1 46 93 65 43 E-mail : bruno.perrin(à)fr.ey.com Fabrice Naftalski Associé, Ernst & Young Société d’Avocats Tél. : + 33 1 55 61 10 05 E-mail : fabrice.naftalski(à)ey-avocats.com Éric Fourel Associé, Ernst & Young Société d’Avocats Tél. : + 33 1 55 61 11 22 E-mail : eric.fourel(à)ey-avocats.com Solenne Blanc Directrice Associée, Ernst & Young Advisory Tél. : + 33 1 46 93 59 17 E-mail : solenne.blanc(à)fr.ey.com Louisa Melbouci Responsable Marketing Technologies, Médias et Télécoms Tél. : + 33 1 46 93 76 47 E-mail : louisa.melbouci(à)fr.ey.com Contact Presse EY Velislava Chichkova Tél. : + 33 1 46 93 45 06 E-mail : velislava.chichkova(à)fr.ey.com Cette étude a été réalisée par EY, sous la direction de Bruno Perrin, Fabrice Naftalski et Régis Houriez, avec la participation de Marie-Pierre Bonnet-Desplan, Solenne Blanc, Vincent Placer, Louisa Melbouci, Pierrick Vaudour, Guillaume Marcerou, Sébastien Bardou, Aurèle Tabuchi, Colin Garnier, France de Roquemaurel à la rédaction et Sandrine da Cunha au graphisme. EY | Audit | Conseil | Fiscalité & Droit | Transactions EY est un des leaders mondiaux de l’audit, du conseil, de la fiscalité et du droit, des transactions. Partout dans le monde, notre expertise et la qualité de nos services contribuent à créer les conditions de la confiance dans l’économie et les marchés financiers. Nous faisons grandir les talents afin qu’ensemble, ils accompagnent les organisations vers une croissance pérenne. C’est ainsi que nous jouons un rôle actif dans la construction d’un monde plus juste et plus équilibré pour nos équipes, nos clients et la société dans son ensemble. EY désigne l’organisation mondiale et peut faire référence à l’un ou plusieurs des membres d’Ernst & Young Global Limited, dont chacun est une entité juridique distincte. Ernst & Young Global Limited, société britannique à responsabilité limitée par garantie, ne fournit pas de prestations aux clients. Retrouvez plus d’informations sur notre organisation sur www.ey.com. © 2013 Ernst & Young et Associés Tous droits réservés. Studio EY France - 1309SG178 SCORE France N° 13-032 Photos : © Fotolia - © Gettyimages - © EY Document imprimé conformément à l’engagement d’EY de réduire son empreinte sur l’environnement. Cette publication a valeur d’information générale et ne saurait se substituer à un conseil professionnel en matière comptable, fiscale ou autre. Pour toute question spécifique, vous devez vous adresser à vos conseillers. ey.com/fr http://www.cirano.qc.ca/pdf/publication/2014RB-01.pdf 1/3 COMMUNIQUÉ DE PRESSE – LUNDI 1ER SEPTEMBRE 2014 L’École polytechnique et Télécom ParisTech créent un Master commun en Big Data L’École polytechnique et Télécom ParisTech ouvrent à la rentrée 2014 un nouveau Master 2 Mathématiques pour la science des masses de données. Ce Master national constitue la première formation de niveau M2 en Big Data associant plusieurs acteurs académiques majeurs et a vocation à devenir une référence dans le domaine des Data Sciences au niveau mondial. Un marché confronté à la pénurie de « Data Scientists » Le Big Data marque le début d'une transformation majeure, qui va affecter de façon profonde l’ensemble des secteurs (de l’e-commerce à la recherche scientifique en passant par la finance et la santé). L’exploitation de ces immenses masses de données nécessite des techniques associant mathématiques et informatique sophistiquées visant à extraire l’information pertinente. Les entreprises font aujourd’hui face à des difficultés croissantes pour recruter les « Data Scientists » capables d’appréhender ces enjeux et de gérer cette question stratégique pour leur développement. Le Big Data est un enjeu transverse qui impacte de nombreux secteurs de l’économie : grande distribution, services publics, industrie high-tech, secteur bancaire et financier ou encore secteur biomédical avec l’avènement de la médecine individualisée. Pour Frank Pacard, directeur de l’Enseignement et de la Recherche à l’École polytechnique, « la croissance exponentielle du marché du Big Data génère une forte demande de recrutement sur des profils rares. Ce Master, basé sur un enseignement équilibré entre mathématiques appliquées, informatique et formation professionnalisante, comblera ce manque en délivrant aux étudiants le socle scientifique de connaissances et les compétences techniques pour gérer des données massives. Nous nous félicitons de cette collaboration unique, tirant le meilleur de l’X, de Télécom ParisTech et de partenaires telle l’Université Paris-Sud pour former les profils polyvalents et pluridisciplinaires dont les entreprises ont besoin. » Pour Patrick Duvaut, Directeur de la Recherche à Télécom ParisTech, « ce Master vise à former des experts dans la science des données, capables non seulement de concevoir des nouveaux algorithmes d’analyse et de prédiction qui supportent le passage à l’échelle, mais aussi susceptibles de répondre aux besoins opérationnels des entreprises liés au Big Data. Il bénéficiera de l’effet d’entraînement des nombreuses chaires de recherche et d’enseignement autour des data sciences et du Big Data à l’X et Télécom ParisTech. Ce Master s’inscrit dans les initiatives (en formation, recherche et valorisation) destinées à faire de l’Université ParisSaclay une des plaques tournantes de la Science des Données en France et en Europe».COMMUNIQUÉ DE PRESSE – LUNDI 1ER SEPTEMBRE 2014 2/3 Un programme d’enseignement couvrant toutes les facettes du Big Data Le programme d’enseignement du Master 2 « Mathématiques pour la science des masses de données » associe des connaissances théoriques et le développement de savoir-faire pratiques liés au domaine d’application. Les enseignements théoriques se répartissent sur une session allant du 1 er octobre 2014 au 31 mars 2015. Ces cours sont complétés par des enseignements d’ouverture professionnalisants (« Séminaire Big Data » avec les principaux acteurs industriels du domaine) ou d’approfondissement en recherche (groupe de lecture « Data Sciences »). Cette formation prévoit un projet en groupe s’étalant sur 24 semaines et se conclut par un stage d’une durée de 5 mois. Les enseignements auront lieu à l’X (Campus de Palaiseau) et à Télécom ParisTech (Paris, 13e arrondissement). Ce Master, accrédité par le Ministère de l’Éducation, de l’Enseignement supérieur et de la Recherche, est un élément de réponse aux attentes du plan Big Data initié par le gouvernement et qui appelait la création de formations en Data Sciences. Le programme souhaite ainsi répondre aux besoins des entreprises et combler le déficit en experts dans un secteur aujourd’hui straté- gique. Les meilleurs candidats seront sélectionnés pour suivre cette formation qui à terme a vocation à s’inscrire dans l’offre de Masters de l’Université Paris-Saclay. Les cours du programme d’enseignement :  Technologies du Big Data (enseignement spécifique Master)  Statistique en grande dimension (partenariat avec l’Université Paris-Sud – Faculté des Sciences d’Orsay)  Apprentissage statistique avancé (Télécom ParisTech, École polytechnique)  Optimisation et calcul distribué à large échelle  Modèles graphiques (en partenariat avec le Master MVA)  Traitement automatique du langage naturel  Réseaux et Graphes  Visualisation analytique Inscriptions (date limite 30 septembre 2014) : http://bit.ly/MasterBigData Équipe Pédagogique  Télécom ParisTech : T. Abdessalem, S. Clémençon, F. d’Alche-Buc, A. Gramfort, E. Moulines (responsable formation), A. Sabourin, J. Salmon, M. Sauzio, F. Suchanek  École polytechnique : E. Bacry, S. Gaiffas, E. Le Pennec (responsable formation), M. Vazirgiannis  Enseignants associés : A. Allauzen (Université Paris-Sud), F. Bach (INRIA), S. Giraud (Université Paris-Sud), F. Yvon (Université Paris-Sud) Contact pédagogique : Alexandra Belus, Graduate School de l’École polytechnique: alexandra.belus@polytechnique.edu / +33 1 69 33 44 69 COMMUNIQUÉ DE PRESSE – LUNDI 1ER SEPTEMBRE 2014 3/3 CONTACTS PRESSE Raphaël de Rasilly Cécile Mathey + 33 1 69 33 38 97 / + 33 6 69 14 51 56 + 33 1 69 33 38 70 / + 33 6 30 12 42 41 raphael.de-rasilly@polytechnique.edu cecile.mathey@polytechnique.edu Dominique Célier + 33 1 45 81 75 17 / + 33 6 85 11 95 90 dominique.celier@telecom-paristech.fr À PROPOS DE L’ÉCOLE POLYTECHNIQUE / Largement internationalisée (30% de ses étudiants, 23% de son corps d’enseignants), l’École polytechnique associe recherche, enseignement et innovation au meilleur niveau scientifique et technologique. Sa formation promeut une culture d’excellence à forte dominante scientifique, ouverte sur une grande tradition humaniste. À travers ses trois cycles – ingénieur, master et doctorat – l’École polytechnique forme des femmes et des hommes responsables, capables de mener des activités complexes et innovantes pour répondre aux défis de la société du 21e siècle. Avec ses 20 laboratoires, tous unités mixtes de recherche avec le CNRS, le centre de recherche de l’École polytechnique travaille aux frontières de la connaissance sur les grands enjeux interdisciplinaires scientifiques, technologiques et sociétaux. www.polytechnique.edu À PROPOS DE TÉLÉCOM PARISTECH / Télécom ParisTech forme à innover et entreprendre dans un monde numérique. Ses cursus diplôment ingénieurs, docteurs et professionnels tout au long de la vie, attirent 55 % d’internationaux. Toutes les disciplines des sciences et technologies de l’information et de la communication sont couvertes par ses enseignements et sa recherche. Celle-ci présente une expertise originale sur 6 axes stratégiques - Big Data, Très Grands Réseaux et Système, Confiance numérique, Interactions Réel-Virtuel, Modélisation, approche interdisciplinaire de l'Innovation - lui permettant de faire face aux défis majeurs du monde numérique. Télécom ParisTech se positionne comme le futur collège de l’innovation par le numérique de l’Université Paris-Saclay, dont l’ambition est de devenir l’un des premiers pôles d’innovation mondiaux. www.telecom-paristech.fr POLICY PAPER Mai 2014 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation #1 Le big data Observatoire de l’Innovation de l’Institut de l’entrepriseFaire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Note thématique #1 : Le big data Observatoire de l’Innovation de l’Institut de l’entreprise présidé par Christophe de Maistre Pilote : Delphine Manceau Rapporteur : Julie Fabbri Note rédigée à partir des travaux de l’observatoire.www.institut-entreprise.fr 3 SOMMAIRE AVANT-PROPOS......................................................................................................... 5 SYNTHÈSE................................................................................................................. 7 BIG DATA, DE QUOI PARLE-T-ON ?....................................................... 11 LES 4V DU BIG DATA................................................................................................................... 12 DE NOUVELLES GÉNÉRATIONS DE DONNÉES ET DE TRAITEMENT......................................... 13 BIG DATA, LEVIER D’INNOVATIONS .................................................... 17 LES NOUVEAUX USAGES STIMULÉS PAR LE BIG DATA ......................................................... 17 SOURCE D’INNOVATIONS ORGANISATIONNELLES ............................................................... 27 BIG DATA, FACTEUR CLÉ DE PERFORMANCE ......................................................................... 324 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation L’IMPACT DU BIG DATA SUR LES ENTREPRISES............................... 35 LE BIG DATA COMME NOUVEAU MARCHÉ............................................................................... 37 LES PRINCIPAUX POINTS DE VIGILANCE ................................................................................ 39 LES MUTATIONS À PRÉVOIR ..................................................................................................... 46 PISTES DE RECOMMANDATION............................................................................. 56 L’OBSERVATOIRE DE L’INNOVATION ...................................................................... 67www.institut-entreprise.fr 5 AVANT-PROPOS Cette note est le deuxième item d’une série de trois études issues du travail de l’Observatoire de l’Innovation de l’Institut de l’entreprise, portant respectivement sur le big data, l’efficacité énergétique et les nouvelles technologies de production, publiées séparément et précédées d’une note introductive générale. L’Observatoire de l’innovation est présidé par Christophe de Maistre, présidentdirecteur général de Siemens France et ses travaux ont été supervisés par Delphine Manceau, professeur à ESCP Europe, assistée de Julie Fabbri, doctorante au Centre de Recherche et Gestion (CRG) de l’Ecole Polytechnique, rapporteur de l’Observatoire. Eudoxe Denis, Directeur des études de l’Institut de l’entreprise, a supervisé le cadrage du projet et de l’ensemble des séances de l’Observatoire ainsi que la rédaction de la note introductive. L’Institut de l’entreprise tient à exprimer sa gratitude : › À l’ensemble des membres de l’Observatoire de l’innovation pour leur engagement dans ce projet : Frédéric Allard, Vice-président R&D, IBM Grégory Blokkeel, Responsable stratégie & open innovation, PSA Marie-Anne Broodschii, VP Innovation, Veolia Eric Conti, Directeur Innovation & Recherche, SNCF (également auditionné par l’Observatoire) Priscille Crozemarie, Chargée de mission - Secrétariat général, RATP Julie Fabbri, Secrétaire Générale, Institut pour l’Innovation et la Compétitivité i7, ESCP Europe et doctorante au centre de recherche et Gestion (CRG) de l’Ecole Polytechnique François Gerin, Directeur général adjoint, Siemens France François Grosse, Senior Vice-President Digital Services, Veolia Jakob Haesler, co-fondateur, Tinyclues (également auditionné par l’Observatoire) Frédéric Lefebvre-Naré, Consultant, Isée Pascal Lemoine, Directeur technique et de la recherche, FNTP Delphine Manceau, Professeur, ESCP Europe6 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Françoise Mercadal-Delasalles, Directrice des ressources et de l’innovation, Société Générale Jean-Yves Moreau, Directeur des relations gouvernementales et parlementaires, Sanofi France Michel Morvan, président et co-fondateur, The CoSMo Company (également auditionné par l’Observatoire) Jean Richard de la Tour, Directeur des études, de l’innovation et des affaires publiques, Carrefour (également auditionné par l’Observatoire) Martin Roulleaux-Dugage, Business transformation et Knowledge officer, Areva Bernard Salha, Directeur recherche et développement, EDF Jean-Christophe Saunière, Associé, PWC Vincent Schramm, Directeur général, Symop (également auditionné par l’Observatoire) Jérôme Weill, Associé, Oliver Wyman › Aux personnes auditionnées lors des séances de l’Observatoire : Philippe Berthier, Chef du département CRO, Innovation & Recherche, SNCF André Bouffioux, président-directeur général, Siemens Belgique-Luxemburg Eric Carreel, président fondateur de Withings, Sculpteo et Invoxia Gilles Grapinet, Directeur général adjoint en charge des fonctions globales, Atos Olivier Meunier, Directeur business development, Siemens Industry Olivier Siri, VP Head of system design, Cassidian (Groupe EADS) Claire Viguier-Petit, Directeur des opérations diabète, Sanofi France › Aux personnes auditionnées par les rapporteurs en dehors des séances de l’Observatoire : Alexandre Grux, Responsable de la recherche et de l’innovation, Kyriba Philippe Vappereau, Chairman d’Ixxi, filiale de la RATP L’Institut de l’entreprise remercie enfin, pour leur collaboration tout au long des travaux de l’Observatoire, François Gerin, Directeur général adjoint, Siemens France, Jérôme Weill et Reda Fettah, respectivement associé et analyste chez Oliver Wyman, ainsi que pour leur précieuse contribution Frédéric Allard, Robin Rivaton, Lauriane Contamin et Elise Schobel. Les opinions exprimées dans le présent rapport n’engagent ni les personnes citées, ni les institutions qu’elles représentent.www.institut-entreprise.fr 7 SYNTHESE Avec l’essor des réseaux Internet et Wi-Fi, des smartphones, des objets connectés et des réseaux sociaux, de plus en plus de données de formes variées sont générées. En parallèle, le développement d’outils de stockage et d’analyse – notamment le cloud computing – ainsi que de nouveaux outils de visualisation permettent la valorisation de ces données non structurées, variées et en très grande quantité : c’est un phénomène que l’on nomme le big data. Le volume croissant de données permet de s’abstraire des modèles prédéfinis et d’observer directement des corrélations entre données, qui peuvent ensuite être interprétées. De plus, de nouveaux outils permettent l’analyse simultanée de données nombreuses et variées, débouchant sur la microsegmentation des ensembles étudiés. La visualisation de tendances et de corrélations auparavant invisibles permet d’optimiser les prédictions, de détecter des variations et de prévoir l’impact d’une décision. Elle permet de tracer et cibler, via des outils de profiling, et par là d’améliorer des connaissances non plus statistiques mais individualisées. Cette microsegmentation permet aussi une gestion plus précise des risques et de la qualité. À l’échelle de l’entreprise, les applications du big data sont nombreuses pour optimiser la logistique, le marketing via la personnalisation, le développement et le suivi de produits plus proches des besoins des clients, la gestion et la qualité, ou encore les ressources humaines : le big data est donc source d’innovations dans tous les secteurs d’activité, mais aussi de performance et de productivité. Le big data représente indéniablement un marché : au sens large, il inclut tous les outils permettant le traitement des données (capteurs, espaces de stockage) ; de façon plus restrictive, il comprend les acteurs du cloud et les entreprises qui analysent les données. De nouveaux services peuvent aussi voir le jour, comme la revente de données. De plus, le big data peut accompagner de nouvelles démarches : l’open innovation, soit un mode d’innovation basé sur le partage et la coopération entre entreprises ; le yield management et l’automatisation de microdécisions ; de 8 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation nouvelles solutions pour le développement durable ; l’essor des smart objects et smart services ; ou encore l’utilisation de nouveaux outils pour la recherche. Toutefois, le big data a beau être vecteur d’opportunités, il demeure avant tout un outil technique au service d’objectifs préalablement déterminés. La valorisation des données est encore peu effective en France. Si de plus en plus de données sont stockées, elles ne sont pas toujours complètes, de qualité, accessibles facilement et rapidement, interopérables et exploitables par des outils informatiques. Peu de démarches sont mises en œuvre pour valoriser les données qui pourraient l’être. Cet état de fait peut s’expliquer par plusieurs limitations qui trouvent leur source dans les entreprises elles-mêmes : des difficultés de coordination entre les différents services de l’entreprise, impliquant souvent la coûteuse mise en place d’un département de data scientists ; la complexité de l’évaluation des bénéfices en terme de productivité et de croissance des stratégies liées au big data, face à des besoins d’investissements importants ; ou encore la mise à niveau des compétences en statistique, informatique et management pour nombre de cadres. Les craintes liées à la sécurité et à la confidentialité des données ainsi qu’à une exploitation abusive des données personnelles doivent aussi être prises en compte. Certains de ces enjeux demandent l’implication des pouvoirs publics, comme les risques pour la vie privée, la formation, l’établissement de normes et de standards, et enfin la prévention contre l’éventuelle utilisation à mauvais escient d’analyses prédictives. Si le soutien public à l’innovation par le big data est présent en France, par l’ouverture de données publiques et des aides financières aux start-up et PME, deux erreurs sont commises : celle de considérer le big data comme une filière propre, alors qu’au contraire il doit être développé dans tous les secteurs d’activité, et celle de ne concevoir ces politiques de soutien que selon une approche purement technologique, alors que ce sont les usages qui doivent servir de point de départ. Pour lever les obstacles au développement du big data, l’accentuation de la politique d’open data publique est en premier lieu nécessaire. Ensuite, des mesures devraient être prises par les pouvoirs publics pour repenser l’encadrement des risques et la protection de la vie privée. De nouvelles expertises et institutions de régulation pourraient voir ainsi le jour : les démarches big datawww.institut-entreprise.fr 9 seraient soumises à des audits d’algorithmes et le respect des données personnelles par les institutions ainsi que leur transparence à propos de leur sécurité pourraient être notés par des tiers certificateurs. Cette transparence accrue pourrait s’accompagner d’un droit à l’expérimentation, permettant de déroger aux règles actuelles en matière de protection des données personnelles, tandis que de nouveaux droits tels que le droit à l’oubli ou le droit au refus du profilage pourraient voir le jour. Face à l’explosion du nombre de données échangées et au partage par tout un chacun du même bien commun qu’est le web, des normes internationales deviennent de plus en plus nécessaires. Du côté des entreprises, le développement du big data sera possible par une meilleure prise de conscience des gains offerts par celui-ci et de l’avantage compétitif apporté par les démarches de valorisation des données. La formation d’un département de data scientists dans les entreprises, département responsable du big data qui aura à identifier les démarches utiles d’ouverture ou d’exploitation interne des données et à quantifier les bénéfices en termes d’innovation, de productivité et d’image, en est une étape essentielle. Condition de cet essor, la culture de la donnée devra être diffusée, aussi bien dans les entreprises que dans les administrations.10 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovationwww.institut-entreprise.fr 11 BIG DATA, DE QUOI PARLE-T-ON ? Avec l’avènement des ERP, du CRM, du web, des réseaux sociaux, mais aussi la diffusion des capteurs, des smartphones et autres objets connectés1, nous faisons face aujourd’hui à une explosion du nombre des données disponibles. Ces données prennent des formes variées, comme des mails, des photos, des vidéos, des fichiers, des commentaires sur les réseaux sociaux, des signaux GPS, des transactions bancaires… 90 % des données dans le monde ont été créées ces deux dernières années ! Cette surcharge d’informations ou « infobésité » est parfois difficile à gérer pour les organisations. Néanmoins, selon 75 % des responsables Études interrogés lors de la première édition du Big Data Index EMC/IDC (septembre 2012), « le big data pourrait contribuer à renforcer d’une manière ou d’une autre la capacité d’innovation de leur organisation ». 40 % indiquent que le big data rend possible de nouveaux modèles économiques basés sur la réactivité et l’interactivité en temps réel. Techniquement, nous vivons un véritable phénomène de rupture, que le McKinsey Global Institute va jusqu’à qualifier de « nouvelle frontière de l’innovation de la compétition et de la productivité ». « Avec les big data, les données d’une organisation deviennent stratégiques. C’est la découverte d’une mine d’or gigantesque dont les ressources étaient jusque-là insoupçonnées. » Gilles Grapinet, directeur général adjoint d’Atos2 1. D’après Intel, 31 milliards d’objets seront connectés à Internet en 2020. Dans les pays occidentaux, un cercle familial composé de quatre personnes possède aujourd’hui dix objets connectés en moyenne : ce sera vingt-cinq en 2017 et cinquante en 2022 (source : « Les objets connectés : la nouvelle génération d’Internet ? », bulletin électronique 341, ambassade de France aux États-Unis). 2 Entretien réalisé par l’Observatoire de l’innovation12 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Illustrations de la diversité du big data 1- Décider l’arrêt ou la poursuite de l’exploitation d’une plate-forme pétrolière est une décision stratégique qui peut être prise, grâce au big data, sur la base des caractéristiques géologiques de la zone étendue, des données météorologiques passées et à venir, des rendements réalisés et estimés, et des marqueurs sociologiques et politiques de la population locale. 2- Les responsables marketing peuvent se servir d’informations glanées sur les réseaux sociaux – via Facebook par exemple – pour faire des mailings finement ciblés, par exemple auprès de femmes asiatiques de moins de 50 ans pratiquant une activité sportive extérieure. 3- Les organismes de crédit peuvent coupler un système Hadoop avec un data warehouse et un système de détection de fraude pour assurer le suivi en temps réel des transactions. LES 4V DU BIG DATA Le big data est une démarche (un ensemble de technologies, d’architectures, d’outils et de procédures) consistant à collecter puis à traiter en temps réel, ou presque, des données à la fois très nombreuses et très hétérogènes. Le big data se définit autour des 4V suivants : • Volume : la masse de données en constante croissance (ex : plus de 2 000 petabytes en Europe) ; • Vitesse : la collecte, l’analyse et l’exploitation des données en temps réel (ex. : 50 millions de tweets et 247 milliards d’e-mails envoyés par jour ; 100 heures de vidéos postées chaque minute sur Youtube) ; • Variété : l’hétérogénéité des formats et des sources (people to people, people to machine, machine to machine) ; • Valeur : la valorisation financière des données 3. 3. À ce sujet, Viktor Mayer-Schönberger souligne bien la difficulté de quantifier la valeur d’une donnée dans son ouvrage big data, A Revolution That Will Transform How We Live, Work and Think. En effet, la valeur d’une donnée augmente au cours du temps et dépend des multiples utilisations qui en sont faites : elle ne se résume pas à la valeur ajoutée issue de sa première utilisation. Sa valeur peut aussi se déprécier au cours du temps, et dépend grandement de la véracité de l’information, parfois difficile à évaluer.www.institut-entreprise.fr 13 L’interprétation de ce large volume de données constitue le principal défi du big data. Car l’information générée peut être à la base d’une connaissance nouvelle entraînant des opportunités de développement d’activités. Mais les dimensions « interprétabilité », « pertinence » ou « véracité » des données collectées ne doivent pas pour autant être mises de côté. C’est l’augmentation du volume de données qui modifie profondément les analyses possibles. On évolue ainsi d’un modèle probabiliste confirmé par l’étude d’un nombre restreint de données vers un modèle dans lequel les données sont exhaustives. Partant des données, des corrélations sont observées puis éventuellement interprétées. De plus, grâce au développement des outils d’analyse, le traitement de ces données peut être qualitatif quand auparavant des approximations et des catégorisations étaient nécessaires : les ensembles étudiés peuvent donc être « microsegmentés ». DE NOUVELLES GÉNÉRATIONS DE DONNÉES ET DE TRAITEMENT De multiples évolutions techniques parallèles ont convergé depuis vingt ans et ainsi permis l’éclosion du big data. Selon Gilles Grapinet, directeur général adjoint d’Atos, quatre phénomènes permettent aujourd’hui de traiter de la donnée structurée et non structurée de façon industrielle : 1) Les technologies de stockage de grandes quantités de données permettent d’envisager des volumes de stockage qui étaient auparavant inconcevables et d’offrir des accès toujours plus rapides à la donnée, à un prix de plus en plus abordable4. 2) L’essor du cloud computing5 permet le passage à l’informatique sur demande (ou à la demande) et de dégager de nouvelles capacités de traitement. Au lieu de dimensionner les infrastructures pour les pics de stockage ou de traitement, les organisations peuvent désormais ajuster la taille et donc le coût de leurs infrastructures de calcul et de stockage au gré de l’évolution de leurs besoins. 3) La mobilité et l’ubiquité génèrent de plus en plus d’informations car les connexions sont quasi continues. En 2020, la connectivité du monde sera 4. Le prix d’un gigaoctet pour un disque dur est passé d’environ 16 dollars en 2000 à 0,06 dollar en 2013 (source : http://ns1758.ca/winch/winchest.html). 5. Le cloud computing permet d’accéder librement à des ressources informatiques partagées via un réseau de télécommunications.14 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation décuplée avec près de 8 milliards de smartphones et 50 milliards d’objets connectés. 4) Enfin, les réseaux sociaux fournissent une nouvelle source de données personnelles et communautaires, qui peuvent être utilisées à des fins économiques. Ces nouveaux types de données transforment les façons de traiter ces dernières. Auparavant, une donnée était créée pour un usage monodirectionnel avec une finalité unique, sans réutilisation possible. La nouvelle génération de « données en vrac » comprend de multiples sources de données (smartphones, comptes bancaires, passeports biométriques, titres de transport équipés de puces RFID, communications électroniques) qui sont utilisées par de multiples utilisateurs, potentiellement en même temps. De nouvelles techniques analytiques (pattern-based analysis ; développement du web sémantique), de nouvelles technologies de bases de données et de processing (essor des bases de données relationnelles et des outils de gestion des big data tels que Cassandra, Hadoop, GoogleFS, BigTable, Hive ou HBase), de nouvelles techniques de visualisation (par exemple le site Many Eyes d’IBM permettant de charger des jeux de données importants pour en tirer des visualisations innovantes) sont nécessaires pour exploiter commercialement ou non ces importants volumes de données. On accumule actuellement tous les dix-huit à vingt-quatre mois d’activité humaine presque autant de données que depuis les débuts de l’humanité. Si l’on imagine que cette croissance se stabilisera probablement un jour, le flux de déversement des données continue pour le moment de s’accélérer. Nous sommes dans une phase de stockage illimité de données, et ce sur des pé- riodes longues6 et sous tous les formats (image, son, conversation), afin de constituer un patrimoine informationnel. Les applications pour valoriser ce patrimoine restent encore majoritairement à inventer… 6. Si certaines données sont stockées sur de longues durées, ce n’est pas le cas de toutes. De plus, de nouveaux algorithmes en streaming permettent d’analyser les données à mesure qu’elles sont créées et ne nécessitent que très peu de mémoire (de l’ordre d’1 ko de mémoire vive).www.institut-entreprise.fr 15 Éléments de définition La définition du big data proposée est très ouverte, car le terme est de plus en plus largement utilisé. On pourrait cependant essayer de distinguer deux démarches du big data : d’une part, l’utilisation plus exhaustive et rapide, ou la valorisation plus systématique et transversale, de données existantes en améliorant et automatisant les outils analytiques et prédictifs ; d’autre part, l’utilisation de nouveaux outils d’analyse de gros volumes de données pour obtenir des informations autrefois impossibles à obtenir. De plus, il est important de comprendre le sens et l’implication en termes de big data des notions suivantes : Les « facilitateurs » du big data - L’Internet des objets décrit les interactions croissantes entre les objets de la vie courante et leurs représentations virtuelles, à l’origine via des étiquettes électroniques passives qui contiennent une information numérique relative à l’objet physique, et de plus en plus au moyen de capteurs qui connectent directement ces objets à l’Internet sans fil. Le développement de l’Internet des objets est notamment possible grâce aux puces RFID. - Le cloud computing, ou l’Internet en nuage, transforme les infrastructures de stockage et la puissance de calcul en services, par l’intermédiaire d’entreprises qui possèdent des serveurs et louent leurs capacités. Cette approche permet de mutualiser les besoins et d’accorder aux usagers une grande flexibilité de stockage et de rapidité de traitement de données. L’essor du cloud et l’émergence de nouveaux outils open source tels MapReduce ou Hadoop a permis le traitement de grands ensembles de données, sur plusieurs serveurs en parallèle. - Le data mining est un processus d’analyse informatique qui regroupe des méthodes d’intelligence artificielle, d’apprentissage automatique et de statistiques dans le but d’extraire des informations compréhensibles d’un ensemble de données. Le data mining traditionnel s’est développé et enrichi pour permettre l’analyse des nouvelles sources de données à l’ère du big data.16 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Un mouvement parallèle - Les données ouvertes, l’open data, sont des données dont la licence permet le libre partage et le réemploi. Pour que ce réemploi soit réel, elles doivent être interopérables et structurées. L’open data qualifie aussi le fait de rendre accessibles et réutilisables les données produites et détenues par des institutions, dans un objectif de transparence ou de création de valeur. C’est déjà le cas des données publiques dans le cadre de l’initiative Etalab et de la directive européenne 2003/98/CE, une nouvelle version étant actuellement discutée par l’Union européenne pour adapter l’accès aux données publiques aux évolutions récentes. Parmi les données concernées par le mouvement de l’open data, certaines ne représentent pas des volumes suffisants pour nécessiter un traitement statistique complexe et être qualifiées de big data à proprement dit, mais leur diffusion et leur exploitation sont rendues possibles par les nouveaux outils de visualisation développés face à l’augmentation du nombre de données. Vice versa, les big data ont tout à gagner à une large diffusion des données, notamment publiques. Les deux mouvements sont donc liés.www.institut-entreprise.fr 17 BIG DATA, LEVIER D’INNOVATIONS Les applications du big data sont nombreuses et constituent un facteur de renforcement de la capacité d’innovation des organisations, en jouant sur les deux dynamiques que sont l’exploration et l’exploitation. En tirant parti de données jusqu’ici non disponibles, la démarche big data rend possible le lancement de nouveaux produits et services, de nouveaux processus, et même de nouveaux modèles économiques. On parle de dynamique d’exploration ou encore de développement greenfield. Mais les big data peuvent également apporter des réponses à des défis business non résolus jusque-là permettant d’offrir des solutions d’amélioration et d’optimisation de l’activité traditionnelle de l’entreprise. On parle alors de dynamique d’exploitation ou de développement brownfield. LES NOUVEAUX USAGES STIMULÉS PAR LES BIG DATA Qu’ils permettent d’exploiter plus, mieux ou plus vite les activités existantes ou de générer de nouvelles opportunités de développement d’activité, les big data se révèlent un facteur clé d’innovation pour les petites comme pour les grandes entreprises de tous secteurs. Le big data permet de passer d’une analyse partielle à une économie prédictive. L’analyse actuelle des données, en mode réactif aux événements passés sur la base de lois statistiques à partir d’échantillons limités, offre aujourd’hui une représentation tronquée de la réalité. Il est désormais possible d’évoluer vers un modèle prédictif, fondé sur une analyse exhaustive des informations de différentes sources, afin de trouver des relations permettant de prédire un événement futur. Gilles Grapinet illustre ce propos en expliquant que la révision obligatoire des 15 000 kilomètres pourrait ne plus être utile dans un monde big data où chaque voiture pourrait être automatiquement rappelée au garage dès qu’elle en présenterait le besoin.18 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation • Détecter et optimiser : le croisement en temps réel d’un grand nombre de données diversifiées autorise une meilleure connaissance des activités, de l’environnement et de l’écosystème d’affaires. Un contrôle accru est alors possible, permettant une meilleure aide au pilotage et à la prise de décision. Exemple : la société danoise Vestas Wind Systems, parmi les plus importants fabricants de turbines d’éoliennes au monde, utilise les solutions IBM big data analytics et IBM Systems pour décider de la localisation des éoliennes en croisant en quelques heures (vs quelques semaines) des données variées telles que des données météorologiques et géospatiales, les phases de la lune et de la marée, des cartes de déforestation et des images satellites. L’emplacement des éoliennes est un enjeu crucial pour optimiser la production d’énergie. Si les compagnies d’électricité installent les éoliennes à des endroits mal adaptés (pas assez ou trop de vent), elles risquent de ne pas produire assez d’électricité pour justifier les investissements dans l’énergie éolienne. Vestas espère ainsi conquérir de nouveaux marchés en accélérant la diffusion de l’énergie éolienne au niveau international. Exemple : l’Ingestible Event Marker est une nouvelle technologie, conçue par la société Proteus Digital Health et approuvée par la FDA en juillet 2012, qui permet d’insérer un capteur miniaturisé dans une gélule devenant alors une « smart pill ». Un message d’alerte en cas de non-respect de la prescription (délai ou dosage) peut ainsi être transmis à un récepteur externe, lorsqu’il est activé par les sucs gastriques, rendant possible un suivi et un contrôle en temps réel de la prise de médicaments. • Tracer et cibler : les big data permettent d’analyser la situation et le contexte de milliers de personnes en temps réel, favorisant ainsi une meilleure compréhension des réactions du marché et la proposition de messages et d’offres personnalisés. Exemple : de nombreux véhicules possèdent aujourd’hui des systèmes GPS et télématiques qui permettent aux constructeurs automobiles de collecter et monétiser une multitude de données sur les habitudes de conduite de www.institut-entreprise.fr 19 leurs clients. En 2007, le système télématique OnStar de General Motors Corporation et GMAC Insurance se sont associés pour créer une nouvelle offre se servant des données télémétriques afin de proposer des primes d’assurance aux clients qui roulent moins. Aujourd’hui, la tarification classique des assurances impose en effet le même prix à tous les clients, qu’ils conduisent bien ou mal, peu ou beaucoup… Ou, au contraire, discrimine des franges entières de population en fonction de l’âge (ex. : premium de plus de 50 % pour les plus jeunes conducteurs) ou du sexe par exemple, sans faire de détails à l’intérieur de ces groupes. La personnalisation de la prime d’assurance constitue une source de satisfaction client accrue et une innovation disruptive, d’autant qu’elle intervient sur un marché de reconduction. Exemple : comment utiliser les big data dans un aéroport ? D’un côté, les passagers doivent obligatoirement passer un certain nombre de checkings de sécurité (ce qui génère du stress, des temps d’attente) ; de l’autre côté, ils peuvent flâner dans les boutiques et autres restaurants occupant l’espace. Une application de géolocalisation dans l’aéroport pourrait offrir aux passagers, en retour de leurs données émises, un guide interactif du lieu, des informations sur les temps d’attente aux différents postes de sécurité, sur les horaires des vols et portes d’embarquement. L’aérogare serait alors en mesure de communiquer en temps réel avec des milliers d’individus, de diminuer le niveau de stress des passagers en leur permettant de mieux gérer leur temps et probablement par conséquent de les amener à consommer plus (on pourrait même parler « d’attente intelligente »). Les services présents dans l’enceinte de l’aéroport pourraient également avoir l’opportunité, via cette application, de « hooker » ces clients « captifs » avec des coupons promotionnels customisés en fonction de leur position dans l’aéroport, de leur situation de voyage et de leurs préférences. • Prévoir et prédire : l’analyse prédictive permet de faire des projections ultraréalistes pour identifier des nouvelles sources d’opportunités (ou des menaces) et ainsi anticiper les réponses adaptées à la situation réelle. Exemple : Flu Trends est un modèle de Google qui permet d’estimer la propagation des cas réels de grippe en fonction des recherches sur Internet 20 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation faites autour de ce mot – prenant en compte le fait que tous les internautes qui tapent « grippe » sur leur clavier ne sont pas nécessairement malades. Au final, l’évaluation que fournit Google en temps réel sur la propagation de la maladie est étonnamment précise (cf. article publié dans la fameuse revue scientifique Nature) et souvent plus rapide que les réseaux de veille sanitaire. Les estimations du niveau d’activité grippale permettent d’évaluer l’ampleur de l’épidémie et de commencer à prendre les mesures qui s’imposent le cas échéant. Dans le même esprit, les Nations unies ont développé un programme anticipant les épidémies et les retournements de conjoncture économique à travers des mots-clés échangés sur Twitter. La démarche big data ouvre de nouveaux champs du possible en établissant des relations entre des ensembles de données hétérogènes pour trouver des informations pertinentes et être proactif, dans tous les secteurs d’activité. À ce titre, les gagnants sont les médias, l’électronique grand public, les services financiers et les administrations, et ensuite la distribution, le tourisme et le transport, les utilities et les acteurs du système de santé. La capacité d’un secteur à exploiter les big data varie en fonction des contextes culturels, réglementaires ou de compétences. En la matière, les services financiers, la distribution, le tourisme et le transport semblent plus en avance que le secteur public, l’énergie ou la santé. Exemple : dans la grande distribution, la géolocalisation en magasin ou la reconnaissance faciale dans des vidéos peuvent permettre à un distributeur d’analyser les parcours clients ou encore le temps passé dans chaque rayon et simuler en conséquence différentes options de merchandising. Exemple : dans la banque/assurance, l’analyse des flux de transactions peut permettre de détecter en temps réel des événements aberrants et de dé- clencher automatiquement des décisions telles que le blocage d’une carte de crédit, par exemple, en cas de suspicion de fraude bancaire. Exemple : dans le secteur de la santé, l’analyse prédictive permet de repérer des schémas récurrents de certaines maladies et d’accélérer la prise en charge des patients concernés, même si ces derniers ne sont pas en me-www.institut-entreprise.fr 21 sure de décrire leurs symptômes, ou encore de fluidifier le parcours d’hospitalisation des patients en améliorant l’échange d’informations et la coordination entre les différents services (entre les ambulanciers, les urgentistes, le médecin traitant, le chirurgien, la sécurité sociale). Les voies du big data à la SNCF Avec plus de 10 millions de clients par jour, la SNCF évolue de fait dans un univers de big data ; c’est pourquoi cette thématique a été naturellement identifiée comme l’un des axes majeurs de l’innovation au sein du groupe. Le soutien du top management est un des facteurs clés de succès de la démarche, avec des projets portés aujourd’hui par les hauts responsables de différentes entités comme SNCF Transilien ou SNCF Voyages. Les exemples d’application du big data au sein de la SNCF sont nombreux et concernent notamment : * La maintenance curative et préventive des caténaires, des 52 800 km de voies et de la signalisation à partir des données collectées par des capteurs ou des systèmes de mesure embarqués. Ainsi, aux trains métrologiques, qui scrutaient les voies à intervalles réguliers, vont se substituer progressivement l’ensemble des trains commerciaux, équipés de capteurs, permettant d’établir des points de comparaison dans le temps, entre lignes ou composants, grâce à des traitements statistiques massifs. * L’efficacité énergétique. La SNCF est le premier consommateur français d’énergie, depuis que les industries du nucléaire ont baissé leur consommation en améliorant les techniques de centrifugation. La SNCF utilise aujourd’hui les compteurs qui équipent les trains, et qui doivent être géné- ralisés7 , pour établir la facturation de sa consommation énergétique. À l’avenir, ces mêmes compteurs pourraient être utilisés pour optimiser sa 7. La SNCF prévoit ainsi d’équiper toute sa flotte de compteurs embarqués qui vont brasser une quantité de données gigantesque.22 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation consommation, sa facture et son bilan carbone, trois enjeux aujourd’hui parfois divergents. * La régulation des flux de voyageurs. Le recours aux big data relève ici de l’aide décisionnelle, avec un comptage des voyageurs entrant et sortant à chaque arrêt commercial qui permet de mesurer en temps réel la charge des trains et la répartition des voyageurs. À l’avenir, on pourrait imaginer des applications mobiles permettant aux voyageurs de calculer la ponctualité de leur train ou de les orienter vers les voitures les moins remplies dans les rames. * La personnalisation de la relation client et un meilleur ciblage marketing, à travers l’analyse du trafic sur le site voyages-sncf.com, premier site de e-commerce en France avec 11 millions de visiteurs uniques (le e-commerce représente aujourd’hui 10 % du chiffre d’affaires du groupe). L’analyse fine de ses clients va amener la SNCF à proposer de nouvelles offres personnalisées, en se positionnant comme intégrateur global de la mobilité face aux défis de l’intermodalité. Des applications SNCF sur smartphone ou Internet, comme Mytripset, permettent déjà d’organiser ses voyages en Europe en train, en avion ou en voiture. Les obstacles au déploiement du big data sont de plusieurs ordres, actuellement, au sein de la SNCF : a) internes (liés à la complexité de l’organisation ou à la culture du groupe) ; b) externes (rôle de la réglementation et des autorités régulatrices, rôle de l’État actionnaire) ; ou c) liés aux limites mêmes du phénomène big data. a) La SNCF est un groupe de mobilité organisé autour de trois grands métiers : le transport de voyageurs, le transport de marchandises et les infrastructures. Ces trois segments impliquent des périmètres de données différents, qu’il n’est pas toujours évident de faire dialoguer. « Ce sont d’énormes chantiers pour faire se parler les DSI, créer les passerelles », explique Éric Conti, directeur de l’innovation et de la recherche de la SNCF. De plus, il importe de souligner les contraintes liées à l’interopérabilité et à la compatibilité des systèmes de production de données entre les diffé- rentes zones géographiques sur lesquelles opère la SNCF : « Quand le train passe de France en Belgique, ce n’est pas la même chose. Eurostar porte sept systèmes de signalisation à bord ! » « La » donnée est donc souvent www.institut-entreprise.fr 23 complexe, même si tout l’enjeu de la démarche big data est bien de prendre des données hétérogènes et de les amalgamer. Le premier enjeu du big data à la SNCF relève donc de la structuration des données et de « la construction d’une culture collective de la donnée ». Cette construction implique « un vrai changement culturel pour que la prise de conscience de la donnée s’infiltre dans l’entreprise ». Aujourd’hui, en effet, « la donnée est souvent un consommable, voire un jetable quand elle est acquise par des moyens non informatiques ». Au-delà des techniques, il faut user de pédagogie pour faire naître auprès des salariés la prise de conscience que la donnée est une richesse. Une autre transformation à mener est liée à la mise en œuvre de compétences (en termes d’analyse statistique, de data visualisation, d’optimisation) qui ne sont pas toujours disponibles en interne, ou alors en quantité insuffisante ; au-delà des réponses en termes de politique de recrutement, cette difficulté est aujourd’hui en partie levée grâce aux partenariats noués par le groupe auprès des start-up, notamment au travers du Camping, l’incubateur de Silicon Sentier. b) À ces transformations nécessaires en interne s’ajoute la complexité du paysage institutionnel. Ce dernier n’est pas encore complètement dessiné car le processus de libéralisation du rail est en cours au niveau européen. De plus, il existe une multiplicité d’acteurs dans le domaine du transport qui ne permet pas toujours d’avoir une relation directe avec le client. Dans certains cas, l’autorité régulatrice peut être propriétaire de la donnée (ex. : Stif). La stratégie actuelle de la SNCF consiste justement à devenir « un industriel des services B2C ». « Nous ne maîtrisons pas toute la chaîne des services, il faut des montages institutionnels très variés. Sncf.com fait du B2C, mais face au Stif nous sommes en B2B. Comment avoir une même politique de la donnée ? », s’interroge Éric Conti. Par ailleurs, la spécificité du statut de la SNCF – un Epic, établissement public à vocation industrielle et commerciale – induit un positionnement ambigu vis-à-vis de l’exploitation des données. Ainsi, en matière d’open data, la dimension « établissement public », qui renvoie à des missions d’intérêt général, incite à l’ouverture des données, tandis que la dimension « à vocation industrielle et commerciale » renvoie davantage au secret des affaires, et donc à une moindre transparence. La réglementation peut également se révéler être un obstacle à la mise en œuvre d’une démarche big data. L’usage de la vidéosurveillance, dans les gares notamment, pourrait être élargi au-delà des questions liées à la sécu-24 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation rité des voyageurs. La vidéo est en effet une source très riche de data, et les caméras pourraient être utilisées pour compter et réguler les flux de passagers. Un tel usage se heurte toutefois aux limites de la réglementation actuelle en matière de conservation des images. c) Il convient également de noter certaines limites propres au big data. Ces limites sont de deux ordres. La démarche big data est souvent associée au développement des analyses prédictives et en temps réel. Ces dernières ont de nombreuses retombées bénéfiques, par exemple sur le réseau Transilien, où des décisions à prendre sur l’affectation des trains ou des circulations doivent l’être en moins d’une minute. Toutefois, dans certains cas, elles peuvent se révéler contre-productives si elles ne correspondent pas à un besoin réel des consommateurs. Ainsi, dans le domaine de l’information voyageur, l’actualisation trop fréquente des données peut être une source de stress pour les clients. Le big data ne doit donc pas être perçu seulement comme une technique qui devrait être poursuivie pour elle-même, mais comme un outil qui trouve sa valeur auprès des usages qui peuvent en découler. Les nouvelles offres permises par le big data viennent compléter une offre de service préalable, plus qu’elles ne viennent s’ajouter à cette dernière. La mobilité est d’abord physique et il est difficile de séparer la question du transport physique du service immatériel offert au client. Autrement dit, l’offre nouvelle qui pourrait naître du big data suppose que l’offre de base – celle du transport physique – soit correctement remplie. « À chaque fois qu’on a voulu offrir de nouveaux services, dès lors que le service de base n’était pas assuré, cela a été un échec », plaide Éric Conti. L’utilisation du crowdsourcing dans la maintenance des équipements a pu ainsi connaître quelques ratés dès lors que l’organisation physique pour tenir compte des alertes clients – soit réparer dans des délais très courts les dysfonctionnements signalés – était sousdimensionnée. La SNCF reste également vigilante à ce que ce potentiel d’automatisation des processus et des décisions n’aboutissent pas à de « nouveaux services déshumanisés, sans personne pour dialoguer en face ». En conclusion, la SNCF produit aujourd’hui un volume important de données ; l’exploitation de ces dernières avec des nouvelles données exogènes (météo, événementiel, etc.) constitue un gisement important d’accroisse-www.institut-entreprise.fr 25 ment de ses performances techniques et services. Le dilemme pour l’entreprise est de parvenir à concilier cette exploitation avec la réalité du ROI pour allouer au mieux ses investissements. Le big data et l’automobile Les voitures sont de plus en plus équipées de capteurs et de logiciels embarqués, qui leur permettent d’analyser leur environnement et d’agir en conséquence. Certaines voitures possèdent déjà des technologies qui permettent une conduite partiellement autonome, comme une option pour se garer automatiquement, ou une assistance aux embouteillages pour maintenir la distance nécessaire vis-à-vis des autres véhicules. La voiture se personnalise en intégrant et utilisant les données, devenant connectée, voire sans conducteur. Ces services personnalisés sont un nouveau moyen de fidéliser les clients, qui prend de l’ampleur par rapport au produit en lui-même. La voiture connectée Celle-ci repose sur un échange de données issues des capteurs présents dans le véhicule avec l’extérieur. Selon les chiffres d’ABI Research, 80 % des véhicules qui seront produits et commercialisés en Europe et aux ÉtatsUnis en 2017 seront connectés. Les interfaces homme-voiture, à l’origine les GPS et les smartphones, offrent déjà de plus en plus de services en lien avec les données collectées par ces capteurs. Ensuite, de nouveaux services exploitent les données issues des capteurs et les croisent avec d’autres sources : services de guidage qui allient le GPS avec la connaissance du trafic et les positions des parkings ou stations-service ; suivi de l’usure des pièces et télédiagnostic en cas de panne, autorégulation de la circulation. Le regroupement d’une multitude de données sur les habitudes de conduite des clients peut aussi être monétisé par les fabricants : si le système télé- matique OnStar de General Motors Corporation, par exemple, propose des 26 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation services de sécurité, d’information et de diagnostic des véhicules aux automobilistes, il recueille également des données télémétriques. En 2007, OnStar et GMAC Insurance se sont associés pour créer une nouvelle offre qui se sert de ces données afin de proposer des primes d’assurance aux clients qui roulent moins que les autres : c’est le concept du « pay as you drive ». Pour répondre aux défis du big data, le Car Connectivity Consortium (CCC) regroupe plusieurs constructeurs dont PSA, BMW et General Motors, des équipementiers et des acteurs des technologies informatiques comme Samsung ou Nokia. Il a notamment lancé le projet Genivi, qui développe un socle commun pour les services d’information ou de divertissements dans les véhicules, en mutualisant les efforts dans le développement des logiciels enfouis et la standardisation des équipements. Les développements issus de ce projet sont sous licence open source. Genivi a aussi développé Mirrorlink, un standard commun permettant de reporter, via un raccord USB ou par Bluetooth, le contenu du smartphone sur l’écran de bord. La voiture sans conducteur Si des esquisses de voiture autonome ont existé depuis environ trente ans, comme le projet Eureka Prometheus de l’Union européenne, les nouveaux outils de collecte et de traitement des données permettent leur concrétisation. Ainsi, la Google Car, entièrement autonome, est testée depuis 2010 sur des routes américaines. Le logiciel qui permet sa conduite a été perfectionné par des outils d’apprentissage automatique, grâce aux données récoltées lors des centaines de milliers de kilomètres de test. De nombreux constructeurs dont Volvo, BMW, Daimler, Tesla Motors et Nissan soutiennent des projets de R&D sur les voitures autonomes. À terme, selon l’organisme américain de sécurité routière, les voitures autonomes permettraient d’éviter 80 % des accidents. En théorie, la voiture autonome n’a pas besoin d’être connectée à Internet : Mitsuhiko Yamashita, responsable en R&D chez Nissan, a expliqué que Nissan ne s’appuie quasiment pas sur les infrastructures (capteurs extérieurs et Internet) et que toute la technologie se trouve dans le véhicule. Cependant, une connexion Internet pourrait être utile pour obtenir des informations complémentaires, par exemple lorsque le relief ou la route sont masqués par la neige.www.institut-entreprise.fr 27 SOURCE D’INNOVATIONS ORGANISATIONNELLES La démarche big data met la donnée au cœur des activités des organisations, au-delà des fonctions informatiques ou statistiques. Les trois domaines privilé- giés des initiatives big data sont l’analyse financière (58 %), la connaissance client (53 %) et l’identification de tendances à long terme (prévisions) (47 %), selon le big data Index EMC/IDC. Cette démarche transversale que sont les big data n’est pas l’apanage d’une direction en particulier. Source : VINT big data research report Les implications big data pour les fonctions logistique et marketing apparaissent de façon assez évidente. La collecte et l’exploitation d’informations sur des produits connectés ou les comportements des consommateurs permettent d’améliorer le fonctionnement opérationnel de l’entreprise et de prévoir l’évolution des marché. Les prévisions temporelles des ventes croisées avec les données de stocks permettent de calculer précisément les besoins en réapprovisionnement et d’en optimiser la logistique. Le développement de nouveaux produits et services et leur adaptation au plus près des attentes et des usages sont facilités par l’apparition de microsegmentations. Combinées à la mobilité, les big data réinventent l’interaction avec l’utilisateur, cherchant à délivrer le bon service, à la bonne personne, au bon endroit et dans le bon timing.28 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Exemple : Lokad, start-up française éditrice de logiciels, a développé des algorithmes qui aident les distributeurs à optimiser quotidiennement leurs niveaux de stock en analysant les tickets de caisse et en se basant sur l’historique des ventes. Trouver le juste niveau de stock (ni trop, ni trop peu) permet aux clients d’optimiser leur marge. En adoptant les solutions Microsoft telles que la plate-forme Azure, Lokad a démultiplié ses capacités de stockage et de prévision statistique. « Nous comptons sortir cent fois plus de prévisions et atteindre les 100 millions de prévisions à l’heure », explique le fondateur de l’entreprise Joannès Vermorel. La précision des corrélations statistiques permet aujourd’hui à Lokad de détecter la saisonnalité d’un produit en vente depuis moins de trois mois. La société a ainsi pu diversifier son portefeuille de clients en s’adressant à de petites sociétés et à des ecommerçants caractérisés par de petits stocks à faible rotation, grâce à la technologie de « prévisions quantiles ». Lokad envisage désormais de s’attaquer à des marchés non traditionnels, comme celui de la gestion de projets de construction, qui pourraient bénéficier de son expertise d’optimisation des prévisions. Exemple : créée en 2010 par David Bessis et Jakob Haesler, Tinyclues pratique le « profiling prédictif » au sein de bases de données fournies par ses clients, e-commerçants ou médias digitaux, pour comprendre le profil et les préférences du consommateur à partir de « signaux faibles » (identité, adresse e-mail, mots-clés tapés et pages Internet consultées) et être ainsi en mesure de lui recommander des produits en ligne avec ses précédents comportements d’achat et ses envies actuelles. Le modèle économique de Tinyclues repose sur une logique d’abonnement mensuel basée sur le volume de la base de données traitée. L’ambition de cette start-up française serait d’égaler les performances de son aînée Criteo, moteur prédictif en temps réel lancé en 2005 pour analyser et prévoir les comportements des consommateurs et aujourd’hui leader mondial de la publicité en ligne. La stratégie de conquête des nouveaux marchés de ce spécialiste du retargeting, ou reciblage publicitaire basé sur un algorithme de recommandation, est confirmée par une récente étude qui affirme que 20 % des internautes cliquent sur les bannières publicitaires ciblées.www.institut-entreprise.fr 29 La gestion des risques et de la qualité est également plus fine. Les capacités de réaction en cas de pannes, d’incidents, de pics, de pandémies… peuvent alors être raccourcies et affûtées. D’autres fonctions, comme les ressources humaines, peuvent être favorablement impactées par l’essor du big data, via l’optimisation du recrutement, grâce à la lecture sémantique des CV par exemple. Exemple : PredPol (predictive policing) est un algorithme conçu pour prédire où et quand des délits ont le plus de probabilités de se produire. Grâce à une base de données recensant les infractions passées, les forces de police peuvent, comme dans le film de science-fiction de Steven Spielberg Minority Report (2002), se rendre sur les lieux avant même que les actions soient commises. Utilisé également pour prévenir les catastrophes naturelles comme les séismes, ce type d’analyse est une nouvelle façon de hiérarchiser les priorités et d’allouer les ressources humaines et financières. Exemple : Evolv, un spécialiste du recrutement et de l’optimisation des performances des employés, a récemment réalisé une enquête auprès de 20 000 employés. Sa principale conclusion : il n’existe aucune corrélation sérieuse entre la réussite d’un candidat dans le travail qui lui est proposé et l’expé- rience accumulée par ce même candidat dans les postes qu’il a occupés précédemment. Et inversement, ce n’est pas parce qu’un candidat a été inscrit au chômage pendant une période relativement longue (plus de six mois) qu’il ne sera pas capable de répondre aux attentes de son futur employeur. Evolv affirme en conséquence que les anciennes méthodes de recrutement sont dépassées. L’analyse de certaines interactions (ex. : les employés entretenant des relations avec au moins trois collègues restent plus longtemps dans leur entreprise que ceux qui n’y ont pas d’amis) ou de certaines pratiques dans les réseaux sociaux (ex. : un employé actif sur les réseaux sociaux est plus enclin à rester fidèle à son entreprise et donc à y rester longtemps) serait plus performante que l’étude du parcours du candidat. L’entreprise enjoint donc les recruteurs à s’intéresser aux nouvelles technologies analytiques pour améliorer l’efficacité de leurs employés et de leur recrutement. Selon cette même étude, l’utilisation des techniques analytiques et l’exploitation du big data renforceraient la relation de confiance entre employeurs et employés : la fidélité des employés recrutés via l’analytique augmenterait de 35 % et leur performance grimperait de 30 %.30 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation « MagicBands », les bracelets Disney source de big data Depuis le printemps 2013, les parcs d’attractions et hôtels Disney équipent leurs clients de bracelets, les « MagicBands ». Ceux-ci sont munis de puces RFID et servent à la fois de tickets tout-en-un, de moyen de paiement sur place et de clé pour ouvrir sa chambre dans un Disney Resort. La RFID (radio frequency identification) est une technologie qui transfère à distance les données contenues dans une étiquette ou une puce émettant des ondes radio. Elle permet donc d’identifier et de suivre les objets équipés de ce système. Longtemps utilisée comme simple outil de suivi des inventaires, la RFID est aujourd’hui plus largement utilisée et équipe désormais les passeports, les badges d’entreprises et, depuis peu, les « MagicBands » de Disney. Dans ce dernier cas, la puce RFID peut contenir des informations sur le porteur du bracelet, comme son identité, ses préférences de consommation ou ses coordonnées bancaires. Ces bracelets nouvelle génération font partie d’une initiative plus large de Disney appelée « MyMagic+ » – développée depuis février 2011 – qui vise à rendre l’expérience consommateur plus interactive et personnalisée. L’investissement consenti est évalué entre 800 millions et 1 milliard de dollars – avec l’espoir qu’un client plus satisfait dépensera davantage… Thomas O. Staggs, président de Disney Parks and Resorts, explique : « We continually push the boundaries of creativity and innovation to deliver the best possible experience for our guests. […] Over the past few years, we’ve devoted considerable time and resources to create a more immersive, more seamless and more personal experience for each and every guest who spends time with us. » « MyMagic+ » rassemble : - « My Disney Experience », qui permet de planifier en avance ses vacances et qui se décline sous forme d’application mobile et de site Internet ; - « Fastpass+ », qui permet de choisir trois coupe-files dans les attractions de son choix ou de réserver des places VIP pour certains événements. En cas d’hésitation, le programme peut utiliser les données entrées par l’utilisateur pour lui faire des recommandations ;www.institut-entreprise.fr 31 - Le « MagicBand », permettant aux utilisateurs de payer ou de participer à des attractions sur simple présentation de leur bracelet, mais aussi à l’équipe Disney de suivre leur temps d’attente aux attractions et leurs consommations en temps réel au sein du parc. Ce bracelet sert également de clé d’hôtel, permettant ainsi une meilleure continuité des services entre les différents univers. Avec près de 42 millions de visiteurs dans ses parcs d’attractions en 2012, Disney a accès à un immense flux de données. Ces données portent sur l’identité des visiteurs, leurs parcours dans le parc, leurs achats et préfé- rences (via les coupe-files choisis par exemple). Ces informations sont collectées à partir de leur bracelet et via le site Internet et l’application « My Disney Experience ». Ces données seront utilisées par exemple pour faire face à des problèmes structurels de Disney comme des temps d’attente trop longs dans le parc pour les clients ou une difficulté pour Disney à allouer efficacement ses employés. Jusqu’ici les visiteurs entraient dans le parc sur présentation de tickets papier et circulaient ensuite librement dans le parc. Des kiosques vendaient des coupe-files sur place mais, pris d’assaut, ils étaient rapidement à court. Les temps d’attente pour la plupart des visiteurs se révélaient alors interminables. En traçant les parcours des visiteurs, Disney pourra être à même de réduire les pics d’affluence et d’améliorer la fluidité dans ses parcs en proposant par exemple à un client qui a réalisé la plupart des montagnes russes d’aller en faire une nouvelle car, à cette heure, le temps d’attente est inférieur à celui de l’attraction pour laquelle il patiente présentement. De même, le « Fastpass+ » et « My Disney Experience » proposent aux visiteurs de planifier davantage leur séjour en réservant à l’avance le bracelet, un dîner ou encore des coupe-files. Une fois sur place, les visiteurs peuvent encore utiliser l’application sur leur smartphone pour changer leur plan, se diriger dans le parc et recevoir des alertes sur la programmation (heure et lieu de passage des parades) ou les temps d’attente. En couplant ces données avec l’analyse du nombre de visiteurs par heure, Disney tentera ainsi d’optimiser l’allocation et le planning de ses employés. Mais, au-delà de l’optimisation de la gestion des ressources humaines et du temps d’attente, cette initiative offre de nouvelles perspectives au groupe. 32 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Ce dernier pourra offrir une expérience plus interactive à ses clients. Les personnages de Disney parcourant le parc seront à même, grâce aux données contenues dans les bracelets, de saluer les enfants par leurs prénoms en les croisant ou de leur souhaiter un joyeux anniversaire le cas échéant. Ces informations sont également un atout précieux pour le lancement d’opérations efficaces de marketing direct. Par exemple, si l’heure du déjeuner approche et que le temps se couvre, le visiteur recevra un coupon de réduction pour le restaurant le plus proche sur son smartphone. Une utilisation intelligente de ces big data générerait donc des revenus additionnels et une meilleure fidélisation des clients. Néanmoins, Disney doit faire face à des défis afin de faciliter l’adoption de ces nouveaux services, notamment l’acquisition de nouvelles compétences en interne, la sécurisation des données et la gestion des réticences des consommateurs désireux de protéger leur vie privée. Une formation sera dispensée à près de 60 000 employés. Le port du bracelet ne sera pas obligatoire et les visiteurs pourront choisir le niveau d’informations qu’ils souhaitent révéler. Les informations transmises à Disney par le bracelet seront sources de contre-valeur pour les clients. Par exemple, les visiteurs qui accepteront de communiquer leur numéro pourront recevoir des coupons de réduction sur leur smartphone. BIG DATA, FACTEUR CLÉ DE PERFORMANCE Dans une étude publiée en 2011, le McKinsey Global Institute démontre que les big data induisent des gains substantiels dans de nombreux secteurs d’activité. Le temps de développement pourrait être réduit de 25 % dans l’industrie du fait d’une meilleure productivité au niveau du design, de la production et de la distribution. Dans le retail, les revendeurs seraient plus en phase avec les goûts des consommateurs ; ils optimiseraient leurs stocks et pourraient accroître leurs marges nettes de 60 %. Dans le secteur public, ces techniques d’analyse des données fluidifieraient les processus administratifs, avec, à la clé, une baisse des coûts de 15 à 20 %, soit de 150 à 300 milliards d’euros rien qu’en Europe... Les big data devraient créer d’ici 2015, 4,4 millions d’em-www.institut-entreprise.fr 33 plois dans le monde et 1,9 million d’emplois dans le secteur informatique aux États-Unis, selon la société Gartner8. En comptant les emplois indirects géné- rés, ce sont même près de 6 millions d’emplois qui pourraient être générés à cet horizon pour les seuls États-Unis. Les big data sont susceptibles d’accroître la performance globale des organisations car ils permettent de : • Réduire les délais et les coûts grâce à des prévisions ajustées. • Améliorer la satisfaction client grâce à un feed-back continu sur les produits et l’état des relations client, à des communications marketing personnalisées et à une optimisation des offres commerciales. • Gérer mieux les risques en les détectant plus tôt et en ayant plus d’informations pour y remédier de façon adaptée. • Accélérer le développement de produits, services et processus innovants en renforçant les processus de décision. 8. « Gartner Says Big Bata Creates Big Jobs : 4.4 Million IT Jobs Globally to Support Big Bata By 2015 » (http://www.gartner.com/newsroom/id/2207915).34 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Big data et productivité Deux chercheurs du Massachusetts Institute of Technology (Sloan Business School), Erik Brynjolfsson et Heekyung Kim, en partenariat avec Lorin Hitt, chercheur à l’université de Pennsylvanie (Wharton Business School), ont publié une étude menée auprès de 179 entreprises cotées. L’étude montre que les organisations qui s’appuient sur l’analyse des données pour développer leur stratégie augmentent leurs niveaux de productivité de 5 à 6 %9. Une étude de l’université du Texas portant sur 150 entreprises de la liste « Fortune 1 000 » tente d’étudier les gains de performance financière, opérationnelle et commerciale qui peuvent être suscités par des investissements dans les données, donc dans l’amélioration de leur qualité. Les résultats montrent qu’une bonne utilisation des données favorise la productivité dans trois cas : - L’amélioration du caractère utilisable des données de 10 % permet des gains de productivité des employés : par exemple 15 % de ventes supplé- mentaires. - L’amélioration de la mobilité des données de 10 % entraîne une augmentation du ROIC (Return on Invested Capital) de 1,4 %, et une augmentation de la productivité des actifs de 7,28 % via une meilleure gestion et utilisation de ces actifs. - L’amélioration de l’intelligence des données de 10 % génère une augmentation de 18,5 % dans la précision des prévisions et de la programmation. Si l’accessibilité augmente aussi de 10 %, une augmentation moyenne des revenus est constatée, de 0,81 % grâce au développement de nouveaux produits, et de 0,7 % grâce à de nouveaux consommateurs10. 9. « Strength in Numbers : How Does Data-Driven Decisionmaking Affect Firm Performance ? », Social Science Research Network Working Paper Series, avril 2011. 10. Les résultats obtenus varient beaucoup selon les secteurs. Au niveau des bénéfices financiers et des bénéfices en termes de consommation, ils sont souvent plus élevés pour les entreprises des télécommunications, du conseil et de l’industrie pétrolière (aux investissements lourds).www.institut-entreprise.fr 35 L’IMPACT DU BIG DATA POUR LES ENTREPRISES Le big data est aujourd’hui une réalité émergente au sein des entreprises fran- çaises selon le Big Data Index France EMC/IDC réalisé à l’été 2012 auprès de 160 entreprises de plus de 200 salariés. Le terme big data n’évoque rien à 35 % des répondants et 91 % déclarent que leur entreprise n’a pas d’initiatives ou de réflexions dans ce domaine. Selon une enquête plus récente, réalisée par Steria à l’été 2013, 42 % des entreprises françaises considèrent le big data comme susceptible d’améliorer leurs processus de planification et de prévisions et 34 % comme susceptible d’accroître la connaissance et la maîtrise de leur activité. Toutefois, seules 7 % des personnes interrogées dans le cadre de cette enquête (au niveau européen cette fois-ci) considèrent le big data analytique comme un sujet très important pour elles. Pour tirer profit de la démarche big data, le top management doit comprendre et adhérer à cette révolution. Les décideurs et les managers doivent définir comment en tirer parti puis adapter les outils et processus big data à leurs ambitions. Les défis pour les organisations consistent à : • Considérer tous types de données, même celles dont on ne voit pas encore l’utilité ou dont tous les paramètres ne sont pas encore maîtrisés. • Stocker et sécuriser de gros volumes de données, et ce dès maintenant. • Analyser et donner du sens à ces données. • Exploiter et valoriser commercialement les nouvelles informations tirées de ces données. « En termes d’acquisition et de conservation des données, nous sommes au point ; en revanche, la valorisation de ces données ainsi que leur circulation dans le groupe restent à faire. » Directeur innovation d’un groupe du CAC4036 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Le big data, un outil au service de la « transformation digitale » pour la Société Générale Au sein de la Société Générale, le big data est considéré comme une source d’opportunités pour la lutte antifraude et l’amélioration de l’expérience client. Selon Françoise Mercadal-Delasalles, directrice des ressources et de l’innovation à la Société Générale, « l’exploitation des données comptables et commerciales recèle un potentiel de croissance colossal ». La démarche big data comporte deux avantages majeurs pour l’institution bancaire : faciliter la détection des fraudes et être un levier de lutte contre la cybercriminalité. Les données de l’activité bancaire d’un client pourraient par exemple être croisées avec ses données personnelles communiquées lors de l’ouverture du compte pour prévenir une utilisation frauduleuse de ses coordonnées bancaires. Surtout, le croisement de ces mêmes données permet d’affiner l’analyse comportementale des clients, en y intégrant une dimension prédictive, susceptible à terme de transformer en profondeur la relation des établissements bancaires avec ces derniers. Fin 2013, le groupe avait lancé deux projets pilotes d’analyse prédictive sur son réseau en France. Pour autant, le but de la Société Générale n’est pas de commercialiser les données. Une telle activité risquerait de nuire à ses deux atouts majeurs face à ses nouveaux concurrents proposant des services financiers exclusivement en ligne : la sécurité et la confiance. Pour la directrice des ressources et de l’innovation à la Société Générale, « les banques seront toujours plus prudentes que les autres prestataires de services dans l’utilisation des données de leurs clients ». Les freins de mise en œuvre de solutions intégrant les big data sont nombreux dans un groupe tel que celui de la Société Générale : * des obstacles culturels : les dirigeants actuels ne font pas partie de la génération des hyperconnectés et ne sont pas forcément convaincus des bénéfices potentiels du numérique ;www.institut-entreprise.fr 37 * des difficultés de coordination : les données collectées par le groupe ne sont pas ou très peu partagées à l’heure actuelle entre la banque d’affaires et la banque de détail, tout comme entre le siège français et les filiales étrangères ; * des difficultés informatiques, qui découlent souvent des précédentes : la Société Générale ne dispose pas de plate-forme de gestion de la relation client (Customer Relationship Management) ni de référentiel unique. Des efforts sont cependant en cours sur ce point ; la rationalisation des référentiels d’organisation et de structure devrait permettre l’analyse et la valorisation des données. Les banques sont désormais engagées dans une course au premier entrant en matière de big data. Si Wells Fargo avec sa banque virtuelle et HSBC font pour l’heure figure de précurseurs, la Société Générale a de vrais atouts à faire valoir. Un poste de chief data officer a été créé et l’entreprise peut s’appuyer sur ses compétences internes dans le domaine de l’informatique. En effet, ce dernier représente 11 000 à 12 000 collaborateurs en interne et 3 milliards d’euros de budget annuel. Cela lui a permis de conserver de précieuses compétences sur la collecte et l’analyse des données, contrairement à certains de ses concurrents qui ont pu pousser trop loin l’externalisation et perdre ce savoir-faire. LE BIG DATA COMME NOUVEAU MARCHÉ De nouvelles entreprises ou business units peuvent être créées qui s’appuient sur le big data : - Le big data au sens large : fabricants de capteurs11, services de location d’espace de stockage et de capacité de calcul, développeurs d’outils analytiques12, de plates-formes de mise à disposition des données et de services de visualisation des données… - Le stockage de la donnée. 11. Harbor Research estime que le marché mondial des Internet enabled devices sera de 10 milliards de dollars en 2014, contre 4,3 milliards de dollars en 2009. 12. D’après IDC, le marché mondial des programmes analytiques passera de 25,5 milliards de dollars en 2010 à 34 milliards de dollars en 2014.38 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Les modèles économiques de valorisation des données sont pour l’instant embryonnaires et restent difficiles à maîtriser pour ceux qui débutent sur ce marché. Deux types d’entreprises se distinguent : - Les entreprises qui analysent les données. - La société Gartner prédit l’émergence de « revendeurs d’informations » spé- cialisés, à qui la distribution pourra être sous-traitée, et de « gestionnaires de produit information » (internes) pour piloter cette nouvelle activité13. En effet, alors que les organisations produisaient et utilisaient jusqu’à maintenant leurs propres données, des data brokers revendent aujourd’hui les données d’entreprises ou encore de l’État à divers acteurs14. On estime ainsi que la socié- té américaine Acxiom, spécialisée dans le recueil et la vente d’informations, et qui a dégagé un revenu de 1,15 milliard de dollars en 2012, posséderait en moyenne 1 500 données sur 700 millions d’individus dans le monde15. Exemple : Ixxi, filiale du groupe RATP en charge de l’information voyageurs et des billets, a développé l’application Android « Your Tube Summer » lors des Jeux olympiques de Londres en 2012 pour que les touristes français puissent anticiper, préparer et organiser leur voyage dans la capitale londonienne, et ce grâce aux données librement partagées par le gouvernement britannique. Cette application propose de visualiser les stations situées autour de la position de l’utilisateur et les prochains départs des trains en temps réel, d’afficher les temps d’attente par station, ou encore d’effectuer des recherches par station, par lieu touristique et par manifestation sportive. 13. Voir « Gartner : vers la monétisation des big data », C’est pas mon idée !, blog de Patrice Bernard, 11 janvier 2013 (http://cestpasmonidee.blogspot.fr/2013/01/gartner-vers-la-monetisation-des-big. html). 14. Dans un rapport publié en 2012, la Commission fédérale américaine du commerce s’est souciée de l’essor de la profession d’information broker. Elle demande entre autres à ce que les citoyens puissent avoir accès aux informations que ces « vendeurs d’informations » ont sur eux (Federal Trade Commission, Protecting Consumer Privacy in an Era of Rapid Change, mars 2012). 15 Voir « Data brokers : aux États-Unis, votre vie privée est en vente », ZDNet.fr, 12 avril 2013 (http:// www.zdnet.fr/actualites/data-brokers-aux-etats-unis-votre-vie-privee-est-en-vente-39789295.htm).www.institut-entreprise.fr 39 LES PRINCIPAUX POINTS DE VIGILANCE Comme tout grand sujet de changement dans les organisations, les enjeux organisationnels et culturels associés au big data nécessitent le soutien et l’implication de la direction générale. Selon le Big Data Index France, 73 % des répondants n’associent pas de bénéfices au big data et 77 % estiment que ce n’est pas vraiment un sujet pour leur entreprise au-delà de nouveaux investissements et de nouvelles politiques de stockage et d’archivage. Or, nous avons vu que l’intérêt du big data est avant tout de croiser des données hétérogènes (météo, logistique, géolocalisation, trafic automobile) pour améliorer le rendement des activités existantes et en tirer des offres inédites. Les entreprises souhaitant prendre le virage stratégique du big data doivent combattre les doutes et les craintes associés à une telle démarche, assouplir les exigences de retour sur investissement en la matière pour permettre l’amorçage du changement et accorder les ressources nécessaires – ressources humaines aussi bien que financières – à un tournant d’une telle envergure. Le buzz du big data étant largement centré sur les aspects technologiques, l’enjeu de mise à niveau des compétences est souvent sous-estimé, particulièrement en France. 60 % des répondants à une étude mondiale réalisée au printemps 2012 sur les enjeux du big data identifient le déficit de compétences comme le défi principal, tandis que 6 % seulement des répondants au Big Data Index France mettent en avant la transformation des compétences comme un impact très fort du big data. Les compétences pertinentes à l’ère du big data sont variées : ce sont des compétences techniques, statistiques, analytiques et en gestion de projets, afin de développer, déployer et/ou maintenir les technologies et logiciels associés au big data. Michel Morvan, ancien VP Strategic Intelligence and Innovation de Veolia explique que « pour faire réellement parler les données, il faut des compé- tences spécifiques pour les nettoyer, établir des statistiques, modéliser ». Mais il faut aussi des compétences d’analystes métier, connaissant parfaitement le modèle économique de l’entreprise et son environnement, pour être à même d’interpréter les résultats. De nouveaux métiers hybrides apparaissent, comme les creative technologists, mélangeant technologie, créativité, marketing et communication, pour faire le lien entre les différents services d’une entreprise. Les entreprises seront probablement amenées à revoir leur organisation pour donner au big data la place stratégique qu’il requiert. De nouveaux métiers pour-40 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation raient prendre de l’ampleur comme celui de chief data officer ou chief information officer. La question de l’environnement informatique ne sera pas non plus à occulter afin de se préparer aux exigences des grands volumes de données et de l’ère du cloud computing. Le rôle du directeur des systèmes d’information (DSI) sera alors amené à être revu et repensé, comme le préconise Gilles Grapinet : « la “ commoditisation ” du DSI ces dernières années et la pression sur les coûts ne doivent pas l’empêcher d’être un acteur central de la démarche big data ». Les Data Scientists dans l’entreprise, vus par l’Ensae « Comment récolter les fruits du big data en minimisant les risques ? • Pensez data science avant de penser big data. • Embauchez une équipe de data scientists. • Placez-les sous la responsabilité d’une autorité légitime. » Le big data n’est qu’un élément d’un nouvel ensemble d’outils et de techniques appelé data science. Une compréhension globale des données d’une entreprise et de leur potentiel – ainsi que la maîtrise des moyens d’exploitation – peut devenir un nouveau vecteur de performance. La data science permet d’effectuer une analyse fine de l’information qui permettrait d’être plus efficace dans les processus (conception, marketing, relation client), d’identifier les données disponibles et de distinguer les données utiles, présentes ou non. Elle permet l’étude des méthodes de traitement de l’information les plus efficaces pour aboutir à des réponses concrètes et opérationnelles aux questions posées par les pilotes des processus. À ce titre, le data Scientist doit avoir des compétences en mathématiques : l’analyse des données fait appel à des modèles statistiques ou des algorithmes complexes. Il doit aussi être capable d’extraire les données des systèmes informatiques, de programmer les algorithmes de traitement et de permettre la visualisation rapide des résultats, ce qui requiert des compé-www.institut-entreprise.fr 41 tences informatiques. Enfin, il ne peut se résumer à une simple fonction technique : au service de l’efficacité et de la rentabilité, il doit avoir des compétences d’expert métier et connaître les enjeux économiques de ses travaux. Si certaines entreprises explorent déjà les capacités du big data par des initiatives cloisonnées des départements informatiques, marketing, financiers, la création d’une équipe transversale de data scientists permet une démarche globale de valorisation des données. Face au risque de résistance des dirigeants de l’entreprise, confrontés à des mécanismes qu’ils ne peuvent entièrement maîtriser, un tel projet devrait être mis entre les mains d’une autorité explicitement reconnue par la hiérarchie de l’entreprise, par exemple en le rattachant à la direction générale. C’est l’esprit de la création du rôle de chief data officer aux États-Unis16. Enfin, les enjeux liés à la sécurité17, à la disponibilité, à l’accessibilité et à la confidentialité des données seront également de grands défis pour les organisations. La protection de la propriété intellectuelle ou encore la protection du consommateur constituent autant de zones d’évolution du droit, de la réglementation et de la norme dans un scénario de croissance continue du big data. Des efforts de normalisation seront nécessaires pour permettre le décloisonnement des données en toute sécurité dans les entreprises et les organismes publics. Pour encourager les échanges, des normes de sécurité des échanges sont progressivement mises en place entre les administrations et les usagers, comme le Référentiel général de sécurité (RGS) ou la Plate-forme d’échange de confiance (PEC). Des outils comme le Référentiel général d’interopérabilité (RGI), qui fixe les règles techniques permettant d’assurer l’interopérabilité des systèmes d’information, encouragent aussi le partage. Depuis 2010, le Centre d’accès sécurisé distant (CASD) donne accès aux chercheurs, de façon très 16. Source : Variance, n° 46, février 2013 (http://www.ensae.org/docs/2013162028_var46_webplanches_31-01.pdf). 17. Dans son rapport de novembre 2013, Analyse des big data. Quels usages, quels défis ?, le CGSP rappelle ainsi que la plupart des fournisseurs des technologies du cloud se ménagent des back doors qui leurs permettent l’accès aux données stockées sur leurs serveurs.42 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation encadrée, à des données individuelles possédées par l’Insee et les services statistiques ministériels. Les craintes sur le non-respect de la vie privée constituent un autre obstacle important au développement du big data que les pouvoirs publics ne peuvent ignorer. Si le big data permet de mieux prévoir le futur proche pour y adapter au mieux les politiques publiques et optimiser la dépense publique, comme le fait par exemple le programme Global Pulse développé par les Nations unis18 en analysant les mots-clés échangés sur Twitter, certains redoutent le phénomène « Big Brother » de la surveillance à outrance. Certains experts estiment qu’à l’heure des big data, « l’anonymat est devenu algorithmiquement impossible ». Certaines entreprises ont été contraintes de prévoir une offre alternative pour répondre aux craintes de certains consommateurs. La formule Navigo Découverte de la RATP (coûtant approximativement 5 euros) permet depuis quelques années au possesseur de la carte de ne pas être inscrit dans un fichier client, contrairement à la formule classique. Le forfait est chargé sur une carte à puce et accompagné d’une carte nominative cartonnée où le voyageur indique luimême son nom, son prénom et colle sa photo d’identité. Les risques croissants portés par le big data sur la vie privée créent également de nouvelles inégalités, entre ceux qui maîtrisent les outils informatiques – par exemple les privacy enhancement technologies (PET) –, ceux qui contrôlent ou non leur dévoilement sur les réseaux sociaux, ceux qui peuvent payer pour des services protégés, et les autres. Ces enjeux sont d’autant plus sensibles que la plupart des fournisseurs de l’infrastructure physique du cloud et des services en ligne qui génèrent massivement des données d’utilisateur sont des entreprises privées américaines. Si la CNIL a engagé une procédure contre Google, dont les politiques de confidentialité ne correspondent pas aux normes françaises, son pouvoir punitif est limité à 150 000 euros. Face à ces enjeux, l’État français a financé, à hauteur de 150 millions d’euros, deux cloud computing nationaux sous la forme de partenariats public-privé : Numergy et Cloudwatt. Cependant, les moyens restent 18. Global Pulse permet d’anticiper et de suivre l’impact des crises socio-économiques locales et mondiales de façon rapide. C’est le cas par exemple pour les épidémies, qui sont ainsi détectées plus rapidement qu’avec les réseaux de veille sanitaire classiques. Global Pulse scrute également le chômage ou encore les crises alimentaires.www.institut-entreprise.fr 43 limités ; le programme de R&D Quaero, lancé en 2009 pour développer des outils de recherche d’information en ligne avec un financement public-privé d’environ 200 millions d’euros, n’a pas permis le lancement d’un moteur de recherche français indépendant. Au-delà, les débats sur la justice prédictive (cf. exemple de PredPol en page 26) font redouter à certains que demain des personnes puissent être punies pour leurs penchants, leurs relations, plutôt que pour leurs actions, ce qui remettrait en question un des principes fondateurs de la justice, celui de la pré- somption d’innocence. Cela amènera probablement les décideurs publics à redéfinir la notion de justice pour garantir la liberté de l’homme à agir. Plus largement, l’utilisation croissante d’algorithmes pour déterminer les préférences et prédire les comportements soulève la question de l’influence des données sur la liberté de choix, et l’importance croissante accordée aux données et aux corrélations qu’elles révèlent sans qu’une interprétation, un modèle humain y soient associés. En effet, la démarche big data inverse les démarches traditionnelles d’un modèle confirmé par les données, lui substituant l’observation de corrélations auxquelles peuvent être apportés des éléments explicatifs. Or, corrélation n’est pas interprétation, et encore moins science. La restitution des données personnelles aux États-Unis et au Royaume-Uni Dans plusieurs pays, le gouvernement engage des démarches pour redonner aux citoyens l’accès aux données personnelles que les entreprises stockent sur eux. Cette initiative peut avoir plusieurs avantages : créer des opportunités de dialogue et augmenter la confiance entre les entreprises et les individus ; faire apparaître de nouveaux services d’exploitation de ces données pour permettre aux particuliers d’optimiser leur consommation. MiData C’est le cas du programme MiData, lancé en novembre 2011 par le gouvernement britannique, qui rassemble de grands acteurs privés ainsi que des associations de consommateurs, sur la base du volontariat. Il réunit actuel-44 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation lement plus de vingt-cinq entreprises, dont BarclayCard, MasterCard, HSBC, British Gas, Scottish Power, Google, EDF Energy. Après une phase de réflexion, le midata Innovation Lab (mIL) a été lancé le 4 juillet 2013. Il propose aux particuliers de stocker volontairement sur le site les données que les entreprises possèdent sur eux, de manière sécurisée. Ces données permettent à des développeurs de réfléchir à des moyens innovants de les exploiter, ces derniers étant ensuite disponibles sur le site – par exemple, aider le consommateur à choisir son forfait de téléphone, à organiser ses courses. Ce projet devrait permettre une réflexion très concrète sur les moyens de mettre à disposition les données tout en les protégeant. En France, le projet MesInfos, lancé en janvier 2012 par la Fondation Internet nouvelle génération (Fing), procède de même. L’expérimentation a été lancée en 2013 et regroupe 300 testeurs volontaires. Blue Button La création d’une plate-forme sécurisée pour stocker des données personnelles n’est pas nouvelle : aux États-Unis, l’initiative Blue Button du gouvernement permet depuis fin 2010 aux bénéficiaires de Medicare et aux anciens combattants de consulter en ligne et de télécharger leur dossier médical. Ils peuvent ensuite le transmettre aux divers organismes de santé. Des développeurs en ont profité pour proposer des services utilisant ces données, comme une application de Northrop Grumman qui permet aux anciens combattants de recevoir des conseils de santé adaptés à leur dossier sur leur téléphone. De nombreux organismes de santé se sont ensuite engagés à fournir la même offre à leurs clients. L’initiative Green Button a quant à elle été lancée en janvier 2012 à l’initiative de fournisseurs (eau, électricité, gaz). Elle permet aux consommateurs de télécharger leurs informations de consommation sous un format standardisé, afin de les étudier et de les optimiser à l’aide d’applications. Trentecinq entreprises proposent actuellement ce service.www.institut-entreprise.fr 45 LES MUTATIONS À PRÉVOIR L’Open Innovation. Le big data s’inscrit dans une démarche d’innovation ouverte qui incite les organisations à collaborer avec d’autres acteurs en dehors des frontières traditionnelles de la firme sur des sujets stratégiques ou inattendus (open innovation outside-in) et à réfléchir à la valorisation des projets et des données produites sur lesquels l’entreprise n’envisage pas de capitaliser directement dans son cœur d’activité (open innovation inside-out). Les spécificités de l’open data dans les entreprises Si de nouvelles entreprises apparaissent pour exploiter les données mises à disposition par le gouvernement, pour l’instant peu d’entreprises ont adopté elles-mêmes le mouvement de l’open data en publiant certaines de leurs données en accès libre. Pourtant, elles sont productrices de données par leur activité, et souvent consommatrices de données externes qui leur permettent d’analyser l’économie ou d’échanger avec leurs partenaires (facturation, prospection). Pour elles, l’ouverture des données est plus dépendante des opportunités en termes commerciaux ou d’innovation que d’enjeux de transparence, bien que cela leur permette aussi d’améliorer leur image. L’ouverture des données peut avoir les avantages suivants pour les entreprises : à destination des collaborateurs et des individus, elle peut accélérer le développement de produits et stimuler l’innovation en créant un écosystème dynamique de partenaires tout en améliorant la satisfaction client ; à destination de concurrents, elle permet par exemple de mieux comprendre les évolutions d’un marché. Cependant, il est difficile d’évaluer les opportunités commerciales directes ou indirectes de cette démarche, ce qui ralentit les investissements privés dans la valorisation des données. À ce frein s’ajoutent l’absence de cadre juridique de référence qui établirait les engagements de l’entreprise envers les utilisateurs de 46 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation ses données (disponibilité, qualité, sécurité) et une crainte face à l’absence de contrôle quant à la réutilisation. De plus, il n’existe pas non plus de régime juridique unifié qui définisse la propriété de ces données « privées » et, selon les contextes, le réutilisateur doit aller vérifier dans des régimes spécifiques s’il existe des clauses concernant la diffusion et la réutilisation des informations19. Enfin, pour que la démarche soit un succès, elle demande un réel investissement de l’entreprise. En effet, il n’est pas évident d’assurer la qualité des données mises à disposition : celles-ci doivent être complètes, non alté- rées, accessibles à tous aussi rapidement que possible (en temps réel à l’idéal) et exploitables facilement. Exemple : le groupe Poult prend part à un projet d’échange de données de marché avec d’autres producteurs de produits alimentaires concurrents. Ce système leur permet d’obtenir des informations de marché très précises, tout en restant semi-ouvert en étant restreint à un certain nombre de partenaires choisis. L’échange peut passer par un tiers qui regroupe les données pour plus de sécurité. Exemple : PSA a développé le service d’applications d’infodivertissement embarquées « Peugeot Connect Apps ». Les données spécifiques du véhicule ont été mises à disposition pour que des tiers puissent aussi développer des applications. Parrot, Ford et General Motors proposent des services similaires20. Exemple : les badges de télépéage commercialisés par Vinci Autoroutes contiennent des monceaux de données sur les automobilistes, la fréquence de leurs trajets ou la catégorie de leur véhicule. Ces informations sont une mine pour les partenaires commerciaux des sociétés d’autoroutes, comme les stations-service, restaurants et hôtels des aires d’autoroutes, et les villes et villages aux abords des sorties. L’utilisation de ces informations pose évidemment le problème de la protection des données personnelles, mais aussi surtout celui de la mise en place de partenariats intelligents et gagnants-gagnants. 19. Dossier de synthèse de la journée d’étude du GFII, « big data, exploiter de grands volumes de données : quels enjeux pour les acteurs du marché de l’information et de la connaissance ? », 3 juillet 2012. 20. Source : « Open Data, quels enjeux et opportunités pour l’entreprise ? », Bluenove, novembre 2011www.institut-entreprise.fr 47 « Open Innovation is the formal discipline and practice of leveraging the discoveries of unobvious others as input for the innovation process through formal and informal relationships. » Professeur Frank Piller, MIT smart customization & RWTH, Aix-la-Chapelle • La démocratisation du yield management, soit l’analyse en temps réel de la demande pour moduler des prix algorithmiques, ajuster les promotions et les approvisionnements en fonction des évolutions (notamment dans les secteurs du retail et du tourisme). Le big data, via des étiquettes électroniques, permet par exemple de faire varier les prix en quelques minutes en fonction de la taille, de la couleur, de la localisation, de la météo, des stocks, etc. Aux magasins d’adapter en temps réel leur gestion des approvisionnements et des démarques ! Les retombées du big data sur les activités de pricing peuvent être à l’origine de nouveaux modèles économiques. L’automatisation de la prise de décision L’une des richesses du big data est sa granularité : si le rendement d’une information supplémentaire est souvent rapidement décroissant21, posséder un grand nombre de données permet une analyse plus fine des sous-ensembles. Ainsi, le nombre permet de calculer un plus grand nombre de modèles. Le big data permet donc d’appréhender les hétérogénéités des ensembles, et d’ajuster l’analyse en fonction des données en temps réel pour permettre une réponse plus appropriée. L’augmentation du nombre des données analysées dans des contextes très spécifiques sous-tend une prochaine étape dans la gestion des décisions, l’évolution d’une vision stratégique d’aide à la prise de décision vers une vision tactique, l’automatisation des microdé- cisions en temps réel. Cette automatisation nécessitera le développement d’une plate-forme décisionnelle, c’est-à-dire une capacité de production de règles de décision, des moteurs d’inférence, des simulateurs, en supplé- 21. Les réponses à une question oui/non d’un échantillon non biaisé de 1 000 personnes suivent déjà une distribution à faible variance, c’est-à-dire que si l’on interrogeait un plus grand nombre de personnes, on ne gagnerait quasiment pas en précision de réponses.48 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation ment de la plate-forme de collecte et de stockage des informations. Si ces microdécisions permettent des gains très faibles à l’unité, l’accumulation de ces gains peut justifier un tel investissement. L’automatisation des décisions et la disparition de certaines tâches routinières ne sont pas sans risques. Sans se substituer à la stratégie de moyen et long terme, les big data sont surtout utiles pour améliorer des microdécisions opé- rationnelles. De plus, des mesures de sécurité pourront être mises en place, comme la possibilité de reprendre le contrôle des décisions à tout moment22. « Managing treasury in the cloud », nouveau business model permis par les big data23 Le développement des big data s’accompagne de nouvelles opportunités de modèles d’affaires que certains ont su saisir à l’instar de Kyriba. Créée en 2000, cette entreprise commercialise des solutions d’optimisation de gestion de la trésorerie (cash management). Kyriba travaille avec plus de la moitié des entreprises du CAC 40 et emploie 200 personnes dans le monde. Sa technologie repose sur un hub de communication bancaire qui intègre et uniformise les informations recueillies quotidiennement auprès des banques. Intégrant les créances et les diverses opérations comptables, l’entreprise fournit un monitoring global mais aussi des prévisions de liquidité et des flux financiers. Aujourd’hui, Kyriba s’affirme comme un acteur incontournable du marché des services applicatifs Internet de gestion de trésorerie à la demande. En 2012, la société réalise 35 milliards de dollars de chiffre d’affaires grâce à ses 700 clients groupes, ce qui représente plus de 30 000 entités servies. Le big data est au cœur de son activité : Kyriba gère en effet un flux de 15 000 envois par seconde quand Twitter ne comptabilise « que » 5 000 tweets par seconde. Alexandre Grux, responsable de la recherche et de l’innovation de Kyriba, explique que la société met à profit le big data en utilisant à 22. Sources : « big data, small decisions et smart organization », Christophe Benavent, septembre 2012 ; « big data – un œil sur les organisations », Christophe Benavent, mai 2011. 23. Ce cas a été recueilli avec la collaboration du cabinet Oliver Wyman.www.institut-entreprise.fr 49 la fois le data mining, c’est-à-dire la collecte et l’exploration de données, et le cloud computing, permettant de grandes capacités de stockage et de calcul, à prix abordables, pour traiter les données recueillies en temps réel. Description du service Kyriba propose un outil de gestion de trésorerie. L’entreprise donne à ses clients une image consolidée de leur situation bancaire et de leurs liquidités en temps réel. Il peut être en effet complexe pour une entreprise multinationale, qui a des participations dans d’autres sociétés et parfois des milliers de comptes diffé- rents dans plusieurs devises et institutions bancaires, d’avoir une vision globale de sa situation bancaire. Et ce, plus encore en temps réel ! Alexandre Grux témoigne : « Avant, pour avoir une image consolidée de tous les comptes, les trésoriers devaient remettre à zéro les comptes tous les jours et faire converger les cash flows sur un seul compte. Ce qui revenait à faire un reporting qui pouvait prendre une semaine voire plus selon la complexité des comptes. » Kyriba a su répondre à cette problématique en s’appuyant sur la technologie du cloud computing pour automatiser la collecte des relevés de comptes auprès des différentes banques de son client et leur consolidation. Kyriba communique ensuite l’image consolidée de l’état de trésorerie à son client avec différents niveaux de droit. De plus, ces informations sont disponibles en plusieurs devises dont les cours sont mis à jour en temps réel. Parallèlement à cette offre, Kyriba a développé un panel important de services qui vont du pilotage des flux bancaires et de la liquidité de l’entreprise à des outils d’aide à la décision en passant par le contrôle des conditions bancaires. Ces services sont accessibles via un logiciel en ligne, qui n’implique aucun déploiement et ne nécessite qu’une simple connexion internet. Ce format permet à un collaborateur d’utiliser les solutions Kyriba à distance, au cours d’un voyage d’affaires par exemple. En plus de la visualisation de leur situation bancaire, l’intérêt des données collectées par Kyriba pour les entreprises clientes est double. 1) Tout d’abord, ces données ouvrent de nouvelles perspectives pour les prévisions de flux de trésorerie (cash flow). Les directeurs financiers et tré-50 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation soriers, qui bénéficient désormais d’une image quotidienne et précise de leurs comptes, pourraient intégrer les données de la trésorerie dans l’élaboration d’un plan stratégique à trois ans aux côtés des données traditionnellement prises en compte comme les ventes. 2) Dans un second temps, les clients pourraient bénéficier des résultats des recherches et des analyses faites par Kyriba à partir des données collectées. En effet, grâce aux clauses de confidentialité, Kyriba peut exploiter les données des clients et mettre son expertise à leur service en leur proposant par exemple de nouveaux indicateurs clés de performance pour piloter leur activité. Enjeux Si Kyriba est désormais leader dans son domaine, les défis auxquels l’entreprise doit faire face sont nombreux. Ces derniers sont liés aux risques traditionnels de la démarche big data : réticences des clients, nécessaire acquisition de nouvelles compétences, rôle ambigu de l’État. L’enjeu du big data est avant tout celui de la sécurisation et de la protection des données. Il s’agit donc d’identifier les risques liés aux données collectées et de mettre en place des solutions adaptées en fonction des supports utilisés (serveurs, ordinateurs personnels, mobiles, tablettes) ; leur démultiplication augmentant les risques d’infractions. Alexandre Grux explique que Kyriba possède ses propres serveurs de stockage et en assure la sécurité. Les données sont systématiquement dupliquées pour assurer une continuité d’activité en cas de panne. Kyriba doit également faire face à certaines réticences de la part de ses clients. La société a mené une enquête auprès de ses clients qui révèle que l’appétence pour les solutions informatiques chez les trésoriers est faible. Nombre de clients voient cette utilisation des données d’un mauvais œil, même si celle-ci est faite dans le cadre d’un accord de confidentialité : « Le client peut nous reprocher de faire du business avec ses données et cela même si on lui propose le service gratuitement », raconte Alexandre Grux. Proposer aux clients des améliorations sur leur pilotage financier à partir de l’analyse de leurs données, comme un nouveau KPI, se révèle encore délicat www.institut-entreprise.fr 51 pour Kyriba. L’entreprise doit donc développer des solutions simples et intuitives pour pallier cette difficulté. Il faut informer les dirigeants d’entreprise et leur faire prendre conscience des bénéfices liés à l’ouverture de leurs données dans un cadre légal bien défini. Une évolution de la culture d’entreprise, traditionnellement attachée au culte du secret, est nécessaire. Pour développer son offre, Kyriba doit recruter des collaborateurs compé- tents pour mettre en place des services liés aux big data. L’entreprise peine à trouver des profils à l’aise avec ces enjeux et capables de prendre des initiatives dans l’exploitation de données qui pourraient potentiellement générer de nouveaux services. Cette pénurie s’explique selon Alexandre Grux par une forte demande de telles compétences mais aussi par leur rareté. La formation universitaire doit donc évoluer pour s’adapter à cette nouvelle demande sur le marché de l’emploi. Enfin, Kyriba se doit de composer avec l’État dont la position vis-à-vis du big data est ambiguë. D’une part, l’État a lancé Etalab, une mission qui vise à mettre à la disposition de tous des informations publiques, exception faite des données à caractère personnel protégées par un droit de propriété intellectuelle ou de celles mettant en jeu la sécurité publique. En combinant ces données publiques avec celles dont l’entreprise dispose, Kyriba pourrait imaginer d’autres modèles d’affaires. L’État est donc source de nouvelles opportunités. D’autre part, il tient un discours souvent alarmiste sur la protection des données. L’État n’a pas encore différencié de façon claire les données individus des données entreprises, ni statué sur leur protection et utilisation respective, ce qui constitue un frein au développement des socié- tés dont l’activité est basée sur le big data telles que Kyriba. • L’avènement du développement durable : le big data constitue une source privilégiée d’optimisation de l’exploitation et de la consommation des ressources limitées (cf. la note de l’Institut de l’entreprise sur l’efficacité énergétique), même si le big data est lui aussi un grand consommateur d’énergie. Exemple : entre 20 % et 30 % de la consommation en eau est perdue, par fuite ou par gaspillage. L’introduction de capteurs embarqués dans des 52 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation compteurs intelligents (cf. smart grids), tant sur les réseaux qu’au niveau des foyers, permet ainsi de récolter l’information en permanence et d’être potentiellement alerté en temps réel lors d’une consommation qui dévie de la norme, par exemple au travers d’une application mobile. Exemple : les data centers consomment énormément d’énergie pour refroidir leurs serveurs. Pour renverser cette logique, l’entreprise Qarnot Computing fabrique des radiateurs numériques qui contiennent des processeurs et se branchent simplement sur les prises internet. L’entreprise chauffe ainsi gratuitement des logements ou bureaux et vend la capacité de calcul nécessaire pour atteindre la température voulue par l’usager. Une centaine de logements seront équipés de ces radiateurs de calcul d’ici fin 2013. • L’essor des smart objects et des smart services : la mise en place de nouveaux produits, services et processus connectés, « intelligents ». Exemple : Sanofi propose en France depuis 2011 un lecteur de glycémie connecté, l’iBGStar, qui permet à la personne souffrant de diabète de mesurer son taux de sucre dans le sang, de l’enregistrer et de communiquer ses données en temps réel à son médecin. Cette application s’inscrit dans un projet plus large de Sanofi, Diabeo, solution de télémédecine innovante pour accompagner les patients diabétiques et les professionnels de santé dans une prise en charge globale. Le traitement du diabète nécessite de la part du patient un ensemble d’aménagements qui vont de la connaissance de la maladie et de son traitement à des compétences d’auto-observation, d’autosurveillance et d’autoadaptation du traitement en fonction des circonstances mêmes de sa vie. Pour l’aider dans cet effort, une application simple à utiliser au quotidien (pas de calculs, pas de retranscription papier, nombre limité d’alertes au patient et au médecin) a été développée pour automatiser une partie de la prise de décision. En identifiant à distance les patients en difficulté, ceci permet aussi de mieux utiliser le « temps médecin » et de personnaliser la prise en charge (ex. : adapter la fréquence des consultations plutôt que de décréter obligatoire une visite de contrôle tous les six mois).www.institut-entreprise.fr 53 Exemple : la nouvelle proposition de valeur faite par Lectra, numéro un mondial des solutions technologiques intégrées (logiciels, équipements de CFAO et services associés), à ses clients (entreprises qui utilisent des textiles, du cuir, des tissus industriels ou des matériaux composites dans la réalisation de leurs produits), grâce aux smart services, est l’application du concept de lean manufacturing (amélioration continue et réduction du gaspillage), issu de l’industrie automobile japonaise, à la salle de découpe. Les machines intelligentes de Lectra permettent d’optimiser et de sécuriser l’ensemble des opérations de production liées à l’activité de découpe automatique, quels que soient les besoins de production (de masse, diversifiée, petites et moyennes séries), grâce à un système de diagnostic et d’analyse en temps réel de la consommation de matière. Les experts des call centers internationaux de Lectra peuvent intervenir à distance en cas de problème ou pour former et conseiller les utilisateurs chez les clients, qui réalisent des économies significatives en termes de délai de fabrication et de consommation de matière, accélérant ainsi la mise sur le marché de leurs produits. Exemple : les vêtements « intelligents ». Le projet européen « EASY-IMP – Développement collaboratif de produits portatifs et intelligents dans le cloud » a été lancé à la mi-septembre au Centre allemand de recherche sur l’intelligence artificielle (DFKI) de Kaiserslautern (Rhénanie-Palatinat). Financé sur trois ans à hauteur de 4,4 millions d’euros, ce projet met en place une équipe interdisciplinaire d’experts de différents domaines : capteurs, informatique, programmation, biomécanique, rééducation et sport. Douze partenaires académiques et industriels prennent part au projet, notamment l’université Lumière Lyon-II pour la partie française. Un exemple typique d’application est le smartphone, qui propose une plate-forme à partir de laquelle différentes applications peuvent être personnalisées. Dans le cadre du projet, ce concept serait appliqué aux vêtements. Par l’intégration de capteurs, de nouveaux produits pourront être conçus. On peut imaginer la configuration d’un vêtement, grâce au smartphone, de manière à enregistrer les signaux vitaux d’un patient, pour son entraînement sportif ou dans le cadre d’une rééducation. Grâce à leurs capteurs, ces vêtements seraient ainsi capables de mesurer la respiration, le rythme cardiaque, mais aussi le nombre de calories brûlées, l’état émotionnel, ou encore, de manière plus classique, le nombre de pas effectués ou l’activité physique.54 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation • D’autres tendances importantes se dessinent avec l’avènement du big data, comme la big research, qui risque de transformer les pratiques scientifiques toutes disciplines confondues, de la biologie à la sociologie, ou encore la big creativity, qui démultiplie les occasions de faire des ponts inattendus entre différentes idées, personnes ou faits, et dope ainsi la capacité d’innovation des organisations. « Les nouvelles technologies nous ont condamnés à devenir intelligents et imaginatifs car c’est tout ce qui nous restera. » Michel Serres Le big data, la révolution de l’assurance Le principe des assurances est de partager un risque à l’intérieur d’un groupe. Son fonctionnement est assuré par des systèmes probabilistes, qui permettent d’affecter un prix « juste » aux risques assumés. Cependant, ce principe ne peut fonctionner qu’avec une évaluation imparfaite du risque, tout au moins à l’échelle individuelle : les mouvements d’ensemble doivent être aussi bien évalués que possible, mais les risques individuels doivent rester flous, sans quoi l’individu n’a plus intérêt à la mutualisation. Impact sur l’efficacité commerciale La collecte et le traitement de données de plus en plus nombreuses permettent aux compagnies d’assurances d’améliorer leur efficacité commerciale, en assurant : • De nouvelles méthodes de segmentation, et donc de tarification. • Des créations de produits plus efficaces (meilleure étude de marché, tarification). • Une connaissance précise des habitudes des clients, d’où une meilleure gestion des campagnes publicitaires ou de prévention et du service personnalisé au client. • Une limitation du risque de fraude à l’assurance. • Une meilleure gestion des sinistres.www.institut-entreprise.fr 55 L’impact des données individualisées sur l’actuariat Pour certains, les nouvelles connaissances issues du big data affectent l’économie des assurances et mettent en péril son fonctionnement même : trop d’informations conduit à une sélection forte et peut détruire la mutualisation. Néanmoins, d’autres opinions moins pessimistes ne voient dans le big data qu’un nouvel outil puissant pour les actuaires, du moment qu’il respecte les normes éthiques sur l’anonymat des données : l’anonymisation des données sera un enjeu d’équilibre. Le big data pourrait aussi améliorer la qualité de l’actuariat : l’actuaire serait « un certificateur de la qualité, de la pertinence des données, et un vérificateur de leur usage24 », et l’augmentation de la démutualisation pourrait supprimer les « bon risques », assurés pour l’instant à prix élevés. Les réglementations dans l’usage du big data Les systèmes d’assurance sont soumis à de nombreuses réglementations25 ; l’utilisation des données personnelles est soumise au contrôle des individus et la segmentation des assurances est limitée par la protection contre les discriminations : ces considérations éthiques limitent l’utilisation des données personnelles et l’étendue de l’impact du big data sur les systèmes assurantiels26. De nouveaux acteurs dans la collecte de données L’abondance et la qualité des données étant des facteurs de différenciation compétitive pour les assureurs, à l’ère du big data, un nouveau rapport de force s’établit entre les compagnies d’assurances et les fournisseurs de données. Ces derniers sont en position de pouvoir pour capter une part importante de la valeur des données ; ils pourraient aussi eux-mêmes devenir assureurs grâce à l’avantage compétitif que leur confère l’exclusivité de leurs données. 24. Patrick Tourot, François Ewald, « big data, défis et opportunités pour les assureurs », Banque & Stratégie, no 315, juin 2013. 25. Le droit du contrat d’assurance, le droit des sociétés et le droit de la santé et de la Sécurité sociale. L’utilisation des données est notamment soumise au respect des libertés publiques (CNIL), du droit pénal (les discriminations), du droit communautaire et des règles européennes et internationales (ONU). 26. « big data, défis et opportunités pour les assureurs », art. cit.56 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation PISTES DE RECOMMANDATIONS Afin de tirer tous les bénéfices de la révolution qu’est le big data, il est important que les pouvoirs publics, en partenariat avec les acteurs télécom, s’inté- ressent à l’attractivité numérique des territoires et cherchent à déployer l’ultrahaut débit fixe et mobile, en généralisant par exemple la 4G et en assurant une couverture Wi-Fi optimale, même dans les transports (train, avion, métro). Toutefois, les effets sur la santé des ondes électromagnétiques, bien que non avérés scientifiquement27, restent un sujet de préoccupation pour une partie de l’opinion publique qui doit être pris en compte. Les freins au développement du big data doivent être bien identifiés. Les freins inhérents au big data ont été cités plus haut : pour les entreprises, l’évaluation des apports du big data et le soutien de la direction générale, la nécessaire et coûteuse mise en place d’un département de data scientists, la mise à niveau des compétences, ainsi qu’une attention particulière portée à la sécurité, à la disponibilité, à l’accessibilité et à la confidentialité des données. Certains de ces enjeux concernent aussi les pouvoirs publics, comme les risques pour la vie privée, la formation, l’établissement de normes et de standards, et enfin l’éventuelle utilisation à mauvais escient d’analyses prédictives. Des freins plus génériques s’opposent aussi à certains développements : des freins liés aux spécificités des tissus économiques nationaux et à l’autonomie 27. L’Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail (Anses) a ainsi rendu public en octobre 2013 un avis sur les effets des ondes électromagnétiques sur la santé. À la lumière de plus de 300 études scientifiques internationales publiées depuis 2009, l’Anses ne conclut pas à un « effet sanitaire avéré chez l’homme » et ne propose donc pas de « nouvelles valeurs limites d’exposition de la population ». Elle constate toutefois certains effets biologiques chez l’homme et chez l’animal – cassures de l’ADN, stress oxydatif susceptible d’altérer les cellules –, modifications qui « semblent être rapidement réparées ».www.institut-entreprise.fr 57 de décision dont disposent les managers de terrain28 ; des freins d’ordre réglementaire, ou inhérents aux politiques de protection des consommateurs29. Des freins fiscaux peuvent aussi émerger : conscients de la valeur de leurs actifs, certains détenteurs de big data pourront décider de ne pas autoriser l’accès à leurs données à des tiers, limitant ainsi les possibilités de croisements qui sont le vecteur de la création de richesses. Enfin, la concurrence déloyale du secteur public, qui détient d’importants gisements de données et peut être tenté d’en restreindre l’accès, pourrait ralentir le développement de start-up de valorisation des données. Propositions Deux lignes directrices peuvent être distinguées concernant le développement du big data. Premièrement, il importe de mettre le client ou l’usager au centre des politiques de soutien public au big data. Le big data bénéficie en France d’une attention soutenue des pouvoirs publics. Le rapport Lauvergeon identifie ainsi le big data comme l’un des sept domaines d’innovation que la France se soit de soutenir, et c’est l’une des 34 filières de la Nouvelle France Industrielle. Par ailleurs, le ministère de l’Innovation et de l’Economie numérique a annoncé en juin 2013 un plan de soutien à la filière du big data, inspiré des recommandations de l’Afdel (association française des éditeurs de logiciels et solutions internet). Dans le cadre des investissements d’avenir, plusieurs projets traitant des big data ont aussi été sélectionnés pour recevoir des financements. Si cette attention est évidemment bienvenue, le risque est toutefois que les pouvoirs publics n’envisagent le déploiement du big data que sous le seul angle de la technologie, quant ce sont les usages qui importent réellement. 28. Cette autonomie varie fortement selon les entreprises. Or, pour que le big data prenne toute sa mesure, les managers de terrain doivent se voir accorder suffisamment d’autonomie. « Le big data nécessite donc le développement de nouvelles compétences, et sans doute plus encore un véritable empowerment des unités opérationnelles : plus de données, plus de contexte dans les modèles et les indicateurs, donc plus d’autonomie dans la décision » (http://technologies.lesechos.fr/businessintelligence/big-data-c-est-le-chef-de-rayon-qu-il-faut-former_a-41-506.html). 29. Le rapport de la mission gouvernementale concernant la fiscalité numérique a été rendu public le 18 janvier 2013. Il préconise de taxer les entreprises en fonction du volume de données personnelles qu’elles collectent et exploitent, ainsi que du respect des libertés individuelles, et notamment du degré d’accès des utilisateurs aux données collectées.58 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Par ailleurs, il est nécessaire d’envisager le potentiel du big data dans toutes les filières. Les initiatives gouvernementales font souvent l’erreur d’identifier le big data comme une filière en soi. Au contraire, le big data est source d’innovation dans tous les secteurs d’activité, et il faudrait l’intégrer systé- matiquement dans les politiques d’innovation. Entreprises a) Développer une culture de la donnée dans les entreprises Le développement du big data nécessite le soutien de la direction générale, qui doit se traduire par la nécessaire et coûteuse mise en place d’un département de data scientists dépendant de la direction, mais aussi par la mise à niveau des compétences de l’ensemble des salariés. Il importe pour l’entreprise de comprendre que les données ne sont pas seulement l’affaire des spécialistes, mais celle de tous, et que les pratiques de chaque salarié s’en trouveront modifiées. Pour développer une culture de la donnée dans l’entreprise, il faut donc s’interroger sur les moyens de capter, conserver et stocker les données, et développer ces moyens en conséquence. b) Donner davantage d’autonomie de décision aux managers de terrain Cette autonomie varie fortement selon les entreprises. Or pour que le big data prenne toute sa mesure, et que les données disponibles soient comprises mais aussi débouchent sur des actions, les managers de terrain doivent se voir accorder suffisamment d’autonomie. Puissance publique a) Repenser la protection des données personnelles La loi informatique et libertés de 1978 protège des dangers liés à l’exploitation de données personnelles, mais toutes les nouvelles « data breach » www.institut-entreprise.fr 59 pourraient ne pas être toutes prises en compte à temps. Une politique de la donnée semble nécessaire aussi bien dans les entreprises qu’au niveau des pouvoirs publics. La propriété intellectuelle, les politiques de réutilisation des données, l’utilisation secondaire des données générant en général davantage de valeur que l’utilisation primaire, les droits d’accès et de rectification des utilisateurs, la durée de conservation des données, autant d’exemples de mesures auxquelles les responsables nationaux se doivent de réfléchir, tout en veillant à ne pas couper court à l’innovation promise par le big data. Pour autant, la protection par la réglementation reste souvent perçue comme une contrainte, parfois à cause du retard du droit par rapport aux évolutions technologiques, tandis que la définition d’un levier punitif est malaisée puisque les données n’ont pas de valeur intrinsèque. De plus, certains pré- disent des pressions croissantes, de la part de certaines entreprises et de la société, contre les mouvements de protection des données. 1. Instaurer un droit à l’expérimentation qui permette de déroger aux règles actuelles en matière de protection des données personnelles Aujourd’hui, la France manque d’un cadre conceptuel pour faire face au développement du big data. Elle hérite d’une réglementation sur les données personnelles excessivement restrictive qui pénalise le déploiement de nouvelles applications. Comme le suggère le rapport Lauvergeon, on pourrait imaginer la consécration d’un droit à l’expérimentation, sous l’égide « d’un observatoire des données ». Il s’agirait d’évaluer l’efficacité et le bien-fondé de certaines pratiques permettant l’exploitation des données, avant de réfléchir à un possible encadrement législatif. 2. Responsabiliser et encadrer Afin de garantir la transparence de l’utilisation des données personnelles par les entreprises et les administrations, on pourrait former des tiers-certificateurs qui appliqueraient un système de labellisation, 60 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation imposer davantage de transparence sur les brèches de sécurité et soumettre entreprises et administrations à des « audits d’algorithmes ». Le projet de règlement européen en cours d’adoption vise aussi à imposer diverses obligations aux responsables de traitement informatique, comme celle de prendre en compte la protection des données dès la conception des systèmes (privacy by design). 3. « Empowerment » et transparence Afin de réduire l’asymétrie d’information entre les institutions et les individus, on pourrait créer une plate-forme d’accès individuel à ses données personnelles. On pourrait par ailleurs développer un système d’assurance pour éviter et ensuite résoudre les problèmes d’utilisations abusives des données. 4. Adapter la réglementation et les normes « À l’international, l’UE reste perçue comme un territoire offrant un haut niveau de protection pour les données », ce qui pour certains lui procurerait un « avantage compétitif ». 30 Ainsi il faudra adapter la réglementation tout en conservant ce haut niveau de protection. La définition de « donnée personnelle » nécessite d’être revue, l’anonymisation 31 des données rencontrant aujourd’hui ses limites. D’une part, en effet, l’anonymisation parfaite rend les données quasiment muettes, donc inintéressantes, d’où l’utilisation croissante de bases de données anonymisées relativement. D’autre part, de nouvelles technologies permettent aujourd’hui de réidentifier des données au départ anonymes en agrégeant plusieurs jeux de données. C’est ce que l’on nomme des inference attacks. 30. Compte-rendu: « Midis du GFII», Déjeuner-débat du 22 mai 2012 atour d’Isabelle Falque-Pierrotin, présidente de la CNIL 31. Selon la CNIL, l’anonymisation des données consiste dans la suppression de tout lien entre une donnée et une personne physique.www.institut-entreprise.fr 61 De nombreuses discussions sont aujourd’hui en cours au sein de l’UE pour définir un nouveau statut de la donnée qui soit intermédiaire entre la donnée totalement anonymisée et la donnée personnelle identifiante. Cela permettrait une réutilisation plus simple des données, tout en préservant leur lien avec une personne physique. En parallèle, la CNIL envisage la définition de nouveaux droits32 : droit à la personnalité, droit à l’oubli33, à la mémoire, à la portabilité des données, à un environnement non pollué par la publicité numérique, et au refus du profilage. De plus, il faudrait définir des normes internationales, autant pour encadrer les échanges que pour s’accorder sur la gestion du réseau internet qui constitue un bien commun international, un « global networked commons »34. b) Ouvrir les données publiques pour permettre l’essor de nouveaux business models dans le domaine de la protection sociale Le sujet de l’open data, lié à celui du big data, concerne en premier lieu les administrations publiques (obligation légale35) qui ouvrent les données qu’elles produisent dans le cadre de leur activité quotidienne (fonds de cartes, statistiques, mesures, horaires, dépenses). Lancée depuis les années 2000, cette dynamique de mise à disposition des données numé- riques accessibles en ligne, sous des formats ouverts et exploitables, accompagnées de licences, autorise la réutilisation des données par tous. 32. Vie privée à l’horizon 2020, 2012. 33. Une charte du droit à l’oubli numérique intitulée Droit à l’oubli numérique dans les sites collaboratifs et les moteurs de recherche a été signée par les représentants du secteur et des acteurs de la société civile sous l’égide du Secrétariat d’Etat à la prospective et au développement de l’économie numérique le 13 octobre 2010. Ni Google ni Facebook n’ont signé cette charte (http://www.alain-bensoussan.com/ avocats/charte-droit-a-loubli-numerique-dans-les-reseaux-sociaux/2010/10/30). 34. “Data, data everywhere, a special report on managing information”, The Economist, février 2010. 35. Pour les données publiques, le principe de « disponibilité » est inscrit dans la loi depuis 1978, auquel s’ajoute le principe de « réutilisation » (décret du 30 déc. 2005, en transposition de la Directive européenne 2003/98/CE) et le principe de « gratuité » (décret du 26 mai 2011 et circulaire du 26 mai 2011).62 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Pourtant, la France est à la traîne en matière d’ouverture des données publiques. Le rythme de diffusion de ces dernières dépend en effet entièrement des autorités publiques : il n’existe pas à l’heure actuelle de droit « opposable » à l’open data. Mais la retranscription en 2015 dans le droit français de la directive européenne de 2003 sur les informations publiques devrait permettre de modifier cet état de fait. Ce texte réaffirmera un certain nombre de grands principes, notamment ceux de la gratuité des données et du droit à la réutilisation, étendant le périmètre à toutes les données publiques, et pas seulement à celles ayant déjà été publiées. La directive doit également évoquer un droit opposable à la publication, mais encore imparfait. Celui-ci obligerait les administrations à publier toutes les données demandées par les citoyens. Axelle Lemaire, secrétaire d’Etat au numérique, a par ailleurs conclu les deux jours de débats de la Conférence de Paris sur l’open data et le gouvernement ouvert organisée par Etalab fin avril en faisant part de la volonté du gouvernement d’aller « plus loin, en matière d’ouverture et d’accessibilité », et en expliquant que la transposition de la directive offrait « un cadre juridique et une opportunité majeure d’évolution ». Elle a indiqué souhaiter que soit inscrite dans la loi, à cette occasion, le principe d’une ouverture par défaut des données publiques, et que toute fermeture soit explicitement expliquée, justifiée et réversible36. Cette ouverture serait particulièrement heureuse au vu des applications prometteuses liées au big data dans le domaine de la santé et de la protection sociale37. L’industrie de la santé se fonde sur quatre sources de données : les données de R&D d’entreprises pharmaceutiques ou académiques (essais cliniques par exemple) ; les données cliniques d’hôpitaux (dossiers médicaux électroniques) ; les rapports d’activité et les données de coûts 36 Ces déclarations rejoignent les propositions de l’Institut de l’entreprise 37. Voir notamment le Rapport sur la gouvernance et l’utilisation des données de santé, octobre 2013. http://www.sante.gouv.fr/IMG/pdf/Gouvernance_et_utilisation_des_donnees_de_sante_ septembre_2013.pdf. Le rapport Lauvergeon propose par ailleurs de lancer des programmes de valorisation par licence de cinq « stocks » de données massives dont l’analyse pourra apporter une plus-value à l’ensemble de la société : Pôle emploi, Sécurité sociale, éducation nationale, enseignement supérieur et aides à la valorisation du patrimoine touristique.www.institut-entreprise.fr 63 (données des caisses d’assurances maladies) ; le comportement des patients, données détenues par divers acteurs, en dehors de l’industrie de la santé, voire par le patient directement (préférences du consommateur, historique d’achats). Or les innovations issues de l’exploitation de ces données sont fondamentales. Elles permettraient d’évoluer vers une prévention plus ciblée, de mettre en place des soins appropriés tendant vers la médecine personnalisée, d’optimiser le médicament pour obtenir l’impact clinique attendu, de réduire les coûts pour une qualité de soin égale ou supérieure et enfin de favoriser la sécurité. Aux États-Unis, l’impact du big data sur la réduction des coûts de santé serait de l’ordre de 300 à 450 milliards de dollars (jusqu’à 17 % de baisse), principalement grâce à la prévention et à la médecine personnalisée. Il subsiste toutefois des obstacles soit techniques, soit liés à la propriété des données. Ainsi, si les deux premières sources de données sont en passe d’être ouvertes du fait de la demande de la puissance publique, cette dernière ne semble pas encore disposée à ouvrir ses propres données et celles des patients. Or il semble difficile de demander de tels efforts à l’industrie pharmaceutique si l’État ne prend pas sa part dans la démarche. c) Améliorer les procédures d’appels d’offres liés à une innovation dans les données Il pourrait être pertinent de diviser les procédures d’appel d’offres en plusieurs marchés distincts de taille plus petite. Ainsi, les petites entreprises - qui participent souvent aux procédures d’appels d’offres en tant que sous traitants de grandes entreprises - seraient moins dépendantes des grandes et pourraient participer aux programmes de marchés publics. Ces appels d’offres pourraient aussi mettre davantage l’accent sur l’utilisation de certaines méthodes ou procédés. Il s’agirait d’obliger les grandes entreprises à adopter et inclure la contribution d’une petite entreprise innovante dans leurs propositions lors d’une procédure d’appel d’offres. 64 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation d) Développer des formations adaptées, en utilisant le potentiel démultiplicateur de l’enseignement en ligne Pour que les besoins des entreprises en spécialistes du big data soient comblés, il faut promouvoir l’enseignement supérieur en mathématiques, en technologie de l’information et en sciences. La formation continue doit également être encouragée. Cela permettrait aux individus de mettre à jour les compétences nécessaires pour l’analyse de données. De nouvelles compétences et de nouveaux profils sont indispensables à l’essor du big data. Les politiques publiques de formation devront donc s’adapter aux nouveaux besoins en la matière et accélérer la diffusion de profils de type « data scientists », alliant compétences techniques et managériales. Ces compétences croisées sont encore très rares aujourd’hui alors qu’elles sont cruciales pour imaginer les nouveaux business models issus des big data. Henri Verdier expliquait néanmoins que la France disposait « de très bons designers pour inventer de nouveaux modes de visualisation et [d’] une école mathématique de premier plan mondial »38. Selon le ministère de l’innovation et de l’économie numérique, on estimait début 2014 à 300 000 le nombre de data scientists nécessaires à l’Europe dans les années à venir. Cela implique de mettre en place dès aujourd’hui des filières de formation adaptées à ces profils. À ce jour, il existe encore peu de formations françaises en ce domaine : le Mastère Spécialisé « big data : gestion et analyse des données massives (BGD) » de Telecom ParisTech, a ouvert à la rentrée 2013, un Mastère Spécialisé en big data a été lancé par l’Ensimag (Grenoble INP) et l’EMSI Grenoble (GEM) pour la rentrée 2014. Par comparaison, plus d’une vingtaine d’universités américaines ont lancé ou devraient lancer des formations big data. L’Université Columbia (New York) a ainsi créé au sein de l’IDSE (Institute for Data Sciences and Engineering) un nouveau diplôme intitulé « Certification of Professional achievement in Data Sciences ». Ce programme, ouvert dès l’automne 2013, propose 4 matières principales : probabilités et statistiques, algorithmes pour big data, machine learning et exploration des données. L’Université de 38. «Quand ‘big data’ rime avec ‘big business’», Les Echos du 20 Mars 2012.www.institut-entreprise.fr 65 Stanford délivre quant à elle un cours en ligne depuis 2013 orienté vers les big data : « Mining Massive Data Sets ». Pour toucher davantage de personnes, on pourrait envisager de développer un MOOC français sur le sujet, sur la plateforme FUN lancée par le ministère de l’enseignement supérieur et de la recherche. Ce MOOC pourrait être sponsorisé par des entreprises. Cette formation pourrait valoir aussi pour le service public lui-même, où la présence de data scientists aiderait à valoriser les données publiques. e) Diffuser une « culture de la donnée » Pour ce faire, la culture de la donnée doit être diffusée dès la période de formation. Le renforcement d’une « culture quantitative » serait nécessaire dans les programmes de formation commerciale et marketing, afin que les futurs managers sachent interpréter les résultats des modélisations et comprendre le sens caché des données. La CNIL est à l’origine depuis l’été 2013 d’un collectif visant à déclarer l’éducation au numérique cause nationale. La révolution big data implique selon elle que chacun devienne un véritable « citoyen numérique », à la fois acteur informé et responsable du numérique, capable d’exercer de manière effective ses droits et devoirs dans cet univers. f) Repenser l’encadrement du risque De nouvelles formes d’expertises et d’institutions seront probablement nécessaires pour encadrer la révolution du big data, dont l’ampleur dépasse la compréhension humaine ordinaire et heurte notre besoin d’« explicabilité » selon le terme utilisé dans le domaine de l’intelligence artificielle. Alors qu’il permet de mieux tracer et cibler les usagers et consommateurs, le big data peut être perçu comme une « boîte noire » peu exploitable et inspirant la méfiance. Mayer-Schönberger et Cukier39 en appellent ainsi dans leur livre big data: A Revolution That Will Transform How We Live, 39. http://blogs.lesechos.fr/internetactu-net/comment-les-big-data-vont-transformer-notresociete-a13014.html66 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation Work, and Think à la naissance d’“algorithmistes”, spécialistes capables de comprendre les données pour contrôler les entreprises de l’extérieur comme de l’intérieur – « tout comme les entreprises disposent en interne de comptables et d’auditeurs externes pour surveiller leurs comptes.» Car les auteurs rappellent que les chiffres ne sont pas infaillibles, qu’ils peuvent être manipulés, mal analysés ou utilisés à tort. Il existe selon eux un risque de discrimination et de catégorisation des populations auquel les pouvoirs publics devraient prêter la plus grande attention pour préserver les principes du libre arbitre.www.institut-entreprise.fr 67 L’OBSERVATOIRE DE L’INNOVATION LE PRÉSIDENT Christophe de Maistre est Président de l’Observatoire de l’Innovation de l’Institut de l’entreprise. Président de Siemens France, Christophe de Maistre est diplômé de l’école d’ingénieur Institut Supérieur de Mécanique de Paris. Il a obtenu un D.E.A. de l’Ecole Normale Supérieure de Cachan et un eMBA (Duke University). Christophe de Maistre intègre le Groupe Siemens en 1991 où il occupe diverses fonctions marketing en Allemagne et en France avant d’être nommé General Manager Automation & Drives Electrical Technologies de Siemens Ltd China (1998/2002). Il est ensuite successivement Corporate Account Manager Group de Siemens AG pour les Groupes de Distribution REXEL et SONEPAR (2002/2005), General Manager A&D Low Voltage (Systèmes & Produits) de Siemens Ltd China (2005/2008) et, enfin, Senior Vice-President Siemens Building Technology North-East Asia (2008/2010). Début 2011, Christophe de Maistre est nommé président de Siemens France. Il a exercé également les fonctions de Président Europe Sud et Ouest de Siemens entre 2011 et 2013. LE PILOTE Delphine Manceau est Pilote de l’Observatoire de l’Innovation de l’Institut de l’entreprise. Professeur à ESCP Europe, elle y a fondé l’Institut pour l’innovation et la Compétitivité i7 qui analyse les nouvelles pratiques d’innovation des entreprises. Elle est aujourd’hui Directrice Europe de la Division Corporate de ESCP Europe qui rassemble 68 Faire entrer la France dans la troisième révolution industrielle : le pari de l’innovation les activités de formation continue (programmes sur mesure et sur catalogue), l’Executive MBA et les relations avec les entreprises. Spécialiste de marketing et d’innovation, elle a réalisé en 2009 avec Pascal Morand le rapport Pour une nouvelle vision de l’innovation commandé par Christine Lagarde, alors Ministre de l’Economie, de l’Industrie et de l’Emploi, sur la capacité d’innovation des entreprises françaises et européennes. Elle est également l’auteur de l’ouvrage de référence Marketing Management avec Philip Kotler et Kevin Keller et de Marketing de l’innovation (avec Emmanuelle Le Nagard). Titulaire d’un doctorat en sciences de gestion et du diplôme d’habilitation à diriger des recherches, elle a été Senior Fellow à la Wharton School (University of Pennsylavania). Elle a également occupé les fonctions de Directeur académique de ESCP Europe et de Directeur du programme Master in Management Grande Ecole entre 2005 et 2008. LE RAPPORTEUR Julie Fabbri est Rapporteur de l’Observatoire de l’Innovation de l’Institut de l’entreprise. Secrétaire Générale de l’Institut pour l’Innovation et la Compétitivité i7 de ESCP Europe depuis 2011, elle organise et coordonne les événements et travaux de recherche d’i7 sur les nouvelles pratiques d’innovation des entreprises. Diplômée de ESCP Europe (Master in Management) et titulaire d’un Master Recherche en Gestion et Dynamique des Organisations de l’Université Paris X Nanterre, elle est aujourd’hui doctorante au Centre de Recherche en Gestion de l’Ecole Polytechnique (CRG) où elle s’intéresse au rôle de l’espace physique de travail et des tiers lieux (espaces de coworking, fab lab) dans les processus d’innovation de petites entreprises et d’entrepreneurs69 www.institut-entreprise.fr Toutes nos publications sont téléchargeables sur notre site internet : www.institut-entreprise.fr LES DERNIÈRES PUBLICATIONS DE L’INSTITUT DE L’ENTREPRISE Les réseaux sociaux d’entreprises : entre promesses et illusions Par Denis Moneuse (avril 2014) Royaume-Uni, l’autre modèle ? La Big Society de David Cameron et ses enseignements pour la France Par Eudoxe Denis avec Laetitia Strauch (mars 2014) Assurance chômage : six enjeux pour une négociation Par Bruno Coquet (janvier 2014) Smart Cities. Efficace, innovante, participative : comment rendre la ville plus intelligente ? Par l’Institut de l’entreprise (novembre 2013) Entreprises et territoires : pour en finir avec l’ignorance mutuelle Par l’Institut de l’entreprise (octobre 2013) Mettre enfin la fiscalité au service de la croissance Par l’Institut de l’entreprise et l’Institut Montaigne (septembre 2013) Réformer vraiment la formation professionnelle Par Jacques Barthélémy et Gilbert Cette (septembre 2013) Allemagne : miracle de l’emploi ou désastre social ? Par Alain Fabre (septembre 2013) Service public 2.0 Par Elisabeth Lulin (juillet 2013)Créé en 1975, l’Institut de l’entreprise est un think tank indépendant de tout mandat syndical ou politique. Association à but non lucratif, l’Institut de l’entreprise a une triple vocation : être un centre de réflexion, un lieu de rencontre et un pôle de formation. Profondément ancré dans la réalité économique, il concentre ses activités sur la relation entre l’entreprise et son environnement. L’Institut de l’entreprise réunit plus de 130 adhérents (grandes entreprises privées et publiques, fédérations professionnelles et organismes consulaires, institutions acadé- miques, associations…). Ses financements sont exclusivement privés, aucune contribution n’excédant 2% du budget annuel. THINK TANK •La réflexion de l’Institut de l’entreprise s’organise autour de 5 thématiques prioritaires : compétitivité et innovation, emploi et prospective sociale, management, finances publiques et réforme de l’action publique. •Dans cette réflexion, la vision de l’entreprise – conçue à la fois comme organisation, acteur du monde économique et acteur de la société – tient une place prépondérante. Pour réaliser ses études et élaborer ses propositions, l’Institut de l’entreprise met à contribution un vaste réseau d’experts (universitaires, hauts fonctionnaires, économistes, politologues, dirigeants d’entreprise, think tanks partenaires étrangers…). La diffusion de ses idées s’appuie sur la parution régulière de rapports et de notes et sur la publication d’une revue annuelle, Sociétal – qui propose également des débats en ligne sur les questions d’actualité économique via la page Sociétal - Le Blog, intégrée au site internet de l’Institut de l’entreprise. Résolument tourné vers l’international et partenaire fondateur du Réseau International des Thinks Tanks Economiques (www.isbtt.com), l’Institut de l’entreprise intègre systématiquement dans sa réflexion l’analyse de modèles étrangers susceptibles d’inspirer les politiques publiques françaises. RENCONTRES Ouvertes à un large public ou réservées aux adhérents, les manifestations organisées par l’Institut de l’entreprise ont pour objectif d’animer le débat public et de stimuler la réflexion sur des sujets d’intérêt collectif, liés à l’entreprise. Dirigeants d’entreprise, personnalités politiques, experts issus de l’entreprise ou du monde universitaire sont invités à s’exprimer à l’occasion de déjeuners, de conférences et de débats. FORMATION L’Institut de l’entreprise propose des programmes pédagogiques visant à sensibiliser les publics appartenant à l’écosystème de l’entreprise aux enjeux économiques et sociaux. Dans ce cadre, l’Institut s’adresse prioritairement aux enseignants de Sciences économiques et sociales (SES), avec le Programme Enseignants-Entreprises; aux jeunes «hauts potentiels», avec l’Institut des Hautes Études de l’Entreprise (IHEE) et Le Cercle; aux représentants politiques avec le programme Elus & Entreprises. Pour en savoir plus : www.institut-entreprise.fr 29, rue de Lisbonne, 75008 Paris Tél. : +33 (0)1 53 23 05 40 / Fax : +33 (0)1 47 23 79 01 www.institut-entreprise.fr guide du big data l’ annuaire de référence à destination des utilisateurs guide du big data 2013 / 2014 2013 / 2014© C opyright 2013. IBM, the IBM logo , and ibm.com are tradema rks o f IBM C orp., registered in many jurisdictions w orldwide. Other product a nd ser vice names might be tradema rks o f IBM or o ther companies. A cur rent list of IBM tr adema rks is a vailable on the web at “C opyright and tradema rk information” a t www.ibm.com/legal/copytrade.shtml https://ibm.biz/BdxkwP Avec une croissance annuelle du volume des données de 56%, Passez au Big Data avec IBM : Big Data at the Speed of Business Big data n'est pas qu'une question de Volume. Il s'agit pour les organisations de saisir les opportunités qu'offrent l'exploitation de toutes les natures de données qu'elles soient internes ou externes. IBM a développé le portefeuille le plus étoffé pour gérer la donnée, la transformer en information puis générer des actions : Système pour Hadoop : traiter et analyser tout type de données sur des clusters de serveurs. Stream Computing : analyser en temps réel (flux) des volumes massifs de données. Data Warehousing : effectuer des analyses "in-database" poussées. Data Visualisation : chercher, découvrir et visualiser des données quelles que soient leur source ou leur format. Business Intelligence : accéder et analyser les informations nécessaires pour améliorer la prise de décisions. Analyse Prédictive : découvrir des tendances non visibles et anticiper avec précision les résultats de l'entreprise. Apparu il y a seulement trois ans dans la sphère décisionnelle, le Big Data s’est déjà imposé comme l’innovation business numéro 1 de ce début de décennie, à la frontière entre technologie et management. Dans tous les secteurs où la gestion des données représente un actif indispensable de l’entreprise, l’engouement a été immédiat avec à la clé la formation d’un véritable écosystème du Big Data : des fournisseurs IT, qui ont développé une offre variée autour des technologies Hadoop, aux utilisateurs finaux (grandes entreprises, start-ups), qui cherchent à construire un avantage concurrentiel sur l’exploitation de leurs données, en passant par des entreprises spécialisées « data » (éditeurs business intelligence, consultants Big Data…), le paysage français s’est étoffé et structuré en l’espace de deux ans. La ministre chargée de l’Economie Numérique, Fleur Pellerin, a d’ailleurs annoncé, au cours du premier semestre 2013, un plan de soutien à la filière du Big Data : 11,5 millions d’euros issus des Investissements d’Avenir seront ainsi alloués à des projets Big Data et un programme de formation et de financement sera mis en place. Pourquoi un tel engouement ? Parce que les promesses de croissance autour de l’exploitation des grands volumes de données sont immenses : réduction des coûts, augmentation des ventes, relance de l’innovation, aide à la décision… les espoirs liés à la « data-driven company » attirent de nombreux professionnels, dans tous les secteurs (télécom, finance, grande distribution, industrie… ). Mais ce nouveau modèle impose de réfléchir aux conditions de mise en œuvre : le choix de la technologie d’abord, l’organisation et les compétences ensuite. Ce Guide a pour vocation d’aider les professionnels désireux d’exploiter leurs données à appréhender l’environnement du Big Data et à comprendre les fondamentaux d’une démarche Big Data en entreprise. Quelles technologies choisir ? Qui sont les acteurs du marché ? Quels métiers mettre en avant ? Et quel est le cadre juridique ? Nous avons recherché pour vous les informations les plus récentes sur le phénomène Big Data, en faisant un état des lieux de l’offre et de la demande sur l’année 2013 et en photographiant le panorama actuel des fournisseurs, dans la deuxième partie du Guide. De nombreux experts ont également accepté de répondre à nos questions pour témoigner de leurs expériences et apporter leurs conseils. Vous trouverez donc dans ce guide les réponses aux questions les plus usuelles posées par les curieux du Big Data. Il vous permettra de mesurer l’impact et l’efficacité de cette démarche pour votre entreprise et d’envisager, peut-être, à terme, un basculement vers ces technologies et la maîtrise instantanée de l’information. édito Blandine LAFFARGUE Directrice de publication +33 (0)1 45 63 43 58 / blaffargue@corpevents.fr Le Guide du Big Data est réalisé par la société Corp Events 3 « Le Big Data s’est déjà imposé comme l’innovation business numéro 1 de ce début de décennie, à la frontière entre technologie et management »5 sommaire LE BIG DATA, UNE REVOLUTION DANS LE TRAITEMENT DES DONNEES ? . . . . . . . . . . . . . . . . . . . . . . . . . . 05 • Comment définir le Big Data ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 05 • Une matière première, les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 06 • Une Révolution technologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 07 • Les usages du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 08 Interview de Mathias Herberts, Disruptive Engineer & CTO, Cityzen Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 09 UN MARCHE MONDIAL – BILAN ET PERSPECTIVES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 • Le marché Big Data en Chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 • Les acteurs du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Interview de Matteo Pacca, Partner at McKinsey&Company . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 LES TECHNOLOGIES BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 • Petit Lexique des Technologies Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 • Tour d’horizon des briques fonctionnelles en lien avec le Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 • Les technologies Big Data face aux besoins de la DSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Interview Isabel Drost, membre de l’Apache Software Foundation, co-Fondatrice et contributrice pour Apache Mahout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 EXEMPLES D’APPLICATIONS EN ENTREPRISES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 • Projet Big Data de customisation marketing: Monoprix et dunnhumby . . . . . . . . . . . . . . . . . . . . . . . . 18 • Projet Big Data d’optimisation du traitement industriel : La Poste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 • Projet Big Data de Recherche : Projet DEUS de l’Observatoire de Paris . . . . . . . . . . . . . . . . . . . . . . . 22 • Projet Big Data de Localisation : Le géomarketing de SFR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 • Projet Big Data d’Agrégation de Données : Le projet Ellicible de Coface Services . . . . . 26 LES METIERS DU BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Quelles sont les nouvelles compétences liées au Big Data ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Les nouveaux métiers du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Les offres de formation en France . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 L’impact du Big data sur l’organisation de l’entreprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Interview de Jacques Froissant, président d’Altaïde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 LES POUVOIRS PUBLICS FACE AU BIG DATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 L’Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Soutenir le décollage du marché : les investissements publics dans le domaine du Big Data . . . . 32 La problématique de confidentialité des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Interview de Thierry Dor, associé au cabinet Gide Loyrette Nouel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 guide profils de société ACCENTURE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Actuate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Affini-Tech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 BIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 CGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Club Décision DSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Data & Data Consulting . . . . . . . . . . . . . . . . . . . . . . . . 48 EXALEAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 FASTCONNECT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Hewlett-Packard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 IBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Jaspersoft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 KEYRUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 MAPR TECHNOLOGIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Neo Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 ParStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 PENTAHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 QlikTech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 QUARTET FS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 SAS INSTITUTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 SEMSOFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 SENTELIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 SINEQUA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Sogeti High Tech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Splunk Inc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 SRD CONSEIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 SYNCSORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 TABLEAU SOFTWARE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Worldline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 YSANCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 45 On le voit, les définitions du concept sont en pleine évolution, en lien certainement avec le degré de mise en pratique du Big Data dans les entreprises. Si les premières expérimentations sont encore timides en France en 2013, l’intérêt des managers est bien réel et le Big Data pourrait dès lors très rapidement aborder son tournant économique. en informations que les managers sont capables de prendre les bonnes décisions et de créer de la valeur. Du coup, le Big Data sous-entend un renversement total de paradigme dans le mode d’organisation de l’entreprise, celleci devenant « data-centric », c’est-à-dire guidée par les données. Les métiers sont amenés à évoluer et à travailler davantage en synergie, tandis que les temps de décisions sont considérablement raccourcis, en raison des actualisations permanentes de l’information. Mettre en place le Big Data, c’est donc lancer une « démarche », plutôt qu’installer un outil. Une Révolution économique ? En cela, certains considèrent que le Big Data s’apparente à une véritable Révolution Industrielle parce qu’on se trouve en présence d’un vrai bouleversement qui se généralise à tous les secteurs économiques : la donnée joue le rôle de matière première, les technologies jouent celles d’outils de production, et le résultat est un changement de paradigme dans la manière d’organiser les entreprises et de générer de la valeur dans tous les domaines de l’économie. Une comparaison osée et peut-être excessive, mais qui traduit bien l’impact global du Big Data et sa nature autant économique que technologique. Comment définir le Big Data ? Si le Big Data est devenu un terme à la mode dans les milieux décisionnels, il est parfois difficile de s’accorder sur une définition unique : on parle tantôt de technologies de traitement, tantôt de modèle économique, voire de mode d’organisation spécifique de l’entreprise. La définition technologique La définition initiale donnée par le cabinet McKinsey and Company en 2011 s’orientait d’abord vers la question technologique, avec la célèbre règle des 3V : un grand Volume de données, une importante Variété de ces mêmes données et une Vitesse de traitement s’apparentant parfois à du temps réel. Ces technologies étaient censées répondre à l’explosion des données dans le paysage numérique (le « data deluge »). Puis, ces qualificatifs ont évolué, avec une vision davantage économique portée par le 4ème V de la définition, celui de Valeur, et une notion qualitative véhiculée par le 5e V, celui de Véracité des données (disposer de données fiables pour le traitement). Ces cinq éléments ont servi pendant longtemps de boîte à outils pour comprendre les fondements du Big Data, à savoir l’apparition de technologies innovantes capables de traiter en un temps limité de grands volumes de données afin de valoriser l’information non exploitée de l’entreprise. L’aspect organisationnel et stratégique Aujourd’hui, cette définition s’est amplifiée : on parle davantage de « démarche Big Data » pour signifier l’importance prise par les données dans l’univers de l’entreprise. Celles-ci deviennent un mode de décision, un actif stratégique pour se différencier de la concurrence : c’est grâce à ces données rapidement transformées Le Big Data, une révolution dans le traitement des données ? 4 « Du coup, le Big Data sous-entend un renversement total de paradigme dans le mode d’organisation de l’entreprise, celle-ci devenant « data-centric », c’est-à-dire guidée par les données » Les 5V du Big Data Volume Vitesse Variété Valeur Véracité6 7 en plus variées et de plus en plus distribuées (c’est-à-dire issues de sources disparates). Les données textuelles, les données de logs, les données mobiles, les vidéos, etc. sont ainsi venues perturber les technologies de traitement traditionnelles, car ce ne sont pas des données structurées telles qu’on pouvait en trouver auparavant (comme par exemple les données chiffrées ou transactionnelles…). On parle alors de données non-structurées ou bien multistructurées. Tout l’enjeu technologique des années 2000 a donc résidé dans la captation et le traitement de ces nouveaux formats de données. La question de la qualité des données Mais, passée cette interrogation, une autre problématique s’est installée : comment savoir si ces données sont intrinsèquement fiables et propres à l’utilisation ? Les données erronées, les doublons, les informations périmées sont en effet légion au cœur du data déluge ce qui signifie que, traitées de la même façon que les autres, elles peuvent fausser des analyses et des dé- cisions. Quels outils mettre en place dès lors pour empêcher ces altérations ? Ce risque lié à la qualité des données a fait dire à de nombreux experts que nous étions entrés dans l’ère de la « smart data » davantage que dans celle du Big Data : plutôt que de traiter en bloc tout l’univers des données disponibles, il s’agit de trouver la bonne donnée, fiable et utile, qui permettra d’obtenir de l’information et créer de la valeur. A la base du Big Data, il y a donc ces fameuses données… Un « data deluge » comme le dit le terme consacré, car la production de données numériques aujourd’hui se mesure en exaoctets, soit 1018 octets. Ce qui interpelle, c’est essentiellement la croissance exponentielle de ces données : on estime que tous les deux ans, il se crée autant de données que depuis le début de l’humanité, ce qui amène les prévisionnistes à parler de 40 zettaoctets (1021) pour 2020 ! Le data deluge D’où proviennent ces données et comment expliquer cette explosion soudaine ? Il y a bien sûr la mise à disposition généralisée d’outils numériques de plus en plus performants et connectés, tels que les ordinateurs et les smartphones reliés à Internet en permanence. L’accès à l’information instantanée s’est démocratisé par les réseaux sociaux et, dans un nombre important de pays, les administrations publiques lèvent le voile sur leurs données à travers le mouvement d’Open Data. Mais au-delà, on envisage de plus en plus la multiplication de données issues d’objets interconnectés, de type capteurs ou puces mobiles : ce qui avait été approché avec le RFID (par exemple au sein des cartes de transport ou par code-barre dans les chaînes logistiques) pourrait être généralisé dans les années à venir à travers l’Internet des Objets. Concrètement, il est aujourd’hui technologiquement possible de connecter entre eux les objets de son quotidien, par exemple son réveil avec son calendrier Outlook, ou bien son véhicule avec les applications de stationnement, ou encore son réfrigérateur avec son panier de courses en e-commerce. Des perspectives technologiques qui restent encore expérimentales mais pourraient vite exploser : Ericsson a ainsi estimé le nombre d’objets connectés dans le monde à 50 milliards en 2020 (12 milliards aujourd’hui). Une variété de données Les données multistructurées Cette mutation dans l’univers numérique n’est pas seulement quantitative : audelà de leur nombre, les données mises à disposition sont également de plus Une matière première, les données « Loi de Moore : Largement répandue dans la sphère scientifique, bien qu’elle n’ait pas été prouvée, la loi de Moore affirme que la capacité des ordinateurs (et notamment le volume des données) double tous les 18 mois. » octets 40 zettaoctets de données en 2020 50 milliards d’objets connectés à la même date 1 Mégaoctet = 106 octets 1 Gigaoctet = 109 octets 1 Téraoctet = 1012 octets 1 Pétaoctet = 1015 octets 1 Exaoctet = 1018 octets 1 Zettaoctet = 1021 octets6 7 L’influence du Cloud Mais c’est particulièrement avec l’apparition du Cloud que le Big Data a connu un développement accéléré : en mutualisant les données dans le nuage et en démocratisant ainsi l’accès des entreprises au stockage et au traitement de tous types de données, le Cloud a créé les conditions pour une généralisation du Big Data. Petites et grandes entreprises ont pu souscrire à des offres « as a service » pour explorer leurs données internes mais également d’autres données accessibles depuis le Cloud. Il est d’ailleurs très fréquent de voir des offres Big Data appuyées sur l’informatique en nuage. L’explosion des données numé- riques, en tant que telle, n’aurait eu aucune valeur sans accompagnement technique : toute l’innovation liée au Big Data a d’abord été une innovation technologique, portée par la mutation des outils de stockage et de traitement. L’augmentation des capacités de stockage Le stockage, d’abord : avec la croissance exponentielle des données, il est vite devenu indispensable de faire évoluer les baies de stockage traditionnelles pour les mettre en capacité d’absorber au fur et à mesure la multiplication de ces données. Une problématique d’autant plus réaliste que les coûts de stockage étaient en chute libre depuis le dé- but des années 2000, à moins de 1 dollar le gigaoctet… Technologiquement, ce besoin s’est traduit par l’apparition de la « scalabilité », c’est-à-dire l’ajustement progressif et continu de l’outil de stockage à la masse des données collectées. Une innovation majeure permettant aux DSI de stocker toutes sortes d’informations très rapidement, sans arbitrage sur leur utilisation future, et surtout sans la nécessité d’accroître (et donc changer) l’infrastructure existante. Aujourd’hui, de nombreux fournisseurs développent ce type de technologies au sein d’appliances (c’est- à-dire d’outils combinés de stockage et de traitement). Une révolution technologique « La mise à disposition de technologies a accompagné l’explosion des données. » Y2K Les années 2000 ont permis la captation et le traitement de nouveaux formats de données L’apparition de technologies de traitement adaptées Enfin, le dernier facteur technologique qui a permis au Big Data de décoller, probablement le plus célèbre, concerne la révolution des outils de traitement. Conjointement à l’explosion des données numériques, les années 2000 ont assisté à l’apparition de nouvelles bases de données, adaptées aux données non structurées (Hadoop), ainsi qu’à la mise au point de modes de calcul à haute performance (MapReduce) : c’est la révolution Hadoop/MapReduce (cf partie IV, Les Technologies Big Data). Ces deux innovations, portées par Google et Yahoo, ont posé les bases du traitement Big Data actuel : il est devenu possible, grâce à elles, de traiter d’importants volumes de données en un temps limité (réduit de près de 50 fois par rapport aux précédentes technologies), pour tous types de données, structurées ou non. Le fait qu’Hadoop soit mis à disposition en Open Source a probablement contribué à la généralisation rapide de l’outil et à l’explosion ultérieure du Big Data. Les conditions d’un essor du Big Data étaient donc réunies dès la fin des années 2000 : la mise à disposition de technologies a accompagné l’explosion des données. Plus qu’un effet cause-consé- quence, c’est davantage une évolution conjointe qu’il faut mettre en avant, à la manière d’un processus auto-entretenu. En revanche, peut-on parler de « révolution » dans les usages du Big Data ?8 9 • Dans le domaine de l’Information, tout simplement, qu’elle soit corporate ou grand public, le traitement des Big Data a profondément modifié la donne : pour une requête donnée, il est désormais possible d’accéder à un croisement d’informations très disparates, issues de sources jusque-là négligées. L’instantanéité des réseaux sociaux est à ce titre une innovation de taille : l’analyse des tweets est devenue une source de renseignements courante pour comprendre les comportements ou les goûts de populations segmentées. De plus, au-delà de la compréhension de phénomènes, la data s’avère un outil de communication efficace pour faire passer des messages factuels aux publics : c’est tout le rôle du data journalisme, qui vise à mettre en lumière des événements complexes au travers de la représentation de données multiples. On le voit, le Big Data a donc eu un effet profondément novateur sur de nombreuses activités : il a ouvert de nouveaux champs d’exploration, avec à la clé des informations et fonctions inédites. Mais, au-delà, le Big Data a également permis de créer intégralement de nouveaux services, de nouvelles filières fondées sur des données inexplorées jusqu’alors. • Dans le domaine du pilotage de l’entreprise, les usages sont également nombreux et porteurs d’innovation : en assurant une circulation immédiate et généralisée de l’information sur l’activité, le Big Data laisse entrevoir une optimisation complète des processus et des ressources métiers. Il réduit de facto le temps de réaction face à des erreurs ou des pannes et permet d’ajuster en permanence les équilibres offre-demande et temps-ressource. C’est une promesse importante dans des secteurs comme ceux de l’énergie ou des transports qui sont constamment portés par la logique de flux ; outre une réduction importante des coûts, le Big Data permet ici d’identifier au plus près les moteurs de l’activité, ce qui n’était pas possible avec les indicateurs traditionnels, soumis à des délais de latence bien plus importants. • Pour la Recherche, domaine d’application originel du Big Data, l’apport de celui-ci est assez évident : en autorisant le traitement de multitudes de données, le Big Data permet à la science de réaliser des avancées importantes, lorsqu’il s’agit d’explorer l’infiniment petit (ex : exploration géologique), de croiser des données complexes (ex : imagerie) ou d’effectuer des simulations (ex : domaine spatial). C’est d’ailleurs en géné- tique que le Big Data a fait ses premières armes car ce secteur réclamait une approche à la fois quantitative et qualitative avancée. La question agite en effet de nombreux experts : le Big Data est-il si révolutionnaire que le laissent entendre les journalistes et les acteurs du secteur ? L’utilisation de données à des fins de traitement et d’analyse est en effet inhérente à tout pilotage d’entreprise, et des outils anciens existent pour cela (depuis l’antique livre de comptes jusqu’aux tableaux de Business Intelligence, en passant par les traditionnelles bases Excel et Access). Beaucoup estiment donc que le Big Data n’est qu’un passage à l’échelle des traitements traditionnels : ce que l’on traitait auparavant en petite quantité, on le traitera en grande quantité avec une fiabilité renforcée. Les approches statistiques et la nature des résultats trouvés ne seraient en rien modifiés… C’est ici que les désaccords naissent car le Big Data, en traitant une multiplicité de données issues de sources variées et selon un quasi-temps réel, a ouvert la voie à d’autres utilisations de la donnée et à de nouvelles méthodes d’analyse : • En marketing, c’est tout le secteur qui se trouve renouvelé : le Big Data permet en effet aux professionnels du secteur de connaître leur client « à 360° », c’est-à-dire à la fois par son parcours internet mais également par ses achats en magasin ou ses préférences affichées sur les réseaux sociaux. Anticiper les besoins de celui-ci et cibler des offres personnalisées est devenu le credo du marketing « data-driven », qui met en avant des techniques inédites : le RealTime Bidding pour l’achat d’espaces en temps réel, le Retargeting pour le ciblage personnalisé ou encore l’analyse de sentiment pour la détection de comportements sur les réseaux sociaux. Le marketing se fait de plus en plus pré- dictif avec le Big Data, et l’on assiste à une éclosion de nouveaux modèles statistiques davantage inductifs. Les usages du Big Data8 9 • Les données mobiles, par exemple, dont le traitement temps réel est devenu un enjeu stratégique pour de nombreux secteurs, sont un important gisement d’innovation : en effet, la possibilité de géolocaliser des utilisateurs a ouvert de nombreuses perspectives aux annonceurs qui y voient une opportunité unique de placer leurs publicités à proximité des lieux d’achat. De la même façon, les opérateurs telecom travaillent avec les autorités publiques pour comprendre les flux de populations grâce à ces données et, dans le secteur du tourisme, des services inédits de localisation sont mis en place. Les usages du Big Data sont donc variés et très innovants, ce qui peut expliquer l’engouement suscité auprès des entreprises et administrations publiques. Le débat sur l’aspect révolutionnaire du Big Data reste cependant ouvert, car certains considèrent que, si les données ont changé, les algorithmes restent quant à eux assez similaires. L’évolution de ceux-ci reste probablement l’un des chantiers de ces prochaines années. 1) Vous êtes un des pionniers du Big Data en France… Comment (et pourquoi) avez-vous eu l’idée de mettre en place ce type d’outils ? Tout est parti d’une expérience chez Google, où je suis allé travailler quelque temps en 2008 et où j’ai découvert une toute autre façon de prendre des décisions. Google avait théorisé une philosophie de travail régie par deux principes : 1) ne pas arriver en réunion en disant « je pense que » mais « les données prouvent que », 2) ce n’est pas l’opinion de la personne la mieux payée qui compte. Cela faisait écho à un livre que je lisais à l’époque, qui s’appelait « Super Crunchers » et qui prônait le raisonnement par les chiffres et les données. Partant de là, je suis revenu au Crédit Mutuel avec la certitude que les données étaient fondamentales et qu’il était nécessaire de modifier nos processus de décision : pour éviter d’avoir une vision erronée de nos clients, de nos partenaires et de notre fonctionnement, il fallait remettre à plat notre socle technologique. 2) Pour vous, le Big Data correspond-il à une rupture technologique majeure ? Quels sont les éléments de nouveauté ? Sont-ils uniquement technologiques ? Pour moi, l’élément de nouveauté dans le Big Data, ce n’est pas tant la technologie que le pilotage : désormais, on a ré- duit les boucles de décision, tout est plus court dans l’information et la réaction. C’est là qu’il y a un tournant. Bien sûr, cela ne se ferait pas sans la mise à disposition d’outils particuliè- rement opportuns à ce moment-là. Ce sont des outils qui ont accéléré le changement de comportement vis-à-vis des données : désormais, il est possible de stocker sans savoir exactement l’utilisation qu’on fera des données, simplement parce qu’on considère qu’elles ont une valeur intrinsèque. 3) Quand on parle de Big Data, on parle d’Hadoop… pour vous, le lien est-il forcément évident ? Quels sont les apports de cet outil et, à l’inverse, que pouvez-vous lui reprocher ? Même s’il existe d’autres outils, Hadoop reste la référence du traitement Big Data. Certes, c’est un outil qui réclame de s’investir dans la programmation mais il permet vraiment de faire des choses nouvelles à des coûts restreints et sur un grand volume de données. Le principal reproche qu’on peut lui adresser, c’est d’avoir une courbe d’apprentissage assez longue et complexe ; mais une fois qu’on a compris comment fonctionnait la communauté Hadoop, et qu’on a pris le temps de rentrer dans les subtilités du code, c’est un outil très efficace. 4) Quels sont pour vous les principaux défis à relever au sein des organisations utilisatrices du Big Data ? Pour moi, le principal défi est organisationnel : la démarche Big Data est forcément transverse donc elle implique de casser les cloisons entre services, ce qui n’est pas toujours évident. En terme SI, cela signifie qu’il faut aller récupérer les données dans tous les recoins, ce qui a de grandes implications au niveau de l’urbanisation du système d’information. Autre défi : aujourd’hui, on a tendance à penser qu’il faut passer par des offres packagées plutôt que par le code open source Hadoop. Cela peut être un gain de temps mais ça n’apporte pas les solutions en interne. Pour moi, il faut avant tout avoir des équipes dédiées qui se plongent résolument, de façon personnalisée, dans l’intégration de l’open source au système d’information, et qui soient capables de comprendre les besoins propres de l’entreprise. Enfin, dernier challenge : l’utilisation de la donnée risque de remettre en cause pas mal de convictions et de straté- gies. Il y aura donc forcément des réticences face au pouvoir de la donnée. Aux équipes informatiques et business de montrer la voie en pointant la valorisation et le potentiel des données ! Interview « L’élément de nouveauté dans le Big Data, ce n’est pas tant la technologie que le pilotage » Mathias Herberts Disruptive Engineer & CTO, Cityzen Data « La démarche Big Data est forcément transverse donc elle implique de casser les cloisons entre services » Mathias Herberts (à droite) reçoit le prix de l’innovation Big Data10 11 Quelles sont les perspectives économiques du Big Data pour les fournisseurs et les utilisateurs ? Qui sont les acteurs qui dynamisent le marché ? Et dans quels secteurs les trouve-t-on ? Voici un petit panorama du marché du Big Data autour du monde pour l’année 2013. Le marché Big Data en Chiffres Depuis son décollage en 2011, le Big Data n’a cessé d’afficher des scores de croissance importants côté utilisateurs mais surtout côté fournisseurs : à ses débuts, on avait d’ailleurs parfois qualifié ce marché de « marché d’offre » pour souligner le fait que la demande était encore à la traîne. Qu’en est-il en 2013 ? Le marché des fournisseurs Plusieurs études menées par des cabinets de conseil soulignent la forte croissance du marché du Big Data : > Selon IDC, le marché du Big Data s’établirait à 24 milliards de dollars en 2016 (contre 3,3 milliards en 2010) avec un taux de croissance annuel de 31,7%. > Ce marché est constitué des produits et services liés au Big Data, avec le découpage suivant : • Serveurs : 27,3% • Logiciels : 34,2% • Stockage : 61,4% > D’après une étude IDC pour EMC de juin/juillet 2012, les trois technologies privilégiées dans le Big Data seraient les suivantes : • Les bases de données objets ou graphiques : 47% • L’indexation de contenus (moteurs de recherche avancés) : 38% • Les technologies en mémoire (in-memory database) : 37% Le marché des utilisateurs Côté utilisateurs, la situation est plus contrastée en fonction des zones géographiques : > Début 2013, le cabinet Forrester établissait sa prévision de croissance des budgets IT à 6% au cours de l’année en Europe, alors qu’elle est de 7,5% aux Etats-Unis > IDC estime que seulement 10% des entreprises françaises utilisent déjà des solutions Big Data, tandis que 70% d’entre elles n’ont engagé ni projets ni réflexions en ce sens (chiffres de septembre 2012) > Ainsi 58% des entreprises françaises estiment être en retard par rapport à leurs concurrents (et 47% estiment être très en retard) > En comparaison, 33% des entreprises britanniques et 18% des entreprises allemandes ont lancé une démarche Big Data > Parmi les freins évoqués, la problématique du coût est souvent avancée, tout comme celle du manque de ressources et d’organisation pour mettre en place le Big Data (64% des équipes IT estiment que la collaboration entre l’IT et les métiers devrait être renforcée). Enfin, la question de la qualité des données (41%) ou de leur utilité pour les analyses prévues (37%) est un autre point soulevé par The Economist. Un marché mondial Bilan et perspectives Les chiffres duBig Data >Un marché de 24 milliards de $ en 2016 >Taux de croissance annuel : 31,7% >Pourcentage d’entreprises lançant des projets Big Data ou envisageant de le faire • France : 10% • Allemagne : 18% • UK : 33% >Le Big Data fait partie des 5 secteurs clé de la croissance américaine >En France, le Big Data pourrait générer 2,8 milliards d’euros et 10 000 emplois directs (prévisions de l’AFDEL)10 11 nouveaux services grâce au traitement des données mobiles géolocalisées. Mais au-delà de ces secteurs habituellement réputés pour leur propension au Big Data, on voit germer des initiatives Big Data dans d’autres environnements : l’industrie française commence en effet à s’intéresser au phénomène, notamment sur ses qualités d’optimisation logistique et financière. Les médias sont également de plus en plus friands de traitement de données, d’abord parce qu’ils peuvent obtenir une information temps réel et aussi parce qu’ils peuvent mesurer les préférences de leurs audiences. Mais le secteur qui fonde les espoirs les plus nombreux sur le Big Data est probablement celui de la santé, où les perspectives dans la recherche mais aussi dans le ciblage des médicaments sont importantes. C’est d’ailleurs le terrain d’exploration originel du Big Data puisque c’est dans le domaine de la gé- nétique que les premières expérimentations avaient eu lieu. Actuellement, c’est le mouvement du Quantified Self qui focalise les attentions : mouvement orienté grand public, il vise à permettre aux individus de surveiller en permanence leurs indicateurs de bien-être (ex : poids, nutrition, fatigue) à l’aide de capteurs et de traitement de données temps réel. Encore au stade de l’expérimentation, cette activité pourrait être amenée à se développer rapidement à la faveur de l’essor des appareils mobiles. > Dans le secteur de l’analytique, de nombreux acteurs sont également présents : • Les éditeurs BI (ex : SAS, Micro- strategy, Qliktech…) • Des fournisseurs spécialisés dans l’analytique Big Data (ex : Datameer, Zettaset…) D’autre part, de nombreuses PME spé- cialisées dans le Big Data ont vu le jour, sur toute la chaîne de valeur du secteur. En France, les pionniers ont ainsi été : > Pour la fourniture d’équipements et logiciels Big Data : Hurence, Dataiku > Pour l’analyse de données : Criteo, Squid, Captain Dash, Tiny Clues > Pour le conseil : Ysance Ces fournisseurs établissent souvent des partenariats entre eux afin de fournir au client des solutions packagées intégrant à la fois l’infrastructure et les applications. Les utilisateurs La mise en place du Big Data est vécue différemment selon les secteurs : on a coutume de dire que les principaux secteurs d’application du Big Data sont les telecoms, la grande distribution (online et offline) et la finance. Ce sont en effet les premières activités qui se sont penchées sur la problématique du Big Data car la captation de grands volumes de données pouvait rapidement leur donner un avantage comparatif. Pour les opérateurs télécoms, c’était même une opportunité de création de Pourtant, les promesses sont nombreuses en matière de création de valeur : > En juillet 2013, Mc Kinsey estime ainsi que le PIB des Etats-Unis pourrait croître de 1,7% d’ici 2020 en s’appuyant sur le Big Data. Celui-ci ferait partie des 5 secteurs phare de la croissance américaine. > Les économies réalisées dans la santé et l’administration américaines pourraient atteindre 300 milliards de dollars ! > Dans le domaine de la grande distribution, le chiffre d’affaires pourrait croître de 40% en 5 ans, et de 30% sur la même période pour les télécoms ! > En France, le constat fait par l’AFDEL (association des éditeurs de logiciels français) est que le Big Data pourrait générer 2,8 milliards d’euros et 10 000 emplois directs si les conditions de son déploiement étaient réunies (c’est-à-dire avec un financement de 300 millions d’euros et la mise en place d’un écosystème). C’est cette estimation qui a d’ailleurs conduit la ministre à mettre en place un programme de soutien à la filière. > Les 3 principales motivations des dirigeants pour mettre en place des solutions Big Data sont évoquées par Mc Kinsey : en Europe, c’est l’aspect « détection des tendances » qui occupe la première position, suivi par « un meilleur engagement client » puis « une prise de décision plus rapide ». Dans les marchés émergents en revanche, cet aspect « prise de décision » est placé en première position. Les acteurs du Big Data Les fournisseurs De nombreux acteurs se sont positionnés rapidement sur la filière du Big Data, dans plusieurs secteurs : > Dans le secteur IT, on trouve ainsi : • Les fournisseurs historiques de solutions IT (ex : IBM, SAP, Oracle, HP…) • Les acteurs du Web (ex : Facebook, Google…) • Les spécialistes de solutions data et Big Data (ex : Teradata, MapR, Hortonworks, EMC…) • Les intégrateurs (ex : Atos, Sopra Group, Accenture, Cap Gemini…) RETAIL PRODUCTIVITY INCREASE % SALES INCREASE $ CONSULTING AIR TRANSPORTATION CONSTRUCTION FOOD PRODUCTS STEEL AUTOMOBILE INDUSTRIAL INSTRUMENTS PUBLISHING TELECOMMUNICATIONS 49 39 21 20 20 20 19 18 18 17 9.68 5.08 4.38 4.28 3.48 3.48 2.8 1.28 0.88 0.4812 13 1) Où en est le big data aujourd’hui en France et partout ailleurs dans le monde ? Quels sont les secteurs les plus moteurs ? Observez-vous une évolution significative ? Il y a aujourd’hui un consensus autour de l’immense valeur potentielle que présentent les masses de données que nous générons chaque jour dans le monde. Selon les études de McKinsey, à l’échelle mondiale, le marché du Big Data devrait dépasser les 30 milliards de dollars US en 2013. Si le big data présente un potentiel pour tous les secteurs d’activité, trois secteurs sont particulièrement bien positionnés pour en tirer le meilleur parti : la distribution, du fait de grandes bases de clients et d’historiques d’achats, la santé (pharmacie et assurance santé), pour l’analyse de la performance des médicaments (avant leur mise sur le marché, en phase de test, et après, pour mesurer leur efficacité), et enfin la banque-assurance, pour mieux cibler les produits financiers et surtout l’analyse du risque. Selon nos projections, le marché du big data devrait croître de près de 15 % par an, pour répondre aux besoins engendrés par une croissance estimée des données pouvant aller jusqu’à 40 % par an. Les dépenses des entreprises dans ce domaine devraient doubler d’ici cinq ans. Pour les entreprises, investir dans le big data représente une opportunité majeure d’améliorer leur performance ; des travaux récents de McKinsey montrent d’ailleurs que les entreprises innovantes croissent de 10 % par an, contre – 3 % pour celles qui n’innovent pas. Pourtant, les entreprises – notamment françaises – sont encore trop timides et n’ont pas mobilisé les ressources adéquates en regard de leurs ambitions, que ce soit en termes de moyens financiers ou de talents : elles se situent aujourd’hui derrière les entreprises américaines, britanniques, scandinaves et allemandes. Parmi les freins au développement du big data - au-delà des aspects techniques, des questions de sécurité et du débat public - se pose une question organisationnelle : afin de tirer le meilleur parti du big data, les entreprises vont devoir former et recruter les talents qualifiés, mais aussi repenser leur structure organisationnelle et leur management. En outre, pour en saisir tout le potentiel, le big data doit être défini comme priorité stratégique de l’entreprise et nécessite une allocation de moyens financiers et humains adéquats. Les autorités ont d’ailleurs pris la mesure de l’importance du sujet et la France s’est engagée pour développer le big data avec un plan comportant plusieurs volets, comme la formation de « data scientists », la mise à disposition de certaines technologies, des financements… Le développement du big data en France passera par la mise en place d’un véritable écosystème. *McKinsey Global Institute, Big Data : The next frontier for innovation, competition, and productivity, mai 2011 2) Le Big Data véhicule de nombreuses promesses de développement pour les entreprises utilisatrices… Comment évaluez vous le potentiel du Big Data pour les utilisateurs ? Pouvez-vous chiffrer ce développement ? Le McKinsey Global Institute, l’institut de recherche de McKinsey, a étudié le potentiel de transformation du big data dans cinq secteurs : la santé aux EtatsUnis, l’administration du secteur public dans l’Union Européenne, la distribution aux Etats-Unis, l’industrie mondiale, et la géolocalisation* . Ensemble, ces secteurs représentaient près de 40 % du PIB mondial en 2010 ; dans ces cinq domaines, nous avons identifié des leviers qui devraient permettre aux entreprises d’améliorer leur efficacité, grâce à une meilleure productivité et en accroissant la valeur ajoutée des produits et services qu’elles proposent. Le big data dans le domaine de la santé aux EtatsUnis présente par exemple un potentiel de création de valeur supplémentaire de près de 230 milliards d’euros par an, les deux tiers provenant d’une diminution des dépenses de santé nationales, soit près de 8 % des dépenses estimées en 2010. Dans le secteur manufacturier, le big data pourrait permettre de réduire de moitié les coûts d’assemblage et de développement de produits. Le secteur public européen pourrait voir ses coûts réduits de 15 à 20 %, diminuer la fraude et améliorer la collecte des impôts pour un total de 250 milliards d’euros par an. Pour les groupes de la grande distribution, le recours au croisement des données pourrait se traduire par un potentiel d’amélioration de 60% de leur rentabilité opérationnelle. Plus généralement, une meilleure utilisation des services de géolocalisation pourrait rapporter 100 milliards d’euros aux différents fournisseurs de services et 700 milliards d’euros aux consommateurs, qui béné- ficieraient par exemple de la possibilité d’acheter un produit moins cher et plus près de chez eux. Interview « Le big data est un levier de performance sur lequel les entreprises françaises doivent accélérer » Matteo Pacca Partner, McKinsey&Company « Le marché du big data devrait croître de près de 15 % par an, pour répondre aux besoins engendrés par une croissance estimée des données pouvant aller jusqu’à 40 % par an »12 13 des choix effectifs. Un tel plan repose sur trois étapes : d’abord, l’assemblage et l’intégration d’immenses volumes de données nouvelles afin d’identifier des informations intéressantes ; ensuite, la sélection de modèles d’analyse des données permettant d’optimiser les opé- rations et de prédire les conséquences des décisions business ; enfin, la création d’outils intuitifs qui transcrivent les analyses des modèles en actions réelles, et la formation des employés à l’utilisation du modèle. Une fois ce plan défini, pour le mettre en œuvre, il ne faut pas avoir peur d’expérimenter : choisir le domaine que l’on souhaite explorer, lancer un pilote et le tester, avec un esprit entrepreneurial et le courage d’une certaine prise de risque face à l’incertitude des découvertes qui seront faites. De fait, développer le big data au sein des entreprises implique une évolution du rôle des DSI : ceux-ci doivent désormais, tout en se construisant leur propre réseau technologique, être force de proposition pour les business units afin d’améliorer leur performance. Pivot de la mise en œuvre du big data dans l’entreprise, ils doivent favoriser le dialogue entre les métiers et la technologie, au service d’une meilleure performance. Enfin, pour les fournisseurs de technologie, cela implique également une évolution. Ceux-ci ont encore une approche trop technique, pas assez tournée vers le client. Ils parlent d’accélération des performances techniques et ont une vision orientée vers les systèmes d’information : l’enjeu est désormais de proposer une approche plus « métiers », de montrer aux entreprises comment le big data peut véritablement avoir un impact business. Dans un contexte économique morose, les entreprises sont d’autant plus à l’écoute de nouveaux relais de croissance potentielle. 3) Quelles sont les principales applications du Big Data dans les entreprises ? A l’heure actuelle, quelles sont leurs proportions respectives ? Y en a-t-il certaines qui n’ont pas encore été explorées ? Nous avons identifié cinq grandes applications du big data. Le big data permet d’abord la transparence et la circulation des données : dans le secteur public par exemple, une meilleure accessibilité des données entre différentes administrations ou services peut réduire les temps de recherche et de traitement des dossiers. Le big data permet également la facilitation des diagnostics : les entreprises peuvent ainsi identifier des variations de performance et mieux en comprendre les causes racines afin d’y remédier. Le big data permet encore la segmentation des clients afin de les cibler de manière plus fine : des distributeurs et des sociétés de services commencent à mettre en œuvre des techniques sophistiquées de big data telles que la micro segmentation en temps réel afin de mieux cibler les promotions et la publicité. Le big data permet aussi d’améliorer certaines décisions humaines par des algorithmes qui minimisent le risque et mettent en évidence des informations clés : les distributeurs peuvent ainsi optimiser certains processus, comme les inventaires ou le pricing. Enfin, le big data permet de concevoir de nouveaux produits et services, d’améliorer l’existant et in fine, d’inventer de nouveaux business models : par exemple, la localisation en temps réel a fait émerger de nouveaux types de services géo-localisés (navigation, assurances calculées sur la base des déplacements effectués, etc). Bien sûr, de nombreuses applications n’ont pas encore été explorées. 4) Que faut-il faire pour accélé- rer le développement du big data dans les entreprises ? Peu d’entreprises ont développé à ce jour un véritable plan big data, incluant des discussions au sein de la direction générale, avec notamment une réflexion sur les investissements prioritaires et Les promesses du Big Data par secteur >Santé : surplus de 230 milliards € / an >Industrie : réduction de 50% des coûts >Secteur public en Europe : création de valeur de 250 milliards d’€ >Grande distribution : amélioration de la rentabilité de 60% >Valeur de la géolocalisation : gain de 700 milliards d’€ pour les consommateurs « Peu d’entreprises ont développé à ce jour un véritable plan big data »14 15 base de données orientée colonnes de type NoSQL. Elle supporte le traitement MapReduce et est particulièrement reconnue pour sa capacité à faciliter l’accessibilité des données, quel que soit le volume géré. Des compatibilités avec Hadoop sont aujourd’hui possibles. > HBASE : de la même façon, HBase, développé par Apache, est un système de gestion de base de données distribué. Il est complémentaire d’Hadoop et particulièrement performant pour le traitement des très grandes tables (milliards de rangs X millions de colonnes). > PIG : également développé par Apache, il vise à augmenter les performances d’Hadoop/MapReduce en proposant un langage de programmation permettant un traitement plus rapide. > HIVE : issu de la recherche Facebook, Hive permet d’effectuer des requêtes sur un cluster Hadoop directement en langage SQL. A côté de ces briques complémentaires qui rendent Hadoop plus facile d’accès et plus rapide, on retrouve des structures de bases de données corollaires à Hadoop : > CASSANDRA : également développé par Facebook, Cassandra est une Tour d’horizon des briques fonctionnelles en lien avec le Big Data Au-delà de ces outils de base, le Big Data se doit d’être applicatif et de proposer des services en lien avec les besoins directs de l’entreprise. Il est donc possible et recommandé de rajouter des briques fonctionnelles aux spécifications initiales d’Hadoop/MapReduce : c’est tout l’objet de l’écosystème Hadoop qui s’est développé en parallèle de ces outils. Dans cet écosystème, on retrouve ainsi parmi les plus connues : Petit Lexique des Technologies Big Data L’univers technologique du Big Data s’appuie sur des outils bien identifiés qui constituent la base innovante de ce mode de traitement. A eux seuls, ces outils résument le vocabulaire technologique du Big Data et en constituent la référence. Mais de quoi parle-t-on exactement lorsque l’on évoque ces innovations ? Voici un petit lexique simplifié qui permettra même aux moins technophiles de comprendre les fondements techniques du Big Data. • Traitement massivement parallèle (MPP = massively parallel processing) : le Big Data repose sur des systèmes de traitement de données organisés sur plusieurs nœuds ou clusters parallèles. Généralisé dans les années 2000, ce type de traitement permet de générer des calculs à très haute performance sur des infrastructures (processeurs, serveurs) réduites. • HADOOP : emblème par excellence du Big Data, Hadoop est une architecture spécifique de bases de données, permettant de traiter en grand nombre tous types de données (y compris les données non structurées). On dit qu’elle est organisée sur un mode non-relationnel, c’est-à-dire que les données ne sont pas triées en fonction de leurs relations entre elles. Elle constitue en quelque sorte la librairie à partir de laquelle on pourra effectuer des calculs parallèles (via MapReduce), sachant que ces données sont distribuées (c’est-à-dire qu’Hadoop les « récupère » depuis diverses sources). Créé par la fondation Apache (voir interview d’I. Frost-Dromm), Hadoop est un framework Open Source, c’est-à-dire que son code et ses spécifications sont disponibles en libre accès pour ceux qui cherchent à l’implémenter dans leur système. • MAPREDUCE : couplé à Hadoop (qui est en fait son implémentation principale), MapReduce est le mode de calcul permettant de traiter les big data. Il présente une fonction Map (distribution des données sur plusieurs clusters parallèles où les calculs intermédiaires seront effectués) et une fonction Reduce (les résultats des calculs intermédiaires distribués sont recentralisés en vue du calcul final). MapReduce est issu de la recherche Google et a été développé au même moment qu’Hadoop ce qui explique l’association traditionnelle que l’on fait des deux outils. • NOSQL : on parle de NoSQL lorsque des requêtes sont effectuées dans un langage de programmation qui n’est pas limité au SQL. Ce dernier est en effet le langage le plus utilisé pour des traitements de données mais ses normes de définition, parfois trop strictes, ne sont pas adaptées aux données massives et non-structurées. Du coup, certaines requêtes sont effectuées indépendamment de ces normes et donc de ce langage propre, ce qui fait dire à certains que l’on bascule sur du NoSQL (littéralement : « au-delà du SQL »). Pour autant il est quasiment impossible de définir le NoSQL selon un corpus de règles puisqu’il représente précisément l’affranchissement par rapport à un ordre établi. • IN-MEMORY : on parle de traitement in-memory pour évoquer les traitements qui sont effectués dans la mémoire vive de l’équipement informatique, plutôt que sur des serveurs externes. L’avantage du traitement in-memory est celui de la vitesse puisque les données sont immédiatement accessibles. En revanche, ces données ne sont pas stockées sur le long terme, ce qui peut poser des problèmes d’historisation. Les technologies Big Data14 15 La question du stockage est également récurrente. Que choisir parmi les serveurs traditionnels, les appliances et les offres cloud ? Certaines entreprises privilégient le cloud pour rendre l’infrastructure plus flexible et mutualiser les données dans le nuage. Cependant, la migration n’est pas forcément adaptée à des gros volumes de données et les questions de sécurité restent prégnantes. La question de la sécurité Evoquée concernant le Cloud, la question de la sécurité est devenue un leitmotiv avec l’explosion du Big Data : en effet, la multiplication des données disponibles et leur valeur théorique sur le marché rendent encore plus présente la menace de cyberattaques. applications ? Pour répondre à ces questions, les fournisseurs ont eu à cœur de mettre en place des infrastructures plutôt légères qui s’adaptent à l’existant ; la manifestation la plus évidente de ce phénomène étant la croissance du marché des «appliances», ces outils mixtes «hardware/software» qui se branchent sur le système existant pour une utilisation immédiate. volumes de données ? Et quelle est la capacité d’adaptation de l’offre par rapport aux réels besoins de l’entreprise ? Cette problématique, évoquée très souvent par les DSI fait écho à la structuration très rapide du marché de l’offre par rapport à celui de la demande : tous les fournisseurs historiques de technologies se sont en effet lancés très tôt sur ce marché prometteur et ont ainsi proposé leur offre propre, ce qui multiplie d’autant le nombre de propositions commerciales faites aux utilisateurs. Quelle architecture mettre en place ? Cette question renvoie aux modèles d’organisation privilégiés par l’entreprise : faut-il centraliser les données ou bien disposer d’architectures réparties au sein des directions métiers ? (cf Les mé- tiers du Big Data). Ce qui est certain, c’est que, quel que soit le choix d’organisation retenu par l’entreprise, l’intégration des outils Hadoop/MapReduce ne relève pas seulement d’un arbitrage technologique mais plus d’une stratégie liée à l’utilisation des données. En fonction de cela, l’urbanisation des systèmes d’information peut profondément évoluer : accès aux données, gestion des entrées et des sorties, formats de données et métadonnées, etc. D’autre part, une des interrogations des DSI concerne l’acquisition progressive ou non des technologies Big Data : faut-il faire un « Big Bang » du Big Data par rapport à l’architecture existante, ou bien peut-on construire à partir de cette dernière ? Et faut-il nécessairement tout installer dès le premier jour ou peut-on rajouter progressivement des montré que 61% des CIO préféraient s’équiper de solutions extérieures plutôt que de développer leur propre infrastructure, et cela en raison du trop grand investissement en temps et en personnel représenté. Le problème est qu’il est parfois difficile de reconnaître les atouts d’une solution par rapport à une autre : comment choisir entre une offre mettant en avant la rapidité de traitement par rapport à une autre qui se focalise sur les gros Bien souvent ces différentes applications fonctionnent de manière packagée avec Hadoop : on parle donc davantage de « plateforme » Hadoop pour évoquer la structure constituée des différentes briques. Les technologies Big Data face aux besoins de la DSI Comment choisir les outils adéquats parmi les nombreuses offres disponibles ? On le voit, les bases du Big Data sont assez simples du fait qu’elles soient limitées à un nombre restreint d’outils. Pourtant les offres sur le marché sont très nombreuses : les fournisseurs de technologies proposent en effet des offres variées appuyées sur Hadoop. L’avantage de ces solutions packagées et applicatives tient souvent dans la facilité d’utilisation : comme Hadoop est un framework complexe qui réclame des efforts de programmation pour son inté- gration dans l’architecture de l’entreprise, les fournisseurs proposent des solutions directement utilisables qui épargnent ces efforts à l’utilisateur. Une étude réalisée pour Infochimps a ainsi STOCKAGE Nœud 1 Nœud 2 Nœud 3 FILE SYSTEM HDFS Reduce 1 Reduce 2 Reduce 3 Map 1, 2, 3 Map 4, 5, 6 Map 7, 8, 9 Résultat Final TRAITEMENT REQUETAGE Pig Hive Schéma simplifié d’une architecture Hadoop/MapReduce « 61% des CIO préfèrent s’équiper de solutions extérieures plutôt que de développer leur propre infrastructure »Avec le Cloud et l’apparition du BYOD, les possibilités d’infraction externes dans le système d’information de l’entreprise sont de plus en plus nombreuses. Voilà pourquoi la segmentation et la restriction des accès aux données deviennent des éléments de régulation importants. Mais au-delà, les fournisseurs se penchent de plus en plus sur le perfectionnement d’outils de sécurité en lien avec le Big Data : et l’ironie de la manœuvre est que, pour cela, ils utilisent précisément… le Big Data ! En effet, l’intérêt du Big Data est de pouvoir détecter des anomalies, même les plus infimes, parmi les événements remontés. Dans les journaux de sécurité, le Big Data est donc un atout de taille pour prévenir les attaques et guérir les failles analysées ! Une étude réalisée par Varonis a ainsi montré que le Big Data permettait de détecter des données sensibles, d’identifier des activités malignes et de déterminer les utilisateurs dotés de droits d’accès excessifs… mais que seulement 54% des DSI le savaient ! La sécurité a été l’un des thèmes phare de 2013, au même titre que la qualité des données, l’objectif étant pour les deux de maitriser le data deluge et de garantir l’intégrité de l’utilisation. Les questions liées à l’implémentation du Big Data au sein de la DSI restent donc nombreuses car le phénomène est encore jeune, sans retours d’expérience de long terme, et les compétences sont encore balbutiantes en interne pour apprivoiser rapidement le phénomène. Pourtant, 81% des CIOs déclarent que le Big Data fait partie de leurs cinq principales priorités en 2013, ce qui montre la volonté palpable des entreprises à s’équiper rapidement. Du coup, les cabinets de conseil et d’intégration se sont positionnés rapidement pour apporter une expertise opé- rationnelle sur la mise en place de ces infrastructures. Des études montrent ainsi que les recrutements en SSII sur la thématique Big Data ont considérablement augmenté au cours de l’année écoulée. 1) La fondation Apache est l’organisation qui a vu naître Hadoop… Pouvez-vous résumer pour nous les origines d’Hadoop ? Si l’on se plonge dans les origines lointaines d’Hadoop, tout a commencé au début des années 2000 avec un projet appelé Apache Lucene : il s’agissait de mettre en place une bibliothèque numérique en open source, qui serait dédiée à la création d’index pour la recherche textuelle (exactement comme l’index que l’on trouve à la fin des livres et qui indique le numéro de la page contenant tel ou tel terme…sauf que Lucene indiquerait le document contenant ce terme). Alors que Lucene avait simplement pour objet de répertorier des textes afin de faciliter les recherches, l’idée s’imposa peu à peu qu’il fallait créer un moteur de recherche de grande échelle, sur l’ensemble de la Toile. Pour cela, il fallait récupérer deux éléments : un outil d’indexation pour les nouvelles pages découvertes sur Internet en suivant des liens connus (web crawling), et un outil d’extraction de contenu (pour les pdf, le contenu html, les documents Microsoft Word…). La réunion de tous ces éléments a donné naissance au projet « nutch ». Nutch s’est construit progressivement entre 2002 et 2004 ; comme il visait à fournir un moteur de recherche pour l’ensemble d’Internet, on comprit vite qu’il fallait recourir au traitement distribué sur plusieurs machines et non plus une seule. Heureusement, c’est à peu près au même moment que Google publiait son article sur le Google File System ainsi que sur le traitement MapReduce… De tout cela: Lucene (l’index), Nutch (le “collecteur de données”) et MapReduce (le système de traitement), toutes les conditions pour le Big Data étaient réunies! En 2005, des premières expérimentations pour un système de fichiers distribués (« nutch distributed file system ») furent lancées au sein de nutch (celles qui mèneraient ensuite au HDFS, le système de fichiers à la base d’Hadoop). Lorsqu’Hadoop fut converti en un sous-projet de Lucene, indépendant de nutch, Yahoo! décida de l’adopter pour accroître ses capacités de cartographie du web et de contribuer au projet. C’est finalement en 2008 que le projet acquit un statut de priorité (« top-level ») menant à la création d’une communauté autonome pour le gérer ! Interview « L’Open Source implique un grand nombre de défis » Isabel Drost-Fromm Co-Fondatrice / Contributrice, Apache Mahout. Membre de l’Apache Software Foundation De tout cela: Lucene (l’index), Nutch (le “collecteur de données”) et MapReduce (le système de traitement), toutes les conditions pour le Big Data étaient réunies! 16 Capture d’écran de la page Issues d’Apache Hadoop *https://issues.apache.org/jira/browse/HADOOP#selectedTab=com. atlassian.jira.plugin.system.project%3Aissues-panel 2) Selon vous, quels ont été les bénéfices d’une approche open source pour la gestation d’Hadoop ? Et ses limites ? Le grand atout de l’Open Source a été d’aider le projet à atteindre sa maturité : plus le projet attirait de contributeurs (comme Yahoo!, Facebook, Linkedin et autres), plus il s’améliorait. Mais bien sûr, il s’agit d’être prudent avec ce type d’approches car l’Open Source implique un grand nombre de défis : comme chacun apporte sa pierre à l’édifice, vous devez faire attention à ce que l’ensemble reste cohérent, à ce que le but initial soit toujours poursuivi et à ce que les contributeurs comprennent qu’ils travaillent sous l’enseigne Apache, et non pas pour leurs entreprises d’origine, dont les stratégies pourraient se trouver en conflit avec les développements du projet. Et également que les acteurs sont assez formés pour maintenir la bonne qualité de la structure. C’est un défi bien sûr, mais les résultats et les améliorations durables parlent d’ellesmêmes, je crois ! Si vous avez le temps, rendez-vous sur la page « Issues » d’Apache Hadoop*, vous trouverez les chantiers actuels sur lesquels travaillent les contributeurs pour améliorer l’outil ; cela vous donnera une idée du dynamisme de la communauté Hadoop ! 3) Justement, qu’est-ce qui pourrait être amélioré sur Apache Hadoop ? Quels sont les terrains de recherche actuels ? Là encore, la meilleure réponse concernant les développements actuels et les terrains d’exploration se trouve sur cette page Issues. Comme le développement est complètement ouvert, les forces, les faiblesses et les bugs peuvent être découverts facilement, à la fois par les utilisateurs et les contributeurs. Les principaux défis relevés sur d’autres projets de l’écosystème Hadoop sont ceux qui visent à rendre les requêtes plus rapides et plus faciles à réaliser. Peu de personnes les formulent en pur Java Map/Reduce ; la plupart utilisent d’autres langages de requêtes plus sophistiqués comme Pig, Hive, Cascading, Cascalog, Scalding, etc. Concernant Hadoop en lui-même, une voie intéressante d’exploration vise à rendre les clusters Hadoop plus économes en énergie, en orientant les données les moins utilisées vers des disques qui peuvent être ralentis, permettant ainsi la réduction des coûts d’énergie… mais avec le risque de rallonger le temps d’analyse. Isabel Drost-Fromm Co-Fondatrice / Contributrice, Apache Mahout. Membre de l’Apache Software Foundation 16Customisation marketing : Monoprix et dunnhumby Monoprix et leur partenaire dunnhumby ont présenté un projet original d’utilisation marketing du Big Data : il s’agit d’une expérience de personnalisation de mailings pour chaque client, avec des offres de discount adaptées aux préfé- rences de consommation de ce client. Cette opération, qui est une déclinaison du programme de fidélité de Monoprix, vise à mettre en adéquation les offres de couponing proposées par les marques avec les profils de consommation clients : pour chaque client, un mailing unique est créé grâce à un algorithme d’allocations qui génère des combinaisons inédites d’offres promotionnelles. Les clients qui reçoivent ce courrier, mail ou papier, ont la possibilité de se rendre en magasin avec l’offre imprimée pour béné- ficier de ces promotions personnalisées. Au total, ce sont 33 millions de transactions de clients Monoprix qui ont été analysées, ce qui représente 350 millions d’articles achetés. Ces données sont donc essentiellement des données transactionnelles mais dunnhumby intègre également les données « préférence de média », à savoir le taux de retour des coupons papier pour établir une préfé- rence média. L’allocation coupons/clients dure moins d’une heure. Lancée en février 2012 pour Monoprix, cette initiative (déjà expérimentée auprès de Tesco en Grande Bretagne et Kroger aux Etats-Unis) a fait la preuve de son efficacité : le taux de retour des coupons a été doublé par rapport à des coupons non personnalisés. Interview « Il faut que les équipes data et les équipes créatives travaillent main dans la main » Hannah Whittall Directrice Coms & Media, dunnhumby France 1) Pouvez-vous nous parler de la genèse de ce projet? La communication personnalisée de Monoprix est fondée sur le même modèle que les expérimentations menées, entre autres, chez Kroger (aux Etats-Unis) et Tesco (en Angleterre), pour récompenser les clients de façon régulière avec des offres personnalisées calculées à partir de leurs achats. Nous avons dé- montré le gain généré par cette approche et avons été capables d’automatiser tout cela grâce à un outil propriétaire qui permet la personnalisation des communications à partir de millions de transactions traitées en quelques minutes. Monoprix est le premier distributeur français à bénéficier de cet outil et de cette approche, déjà mis en place chez d’autres distributeurs de par le monde, avec un succès certain à chaque fois. 2) Comment choisissez-vous les clients qui recevront ces offres personnalisées? Nous contactons uniquement les clients qui sont « opt-in » (ceux qui choisissent de recevoir nos communications) puis nous effectuons une sélection à partir d’autres critères en lien avec les objectifs du programme. Une fois que les clients sont choisis, ils reçoivent donc leur mailing en lien avec leurs pré- férences. Nous suivons et analysons alors leur réponse à ce courrier, afin de pouvoir améliorer et optimiser en permanence le ciblage (qui reçoit la communication ?) et le canal (par quel canal devons-nous atteindre le client ?). 18 19Plus que par ses technologies innovantes ou son marché, le Big Data suscite surtout la curiosité pour ses nombreuses applications en entreprise. Celles-ci restent encore limitées à des retours d’expérience ponctuels mais elles sont en pleine phase de généralisation. Vous trouverez ici quelques exemples inspirants, dans plusieurs domaines d’activité. Exemples d’applications en entreprises Monoprix 01 Hannah Whittall Directrice Coms & Media, dunnhumby France 18 3) Quels sont les plans futurs pour ce programme? Avez-vous des améliorations à apporter? Il y a des améliorations à apporter sur le canal de distribution et également sur le processus de retrait de l’offre (dématé- rialisation de l’offre sur mobile ou directement par mail, au lieu de l’impression papier). Nous travaillons là-dessus en lien étroit avec nos clients du retail en fonction des technologies dont ils disposent. Nous pourrions également songer à intégrer dans le traitement d’autres types de données clients : les historiques de navigation, les données sociales, la géolocalisation également afin de fournir du contenu et des offres plus précises, en temps réel, lorsque le client en manifeste le besoin ou les recherche activement. 4) Craignez-vous que ce nouveau type d’approche transforme le métier du marketer?... En termes de créativité par exemple? Bien sûr, cela a un impact sur le travail et les compétences du marketer mais cela n’atténue en rien l’importance de la créativité. Le plus de données et d’informations nous réunissons à propos du client, le mieux nous pouvons informer et briefer les équipes créatives et contenu. Sur ce projet, nous traitons principalement d’offres commerciales, mais nous pouvons également personnaliser les contenus et les messages délivrés afin qu’ils soient encore plus pertinents. Comme nous sommes de plus en plus capables de le faire en temps réel via les médias digitaux, de nombreuses opportunités s’offrent à nous. On s’accorde de plus en plus sur le fait qu’il faut que les équipes data et les équipes créatives travaillent main dans la main. Une expé- rience 100% créative, même si elle est très bien réalisée, sera toujours difficile à quantifier dans ses résultats, mais elle vise toujours à comprendre qui est le client ; c’est là où un savant mélange d’art et de science peut ajouter énormé- ment de valeur ! 19Optimisation du traitement industriel : La Poste Le projet Orest TAE, en production depuis décembre 2011, collecte et restitue toutes les informations disponibles sur un pli lors de la réception, du tri et de la distribution de celui-ci. Il s’agit d’une plateforme d’indexation des courriers qui traite 110 millions de documents par jour, selon un rythme pouvant aller jusqu’à 4000 documents par seconde en heure de pointe ! Au total, plus de 2 milliards de documents sont indexés sur cette plateforme. On notera que les systèmes de capteurs industriels (ex : lecture optique des plis, flasheurs manuels, machines de tri ou encore EDI client) sont interconnectés à la plateforme ce qui lui permet de croiser de multiples sources de données, dont des équipements industriels lourds, ce qui constitue une expérience originale. L’objectif de ce projet très ambitieux est double : • Il s’agit d’obtenir une vision générale des flux de courriers et de pouvoir remonter ainsi des indicateurs de performance utiles au pilotage de l’activité en temps réel, • mais il permet également aux agents opérationnels d’obtenir directement l’information sur un pli. En cas de demande liée à des anomalies, la détection est ainsi facilitée et la réaction beaucoup plus rapide : la plateforme propose en effet des outils de visualisation des anomalies au niveau le plus fin que constitue le traitement d’une enveloppe. Les travaux ont été menés conjointement avec Dassault Systems, Exalead et Sopra Group, et la plateforme est aujourd’hui accessible à 800 utilisateurs répartis sur les sites de production : on considère que leur nombre moyen de requêtes journalières est de 15000, avec un temps de réponse inférieur à 3 secondes ! Avec l’évolution régulière des fonctionnalités, sur la base des demandes concrètes des utilisateurs qui se familiarisent avec les analyses permises par ce type de technologie, le nombre d’utilisateurs continue à augmenter régulièrement. Suite à cette implémentation, La Poste espère ainsi remplacer ses approches statistiques historiques par une vision davantage unitaire des événements. Avec, à la clé, une amélioration de la performance des sites et du service client… Interview « Orest est devenu un outil clef dans la logique de fonctionnement du réseau industriel » Denis Weiss DSI Industriel, La Poste 1) Le projet OREST TAE permet à la Poste de visualiser au plus fin les anomalies ou des améliorations potentielles dans le traitement du courrier. Quels ont été les principaux défis à relever pour que le système montre toute sa performance ? Au-delà de l’infrastructure technique qu’il a fallu stabiliser, les deux principaux défis ont été de permettre à toutes les équipes de se familiariser à ces technologies. Techniquement, il fallait déterminer comment exploiter efficacement ce type de système ; et, d’un point de vue fonctionnel, s’habituer au fait que l’analyse ne se faisait plus sur un tableau imprimé mais plutôt sur écran, par itération. De plus, il était nécessaire de valider le fonctionnement exhaustif car, si les méthodes de recette classiques fonctionnent pour une, voire pour quelques dizaines de milliers de données, ce n’est plus forcément le cas avec 1 milliard de données ! 2) Votre plateforme permet de calculer des indicateurs de pilotage sur la production de courrier. Quels types d’indicateurs avez-vous mis en place ? Et pouvez-vous évaluer l’évolution de la performance des sites et du service ? Il est très difficile d’attribuer l’amélioration des indicateurs de qualité ou une moindre exposition aux aléas à un outil, en effet – et c’est particulièrement vrai dans le cas d’Orest - la performance vient de la bonne utilisation, de la bonne compréhension par les utilisateurs. La pertinence et donc la performance induite par ce type d’outil se mesure à mon avis à l’usage qui en est fait et à la satisfaction des utilisateurs : aujourd’hui Orest n’est pas un outil de plus, c’est devenu un outil clef dans la logique de fonctionnement du réseau industriel. 20Exemples d’applications en entreprises 02 Denis Weiss DSI Industriel, La Poste 20 3) Votre projet se poursuit et s’amplifie… Combien de personnes seront à terme impliquées dans ce nouveau process ? Comptez-vous apporter des évolutions qualitatives à la plateforme ? Nous pensons doubler le nombre d’utilisateurs, mais en particulier nous nous appuyons de plus en plus sur ces données pour générer des rapports et des interactions dans d’autres outils et d’autres process : à travers la mise en place de web-services directement sur la base Orest, celui-ci devient le support de reportings et de nouveaux services en dehors du monde industriel et aussi pour nos clients. 21 La PosteRecherche : Projet DEUS Mené par l’Observatoire de Paris, avec l’aide de GENCI (Grand Equipement National de Calcul Intensif), le projet Deus lancé en 2011 visait à modéliser pour la première fois la formation des structures cosmiques dans tout l’Univers observable, depuis le Big Bang jusqu’à nos jours. Pour cela, trois hypothèses avaient été retenues, correspondant à trois modèles d’énergie noire (composante énergétique de l’univers qui constitue un moteur de son expansion) : il fallait comprendre ainsi quel était l’impact de cette énergie sur l’univers et donc en déduire sa nature. Pour cela, un grand nombre de données représentant 550 milliards de particules de l’univers (issues du télescope spatial WMAP) ont été injectées dans le supercalculateur CURIE de GENCI, installé au TGCC du CEA, qui présente une capacité de traitement de 2 pétaflops par seconde (2 millions de milliards d’opérations par seconde). Il s’agissait d’opérer les traitements pour chacune des trois simulations en utilisant toutes les capacités de calculs de la machine (76000 cœurs de calcul sur 80000, 360 To de mémoire). Au total, ce sont 150 pétaoctets de données brutes qui ont été générées, ce qui posait une problématique de stockage : la solution a donc consisté à développer un outil de post-traitement qui, en parallèle du calcul, a permis de réduire à la volée ce volume de données générées, sans pénaliser les temps de simulation. Au final, ces traitements ont permis de réduire l’étude à 1,5 pétaoctets de données raffinées, grâce à un débit de stockage des données très important (50 Go/s) ! Le résultat, disponible pour la communauté scientifique internationale, est une modélisation de la distribution de matière dans tout l’Univers observable, semblable à celle qui pourrait être observée par les télescopes : c’est donc un support exceptionnel d’étude pour les agences spatiales ESA et NASA, et ces modélisations permettront d’apporter des interprétations substantielles aux observations du satellite européen Planck. Outre la performance en cosmologie, cette expérience, unique à l’échelle mondiale, est également une prouesse dans l’univers du calcul haute performance : elle ouvre le champ à d’autres applications du calcul intensif (HPC), comme par exemple pour le projet ITER ou les simulations climatiques, selon le même principe d’optimisation des entrées et sorties et de post-traitement à la volée des résultats. Interview « Big Data et HPC sont amenés à converger » Stéphane Requena Responsable technique, GENCI 1) Cette expérience est un modèle de performance technologique et d’optimisation des machines… au-delà de cet aspect « automatisé », quels sont les travaux d’analyse que vous avez réalisés ? Il reste aux chercheurs de l’Observatoire de Paris un gros travail d’analyse des résultats à effectuer : en effet, même si les données raffinées ont un volume réduit par rapport aux données de sortie brutes, elles restent volumineuses et complexes. Aujourd’hui, nous avons un film global sur l’évolution de l’Univers mais si nous voulons analyser plus précisément la formation de certaines structures, il faut identifier les données pertinentes. Il y a donc un effort d’analyse à faire pour corréler ces données de sortie, corroborer les résultats et effectuer de nouveaux calculs. Forcément, les équipes de recherche doivent être dimensionnées pour absorber ce volume massif de données, et c’est là un nouvel enjeu : du coup, on cherche à développer l’analyse automatique Big Data, c’est-à-dire utiliser des outils automatisés qui identifieront uniquement les données pertinentes pour les chercheurs. 2) Suite à cette expérience, quels sont les prochains projets de ce type que l’on peut attendre ? Il y a de nombreux domaines dans lesquels on peut envisager un couplage du HPC avec du Big Data, par exemple pour la combustion (dans les secteurs automobiles, aéronautiques et dans l’énergie) ; en effet, les calculs modélisant la combustion peuvent représenter des dizaines de téraoctets de données, qu’il est intéressant de traiter pour garantir une combustion homogène et stable. En effet, sans homogénéité et stabilité, les anomalies de combustion peuvent conduire à un mauvais rendement des moteurs avec à la clé des problèmes de surconsommation, de pollution et même d’explosion…d’où la nécessité de faire des simulations. Autre secteur d’application : la climatologie où l’on souhaite modéliser l’évolution du climat avec des maillages très fins de la Terre, ce qui implique plusieurs modèles complexes de simulation que l’on lie entre eux. A terme, la communauté de la climatologie envisage de traiter des exabytes de données ! 3) Pour vous, quel est le lien entre HPC et Big Data? Parle-t-on de la même chose ? En quoi diffèrent-ils ? Quand on parle de Big Data, on parle du traitement de grands volumes de données, c’est-à-dire une fouille dans des données et une interprétation des résultats qui peut, dans le cas de données complexes, recourir à du calcul. Le HPC quant à lui correspond à du calcul scientifique, que l’on applique à plusieurs 22 23 Le supercalculateur CURIE de GENCI installé au TGCC du CEA - © CADAMExemples d’applications en entreprises 03 Stéphane Requena Responsable technique, GENCI 22 domaines scientifiques ; c’est donc davantage l’utilisation de modèles mathé- matiques sur des superordinateurs. Forcément, ces deux domaines sont amenés à converger : si l’on prend l’exemple des données livrées par les nouveaux télescopes, nous avons besoin à la fois de calcul haute performance pour accélérer le traitement, et d’interprétation des données pour tirer de véritables informations. Le rythme de traitement est important lorsque l’on gère des gros volumes : si l’on optimise un calcul mais que le traitement des données est lent, l’analyse au global ne sert à rien. 4) La France a été à la manœuvre sur ce projet… pouvez-vous nous expliquer les origines ? La France dispose du supercalculateur CURIE qui était à l’époque une des trois machines capables dans le Monde de réaliser cette simulation DEUS (les autres se trouvant en Chine et aux USA). CURIE présente de grosses capacités à la fois pour le calcul et le stockage, en mémoire et sur les disques ; en 2012, elle est mise à disposition par GENCI à destination de la communauté scientifique européenne via l’infrastructure de recherche PRACE. Le projet DEUS émanait de l’Observatoire de Paris qui cherchait une machine pour pouvoir effectuer ses simulations donc nous avons pu la leur mettre à disposition. Depuis d’autres machines ont été rendues également accessibles dans PRACE : en Allemagne, des chercheurs anglais sont actuellement en train de finaliser des simulations massives en climatologie, notamment sur la modélisation des cyclones dans le golfe du Mexique. Si elles aboutissent, leurs recherches auront permis grâce à PRACE d’avoir 3 ans d’avance sur les travaux en cours dans le domaine ! 23 L’Observatoire de Paris Stéphane Requena (à droite) et Jean-Michel Alimi de l’Observatoire de Paris, reçoivent le prix spécial du jury lors des Trophées de l’Innovation Big Data Exemple de modélisation de l’universLocalisation : Géomarketing selon SFR Menés depuis deux ans par une équipe dé- diée au sein de l’entreprise, les travaux de géomarketing de SFR ont visé à collecter et analyser les données de géolocalisation des utilisateurs réseaux, afin d’en tirer des informations sur la fréquentation et les flux de populations sur certaines zones géographiques. Ainsi SFR a pu établir que le Festival de Cannes avait réuni 389 500 visiteurs dont 16 % d’étrangers ! Comment fonctionne cette infrastructure ? En réalité, SFR a mis en place un serveur de collecte développé par Intersec qui récupère, via les antennes relais, toutes les données relatives à des événements de consommation (ex : allumer son téléphone, appeler, etc.), ce qui correspond à un total d’un milliard d’événements de mobilité par jour ! Puis ces données anonymisées sont croisées avec des données externes (de type Open Data) au sein d’un outil logiciel développé en interne sur deux bases, une NoSQL et une autre Hadoop. Les données d’événements sont également corrigées statistiquement pour correspondre aux parts de marché locales de SFR. L’intérêt d’une telle démarche est de fournir une information inédite aux collectivités locales et au secteur du tourisme : les analyses menées évitent en effet l’aspect déclaratif des questionnaires et les données sont disponibles en quasi temps réel. Pour l’opérateur, c’est une opportunité unique de valoriser ses données en vendant des études aux entités intéressées. Mais au-delà, ces données ont également une utilisation interne puisqu’elles permettent à l’opérateur de suivre la consommation de ses abonnés et d’intervenir plus rapidement sur la fidélisation, la gestion des fraudes et le service client. Interview « Aujourd’hui, on voit beaucoup d’opérateurs internationaux qui se lancent dans l’aventure alors que nous étions les seuls en Europe à l’époque » Mathieu Gras Head of LBS & Big Data Business Development Manager, SFR 1) Pouvez-vous revenir sur les origines de ce projet ? Comment s’est déroulé le développement de cette nouvelle activité ? C’est un projet qui a connu une phase de business development assez longue. En fait, nous avons rapidement constitué une équipe transversale et autonome, et nous souhaitions répondre à la fois à un besoin externe (connaître les flux de population) et à un besoin interne (avoir des indicateurs marketing temps réel). Nous sommes d’abord partis sur la réponse au besoin externe parce qu’il nous semblait le plus valorisable mais nous nous sommes rendus compte assez vite que nous étions trop en avance sur le marché et que, même si nos projets étaient bien reçus, ils étaient trop en rupture. Du coup, nous nous sommes concentrés sur la partie interne et nous avons constaté que les équipes adhéraient rapidement à nos projets car la donnée était immédiatement valorisée ! C’est par la suite que les activités externes se sont vraiment développées, car le marché était prêt et l’engouement autour du Big Data jouait sûrement en notre faveur ! Aujourd’hui, on voit beaucoup d’opérateurs internationaux qui se lancent à leur tour dans l’aventure alors que nous étions les seuls en Europe à l’époque. 2) Pour vous, y’a-t-il eu un basculement technologique ou cette activité aurait-elle pu être créée il y a cinq ans ? Très honnêtement, je pense que l’on avait les ressources technologiques : l’opérateur fait du temps réel depuis des années. Mais le traitement aurait forcément nécessité plus de ressources, plus de temps et donc plus d’investissement : le prix d’un serveur était bien supérieur il y a cinq ans ! De plus, d’autres sources de données sont à présent disponibles, ce qui rend les analyses plus complexes et donc plus intéressantes. Donc, oui technologiquement, nous aurions pu le faire, mais cela n’aurait pas eu le même intérêt économique et le marché n’aurait certainement pas répondu de la même façon ! 3) Y’a-t-il certains projets récents que vous avez réalisés avec cette plateforme de géomarketing ? Oui, nous avons travaillé en juillet dernier sur le Tour de France : l’objectif était d’observer l’affluence des populations sur le Tour et de déterminer l’impact de celui-ci sur le tourisme local (restauration, nombre de nuits d’hotels, etc.). En effet, les municipalités investissent de fortes sommes pour obtenir le passage du Tour sur leur territoire et le retour sur investissement en terme touristique est forcément une information qui les intéresse ! 24 25Exemples d’applications en entreprises 04 Mathieu Gras Head of LBS & Big Data Business Development Manager, SFR 24 25 SFR Etude de fréquentation du festival de Cannes Etude de fréquentation du Métro parisienAgrégation de Données : Projet Ellicible de Coface Services Coface Services (Ellisphere au 1er janvier 2014) est l’entité de référence concernant l’information d’entreprises en France : elle propose en effet une base de données unique sur les entreprises fran- çaises, qui repose sur de nombreuses sources publiques et privées. Afin de développer son offre de marketing direct et afin de la mettre en adé- quation avec les besoins de « real-time marketing », Coface Services a choisi d’évoluer vers une plateforme plus réactive qui permet au client de bénéficier d’un service haut de gamme combinant de multiples critères pour un résultat immédiat : ce service est adapté aux besoins du client dans la mesure où l’organisation de l’information (ciblage, segmentation, surveillance de groupes etc.) lui revient de façon autonome, contrairement aux segmentations fonctionnelles observées dans les bases de données traditionnelles. En effet, un effort important en matière de finesse, de granularité et de résolution a été réalisé au niveau de la segmentation. La plateforme Ellicible a ainsi vu le jour le 20 mars 2013 : elle est appuyée sur des technologies New SQL (et non Hadoop/NoSQL) intégrant le traitement massivement parallèle et développées par la société Parstream. Ainsi des milliers de requêtes à très fortes volumé- tries (plusieurs milliards de données) peuvent être exécutées en même temps, avec un très faible temps de traitement (quelques millisecondes). La grande avancée de cette plateforme tient dans le raccourcissement des temps d’affichage des résultats : ils sont cette fois-ci disponibles en temps réel. Enfin cette plateforme est évolutive car elle intègre de nouvelles sources partenaires de grand volume, en France et à l’international. Pour les clients, Ellicible crée ainsi de nouveaux usages dans leur recherche de prospects et d’informations sur les entreprises : ciblage facilité, segmentation et organisation de l’information personnalisées, obtention immédiate des résultats. Interview « Nous observons que l’usage de l’application parcourt l’ensemble de ses fonctionnalités » Jean-Daniel Ruegger Directeur de domaine au sein de la DSI, Coface Services 1) Cette plateforme combine volume et performance de traitement, mais elle agglomère surtout de multiples sources de données : pouvez-vous nous parler du processus d’agrégation de ces données distribuées ? En effet, hormis le volume et la vitesse qui sont nos contraintes techniques, nous avons également la contrainte fonctionnelle de la variété des informations que nous assemblons. Aujourd’hui nous collectons nos données d’une vingtaine de sources différentes et nous produisons aussi nos propres données en interne. Les sources sont différentes mais leurs cycles de renouvellement aussi. Nous avons donc un processus ETL relativement classique pour chaque filière, l’originalité résidant dans l’assemblage final et sa mise à disposition. 2) Vous avez opté pour une technologie SQL et non pour des plateformes de type Hadoop. Pour quelle raison ? Pensez-vous évoluer vers ce type de technologie à l’avenir ? Coface Services a une longue histoire et toute une série de «premières» dans le traitement de l’information. Sans remonter jusqu’aux racines de l’entreprise avec la création de Bottin en 1796, l’activité «Solutions Data» a innové avec la télématique dès le début des années 80, et les traitements massivement parallèles au début des années 90. Nous savions que nous voulions une technologie non-intrusive tant matériellement que du point de vue des compétences né- cessaires, donc nous cherchions une solution New SQL à traitement parallèle. Par ailleurs Hadoop – orienté batch – n’était pas envisageable. 3) Quels sont les retours que vous avez eus sur cette plateforme ? Les clients se sont-ils approprié ces nouveaux usages ? Les retours que nous avons eus sont nombreux, en interne aussi car nous utilisons la technologie pour des opérations de segmentations clé-en-main, vraiment « as a service ». Nous mesurons le degré d’appropriation par deux signes forts : d’une part, nous observons que l’usage de l’application parcourt l’ensemble de ses fonctionnalités, avec des retours très positifs ; et d’autre part, nos clients (qui vont de la PME à l’enseigne nationale ou internationale) nous demandent et suggèrent des extensions très innovantes, ce qui montre leur intérêt ! 26 27Exemples d’applications en entreprises 05 Jean-Daniel Ruegger Directeur de domaine au sein de la DSI, Coface Services 26 27 Coface Services28 29 : informatique (capacités de programmation sur les nouveaux outils), statistiques (capacité d’innovation et de modélisation) et business (capacité à interpréter les indicateurs et à les transformer en langage opérationnel). Ces profils polyvalents correspondent à un nouveau type de métier appelé Data Scientist, pour lequel les postulants sont encore rares : McKinsey estimait ainsi que la demande de Data Scientists pourrait atteindre 1,5 millions de postes dans le monde en cinq ans ! Par conséquent, les offres d’emploi liées à ce métier se multiplient depuis 2010 (cf interview de Jacques Froissant) et les rémunérations se montrent attractives mais les efforts de formation restent encore le nerf de la guerre et les profils expérimentés manquent à l’appel. En attendant de trouver la perle rare, les entreprises patientent en faisant monter en compétences leurs propres équipes, liées au Big Data. On pourrait également rajouter celles liées à la communication car la prise de décision appuyée sur les données repose bien souvent sur la capacité de représentation et de hiérarchisation de l’information, telle qu’on peut l’observer dans la datavisualisation. Dès lors, ces compétences réunies sont-elles à disposition pour l’entreprise ? Les nouveaux métiers du Big Data La question des compétences est une problématique souvent évoquée lorsqu’on parle de la mise en place du Big Data en entreprise : en effet, selon Gartner, seules 31% des entreprises estiment pouvoir lancer des projets Big Data en faisant appel à leur personnel existant. Elles recherchent en effet des profils capables d’agglomérer les trois qualités Quelles sont les nouvelles compétences liées au Big Data ? En modifiant peu à peu les paradigmes de l’analyse de données, le Big Data a créé de nouveaux besoins : en effet, les compétences informatiques sont mises à l’épreuve par la complexité des supports de base que sont Hadoop, MapReduce, NoSQL, etc. Même en faisant appel à des fournisseurs et des sociétés de service, la nécessité de disposer en interne de compétences techniques assez poussées se fait de plus en plus prégnante : si le Big Data doit être déployé de façon généralisée dans plusieurs services de l’entreprise, il est indispensable d’avoir à disposition des équipes pouvant connecter rapidement ces nouvelles technologies avec les besoins business. Autre impératif réclamé par le Big Data : la possibilité d’analyser les données traitées avec une vision métier. En effet, c’est dans la partie analyse que le Big Data révèle bien souvent ses qualités stratégiques, ce qui nécessite forcément d’exploiter les données selon des objectifs business propres à chaque département. En marketing par exemple, cette approche est de plus en plus observée : les marketers s’orientent de plus en plus vers l’intégration de compétences « data » dans leurs équipes, ou bien ils se forment eux-mêmes à ce nouvel impératif. Enfin, le Big Data porte en lui de nombreuses promesses liées à l’évolution des algorithmes et des statistiques : pour que les données puissent être vraiment exploitées à des fins prospectives, les modèles statistiques sont amenés à évoluer, ce qui pousse nécessairement les entreprises à envisager l’embauche de statisticiens et diplômés en mathématiques. « Informatique, statistique, business » est donc le triptyque des compétences Les métiers du Big Data Que change le Big Data aux compétences en place ? Comment s’y adapter ? Et quels sont les modes d’organisation à privilégier pour capter toute la valeur des données ? Voici un petit tour d’horizon de l’entreprise en format Big Data. « La nécessité de disposer en interne de compétences techniques assez poussées se fait de plus en plus prégnante » Informatique Statistique Business28 29 La nécessaire communication entre les métiers Plusieurs départements sont ainsi concernés : les métiers IT, les métiers de la statistique et de la BI, et bien sûr les métiers opérationnels, ceux qui disposent des données et qui cherchent à les mettre à profit. Pour toutes ces entités, le Big Data bouleverse l’ordre établi dans la mesure où il invite à davantage de synergies entre les métiers afin de faciliter le traitement et la communication des données : les services supports doivent en effet travailler main dans la main avec les départements business pour éviter un aller-retour chronophage de l’information ainsi que des lourdeurs technologiques. Les équipes business sont donc de plus en plus impliquées dans le traitement et l’analyse de leurs propres données (d’où l’importance de leur montée en compétences) ce qui modifie également le rapport à la décision : en effet, par leur rapport direct et immédiat aux données, les agents opé- rationnels disposent d’un avantage comparatif indispensable qui leur confère une position particulière dans la « data-centric organization ». Contrairement à une approche top-to-bottom, l’entreprise en mode Big Data fait ainsi de la remontée des informations une clé de sa croissance. Quant aux départements IT, leur rôle sera particulièrement mis en avant lors de l’implémentation des outils et lors des premières expérimentations avec les équipes métiers ; au fur et à mesure de la courbe d’apprentissage, ils pourront peu à peu se recentrer sur une mission de support et de développement, laissant aux équipes d’analystes le soin de récupérer les données. Enfin les profils BI et statistiques pourront être soumis à plusieurs types d’organisadéclaraient avoir augmenté et enrichi leur offre de formation en business intelligence. Au-delà, ce sont les entreprises des fournisseurs qui prennent le relais en mettant en place des séminaires de formation et des initiatives de type « université en ligne ». L’impact du Big data sur l’organisation de l’entreprise Au-delà de la mise à disposition d’outils et de ressources humaines et financières, le Big Data soulève logiquement une problématique d’organisation au sein de la structure qui choisit de l’implémenter : en effet, puisque le Big Data est censé prendre en compte des données réparties dans plusieurs services de l’entreprise et mettre en place des processus décisionnels transverses, il implique forcé- ment une approche globale mettant la donnée au centre des attentions. notamment sur des métiers comme le data mining qui présentent déjà certaines caractéristiques proches de la data science. Les offres de formation en France Afin de pallier le déficit de profils « data scientist » disponibles, les organismes de formation et les établissements universitaires ont lancé des programmes intégralement dédiés au Big Data, ou envisagent de le faire : c’est le cas de Télécom ParisTech ou l’ENSAI mais également d’organismes privés qui font évoluer leurs offres de formation sur le segment décisionnel. Ces dernières sont bien souvent sectorielles ou orientées Hadoop mais elles ont l’avantage de permettre aux professionnels en poste de se mettre à niveau. Quant aux parcours universitaires, ils ré- pondent généralement à la dichotomie « informatique vs statistique » : il est très rare en effet de trouver des masters réunissant ces deux domaines de formation (seul le Master spécialisé Big Data de Télécom ParisTech, 1er du genre en Europe, le propose actuellement). Du coup, ce sont plutôt les écoles et DUT de statistiques qui sont à la manœuvre : on recense ainsi 70 spécialités de master en statistiques à l’université mais aucun n’est pour l’instant dédié au Big Data. Selon l’étude State of Business Intelligence Survey réalisée en 2013 pour Teradata, 41% des professeurs d’université interrogés « Selon Gartner, seules 31% des entreprises estiment pouvoir lancer des projets Big Data en faisant appel à leur personnel existant » Panorama des enseignements dispensés au sein du Master «Gestion et Analyse des Données Massives» de Telecom Paristech • L’écosystème Big Data • Bases de Données et Bases de Données Avancées • Données personnelles • SI Décisionnels et Gestion de la Relation Client • Ingénierie du web • Transport et routage dans l’internet • Machine-Learning • Visualisation • Apprentissage Statistique « en ligne » et distribué • Systèmes Répartis • Sécurité des systèmes d’information (source : site internet du Master)30 d’intention en France : on ne recense pas encore de CDO français, et, actuellement, ce sont plutôt les DSI qui assument le relais auprès de la direction. Mais, aux Etats-Unis, les exemples se multiplient, essentiellement dans l’administration (villes de Chicago, San Francisco, NYC, US Army, Federal Reserve, etc.), ce qui a conduit un cabinet de conseil, Russell Reynolds Associates, à prédire la création d’un tel poste pour la moitié des firmes du classement Fortune 500 d’ici à 2015… question de la rapidité du cycle de décision, les allers-retours avec les équipes opérationnelles étant moins intégrés. On le voit, la question de l’organisationtype n’a pas encore été tranchée, essentiellement parce que les entreprises n’ont pas toutes les mêmes besoins et n’utilisent pas les données de la même façon… C’est la raison pour laquelle une réflexion stratégique doit précéder tout achat d’outils Big Data ou toute mise en place hâtive car les entreprises doivent avant tout faire l’inventaire de leurs besoins et de leurs ressources. C’est d’ailleurs une des principales préconisations des cabinets de conseil qui agissent en ce sens auprès des entreprises pour dessiner des organisations censées réagir efficacement et de façon opérationnelle à la problématique du Big Data. Le Chief Data Officer La réorganisation de l’entreprise autour des données pose nécessairement la question de la structuration de la prise de décision et des remontées hiérarchiques auprès des instances dirigeantes : en effet, l’utilisation de la donnée, pour être efficace, doit s’inviter jusqu’au Comité de Direction des entreprises ! Mais pour cela, il manque encore actuellement des porte-parole identifiables dont la fonction serait d’orienter les dé- cisions globales de l’entreprise en fonction des données traitées. Ce déficit de personne ou plutôt de fonction a vite été pallié par la création d’un nouveau personnage au cœur de l’entreprise : celui de Chief Data Officer. Au même titre que le CTO ou le CIO, le CDO serait donc un responsable exécutif pour les données de l’entreprise, qui s’efforcerait d’appuyer les décisions du CODIR sur les données. Il chapeauterait donc toute l’organisation dédiée aux données, qu’elle soit centralisée ou non. Pour l’instant, ce rôle est resté à l’état tion en fonction de leur proximité avec les métiers : dans le cas d’une centralisation de leurs compétences, ils seront amenés à récupérer les données issues des services opérationnels afin de les traiter en lien avec ceux-ci. Mais on peut également imaginer une intégration de ces profils directement au sein des équipes métiers afin de raccourcir le cycle de décision. Plusieurs types de « data-driven organization » En écho à cette pluralité d’organisations pour les métiers décisionnels, on remarque que les entreprises pionnières ont adopté plusieurs schémas mettant en avant leurs données. • L’option « décentralisée », à savoir la mise en place du Big Data « métier par métier » ou « service par service » (souvent au fur et à mesure, en fonction de l’importance relative des données pour les différents départements) : dans ce schéma, le département métier (ex : le marketing) intègre les outils en son sein avec l’appui de la DSI. Les analystes mé- tiers sont mis à profit au cœur de la division pour l’exploitation des données, ce qui réclame une montée en compétences (cf + haut). Dans le cas où l’entreprise dispose d’un département BI dédié, celui-ci est amené à servir de support pour les projets menés, ou peut être éclaté dans les différentes directions opérationnelles. • L’option « centralisée », à savoir la constitution d’une direction dédiée au Big Data au cœur de l’entreprise, afin de centraliser toutes les données et d’effectuer le traitement et l’exploitation pour le compte des entités opérationnelles. Bien sûr, ce type de structure fonctionne également en synergie avec d’autres services (les métiers bien sûr, mais également l’IT) mais elle présente le grand avantage de réunir en autonomie des professionnels du Big Data qui pourront ainsi impulser le mouvement « datacentric » et proposer des projets transversaux (ex : mutualiser les données de plusieurs services). • Enfin, l’option la plus utilisée actuellement est certainement l’option de la sous-traitance : confier à une entreprise spécialisée dans le Big Data la gestion des données et les analyses conjointes. Cette option qui a le mérite de la souplesse et qui permet d’enrichir l’exploitation des données par une expertise extérieure (ainsi que par des données externes) pose toutefois la « La question de l’organisation-type n’a pas encore été tranchée » « L’utilisation de la donnée, pour être efficace, doit s’inviter jusqu’au Comité de Direction des entreprises » Mark Headd, CDO de la ville de Philadelphie30 1) On parle beaucoup de la fonction de « data scientist » en lien avec l’émergence du Big Data. Comment définiriez-vous ce nouveau poste ? Pour moi, il n’y a pas une mais deux fonctions autour de la data : 1) une fonction technique, scientifique, appelée « data scientist » qui correspond à une culture ingénieur statistique et informatique, et qui s’occupe de récupérer les données, de les structurer et de les produire, 2) puis une fonction davantage business appelée « data analyst » qui exploite ces données afin d’aboutir à des préconisations business. Généralement, ce deuxième profil provient d’école de management ou de formations en marketing. On le retrouve beaucoup dans le secteur du e-commerce où les budgets et préconisations en matière d’acquisition client ont une importance stratégique. 2) Les deux fonctions sont-elles complémentaires ? Faut-il embaucher les deux ? Cela dépend beaucoup de la taille de l’entreprise : souvent les petites entreprises vont d’abord se doter d’un data analyst, car la problématique web correspond à des enjeux business immédiats. Mais dès que l’on monte en taille, on rencontre de plus en plus de data scientist. Dans les grandes entreprises, dans le retail ou en banque, ils sont de plus en plus présents. La demande a beaucoup augmenté pour ces postes-là : si vous regardez les offres d’emploi liées au Big Data sur les moteurs de recherche, vous constaterez qu’elles ont doublé dans les 6 derniers mois. 3) Justement, pensez-vous qu’il y ait un décalage entre la demande et l’offre ? Y’a-t-il un manque de profils disponibles pour répondre aux besoins des entreprises ? Et comment y remédier ? Il est effectivement difficile de trouver les deux types de profils, car la demande pour ces deux fonctions a explosé très rapidement. C’est sûrement pour le data scientist que le décalage est le plus fort… ils sont très sollicités. Cependant, en France, on recense 17 formations professionnelles et universitaires qui proposent des programmes en lien avec ces fonctions. J’ai confiance dans le fait que ces efforts porteront leurs fruits rapidement : la France est plutôt bien armée pour combler le fossé entre offre et demande sur ces compétences-là. 4) Autre sujet actuel : on parle de plus en plus d’application Big Data dans les RH (recrutement, gestion de la paie…). En connaissez-vous quelques-unes ? Effectivement, il y a de plus en plus d’initiatives RH liées au Big Data. Par exemple, sur le recrutement, l’entreprise américaine Evolv a décidé d’exploiter les données d’une entreprise de plus de 20 000 employés pour tenter de mettre en avant des facteurs de performance. Ils se sont ainsi rendus compte que : 1) il n’y avait aucune corrélation entre le CV et la performance, 2) les personnes actives sur les réseaux sociaux étaient souvent les plus performantes et les plus fidèles à l’entreprise… assez surprenant non ? Linkedin est également assez en avance sur ces questions-là : ils travaillent en permanence sur les données de leurs membres et permettent aux entreprises de cibler beaucoup plus finement les candidats et prospects qui leur semblent correspondre à leur activité. 5) Pensez-vous que les entreprises seront effectivement amenées à généraliser ce type d’approche dans les années à venir ? Oui, je pense qu’on y viendra, notamment pour le management… On peut très bien imaginer qu’un DRH analyse les données issues des échanges de ses employés (sur les réseaux sociaux, sur internet ou en interne) pour mesurer l’ambiance, comprendre les attentes, les inquiétudes et être capable d’intervenir en amont. Ce sera beaucoup plus efficace que des enquêtes annuelles de satisfaction ! Mais les RH restent encore méfiants par rapport à ce type de technologies : c’est d’ailleurs souvent la dernière fonction à acquérir et intégrer les outils les plus récents. Après, on peut comprendre les inquié- tudes si l’on se réfère à certaines applications : le grand risque du Big Data appliqué à la RH, c’est qu’un profil type de performance soit défini à partir de ces données, et que l’entreprise n’embauche plus qu’en fonction de ce modèle. Ce serait catastrophique pour la diversité et la capacité d’innovation de l’entreprise ! Interview « Les offres d’emploi liées au Big Data ont doublé dans les six derniers mois » Jacques Froissant Président, Altaïde « La France est plutôt bien armée pour combler le fossé entre offre et demande sur ces compétences-là. » Capture d’écran du site d’Evolv32 33 ressé les pouvoirs publics qui ont proposé des mesures de financement et d’accompagnement pour soutenir le décollage du marché. Aux Etats-Unis, le programme « The Big Data Research and Development initiative » avait ainsi été lancé au printemps 2012 pour soutenir les programmes de recherche sur les technologies de traitement de grande échelle : 200 millions de dollars ont été mis à disposition des grandes agences fédérales dans la Santé, l’Energie ou la Défense pour trouver des applications sectorielles immédiates. En Europe, la Commission Européenne s’est également emparée du sujet en lançant des appels à projets : le premier début 2012 concernant le « Management de l’information intelligente » (50millions d’euros), le second en 2013 intitulé « Scalable data analytics » (31millions d’euros). Elle fait du Big Data un de ses principaux sujets d’étude : un programme de travail sur le Big Data et la Smart Data est ainsi prévu pour 2014 et 2015. La France, quant à elle, a commencé à s’intéresser au sujet en mars 2012 avec le lancement d’un premier appel à projets et l’inscription du Big Data dans le programme des Investissements d’Avenir au sein de la section consacrée à l’entreprise. En 2006, un rapport financé par la Commission Européenne établissait ainsi que le marché lié à l’utilisation de ces données Open Data représentait 27 milliards d’euros. Alliées aux technologies mobiles, ces données sont également un vecteur d’innovation important, permettant la création de nouveaux services (ex : conseils géolocalisés dans le secteur du tourisme, renseignements voyageurs dans le domaine des transports, etc.). L’Open data s’est donc imposé en quelques années comme un secteur en croissance, attirant de nombreuses startups dont la mission est de traiter, trier et analyser ces données à destination des entreprises et des collectivités. En France, c’est le portail data.gouv.fr, chapeauté par Etalab, qui met à disposition du public les données du gouvernement sous l’autorité du Premier Ministre. Soutenir le décollage du marché : les investissements publics dans le domaine du Big Data Le dynamisme porté par le Big Data et l’éclosion de nombreuses start ups en lien avec ce sujet ont rapidement inté- Par son ampleur et par ses nombreuses promesses, le Big Data a rapidement attiré l’attention des pouvoirs publics : ils y ont vu un potentiel de croissance important pour la filière numérique en France mais également des menaces éthiques fortes sur le citoyen, concernant la confidentialité des données notamment. Cependant, bien avant ces problématiques, l’univers public était présent dans l’écosystème Big Data à travers un phénomène antérieur qui connaît aujourd’hui un développement corollaire au Big Data : l’Open Data. L’Open Data L’Open Data est un mouvement amorcé au milieu des années 2000 visant à transmettre au grand public les données numériques détenues par les administrations publiques, dans un but de transparence et d’efficacité de l’action publique. En effet, de nombreuses informations démographiques, économiques, sociales pouvaient revêtir un caractère straté- gique pour les organisations privées et le grand public (ex : régularité des transports publics, temps d’attente dans les services publics, niveau de rémunération dans une zone géographique donnée, affluence des zones touristiques, etc.) et les rendre accessibles, libres de droits, constituait donc une avancée économique autant que citoyenne (l’institution publique se trouvant ainsi engagée vis-à-vis de ses administrés à corriger les imperfections soulevées par ces données). Développé dans les administrations européennes et nord-américaines, ce mouvement a désormais gagné les organisations privées qui peuvent choisir de mettre à disposition du public et de partenaires les données qu’elles tirent de leur activité et qui concernent la collectivité. A l’heure du Big Data où les données prennent une importance centrale dans le décisionnel de l’entreprise, ces informations véhiculées par l’Open Data et croisées avec les données internes, constituent donc un nouvel outil précieux pour nourrir la vision stratégique de Les pouvoirs publics face au Big Data 27 milliards d’€ > C’est le potentiel de marché de l’Open Data (chiffre de 2006) Les chiffres du financement public pour le Big Data > USA 200 millions de $ > Union Européenne 81 millions d’€ > France 11,5 millions d’€32 33 « Fleur Pellerin a annoncé en janvier 2013 la création d’une filière Big Data capable d’attirer les investissements étrangers » l’économie numérique. Cet appel à projets a permis de sélectionner 7 projets pour un total de 11,5 millions d’euros attribués au Big Data en avril 2013, et 4 projets restent encore à l’étude. Pour l’heure, la ministre chargée de l’Economie Numérique, Fleur Pellerin, a annoncé en janvier 2013 la création d’une filière Big Data, capable d’attirer les investissements étrangers, suivie de l’annonce d’un plan de soutien en juin 2013. Ce plan visera à construire un écosystème du Big Data, à fournir la formation nécessaire aux jeunes data scientists et à promouvoir les start ups prometteuses de la filière. Ce plan, salué par l’AFDEL (l’association française des éditeurs de logiciels), s’inscrit dans le projet plus global de création d’une Silicon Valley à la française, appelé Paris Capitale Numérique. Smile … b i g brother is watching you ! La ministre chargée de l’économie numérique, Fleur Pellerin La problématique de confidentialité des données L’une des questions centrales soulevées par le Big Data est probablement celle de la protection des données personnelles : en effet, l’utilisation massive de données à des fins d’optimisation ou de ciblage marketing renforce la crainte déjà prégnante d’une surveillance et d’une manipulation automatisées du citoyen : géolocalisation, suivi des historiques sur Internet, personnalisation non consentie des offres, etc. sont autant d’incarnations du phénomène Big Data qui peuvent être perçues comme des menaces pour la vie privée des consommateurs finaux. Cette inquiétude, dont la récente affaire sur le programme américain PRISM s’est fait l’écho, pourrait également s’avérer néfaste économiquement puisqu’une rupture de confiance du consommateur vis-à-vis du fournisseur entraînerait automatiquement un retour en arrière dans le partage des données et donc, à terme, un recul du Big Data et de ses promesses. Pour toutes ces raisons, les autorités de régulation se sont penchées sur la question, reprenant leurs législations en matière de protection des données personnelles afin de les adapter au Big Data : en France, c’est la loi Informatique et Libertés du 6 janvier 1978, actualisée plusieurs fois dans les années 2000, qui fait office de socle législatif. Dans le droit actuel français, la protection d’une donnée personnelle* est garantie par 5 critères : • la finalité de l’utilisation : on garde une donnée pour une utilisation déterminée à l’avance. • la pertinence : les données exploitées doivent être pertinentes au regard de l’objectif avancé. • la conservation limitée (eq « Droit à l’Oubli ») : les données ne peuvent être conservées indéfiniment dans un serveur. La durée de conservation est établie en cohérence avec l’objectif d’utilisation. • la sécurité et la confidentialité : le responsable des données doit assurer la sécurité de celles-ci. • le respect des droits des personnes (loyauté et transparence) : elles doivent avoir accès aux données, être informées de leur utilisation et pouvoir s’opposer. *Selon la loi « constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres » 34 En France, la ministre Fleur Pellerin a renouvelé en 2013 son souhait de pré- senter un projet de loi relatif à la protection des données personnelles au premier semestre 2014 mais l’ampleur du projet reste floue. Le débat reste donc encore largement ouvert sur les mesures à adopter pour garantir à la fois le dynamisme économique et la protection des citoyens. Beaucoup d’analystes s’inquiètent du retard que pourrait prendre l’Europe par rapport aux Etats-Unis et à l’Asie craignant une fuite des données vers ces zones géographiques et donc, à terme, une perte de souveraineté (les données constituant désormais une matière première stratégique). A ce titre les récents événements sur le programme PRISM ont ravivé les débats sur ce dossier, rendant la question de la protection des données encore plus stratégique dans le contexte actuel d’explosion de l’univers numérique et d’industrialisation du Big Data. La progression du Big Data interroge la pertinence de ces critères car l’exploitation automatique de données met à mal le principe de finalité, tout comme la conservation dans le cloud conduit à des incertitudes en matière de sécurité. L’exercice du droit des personnes est, quant à lui, très largement bafoué, les internautes n’étant souvent pas informés de la récupération de leurs données de navigation. La Commission Européenne s’est donc emparée du sujet, par l’entremise de la Commissaire Viviane Reding en charge de la Justice et des Droits Fondamentaux, qui proposait en janvier 2012 un projet de règlement unifiant les régimes de protection des données européens et renforçant les droits des personnes ainsi que la responsabilité des entreprises. Des outils liés au consentement préalable des internautes (sur les cookies par exemple) ont été mis en place, mais les discussions sur le projet de rè- glement restent vives, certains craignant qu’un encadrement trop strict freine l’innovation et creuse un décalage avec les Etats-Unis, beaucoup moins contraignants sur l’exploitation des données. Après un an et demi de débats, le projet de règlement a finalement été retoqué en juin 2013 par les ministres de la Justice des Etats Membres, mais Viviane Reding a d’ores et déjà annoncé qu’elle comptait obtenir un accord sur le projet en 2014. Une réunion entre ministres de la Justice s’est tenue à Vilnius en juillet 2013, ouvrant la porte à un accord en 2014. La Commissaire Viviane Reding annonce son projet de règlement sur la protection des données en janvier 2012 35 « Une rupture de confiance du consommateur vis-à-vis du fournisseur entraînerait automatiquement un retour en arrière » Appel à projets «Management de l’Information Intelligente» Proposition de règlement européen sur les données personnelles Lancement du programme «The Big Data Research and Development Initiative» Inscription du Big Data dans les Investissements d’Avenir Lancement de l’appel à projets «Scalable data analytics» Annonce de la création d’une filière Big Data par la ministre Fleur Pellerin Sélection de 7 projets Big Data au titre des Investissements d’Avenir Annonce d’un plan de soutien à la filière du Big Data Le projet de règlement sur les données personnelles est retoqué Réunion de Vilnius ouvrant le champ à un accord sur le projet de règlement en 2014 2012 201334 1) Pour vous, en quoi le Big Data a-t-il changé la donne dans la protection des données personnelles ? Pourquoi remet-il en cause l’arsenal législatif actuel ? En matière de protection des données personnelles, au-delà des questions classiques qui sont exacerbées par le volume et la variété des données traitées par le Big Data, ce qui change vraiment, c’est l’application du principe de finalité. En effet, l’une des particularités du Big Data est la remise en cause de l’approche scientifique classique consistant à devoir poser une hypothèse de travail pour ensuite collecter et traiter des données destinées à valider ou invalider cette hypothèse. Avec le Big Data, il est désormais possible, compte tenu des capacités de traitement, d’opérer sans hypothèse de travail préalable. En d’autres termes, mener des recherches sans savoir à l’avance ce que l’on va pouvoir trouver. Dans un tel contexte, il est difficile de respecter le principe central posé par la loi du 6 janvier 1978 selon lequel « (les données) sont collectées pour des finalités déterminées, explicites et légitimes et ne sont pas traitées ultérieurement de manière incompatible avec ces finalités». De même, il est difficile de respecter les autres dispositions de cette loi qui font directement référence au principe de finalité: - l’obligation de ne collecter que des données adéquates, pertinentes et nonexcessives au regard des finalités, - ou encore, en ce qui concerne la durée de conservation des données, l’obligation de ne pas excéder la seule période nécessaire aux finalités pour lesquelles elles sont collectées. 2) La France a-t-elle une position particulière sur la question par rapport à ses collègues européens ? Comment définiriez-vous cette position ? Et, plus globalement, quels sont les principales différences législatives entre les Etats-Unis et l’Europe concernant la protection des données ? La France a toujours su faire entendre sa voix sur la scène européenne en matière de protection des données personnelles. Elle est particulièrement active dans le cadre des négociations qui devraient mener à l’adoption du règlement européen en matière de données personnelles : la CNIL, la Ministre de la Justice, le Sénat et l’Assemblée Nationale contribuent au débat public. Toutefois, la France ne fait pas bande à part parmi les Etats Membres et elle partage l’opinion majoritaire. Concernant les principales différences entre les Etats-Unis et l’Europe, il faut tout d’abord rappeler qu’à la différence de l’Union Européenne, il n’existe pas de loi générale en matière de protection des données personnelles aux Etats-Unis, même si des règlementations sectorielles très strictes peuvent exister dans le domaine des informations financières ou de la santé. Par ailleurs, l’affaire PRISM nous rappelle que des textes américains comme le «USA Patriot Act» (2001), le «Protect America Act» (2007) ou le «Foreign Surveillance Intelligence Act» (2008) permettent une très grande intrusion dans la sphère privée par rapport à ce qui est autorisé en Europe. Les autorités américaines peuvent notamment obtenir les données traitées par toute entreprise présente aux Etats Unis, y compris les données qui concerneraient des ressortissants étrangers, avec une facilité qui déconcerte et effraye en Europe. Il était question, en 2012, d’un texte permettant d’étendre l’accès des autorités américaines aux données situées en dehors du territoire américain, dans le but de lutter contre la cyber-criminalité et le terrorisme. Il s’agissait du Cyber Intelligence Sharing and Protection Act. Bien que ce texte n’ait finalement pas été adopté, un nouveau projet, très similaire serait en préparation. 3) Comment voyez-vous l’évolution des discussions sur le projet de règlement européen relatif aux données personnelles ? Quelles sont les orientations qui se dessinent pour ce texte ? Le rejet de ce texte en juin dernier a-t-il mis en péril les discussions ? L’instruction du projet de règlement européen, présenté par Viviane Reding début 2012, est toujours en cours et peut encore réserver des surprises, néanmoins les négociateurs se montrent persévérants dans la recherche d’un consensus. La rencontre informelle de Vilnius, qui a réuni les ministres européens de la Justice le 19 juillet dernier, affiche un bilan positif. L’adoption du règlement n’est pas envisagée avant début 2014, mais le dossier a bien avancé. Les ministres français et allemand, notamment, ont manifesté leur soutien à ce projet. Par ailleurs, il faut prendre en considé- ration les impacts de l’affaire PRISM sur l’avancée des discussions. Les débats sont aujourd’hui animés par les révélations de M. Edward Snowden, qui avait dévoilé l’existence de ce programme américain collectant des données personnelles d’individus hors des EtatsUnis. Selon Viviane Reding « PRISM a réveillé les Européens sur la nécessité d’avoir des règles fortes et strictes». Voilà de quoi motiver ceux qui prônent l’adoption du règlement dans les meilleurs délais. Interview « La France a toujours su faire entendre sa voix sur la scène européenne en matière de protection des données personnelles » Thierry Dor Associé au cabinet Gide Loyrette Nouel 35© 2013 Accenture. Tous droits réservés. ** Analyser. Réalisé. * La haute performance. Réalisée. Moins de suppositions. Plus de certitudes. Analytics. Delivered. ** Les données sont des éléments clés. À condition de savoir les interpréter. Nous aidons nos clients à utiliser l’analyse pour transformer les données en idée, l’idée en action et l’action en résultats concrets. High performance. Delivered.* 05.09.2013 10:47 Twist 235 37 Coordonnées Contact Tél : Fax : Mail : Les BIG DATA, une opportunité particulièrement lucrative, facteur de différenciation compétitive Dans un monde en perpétuelle évolution et accélération, des données de plus en plus volumineuses, riches et variées – les fameuses BIG DATA – représentent un atout majeur pour les entreprises, à condition de savoir les capter, les raffiner, les combiner et les analyser. Ce formidable vivier de nouvelles informations permet non seulement de mieux répondre aux attentes des clients mais surtout d’identifier de nouveaux axes stratégiques ainsi que de capter d’autres marchés. Grâce à la réduction des coûts de stockage et aux développements de nouvelles techniques de gestion de la donnée, ce monde de l’exploration et de l’interprétation, autrefois plus réservé à des spécialistes, s’ouvre à présent à toute entreprise brassant un grand volume de données. De la stratégie à la mise en œuvre, Accenture vous accompagne dans le développement de capacités analytiques et prédictives nécessaires à la prise de décision et au pilotage de votre activité. Accenture vous aide également à adresser les nouveaux défis technologiques des BIG DATA, notamment : • gérer des plates-formes de données non structurées de grande capacité ; • faire face aux nouvelles demandes pesant sur les infrastructures réseau ; • accueillir un grand nombre de serveurs standards au sein des centres de données ; • déployer des capacités de stockage de plusieurs pétaoctets ; • exploiter ces précieuses données ; • développer et mettre en place une gouvernance adaptée à la complexité et l’hétérogénéité des données ; • intégrer le traitement de données non structurées dans les organisations et les processus existants. Notre offre de services Accenture Analytics, vous permet de disposer : • Des meilleurs professionnels. Notre réseau mondial de professionnels offre un accès à une combinaison de compétences analytiques approfondies, de connaissances métier et d’expérience des processus. • D’une offre éprouvée. Grâce à notre longue expérience, notre offre de services couvre plus de 100 secteurs d’activité individuels ou croisés et de services fonctionnels, plus de 200 pratiques et normes sectorielles clés, des outils de développement automatisés et des composantes structurelles réutilisables. • Des services de recherche et développement inégalés. Les outils et les services analytiques d’Accenture constituent l’aboutissement d’un long historique d’innovation dans la gestion des data. • D’alliances stratégiques. Bien que nous ne privilégions aucun prestataire spécifique, nous avons formé un réseau de partenaires stratégiques avec lesquels nous nous associons éventuellement lors de la mise en œuvre de nos projets, notamment SAS, SAP, Oracle et Microsoft. • D’une envergure mondiale. Grâce à notre réseau mondial de centres dédiés à l’analytique, nous modélisons automatiquement nos processus analytiques dans un souci de constante amélioration. Nous générons ainsi une source conséquente de connaissances tirées de l’analyse des données. En vous appuyant sur Accenture, vous aurez l’assurance de maximiser l’utilisation de vos données et ainsi créer plus rapidement davantage de valeur. A propos d’Accenture Accenture est une entreprise internationale de conseil en management, technologies et externalisation. Combinant son expérience et ses capacités de recherche et d’innovation développées et mises en œuvre auprès des plus grandes organisations du monde sur l’ensemble des métiers et secteurs d’activité, Accenture aide ses clients - entreprises et administrations - à renforcer leur performance. Avec plus de 266 000 employés intervenant dans plus de 120 pays, Accenture a généré un chiffre d’affaires de 27,9 milliards de dollars au cours de l’année fiscale clôturée le 31 août 2012. (Responsable technologique des offres Business Intelligence, Big Data & Analytics : Laurent Gaultier) www.accenture.com Accenture ACCENTURE Xavier CIMINO Responsable Accenture Interactive Digital & Analytics 118 avenue de France 75636 Paris Cedex 13 +33 (0) 1 53 23 55 55 +33 (0) 1 53 23 53 23 xavier.cimino@accenture.comDébloquez le potentiel de vos Big Data ! Trouvez enfin un moyen efficace et facile d’analyser l’ensemble de vos données ● Détecter des opportunités croisées ● Découvrir des modèles de comportement Les informations disponibles sur votre activité et votre clientèle prennent des formes de plus en plus variées avec l’évolution des technologies de communication et de stockage des données. Elles o rent de nouvelles possibilités et l’idée de les exploiter est séduisante. Mais comment faire pour que cela reste facile et accessible ? Il existe désormais des solutions simples et rentables Avec son module de Data Mining intuitif, Actuate – the BIRT Company – donne aux experts marché et métier le pouvoir d’analyser directement leurs Big Data sans l’aide d’un Data Scientist. Plus réactive et avec une meilleure connaissance de son activité, votre entreprise en devient plus compétitive. Nos clients utilisent BIRT Analytics pour : ● Prédire des évolutions ● Grouper et croiser des populations Découvrez BIRT Analytics sur www.actuate.fr Le Data Mining n’est plus dévolu qu’aux Data Scientists Analysez des données brutes à la volée grâce à notre module de Data Mining rapide et intuitif39 Coordonnées Contact Tél : Fax : Mail : Actuate - The BIRT Company™ Actuate a fondé et codirige le projet Open Source BIRT, qui est utilisé par plus de 2,5 millions de développeurs à travers le monde et sert de socle à la suite commerciale proposée par Actuate. Pouvant être facilement déployées auprès de millions d’utilisateurs, les applications construites avec BIRT offrent une meilleure vision métier ainsi qu’une compréhension approfondie des comportements des clients. Actuate aide ainsi les entreprises à tirer pleinement parti des Big Data et de l’essor des appareils tactiles. Les solutions BIRT d’Actuate facilitent le développement d’applications personnalisées de business analytics et de communication client basées sur BIRT. Les applications construites avec le format unique de design BIRT peuvent accéder et intégrer tous types de données, y compris les données non structurées. Elles assurent une expérience utilisateur ergonomique et homogène, quel que soit le niveau de connaissances techniques, et sont supportées pour tous les déploiements, qu’ils soient sur site, Cloud, hybrides, web ou mobiles. Actuate, cotée au NASDAQ sous le symbole BIRT, compte plus de 5 000 clients à travers le monde dans divers secteurs d’activité, dont les services financiers, les technologies et le secteur public. Son siège social est basé dans la Silicon Valley. BIRT Analytics, le Data Mining et l’Analyse prédictive intuitifs BIRT Analytics™, la solution Actuate permettant l’exploration de données graphique et l’analyse prédictive, permet de mettre en place une analyse rapide à partir de n’importe quelle source de données sans besoin de connaissances techniques et statistiques spécifiques. BIRT Analytics procure aux analystes et aux opérationnels des fonctionnalités avancées pour prendre des décisions plus avisées et opportunes à l’ère des Big Data. La solution allie la facilité d’utilisation et la flexibilité des outils d’exploration de données à la puissance statistique et algorithmique des outils d’analyse avancée, généralement réservés aux experts IT. BIRT Analytics donne la possibilité aux analystes métiers de découvrir par eux-mêmes des corrélations et de prévoir des comportements et des résultats par le biais de techniques telles que la segmentation client, la ‘prochaine meilleure offre’, le risque fournisseur ou la fidélisation client. Au-delà de l’analyse des données, BIRT Analytics offre également la possibilité de concevoir des campagnes et d’en prédire les retombées pour une amélioration constante des résultats opérationnels. « Avec BIRT Analytics, nous proposons le meilleur de l’univers analytique », déclare Nobby Akiha, senior vice-président du Marketing chez Actuate. « Les analystes métier n’ont plus à se contenter d’analyses prédictives ‘sommaires’ et profitent de la puissance analytique des outils statistiques traditionnels dans un produit visuel, facile à utiliser, qui analyse tous les types et toutes les tailles de données. Et même le Big Data » ajoute-t-il. Grâce à BIRT Analytics, les analystes métiers qui doivent traiter des milliards de données disposent d’une solution puissante et simple d’utilisation pour effectuer des prédictions sans avoir à coder. « Combiné aux autres modules de la suite de produits basés sur BIRT, BIRT Analytics fait le lien entre la gestion métier orientée données interne et externe, et vous permet de remplir votre mission d’aujourd’hui, c’est-à-dire gérer et décider en vous fondant sur les données pour gagner un avantage concurrentiel » conclut Nobby Akiha. www.actuate.fr Actuate Actuate International Corporation Magali CARIO Marketing Campaigns Manager Southern Europe 57 rue de Châteaudun 75009 Paris +33 (0) 1 76 21 56 50 +33 (0) 1 76 21 56 56 fr_contact@actuate.comAffini-Tech SARL 11avenue Henri IV, 92190 Meudon Tél : +33 (0) 6 61 88 76 71 Fax : +33 (0) 9 58 12 97 98 Mail : contact@affini-tech.com Web : www.affini-tech.com Affini-Tech met en oeuvre pour vous des briques technologiques packagées permettant de réaliser très rapidement des retours sur investissements importants. Ces briques vous permettent d’élargir le paysage des données que vous utilisez dans vos analyses et de bénéficier de toute la performance des algorithmes de “Machine Learning”. L’idée maitresse de ces outils est de transposer à toute activité (online ou traditionnelle) les recettes qui ont fait le succès des leaders de l’économie numérique. DISPOSEZ DES MÊMES ATOUTS QUE LES LEADERS DU WEB Hybridation de données Les données de votre organisation sont à 80% liées à des dates ou des lieux géographiques. Accédez à de potentielles liaisons fortes de vos informations à des données complémentaires, pour par exemple cibler plus finement vos clients. Moteur de Recommandation Qui n’a jamais été frappé par les grands sites eCommerce vous proposant d’acheter les produits que d’autres consommateurs semblables à vous ont acheté ? Ce levier d'action peut être mis au profit de votre business simplement et rapidement. Avec les technologies de moteur de recommandations d'Affini-Tech, tirez parti des informations que vous possédez sur vos clients pour mettre en oeuvre des stratégies de recommandations et de personnalisation de vos relations, et ainsi améliorer la performance de vos business. 41 Coordonnées Contact Tél : Fax : Mail : «Les outils, les pratiques du Big Data s’adressent à toutes les organisations, quelles que soient leurs tailles». Affini-Tech, acteur français du Big Data, le démontre tous les jours chez des clients de tous secteurs d’activité. Si le Big Data est né et a grandi chez les géants du Net, c’est aujourd’hui dans les industries traditionnelles que les plus grands bénéfices sont générés. Le positionnement affirmé et le savoir-faire d’Affini-Tech est de mettre à la portée de toute entreprise, sur ses volumes de données, les apports du Big Data : Analyse de transactions, Prédiction, Recommandation, Classification, Audit… Par une démarche à la conjonction entre les métiers et l’lT, et par la démonstration, l’entreprise découvre de nouvelles opportunités pour des coûts radicalement plus faibles. Le retour sur investissement est obtenu en quelques semaines, et les coûts sont maitrisés. L’utilisation de méthodes agiles permet de conserver à tout moment des objectifs atteignables. Vous disposez tant du savoir faire d’Affini-tech que de ses briques technologiques prêtes à l’emploi, développées pour répondre à des besoins précis. Affini-Tech vous permet d’en comprendre les ressorts et d’être en possession d’une RoadMap Big Data pour vos acteurs clés internes. Affini-tech ne vous accompagne pas uniquement par la technologie. Une démarche auprès des métiers vous permet de bien plus grandes créations de valeur et de spectaculaires diminutions de vos coûts. C’est aussi grâce à la nouvelle capacité offerte par les plateformes Big Data à traiter massivement de gros volumes de données qu’il devient possible, à moindres coûts, de mettre en place des innovations. Le Big Data est abordable. www.affini-tech.com Affini-Tech Affini-Tech SARL Vincent Heuschling Fondateur 11 avenue Henri IV 92190 Meudon +33 (0) 6 61 88 76 71 +33 (0) 9 58 12 97 98 vhe@affini-tech.com43 Coordonnées Contact Tél : Fax : Mail : Responsable Commercial France Parra Benoit www.bimeanalytics.com benoit@bimeanalytics.com N/A +33 (0) 4 67 41 60 64 1 place Francis Ponge 34 000 Montpellier Leur Histoire Big Data avec BIME Puiser au cœur de l’internet des objets dans le désert Australien, c’est ce que fait la société MovingData. Afin d’améliorer la performance mobile de ses clients Telco nationaux, elle assure la qualité et la disponibilité des réseaux de téléphonie en dehors des grandes villes australiennes grâce à des milliers de capteurs répartis géographiquement. 500 Radius Records + Network Probes Pour comprendre plusieurs millions d’évènements générés sur ses réseaux : MovingData devait répondre à 2 besoins particuliers que seul BIME pouvait satisfaire : disposer d’outils permettant une analyse interactive et visuelle rapide des incidences réseaux et pouvoir communiquer ces analyses à leurs clients Telco grâce à des tableaux de bord collaboratifs, disponibles en ligne, en temps réel, sur des volumétries de données très importantes stockées dans Google BigQuery. Ce projet BigData a été réalisé en moins de trois mois. Trois partenaires Cloud, distants géographiquement, ont sans jamais se rencontrer pu l’orchestrer : l’Américain Google pour la base de données, le Français BIME pour l’analyse et les tableaux de bord, l’Australien MovingData pour les indicateurs métiers et les process d’alimentation de données. Pensez vos projets BigData avec l’agilité et la scalabilité du Cloud. BIME (We Are Cloud SAS) Bime Analytics Craig Morton Ceo of MovingDataUne décision repose-t-elle sur une intuition ou des données ? Data Science Performance Innovation Expérimentation Gouvernance de l’information Sécurité Conformité réglementaire Coordonnées CGI Business Consulting 17 place des Reflets 92 097 Paris La Défense cedex Contact Frederic Brajon, Associé T : +33 1 57 87 50 55 Email : frederic.brajon@cgi.com Site web www.cgi.com CGI Business Consulting, cabinet de conseil en innovation et transformation, fait partie du Groupe CGI inc. Ses consultants associent expertises sectorielles, fonctionnelles et technologiques pour accompagner les plus grandes entreprises et organisations. Parce que chaque client est unique, CGI Business Consulting a créé des méthodes de travail spécifiques permettant à chacun de prendre part au management de sa transformation et garantissant une amélioration durable de ses performances.45 Coordonnées Contact Tél : Fax : Mail : Big Data & Data Science Mieux connaître ses clients, anticiper les changements structurels de son marché, détecter les intentions d’achat, de résiliation, de fraude… Telles sont quelques-unes des promesses du big data. L’ouverture croissante de l’information pose un véritable défi de compétitivité aux grandes entreprises : rendre leur offre lisible dans un catalogue chaque jour plus complexe et plus confus. Les entreprises qui sauront non seulement triompher de cette complexité, mais en tirer profit en se positionnant comme détenteurs d’une information intelligible et consolidée, seront au centre de cette nouvelle économie. Quelle est la véritable valeur de l’information que mon entreprise détient ? Quelle information représente un avantage compétitif potentiel ? Laquelle pourrait devenir un produit ou un service potentiel ? Quelles synergies pourrions-nous trouver dans des gisements d’information externes ? A l’heure où une masse d’information sans précédent devient disponible, et où apparaissent des dizaines d’outils et de méthodes pour en tirer toute la valeur, une question essentielle demeure : « Quels gains pouvons-nous dès aujourd’hui tirer de cette révolution encore naissante ? » Réussir un projet de Big Data nécessite un ensemble de compétences permettant d’accompagner les entreprises sur différents axes : • Stratégique : Réconcilier les décideurs avec la donnée et faire de la maîtrise de l’information un enjeu stratégique (anticiper les bouleversements des écosystèmes, analyser les mouvements du marché, réduire les coûts, valoriser le patrimoine immatériel, …) • Métier : Analyser les leviers de performances, optimiser les processus (production, ventes, fraude, positionnement), • Organisationnel : repenser la gouvernance, faire accoster un modèle multi-informationnel (données, références, indicateurs, données règlementaire, données externes), repenser les accès et les stratégies d’archivages, redistribuer les rôles, adapter les politiques RH • Création de valeur : combiner les expertises (informatique, mathématique, business) au travers d’une approche de Data Science éprouvée pour révéler le potentiel de l’information Pour répondre à ces enjeux, CGI Business Consulting, cabinet de conseil du groupe CGI a créé une entité dédiée au traitement et à la valorisation de l’information : « Digital Information Strategy » Ses consultants expérimentés sont à votre disposition pour vous accompagner dans vos projets de transformation www.cgi.com CGI Business Consulting CGI Business Consulting Frederic BRAJON Associé 17 place des Reflets 92 097 Paris La Défense cedex +33 (0) 1 57 87 50 55 N/A frederic.brajon@cgi.comannonce presse A4_Mise en page 1 28/04/11 02:23 Page147 Coordonnées Contact Tél : Fax : Mail : Le Club Décision DSI, premier club français dédié aux directeurs informatiques Aujourd’hui le Club Décision DSI réunit 1 100 membres «directeurs Informatique & Télécoms» de sociétés du secteur privé et du secteur public dont le parc informatique est supérieur à 200 pc. Il rassemble des hommes et des femmes d’expérience, animés par la volonté de mener des actions qui soutiennent d’autres directeurs des systèmes d’information (DSI) dans la réalisation de leurs projets professionnels. Le club est administré par Véronique Daval, la présidente, le vice-président, ainsi que par un conseil central composé de neuf directeurs informatiques. Chaque année le club organise : • 20 manifestations thématiques par an. • 7 événements accessibles aux partenaires (éditeurs de logiciels, construc¬teurs, opérateurs télécoms, SSII) • Les Rencontres de l’innovation technologique • Le consortium du DSI • Les DSI Meeting (table rondes, débats) • Le diner de Gala avec son village solutions (réservé aux membres et aux partenaires du club) • Le dîner de gala annuel HELP DSI , le 1er Réseau francophone de 1100 DSI connectés HELP DSI ce sont des DSI, des groupes de DSI et des communautés de DSI qui échangent en associant leurs idées, leur expérience et leurs connaissances Afin d’optimiser leurs choix technologiques. Le club dispose de son propre réseau social (RSE) sur lequel de nombreuses thématiques sont abordées qui permettent aux membres de capitaliser sur l’expérience des uns et des autres. Les ambassadeurs de Club Décision DSI ont adopté cette solution afin d’améliorer la communication entre les membres, de créer des groupes de réflexion sur des thématiques variées, et de diffuser les compétences à travers le réseau des membres au niveau national et européen. Ce moteur d’expérience permet aux sociétés adhérentes de se servir des retours d’expé- rience des projets IT mis en place par les membres. Chaque année les ambassadeurs identifient des thématiques auprès des membres et définissent un programme annuel consultable sur le site internet du Club : www.club-decisiondsi.com www.clubdecisiondsi.com Club Décision DSI Club Décision DSI Véronique DAVAL Présidente du Club 16 Place Vendôme 75001 Paris +33 (0) 1 53 45 28 65 N/A club@decisiondsi.com annonce presse A4_Mise en page 1 28/04/11 02:23 Page149 Coordonnées Contact Tél : Fax : Mail : Zouheir Guedri, Directeur de Data&Data Consulting 1) Pouvez-vous nous présenter Data&Data Consulting, ses origines et sa spécificité sur le marché ? Data&Data Consulting est une start up spécialisée sur le Big Data, qui conseille les sociétés dans la valorisation de leurs données : nous apportons à la fois des recommandations en terme de pistes de création de valeur, de choix de technologies, de procédures et de stratégies à mettre en place. Data&Data Consulting est une structure constituée de consultants expérimentés, spécialisés dans la data avec un background d’ingénieurs et de statisticiens. 2) Quelles prestations proposez-vous à vos clients et quelles sont vos cibles principales ? Nous travaillons essentiellement avec des grands comptes mais également avec quelques start ups ayant des problématiques Big Data ou small data. Leur besoin principal est de savoir comment valoriser leurs données : nous leur proposons donc des études de marché, des conseils en matière d’orientations stratégiques et d’organisation, ainsi que des recommandations technologiques en fonction de leur activité. Pour cela, nous disposons de compétences de développement ainsi que d’un réseau de partenaires pour pouvoir lier l’implémentation opérationnelle aux recommandations stratégiques. Nous disposons également d’un centre de R&D dédié aux problématiques de Big Data et de visualisation des données, et nous travaillons avec des chercheurs d’universités de premier plan, Berkeley, Copenhagen Business School et Stanford University, sur la conception, le développement et l’expérimentation de solutions innovantes pour nos clients. 3) Plus globalement, comment voyez-vous l’évolution du marché du Big Data en France ? A-t-il atteint sa phase de maturité ? Y a-t-il quelques retards ? L’année 2013 a été une année d’expérimentation pour un grand nombre d’entreprises : on retrouve des projets avancés dans tous les secteurs, pas seulement les plus gros détenteurs de données, et ce sont pour la plupart de purs projets Big Data (et non pas un recyclage de projets anciens). De plus, la réflexion autour du Big Data est largement avancée, la phase de méfiance étant dépassée : au-delà d’un effet de mode, on reconnaît un véritable intérêt au Big Data et les réticences, bien que toujours présentes (notamment sur la question de la confidentialité des données) commencent à s’estomper. Cependant, nous nous trouvons pour l’heure dans la phase d’expérimentation et les premiers résultats en termes de ROI devraient plutôt être observés en 2014. Le véritable retard en France se situe davantage du côté de la mise en place d’une organisation décisionnelle : si les technologies et les objectifs changent, les processus de prise de décisions restent les mêmes, ce qui conduit à un manque de réactivité par rapport à l’information véhiculée par les données. Pour moi, il faudrait mettre en place des boucles de décisions automatisées, comme aux Etats-Unis. 4) Vous évoquez la question de la protection des données personnelles… que pensez-vous du débat actuel et des actions des pouvoirs publics sur le sujet ? Le Big Data, comme toute avancée technologique, peut comporter des risques, qu’il ne faut surtout pas ignorer : en effet, le Big Data repose sur la confiance du consommateur et toute rupture dans cette confiance entraînerait automatiquement un retour en arrière. Ce qui s’est produit avec le programme PRISM est un exemple d’excès qui peut effrayer les citoyens et consommateurs. De la même façon, on craint que le Cloud ne soit pas assez protecteur, alors qu’il est à la base de l’essor du Big Data. Il est donc urgent de maîtriser ces risques pour garder la confiance des consommateurs ; en cela, je crois que les projets amorcés en Europe sur la protection des données vont dans le bon sens. Par contre, je juge essentiel de ne pas opposer le modèle européen au modèle américain, ce serait contreproductif et ne permettrait pas de garantir l’essor du Big Data. De la même façon, le plan du gouvernement pour encourager la filière Big Data est un bon signe envoyé au marché ; il faudra simplement l’orienter davantage vers les start ups pour les années à venir. www.data-and-data.com Data & Data Consulting Data & Data Consulting Zouheir GUEDRI Associé 31 rue Saint-Lazare 75 009 Paris +33 (0) 6 22 35 14 20 N/A zouheir.guedri@data-and-data.comNe vous laissez pas distancer ! D’ici à 2015, Gartner prévoit que sur les 500 entreprises du classement Fortune, plus de 85 % échoueront à exploiter efficacement les Big Data pour rester compétitives. Avec EXALEAD, aucune raison que vous soyez l’une d’entre elles ! www.3ds.com/products/exalead/51 Coordonnées Contact Tél : Fax : Mail : EXALEAD est un fournisseur de logiciels de recherche et d’accès à l’information en entreprise et sur le Web. EXALEAD propose EXALEAD CloudViewTM, une technologie logicielle industrielle qui offre agilité, fonctionnalités sémantiques avancées et performances uniques. CloudView permet de concevoir des applications d’exploration et d’analyse de l’information pour transformer les données de l’entreprise en richesse exploitable et pertinente. Ces applications reposent sur un index et réconcilient données structurées et non structurées, internes ou externes. Search Based Applications et Big Data EXALEAD offre des applications d’exploration et de l’analyse de l’information pour libérer, capitaliser, valoriser votre Big Data. Les applications construites autour d’EXALEAD CloudView permettent aux entreprises de réellement exploiter leur Big Data sans remise en question du SI existant, avec un déploiement rapide et un ROI complet en quelques mois. Que vous cherchiez à valoriser les pétaoctets de vos entrepôts de données, ou à explorer la valeur cachée dans l’immensité du contenu non structuré comme les fichiers de logs, les emails ou des pages Web, EXALEAD CloudView propose une approche pragmatique. Collecte et fusion (agrégation de données) • Contenu Web • Contenu d’entreprise • Systèmes existants / spécifiques • Fusion de données Data mining et analyse de contenu • Analyse de données textuelles • Analyse de données Web • Analyse multimédia • Analyse de sentiments Recherche et navigation facilitées • Recherche plein texte et navigation à facettes • Accès multimédia • Recommandation de contenu Des applications métiers à forte valeur ajoutée • Déployer rapidement des applications orientées processus, enrichies des informations pertinentes extraites des Big Data EXALEAD est une marque du groupe Dassault Systèmes. www.3ds.com Exalead EXALEAD Axel BRANGER Directeur Commercial 10 place de la Madeleine 75008 PARIS +33 (0) 1 55 35 26 26 +33 (0) 1 55 35 26 27 contact@exalead.compubFastConnect_Mise en page 1 24/09/13 16:47 Page153 Coordonnées Contact Tél : Fax : Mail : Le Big Data est une réponse aux nouveaux défis d’aujourd’hui • Comment faire émerger la valeur d’un volume d’informations en constante croissance, dans des délais et coûts maitrisés ? • Comment exploiter l’information jusqu’alors inexploitée, due à sa nature non-structurée ? • Pour prendre des décisions et des stratégies gagnantes, comment se différencier de ses concurrents par des analyses toujours plus pointues et toujours plus proches du métier ? Les solutions techniques Big Data / NoSQL sont les outils pour atteindre ces objectifs, mais nécessitent des compétences spécifiques : Le rôle du Data Scientist est de vous accompagner dans la conception et la présentation d’analyses élaborées pour tirer toujours plus de valeur des données. Le rôle du développeur - ingénieur est de savoir exploiter la puissance des outils Big Data et maitriser les environnements distribués. Le rôle de l’Ops est de vous aider dans la mise en place d’une plateforme Big Data robuste et performante, dans votre DataCenter ou sur le Cloud. Grâce à une méthode de projet Agile, l’équipe Big Data réalise vos projets de manière transparente et maitrisée. FastConnect vous accompagne dans tout le cycle de votre projet : Il existe différentes solutions Big Data pour répondre à différents besoins et l’écosystème Hadoop est devenu une plateforme incontournable bientôt omniprésente dans les SI comme le sont devenus les bases de données, les serveurs d’applications et les plateformes décisionnelles. Nos experts sont là pour vous aider dans la mise en place de votre solution Big Data, ainsi que dans la formation de vos équipes. www.fastconnect.fr FastConnect FASTCONNECT Mathias KLUBA Responsable Big Data / NoSQL 11, rue des Peupliers 92130 Issy-les-Moulineaux +33 (0) 1 45 07 81 65 +33 (0) 1 45 07 90 87 mathias.kluba@fastconnect.fr pubFastConnect_Mise en page 1 24/09/13 16:47 Page1Plus de données. Meilleurs résultats. Real-time analytics 50x-1000x faster than traditional databases Open architecture support for Hadoop, R and wide variety of BI and ETL tools Optimized storage 10x-30x more data per server Massive scalability effectively unlimited number of nodes, petabyte (and beyond) scale Flexibility deployment via industry standard hardware, optimized appliances, or private/public cloud Découvrez pourquoi des milliers de clients utilisent Vertica. Enregistrez-vous pour un test gratuit de 30 jours sur vertica.com/evaluate Vertica, la plateforme analytique temps-réel, conçue pour le Big Data.55 Coordonnées Contact Tél : Fax : Mail : HP Vertica Analytics Platform La plate-forme d’analyse de nouvelle génération spécialement conçue pour tirer le maximum des Big Data Issue des travaux de recherche de Michael Stonebraker, le créateur d’Ingres et de PostgreSQL, HP Vertica Analytics Platform est une base de données analytique en temps réel capable des plus hautes performances à ce jour. Elle intègre des fonctions analytiques « in-database », une intégration étroite avec Hadoop et R, un déploiement rapide et une administration minimale de la plate-forme. Vertica est bâti sur une architecture orientée colonnes tout en supportant le langage SQL, tant pour le chargement que pour les requêtes. Ainsi, il n’est pas nécessaire d’apprendre un langage spécifique et tous les outils amont et aval (ETL, décisionnels et Front-end) sont utilisables. Avec Vertica, nos clients obtiennent désormais des réponses de 10 à 1000 fois plus rapides qu’avec des bases traditionnelles. Chez Kansys, un leader US du « Big Data as a Service », une requête qui prenait précédemment 18 heures s’exécute maintenant en 10-15 secondes. Chez Guess?, la marque de mode, les temps de requêtes complexes sont de 60 à 80 fois plus rapides qu’avant Vertica. Le chargement des données est aussi extrêmement rapide et les données chargées sont accessibles de suite pour les traitements analytiques, sans nécessité d’indexation, 24h sur 24, 7 jours sur 7. Zynga, un leader mondial des jeux en ligne, capture les événements issus des interactions des joueurs et injecte ainsi dans Vertica 60 milliards de lignes, représentant 10 Téraoctets de données semi-structurées, par jour. Le taux de compression peut atteindre 90%, réduisant considérablement les coûts de stockage, en utilisant des architectures de stockage standards. KDDI, opérateur mobile japonais, charge dans Vertica 8 millions d’enregistrements d’appels (CDR) par seconde. Même si HP propose des appliances configurées pour Vertica, la solution repose sur l’architecture x86 et les unités de stockage standards. Quelques clients Vertica : AOL, AT&T, Groupon, Mozilla, Twitter, Guess, Comcast, Level3, Sprint, Verizon, First American, The Washington Post… Pour en savoir plus : Testez et déployez Vertica Community Edition, une version gratuite et fonctionnellement complète de Vertica Enterprise Edition, seulement limitée à un téraoctet de données et trois noeuds. Rendez-vous sur http://vertica.com/community/eDM ou taggez ce code pour obtenir Vertica Community Edition ! » www.vertica.com Hewlett-Packard France Hewlett-Packard France Frédéric Lemeille Sales Manager Vertica 20 Quai du Point du Jour 92100 Boulogne-Billancourt 0820 211 211 N/A vertica-France@hp.comInterview Corinne Baragoin et Béatrice Cochard, IBM 1) Les outils Big Data deviennent un complément indispensable des entrepôts de données au sein des entreprises : qu’apportent-ils en plus ? Qu’est ce qui a changé par rapport à ces datawarehouses traditionnels ? Pour moi, les datawarehouses traditionnels ne permettent pas de répondre aux nouveaux besoins métier. Ils présentent des limitations majeures et se montrent contraignants pour l’utilisateur. Tout d’abord, le gros défaut du datawarehouse est le fait qu’il n’exploite pas l’ensemble des données disponibles dans et hors de l’entreprise : ni les données non structurées (ex : texte libre, et au-delà audio et vidéo) ni les données semi-structurées provenant de logs ou de capteurs… c’est donc une perte de valeur importante que les outils de Big Data ont permis de pallier en élargissant le périmètre par l’exploitation de ces nouvelles informations. Ensuite, concernant leur aspect contraignant et monolithique… Impossible de prendre en compte de nouvelles demandes métier sans bouleverser tout l’entrepôt et en revoir le modèle ! Cela implique une latence forte pour les utilisateurs, le temps nécessaire à l’IT pour prendre en compte la modification du modèle et son alimentation. Le Big Data a profondément bousculé cela puisqu‘on peut s’appuyer sur une vision purement exploratoire pour tirer parti des données… C’est donc un vrai changement de paradigme ! 2) Justement, vousparlezdelavariétédesdonnées…Est-ceunsujetnouveauchez IBM? Pour tout dire, cela fait longtemps que nous travaillons sur ce sujet, depuis le début des années 2000. Il est apparu évident qu’il faudrait analyser assez rapidement les vidéos, les textes, etc. qui se développaient sur les différents supports numériques, avec un haut niveau de granularité. Aujourd’hui, on parle beaucoup de « données non-structurées » : je préfère parler d’informations « multi-structurées ». L’avantage du Big Data est justement de pouvoir exploiter tout type de donnée et de les analyser pour les transformer en informations pertinentes pour l’entreprise, et ce quelle qu’en soit la structure. 3) Partant de ce constat sur l’intérêt du Big Data et les limites des datawarehouses, quelles technologies avez-vous mises en place pour répondre aux défis évoqués ? Face aux limites des entrepôts, nous sommes convaincus qu’il faut repenser les architectures de données selon 3 briques : l’une permettant l’analyse d’historiques de données multi-structurées à bas coût appelée Infosphere BigInsights, une autre permettant l’analyse en temps réel appelée Infosphere Streams et nous avons depuis longtemps vu l’importance d’enrichir les outils d’analyse par des outils plus fins liés à l’exploration de données, comme InfoSphere Data Explorer. Et bien évidemment à l’entrée de toutes ces briques, nous nous assurons de la qualité de l’intégration des données et de leur gouvernance, par des outils d’analyse dédiés. 4) Pourriez-vous nous décrire la brique InfoSphere Streams plus précisément ? InfoSphere Streams traite des flux de données multi-structurées (donnéees structurées, nonstructurées, audio, vidéo) en temps réel. Au-delà de sa performance sur de grandes volumé- tries, sa très faible latence (microseconde) et ses capacités d’optimisation dynamique des flux, InfoSphere Streams a l’énorme qualité d’exécuter tout type d’analyse, qu’elles soient prédictives tirées d’outils de data mining, de moteur de règles, de fonctions de time series, etc. 5) Et pour BigInsights, diriez-vous qu’il est une déclinaison d’Hadoop afin de faciliter l’usage de celui-ci ? InfoSphere BigInsights s’appuie effectivement sur le code open source de Hadoop et l’enrichit pour en faire une version prête pour l’entreprise sur les aspects performances, accélérateurs analytiques, déploiement de nouveaux services, facilités d’administration, etc… Pour cela, InfoSphere Biginsights complète la version open source par de nombreux composants : des connecteurs pour l’intégrer au SI de l’entreprise, des outils d’installation simplifiée et unifiée, des fonctions d’administration système ou d’accélération de l’analyse de tout type de données (réseaux sociaux, logs, capteurs, etc.). 6) Passons maintenant au challenge le plus important: l’intégration dans l’entreprise. Diriez-vous que vous avez un rôle de facilitateur duBigData auprès des entreprises ? Notre approche n’est pas seulement technologique. Nous partons des besoins métiers, nous demandons à nos clients quel type d’informations ils auraient besoin de mieux exploiter, et nous leur présentons des expériences clients déjà vécues. Ce qui est également important, c’est de faire un pilote avec l’IT et les métiers afin d’appréhender les défis technologiques avec une vision à 360° et d’adapter la plateforme aux besoins spécifiques du client. Pour IBM, les technologies sont prêtes : le frein est plus souvent du côté des équipes des clients qui manquent parfois de connaissances pour les appréhender. Il faut également faire évoluer l’organisation de l’entreprise pour mettre en place ces outils, ce n’est pas toujours évident… C’est pourquoi un temps de formation est nécessaire et nous le proposons au travers de nos workshops. 7) Vous adressez-vous de la même façon aux petites et aux grandes entreprises, qui n’ont pas forcément les mêmes volumes de données ? Pour IBM, la question du Big Data n’est pas uniquement celle du volume : on peut être une petite entreprise avec des volumes de données inférieurs à des téraoctets, et avoir des problématiques de Big Data. A partir du moment où l’on décide de se démarquer de sa concurrence par les données, où l’on a compris que les informations générées à l’exté- rieur de l’entreprise étaient fondamentales, où l’on réalise l’apport du temps réel dans son contexte pour réduire la latence d’exploitation, alors on se trouve face à une démarche de Big Data et notre rôle est d’accompagner cette démarche. 8) Si l’on revient aux technologies que vous proposez, sur quoi travaillez-vous actuellement ? Quels sont les outils que vous allez mettre prochainement à disposition en terme de stockage ou d’analyse ? En terme de stockage et de solution, notre travail se concentre essentiellement sur les appliances, en plus de solutions purement logicielles. Nous allons sortir au 2e semestre 2013 l’appliance « PureData Systems for Hadoop » : accélérateur pour le déploiement de solutions Hadoop qui intègrera InfoSphere BigInsights et permettra une installation rapide et un temps de mise en œuvre réduit. Mais c’est essentiellement sur le domaine de l’analyse avancée de l’information pour en tirer du sens pour l’entreprise que nous progressons. Au-delà de solution de BI et d’analyse prédictive, nous travaillons au développement de systèmes à même de tirer plus de sens de l’information (analyse sémantique) et de la contextualiser, voire des systèmes d’intelligence cognitive. Par exemple, trouver un diagnostic basé sur des évidences, à partir de réponses de patients: c’est ce sur quoi nous travaillons avec Watson en « deep QA » dans le domaine de la santé ! 9) Plus généralement, quels sont les défis auxquels vous pensez devoir faire face dans les années à venir ? Les principaux défis sont probablement ceux liés au fait de placer l’information au centre des SI de demain et de repenser les architectures de données avec ces nouvelles technologies. Il faudra répondre à la question de leur inté- gration dans l’entreprise, à leur gouvernance, mais aussi à la sécurité, la qualité et puis, bien entendu, penser à la formation des équipes ! Le Big Data c’est un mouvement de fond pour les entreprises. Elles ont à faire face au défi majeur de leur organisation : tirer avantage des informations pour être plus compétitives. Il est donc crucial d’avoir une approche globale, pas uniquement fondée sur des concepts informatiques avec des solutions qui intègrent toutes les dimensions de l’entreprise. Corinne Baragoin Certified IT Specialist Big Data Beatrice Cochard Big Data Technical Sales Manager57 Coordonnées Contact Tél : Fax : Mail : IBM est un acteur technologique au service de l’innovation et de la transformation des PME, des groupes internationaux et des administrations. IBM participe à créer une planète plus intelligente pour permettre aux organisations qu’elle sert d’optimiser leur positionnement dans un monde en perpétuelle évolution. OFFRE IBM BIG DATA Big Data permet de comprendre, avec plus de précision que jamais, comment fonctionne notre monde afin de produire une plus grande croissance économique et du progrès social. Il constitue une opportunité d’obtenir des connaissances sur des types de données et de contenus nouveaux, afin de rendre les entités plus agiles. Plateforme Big Data IBM – IBM seul propose une plateforme complète qui permet de résoudre les défis Big Data qui se posent aux organisations. Le principal bénéfice d’une telle plateforme est de tirer parti de composants pré-intégrés afin de réduire le coût et le temps d’implémentation. IBM DB2 10.5 with BLU Acceleration DB2 10.5 with BLU Acceleration est une base de données en mémoire orientée colonne. C’est une option de paramétrage du nouveau moteur de base de données DB2 10.5 qui permet à la fois de gérer dans une même instance de base de données des tables relationnelles, mais aussi des données stockées ‘à plat’ et exploitées sous forme de tableau en mémoire. IBM InfoSphere Streams IBM InfoSphere Streams est une plateforme de traitement qui permet d'analyser des données en mode flux à très haut débit. Optimisée pour le trafic intense, IBM InfoSphere Streams est capable d’absorber, de filtrer, d’analyser et de corréler des volumes massifs de flux de données structurées ou non structurées, tels que : • les fichiers texte, fichiers de tableur, images, enregistrements vidéo et audio. • les Emails, contenus de dialogues en ligne, SMS, trafic web, blogs et sites de réseaux sociaux. • les transactions financières, données de scanner de police, rapports de systèmes et d’applications. • les données satellite, données GPS, enregistrements de lecteurs de badges et d’accès. IBM InfoSphere BigInsights IBM InfoSphere BigInsights est un produit qui s’appuie sur la technologie Hadoop. Conçu comme une solution intégrée, il offre des fonctions de gestion, de sécurité et de fiabilité nécessaires à un déploiement à grande échelle. Ses fonctions de recherche, de visualisation et d’analyse permettent de mettre en place rapidement des fonctions analytiques puissantes. IBM InfoSphere Data Explorer IBM InfoSphere Data Explorer permet d’exploiter les nombreuses sources d’information et leur mise à jour en temps réel. Cette solution permet une vision unique des données du Data Warehouse, des applications d’entreprise, des applications de gestion de contenus et du web. Une interface Web, centrée sur l’information, permet de rechercher et de naviguer dans les Big Data à travers des sources fédérées. IBM InfoSphere Master Data Management & Information Server La bonne gouvernance des données mais aussi la cohérence de ces données sont des propositions de valeur qu’IBM souhaite apporter à ses clients. IBM propose des solutions complètes, qui permettent d'identifier, de nettoyer, de transformer et distribuer vos données sans obstacle et de manière sécurisée dans l'ensemble de l'entreprise. Dans le domaine du MDM, IBM propose un plateforrme disposant d’un puissant moteur de corrélation qui résout à la fois les rapprochements entre objets et les relations entre objets. PureData for Analytics Appliance décisionnelle haute performance conçue pour l’analytique sur des volumes de données sans cesse croissants avec plus de simplicité, de rapidité et une meilleure accessiblité. Réduit le temps d’exéctution d’heures à la minute sur des Petabytes de données. www.ibm.com IBM France IBM France Isabelle LEFEVRE Marketing Manager Big Data 17 avenue de l’Europe 92275 Bois Colombes +33 (0) 1 58 75 00 00 N/A isabelle_lefevre@fr.ibm.comInterSystems All Data: collectez, stockez, exploitez sans limite toutes vos données: internes, externes, web, réseaux sociaux, … Donnez du sens aux masses de données structurées et non structurées, et dégagez rapidement de la valeur métier pour vos utilisateurs. BIG DATA? ALL DATA! Tirez facilement le bénéfi ce de toutes les données disponibles59 Coordonnées Contact Tél : Fax : Mail : Relevez le défi du Big Data... Tout de suite! La problématique fondamentale des entreprises à l’heure actuelle est d’essayer d’exploiter toutes les données à leur disposition pour en tirer un réel avantage concurrentiel dans leurs métiers. Toutes les données, ou ce que nous appelons le ‘All Data’, cela veut dire principalement trois types de données : • Les données structurées à l’intérieur de l’entreprise, a priori elles sont bien maitrisées et ce depuis longtemps, • Les données non-structurées à l’intérieur de l’entreprise (emails, contrats, documents, intranet…) représentent un gisement important en fonction des métiers, et sont peu ou mal exploitées, • Les données non-structurées à l’extérieur de l’entreprise, le grand inconnu, tant en termes de volumes, que de qualité, et de pertinence pour le métier. Cette notion de ‘All Data’ est évidemment une variante du Big Data tant toutes ces données peuvent représenter des volumes considérables, une variabilité de sources et de formats extrème, et enfin un besoin de traitement rapide et performant si on veut rendre tout cela exploitable. Face à ces trois sources qu’il faut réconcilier, les sociétés se retrouvent donc confrontées aux «3 V» bien exprimés par les analystes du Big Data: Volume, Variabilité, Vitesse Ce challenge technologique, mais aussi métier, est résolu nativement par les solutions InterSystems, originellement issues du MIT, qui permettent de mettre en œuvre un projet Big data sans rien sacrifier : la performance extrème est au rendez-vous sur des technologies standard (performance de niveau base mémoire tout en restant sur des technologies disques ‘classiques’), ouverte maximale sur toutes les données structurées et non structrées qui restent ou deviennent accessible une SQL, volumes traités virtuellement illimité de part la technologie de stockage même. Au cœur de nos technologies: InterSystems Caché®, base de données NoSQL/objet/relationnelle ultra performante, supporte tous les formats de données: aussi bien les structures simples que complexes, les modèles relationnels, Objet ou NOSQL et est capable d’exploiter les données structurées et non structurées de manière intelligente. Grâce à InterSystems DeepSee® elle offre en outre le décisionnel intégré et en temps réel sur tous les formats de données. Le moteur d’analyse sémantique iKnow permet enfin de générer de l’information pertinente à partir de données non structurées. Au niveau projets BIG DATA, InterSystems Caché est notamment au cœur du projet GAIA de cartographie de la Voie Lactée (plusieurs centaine de To avec forte contrainte de temps de traitement), du système de trading du Crédit Suisse (forte contrainte de performance temps réel hauts volumes), de solutions de «Smart Metering» en Europe, ainsi que de très nombreuses entreprises qui exploite les immenses volumes de données textuelles du web pour leur enjeux métiers (marketing, presse…). Au delà du Big Data, InterSystems propose à ses clients une démarche vers le ‘All Data’, ce que nous appelons «libérer les données». InterSystems est, depuis plus de 30 ans, l’un des principaux éditeurs mondiaux de logiciels novateurs dans le domaine des bases de données, du développement rapide, et de l’inté- gration d’applications. Les technologies InterSystems sont reconnues et mises en œuvre dans tous les ecteurs d’activité, adoptées par plus de 2500 éditeurs, mises en œuvre par les plus grands intégrateurs et SSII, et plus de quatre millions de personnes à travers le monde utilisent chaque jour des applications stratégiques s’appuyant sur l’environnement logiciel d’InterSystems. www.intersystems.fr InterSystems France InterSystems France Robert BIRA Market Development France Tour Europlaza - La Défense 4 20 avenue André Prothin 92400 Courbevoie +33 (0) 1 77 49 16 00 +33 (0) 1 47 76 02 63 Robert.Bira@InterSystems.com Data Capture Data Sharing Data Analytics Data-driven ActionsJaspersoft: L’écosystème partenaire Big Data le plus important de l’industrie informatique Hadoop NoSQL/NewSQL Analytic DBMS BigQuery61 Coordonnées Contact Tél : Fax : Mail : Jaspersoft permet à des millions de personnes de prendre chaque jour, de meilleures décisions plus rapidement, en leur donnant accès à des données utiles et exploitables au cœur de leurs applications et processus métier. Sa plateforme d’outils de reporting et d’analyse intégrés offre à chaque utilisateur une autonomie réelle et les réponses dont il a besoin. Elle s’adapte à toutes les architectures et à tous les budgets afin de servir l’ensemble de l’entreprise. Grâce à une communauté forte de plusieurs centaines de milliers de membres, les logiciels open source de Jaspersoft comptent des millions de téléchargements. Ses solutions décisionnelles sont intégrées au cœur de centaines de milliers d’applications et de processus métier d’où Jaspersoft – The Intelligence Inside. Jaspersoft est une société privée qui possède des bureaux dans le monde entier. Pourquoi Jaspersoft ? Le décisionnel libre-service pour tous Jaspersoft propose une suite décisionnelle complète de bout en bout, en libre-service pour : TOUS LES UTILISATEURS : En fournissant des rapports interactifs non pixellisés, des tableaux de bord et des analyses ad-hoc. Jaspersoft offre un décisionnel libre-service intuitif aux utilisateurs occasionnels et expérimentés. TOUTES LES QUESTIONS : Grâce à un moteur en mémoire et une couche évoluée de métadonnées, les utilisateurs reçoivent des réponses ultrarapides à toutes leurs requêtes. TOUS LES APPAREILS : Les utilisateurs peuvent accéder à toutes les fonctionnalités décisionnelles depuis leur bureau ou en déplacement sur smartphone ou sur tablette. Une plateforme évolutive pour les créateurs de décisionnel La plateforme décisionnelle Jaspersoft permet aux administrateurs du décisionnel de s’adapter facilement pour mieux prendre en charge : TOUS LES UTILISATEURS Le faible coût de l’abonnement et la rapidité d’implémentation permettent aux entreprises de toute taille de se lancer rapidement et de passer à des milliers d’utilisateurs de manière économique. TOUTES LES INFRASTRUCTURES Flexible et entièrement basée sur les standards Web, l’architecture de Jaspersoft peut fonctionner en version autonome ou s’intégrer facilement à n’importe quelle application sur site ou sur environnement Cloud grâce aux API étendues et aux thèmes CSS. Conçue pour le nouveau monde des TI La plateforme décisionnelle moderne de Jaspersoft est conçue pour suivre l’évolution du monde des TI, en particulier : LE BIG DATA Jaspersoft est la seule plateforme décisionnelle capable de créer des rapports et des analyses, directement depuis des sources Big Data tels que Hadoop, MongoDB et Cassandra ainsi que les principales bases de données analytiques comme HP Vertica, IBM Netezza, EMC Greenplum et bien d’autres. Jaspersoft a déjà travaillé sur des projets Big Data au sein de groupes comme Groupon, Ericsson, Vimeo, Jagex et SoftServe entre autres. Pour plus d’informations, consultez www.jaspersoft.com/bigdata. LE CLOUD La plateforme décisionnelle entièrement mutualisée de Jaspersoft offre des fonctionnalités SaaS pour les entreprises ainsi que des fonctionnalités PaaS pour les développeurs. Elle est la première à s’intégrer aux plateformes Cloud leaders tel qu’Amazon, Red Hat et VMware. LE MOBILE Jaspersoft propose le seul framework open source du marché pour le décisionnel mobile sur les appareils iOS et Android en tant qu’applications natives et sur navigateur, grâce à la technologie HTML 5. Contacts: Anthony Pangnanouvong, Business Development, France apangnanouvong@jaspersoft.com www.jaspersoft.com Jaspersoft Jaspersoft SARL Georges CARBONNEL Responsable Enterprise Accounts, France 3 rue Colonel Moll 75017 Paris +33 (0) 9 70 44 40 19 +353 1 686 5249 gcarbonnel@jaspersoft.comCréation visuel : Elan Graphic (78) - Photos © Depositphotos.com63 Coordonnées Contact Tél : Fax : Mail : Fort d’une quinzaine d’années d’expérience au service de la maîtrise et de la valorisation de la donnée, Keyrus aide les entreprises à fournir à chacun de leurs collaborateurs les informations et la motivation nécessaires au développement de leurs activités et de leurs équipes. S’inscrivant dans la continuité de cette mission claire et partagée, Keyrus propose une capacité unique de réalisation de solutions analytiques essentielles aux enjeux de performance des entreprises. Pour ce faire, Keyrus a réuni des compétences métiers – fonctionnelles et sectorielles –, et des expertises analytiques et technologiques travaillant de façon totalement intégrée. Notre approche unique de proof-of-value vous permet ainsi de comprendre en quelques semaines le plein potentiel des nouveaux modes de valorisation de la donnée et d’entreprendre le chemin permettant de les intégrer au sein d’un portefeuille analytique au service de la découverte des leviers de la performance économique. ‘’Dans un monde de plus en plus dématérialisé où les clés de la compétitivité et de la croissance font appel à une connaissance plus fine des marchés, des clients et de leurs dynamiques, Keyrus se positionne comme le partenaire naturel de ses clients dans la transformation de leur actif informationnel en valeur économique durable. S’il est en effet à présent largement admis que les données, sous ses formes et ses origines les plus diverses, constituent un actif majeur des organisations dans toutes les industries et que leur rôle de catalyseur de la capacité d’anticipation et de l’agilité opérationnelle ne fait plus aucun doute, les enjeux dessinés par leur exploitation n’en restent pas moins à la hauteur des opportunités qu’elle augure. Conscient de l’importance du changement que les nouveaux paradigmes sous-tendent au sein d’un écosystème économique en pleine mutation et des questions bien concrètes que l’exploitation de la richesse et de l’accessibilité toujours croissante des données soulèvent, Keyrus vous accompagne dans la mise en œuvre des organisations et des solutions permettant de répondre aux enjeux économiques modernes d’un monde devenu numérique. Fort d’une capacité unique à mobiliser conjointement l’expertise métier, analytique et technologique indispensable au succès des ambitions analytiques et Big Data de ses clients, Keyrus répond aux défis d’aujourd’hui par des modalités bien tangibles et pragmatiques, ancrées dans la réalité de l’entreprise et ciblées sur des projets concrets et accessibles, construisant ainsi les fondations d’un avantage concurrentiel dans la durée. www.keyrus.com Keyrus KEYRUS Reda GOMERY Directeur des Opérations 155 rue Anatole France 92300 Levallois-Perret France +33 (0) 1 41 34 10 00 +33 (0) 1 41 34 10 10 bigdata-keyrus@keyrus.comLET MAPR WORK FOR YOU WWW.MAPR.COM MapR delivers on the promise of Hadoop with a proven, enterprise-grade Big Data platform that supports a broad set of mission-critical and real-time production uses. MapR Europe du Sud & Benelux 171 bis av. Charles-de-Gaulle - 92 200 Neuilly/Seine - France sales-southEU@mapr.com65 Coordonnées Contact Tél : Fax : Mail : MapR est la distribution la plus à la pointe du secteur pour les solutions Apache Hadoop, faisant de la gestion et de l’analyse du Big Data une réalité pour un nombre croissant d’entreprises utilisatrices. MapR contraste avec les autres distribution Hadoop, grâce à une architecture dédiée entreprise qui fournit aux clients une plate-forme fiable et très performante leur permettant non seulement d’analyser les données d’une manière nouvelle et puissante, mais aussi de créer de nouveaux produits et services pour leur clientèle. MapR a considérablement perfectionné Hadoop en ajoutant à la plate-forme des extensions puissantes dédiées entreprise, la rendant plus simple à utiliser, plus fiable et beaucoup plus rapide que ce qui est proposé par les autres distributions Hadoop. Il existe plus d’une douzaine de fonctionnalités, disponibles uniquement chez MapR. Non seulement MapR supporte toute la gamme des API Hadoop, mais elle fournit également un accès NFS pour le partage de fichiers à travers le réseau ; ainsi, chaque application à base de fichiers peut accéder à des données du groupe sans réécritures à coder. De surcroît, la plateforme MapR fournit des améliorations des performances, celles-ci étant multipliées au moins par deux, voire même par cinq, et elle permet une fiabilité de MapReduce sans précédent. MapR englobe, entre autres, les suites communautaires open-source populaires comme HBase, Hive, Cascading et Zookeeper. En plus de ses fonctions particulièrement simples à utiliser, MapR permet aux clients de réduire le coût des matériels hardware nécessaires de moitié, autorisant ainsi un plus grand nombre d’entreprises et d’organisations de profiter de la puissance de l’analyse du Big Data et de devancer ainsi leurs concurrents. MapR Technologies a connu une croissance rapide au niveau de la clientèle et de son expansion puisqu’elle opère désormais en Europe, au Moyen-Orient et en Asie. MapR est la seule plateforme Hadoop disponible sur Google Compute Engine. Elle est également présente dans Amazon Elastic MapReduce sur Amazon.com. Grâce à sa technologie de pointe et sa réputation de pionnière dans l’environnement Hadoop, l’entreprise permet à des milliers de clients de mieux gérer et analyser leurs données issues du Big Data. Actuellement, la plateforme Big Data MapR est utilisée par des sociétés issues de la finance et de l’assurance, des médias, de la recherche et de la santé, de l’industrie, des administrations, des chaînes de commerce de détail, ainsi que par les principales entreprises Fortune 100 et Web 2.0, permettant à toutes ces sociétés ou organisations d’analyser des centaines de milliards d’éléments sur une base journalière, des données concernant 90 % de la population connectée à Internet sur une base mensuelle, et plus de mille milliards de dollars de transactions de commerce de détails sur une base annuelle. Le siège social de l’entreprise est situé à San Jose, Californie, USA, et elle a ses bureaux européens à Londres, Paris, Stockholm et Munich. Consultez www.mapr.com pour de plus amples renseignements concernant l’entreprise et ses produits. Pour télécharger la version la plus récente de Apache Hadoop de MapR Distribution, veuillez vous rendre sur www.mapr.com/products/download www.mapr.com MapR Technologies MAPR TECHNOLOGIES Xavier GUERIN VP Southern Europe and Benelux MapR Europe du Sud & Benelux 171 bis avenue Charles de Gaulle 92200 Neuilly sur Seine +33 (0) 1 70 91 86 49 N/A sales-southEU@mapr.comLa base de données de graphes Neo4j • Neo4j vous permet de représenter les données connectées naturellement, en tant qu’objets reliés par un ensemble de relations, chacun possédant ses propres propriétés. La base de données de graphes, permet au développeur de commencer immédiatement à coder, car les données stockées dans la base font le parallèle direct avec les données elles mêmes. • Comparé aux bases relationnelles, la base de données de graphe Neo4j peut être jusqu’à plusieurs milliers de fois plus rapide pour traiter les données associatives, tout en simplifiant considérablement les requêtes qui peuvent s’étendre plus facilement à de larges ensembles de données, car elles ne nécessitent pas de recourir aux couteuses jointures du monde SQL. Les traversées utilisent un langage spécialement adapté pour parcourir les connections très simplement, et très rapidement. Vu qu’elles ne dépendent pas d’une modélisation rigide, Neo4j est plus propice pour la gestion de données changeantes et de schémas évoluant fréquemment. • Les bases de données de graphes sont un outil puissant pour exécuter des requêtes de type parcours de graphe. La recherche du plus court chemin entre deux points du graphe permettant, par exemple, de résoudre facilement les requêtes sociales ainsi que de géographie et d’analyse d’impact. Si vous vous arrachez les cheveux avec de nombreuses jointures et les procédures stockées complexes, il est fort possible que vous soyez en train de construire un graphe sans le savoir : car les graphes sont partout. Depuis les applications sociale web jusqu’à l’analyse d’impact sur un réseau Telecom en passant par la recherche en Biologie, les recommandations, la sécurité, et la détection de fraude, de nombreuses organisations ont adopté la bases de données de graphes Neo4j pour augmenter leurs capacités et leurs performances. C’est un système conçu pour gérer les données connectées que nous rencontrez de plus en plus au quotidien, qui est néanmoins fortement maturé avec plus de 10 ans en production. Découvrez avec nous ce qu’apporte la puissance de Neo4j à une large variété de clients tels que HP, SFR, Cisco, Deutsche Telekom, Viadeo et Glowbl.67 Coordonnées Contact Tél : Fax : Mail : www.neotechnology.com Business development France FAUVET Cédric cedric.fauvet@neotechnology.com N/A +33 (0) 8 05 08 03 44 Neo Technology France Neo4j Neo Technology Les chercheurs de Neo Technology sont les pionniers de la base de données de graphes depuis 2000. Ils ont contribué à mettre la puissance des graphes à la disposition de nombreuses PME innovantes telles que Glowbl, Sodifrance ou Perigee, mais aussi d’organisations réputées mondialement telles que Cisco, HP, Deutsche Telekom, SFR, et Viadeo. Ses 10 ans de service en production dans des environnements critiques pour le métier, ses partenaires Français et globaux et ses milliers de déploiements réussit on fait de Neo4j le leader mondial de la base de données de graphe. Cas d’usages de Neo4j Analyse d’impact Avoir la main sur son système et identifier en temps réel le client impacté par une maintenance ou une panne. Logistique Calculer le meilleur chemin pour livrer un client. Social, collaboration : Rechercher très facilement qui sont les amis de mes amis/ Recommandation : Définir en temps réel la liste les produits achetés par mes amis que je n’ai pas moi même achetés. Master Data Management / Gestion de configuration Construction d’un référentiel standardisé performant et sans redondance pour vos données critiques hiérarchisées : Hiérarchie d’entreprise et de produit. Droits d’accès Gestion des groupes, utilisateurs et droits rapide et sans redondance. Géo-Spatial Modélisation d’une carte routière et calculs d’itinéraires. Biologie, interactions moléculaires Réduire les risques d’effets secondaires des médicaments en calculant en temps réel les interactions entre une protéine et une future molécule., Bénéfices clés de Neo4j Des requêtes haute performance Le modèle de données du graphe permet l’exécution des requêtes complexes avec une haute performance, inhérentes aux données connectées des applications d’aujourd’hui. En un mot le bon outil pour le bon besoin. Des projets livrés plus rapidement Modéliser une base de données de graphes est aussi simple que d’écrire sur un tableau blanc. Les entreprises peuvent capturer rapidement toutes sortes de données, structurées, semi-structurées et déstructurées et ainsi les stocker dans Neo4j. Ceci résultant dans une réduction des temps de développement, une réduction de coûts de maintenance et de plus hautes performances. La découverte de nouveaux cas d’usage Très souvent les utilisateurs et clients de Neo4j démarrent un projet car ils n’ont pas pu trouver de solution à un problème bien précis avec les bases de données relationnelles. Puis ils découvrent, par la simplicité du modèle de données de graphes, de nouveaux cas d’usage très utiles dans le monde des startup ou des industries fortement concurrentielles. 69 Coordonnées Contact Tél : Fax : Mail : www.parstream.com ParStream est une plateforme innovante et primée de Big Data Analytics. Créée en tant que technologie totalement nouvelle à partir de 2008, son index compressé haute-performance (HPCI) et son architecture état de l’art (share nothing, columnar) permet d’obtenir des temps de réponse en millisecondes sur des milliards d’enregistrements. Conçue dès l’origine pour tirer partie des environnement multi-coeur, ParStream passe à l’échelle linéairement et apporte l’infrastructure analytique la plus efficace en coût et en rendement énergétique. ParStream a commencé comme défi technologique pour un groupe d’ingénieurs allemands : effectuer des opérations analytiques sur un jeu de données de 18 milliards d’enregistrements pour des centaines d’utilisateurs tout en fournissant des temps de réponse interactives. Afin d’obtenir de telles performances dans les contraintes serrées de coûts du e-commerce, des recherches importantes ont été effectuées conduisant à une percée technologique et un brevet pour l’indexation de grands ensembles de données. ParStream se présente comme une base NewSQL permettant une prise en main aisée aussi bien par des équipes BI, des DBA et des développeurs. Elle est disponible sous forme logicielle et – ne requérant pas de matériel spécifique – s’intègre avec une empreinte économique et énergique optimisée. La version initiale de ParStream, montrée en 2010, a reçu le prix « One to Watch » du Emerging Companies Summit de Nvidia, ce qui lui a valu un attention immédiate et depuis soutenue d’acteurs telles que Red Herring (Top 100 Europe), Gartner (Cool Vendor) ou encore Computer Week Allemagne (Big Data Innovation). En 2013, ParStream a été classée le premier des Startup du Big Data parmi une sélection de leaders de l’industrie par CIO.com ParStream travaille en étroite relation avec le groupe « Database Systems et Information Management » de l’université de Berlin et en particulier avec le professeur Markl qui pré- side le conseil scientifique de la société aux cotés de Don Haderle (« le père de DB2 »), Marie-Anne Neimat (co-fondatrice de TimesTen et ex-VP du Développement d’Oracle) et Andy Palmer (co-fondateur et ex-CEO de Vertica). ParStream a ainsi accès à une ampleur et profondeur de connaissances sur le marché et la technologie analytique pour soutenir et développer son avance technologique. ParStream est membre de plusieurs initiatives et projets du gouvernement fédéral allemand. Par exemple, ParStream est l’un des six membres du project de recherche MIA qui est une place de marché Cloud pour l’information et l’analytique du Web Germanophone à l’initiative du BMWI (Ministre fédéral de l’Economie et de la Technologie). Egalement, Jörg Bienert le CTO de ParStream, est membre du Conseil sur la Nouvelle Economie Numérique du Ministre de l’Economie et de la Technologie et il est fréquemment membre des délégations internationales du ministre. ParStream est soutenue par des fonds reconnus de la Silicon Valley tels que Khosla Ventures, Data Collective, Baker Capital, … et a des clients initiaux tels que Coface Services en France. ParStream est basée à Cologne avec des bureaux à Hamburg, Paris ainsi qu’a Cupertino. ParStream est utilisée dans des applications variées qui vont de l’e-commerce à la recherche scientifique en passant par la supervision et l’optimisation d’infrastructures et de systèmes complexes. N/A sales@parstream.com +33 (0) 1 40 90 34 20 Sr. Director Solutions Livaudais Peter La Grande Arche - Paroi Nord Paris La Défense - 92044 ParStream ParStreamOptimisation d’Hadoop et plus encore. Découvrir comment sur pentaho.fr C M Y CM MY CY CMY K 13-108 Pentaho FR Ad v3 print_bleed.pdf 1 20.08.2013 13:04:0171 Coordonnées Contact Tél : Fax : Mail : Pentaho construit le futur de l’analytique. Son héritage Open Source mène son innovation continue pour une plate-forme analytique intégrée et moderne conçue pour les diverses exigences de l’analyse d’entreprise de demain, notamment celles du Big Data. L’analytique performante à moindre coût est facilement accessible grâce à la suite d’outils de Pentaho qui permet l’accès aux données, la visualisation, l’intégration et l’analyse de données ainsi que le datamining. Pentaho permet d’exploiter plus rapidement les Big Data grâce à sa solution d’analytique pour Big Data la plus complète du marché. Pentaho offre : • Pentaho Big Data Analytics Center • Une continuité totale depuis l’accès aux données jusqu’à la prise de décisions : une plate-forme complète analytique et d’intégration de données conçue pour n’importe quel entrepôt de données Big Data • Un développement et une exécution plus rapides : développement visuel et exécution distribuée • Une analyse interactive et instantanée : aucun codage ni compétences ETL requis Instaview Pour répondre aux besoins spécifiques des analystes Big Data, Pentaho a créé Instaview, première application interactive et instantanée pour Big Data. Instaview convertit les données en analyses en trois étapes simples visant à réduire considérablement le temps de recherche, de visualisation et d’exploration de larges volumes de données complexes et diverses. Pentaho facilite l’analyse des données Hadoop L’utilisation de Pentaho Business Analytics avec Hadoop offre une conception graphique hautement productive associée à une analyse et à une visualisation des données instantanées: • Une plate-forme d’analyse Hadoop complète – développement visuel pour l’ingestion, la préparation, l’intégration et l’organisation des données Hadoop et visualisation, exploration et prédiction interactives • Une meilleure productivité de l’équipe informatique grâce à la réutilisation des compé- tences existantes – facilement utilisables sans formation particulière par les informaticiens, les analystes d’entreprise et les scientifiques spécialistes des données • Une protection contre les risques – fonctionne avec toutes les principales distributions Hadoop, ainsi que les bases de données NoSQL et les entrepôts de données traditionnels, en connectant Hadoop au reste de l’entreprise • Productivité et performance : gain en productivité de développement et en performance d’exécution multiplié par 10 ou par 15 par rapport au codage manuel MapReduce, grâce à l’utilisation de l’unique moteur ETL qui s’exé- cute nativement comme une tâche MapReduce à travers le cluster Hadoop Analyse et visualisation NoSQL Grâce à un support natif des bases de données NoSQL les plus utilisées, notamment Apache Cassandra/DataStax, HBase, MongoDB/10gen et HPCC Systems, Pentaho fournit : • Une plate-forme d’analyse Hadoop complète : développement visuel pour l’ingestion, la préparation, l’intégration et l’organisation des données NoSQL ; visualisation, exploration et prédiction interactives • Une création de rapports et une analyse par ordinateur et par utilisateur sur le nombre croissant de données générées, telles que contenu web, documents, réseaux sociaux ... • Une meilleure productivité de l’équipe informatique grâce à la réutilisation des compétences existantes : outils facilement utilisables sans formation particulière par les informaticiens, analystes d’entreprise et scientifiques spécialistes des données • Une protection contre les risques – fonctionne avec toutes les bases de données NoSQL de premier ordre, ainsi que les entrepôts de données traditionnels et Hadoop, en connectant les bases de données NoSQL au reste de l’entreprise • Productivité et performance : gain en productivité de développement et en performance d’exécution multiplié par 10 ou par 15 par rapport au développement codé manuellement pour les bases de données NoSQL Visitez le Pentaho Big Data Analytics Center : www.pentahobigdata.com pour en savoir plus sur Pentaho et Big Data, accéder à des articles techniques et vous tenir informé des dernières nouvelles et tendances du secteur. Pour évaluer gratuitement ‘’Pentaho Business Analytics’’: www.pentaho.fr/download/ www.pentaho.fr Pentaho PENTAHO Olivier CHARLERY French Inside Sales Paris - France 0800-915343 1 407 517-4575 ocharlery@pentaho.comTéléchargez le livre blanc sur : www.qlikview.fr/big-data QlikView donne tout son sens au Big Data Le Big Data nous concerne tous. Il transforme le monde qui nous entoure. Grâce à la plate-forme QlikView de Business Discovery, vous pouvez exploiter toute sa puissance : • Analyser des données issues de différentes sources depuis une seule et même application; • Explorer naturellement les associations entre les données; • Visualiser les données à l’aide de graphiques soignés et performants; • Accéder à vos données à partir de périphériques mobiles pour les analyser; • Développer la prise de décisions collaboratives en temps réel et de façon sécurisée Découvrez comment QlikView permet à King.com, un acteur majeur des jeux en ligne (Candy Crush Saga) d’analyser le comportement de jeu de 40 millions de clients, grâce à l’exploitation des données stockées dans son cluster Hadoop, où deux milliards de nouvelles lignes sont créées chaque jour. PUB_BigData_FINAL.indd 1 9/2/2013 11:29:39 AM73 Coordonnées Contact Tél : Fax : Mail : QlikTech (code NASDAQ : QLIK) est un leader en matière de Business Discovery, la Business Intelligence (BI) conduite par l’utilisateur. La plate-forme QlikView de Business Discovery comble l’écart entre les solutions de BI traditionnelles et les applications inadaptées de feuilles de calcul. QlikTech a mis au point une technologie pionnière de recherche associative en mémoire et grâce à cet environnement de BI en libre-service, les utilisateurs peuvent explorer les informations librement, au lieu d’être cantonnés à une série prédéfinie de questions. QlikView permet aux utilisateurs métier d’appréhender leur activité de façon unique : • Consolider l’ensemble des données issues de différentes sources dans une seule et même application; • Explorer naturellement les associations entre les données; • Visualiser les données à l’aide de graphiques soignés et performants; • Accéder à vos données à partir de périphériques mobiles pour les capturer et les analyser; • Développer la prise de décisions collaboratives en temps réel et de façon sécurisée. Le déploiement de l’environnement d’analyse en libre-service de QlikView ne nécessite que quelques jours ou quelques semaines, et répond aux besoins des PME comme des plus grandes entreprises internationales. Le modèle orienté applications de la plate-forme QlikView de Business Discovery est également compatible avec les solutions de BI existantes et offre une expérience collaborative basée sur l’immersion et intégrant une dimension sociale et mobile. Plus de 29 000 sociétés à travers le monde ont déjà fait le choix de QlikView. www.qlikview.com QlikTech France QlikTech France Stéphane BRIFFOD Director Presales 93 avenue Charles de Gaulle 92220 Neuilly-sur-Seine +33 (0) 1 55 62 06 90 N/A infoFR@qlikview.comwww.quartetfs.com PARIS • LONDRES • NEW-YORK • SINGAPOUR • HONG-KONG ActivePivot - Enfin l’analyse multidimensionnelle tient ses promesses ! ActivePivot - Enfin l’analyse multidimensionnelle tient ses promesses ! ActivePivotTM Agrégation de grands volumes de données Calculs sophistiqués à partir de vos règles métier Profondeur d’analyse Calculs en mémoire, en mode incrémental Rafraîchissement des données à la volée Performance Pas de limite au nombre de dimensions Temps de réponse instantanés Liberté d’analyse Une base de données “mixed workload” au service de la prise de décision opérationnelle +33 (0) 1 475 Coordonnées Contact Tél : Fax : Mail : Quartet FS répond aux besoins des entreprises qui souhaitent améliorer leur performance en mettant l’analyse des données en temps réel au service de la prise de décision opérationnelle. ACTIVEPIVOT EN BREF Puissant moteur d’agrégation et de calcul en mémoire, ActivePivot permet aux décideurs du quotidien d’analyser leur activité et d’en optimiser la performance en s’appuyant sur des indicateurs complexes générés à la volée à partir de données rafraîchies en temps réel. ActivePivot est donc une solution innovante particulièrement adaptée aux enjeux analytiques du « Big Data ». Combinant les traitements transactionnels et analytiques au sein d’un seul et même environnement tirant parti du traitement en mémoire, ActivePivot se distingue par la combinaison des caractéristiques suivantes: • Agrégation de grands volumes de données hétérogènes de manière incrémentale • Calcul à la volée d’indicateurs à partir de n’importe quel type de règle métier • Navigation dans les données à différents niveaux d’agrégation • Simulation de scénarii sur des données temps réel • Choix de l’interface de visualisation: ActivePivot Live ou interfaces MDX/XMLA CAS D’USAGE ActivePivot apporte de la valeur dans les processus nécessitant l’agrégation de grands volumes de données très volatiles, comme la supply chain, le risk management, le pricing dynamique ou encore la gestion de trafic. Dans ces contextes, ActivePivot permet d’adresser des cas d’usage inédits comme la gestion par exception, l’optimisation de ressources, l’analyse d’impact, la détection d’anomalies ou encore le stress testing. • Transport: Visibilité de bout en bout sur la supply chain Un enjeu Big Data dans le monde du transport est le pilotage de la chaîne logistique. Pour garantir les délais de livraison, les opérateurs logistiques ont besoin de faire la synthèse des informations qui remontent de leur supply chain, que ce soit des systèmes de planification, de TMS ou encore de gestion des entrepôts. ActivePivot fait la synthèse en continu de toutes ces données pour permettre aux opérateurs logistiques d’avoir une visibilité de A à Z sur leur supply chain. ActivePivot permet aux opérateurs de disposer dune véritable tour de contrôle de leurs flux opérationnels. • Finance: Analyse des risques en temps réel ActivePivot est déployé dans de nombreux établissements financiers pour répondre à un besoin croissant d’analyse et de surveillance des risques en temps réel. Chez Lloyds Banking Group, les traders utilisent ActivePivot pour obtenir une visibilité en temps réel sur leurs positions en préalable à toute activité de trading. Chez Nordea, les risk managers utilisent ActivePivot pour calculer la Value at Risk en temps réel, une mesure qui nécessite l’agrégation incrémentale de grands volumes de données non linéaires. • E-commerce: Pricing dynamique Un cas d’usage typique pour ActivePivot dans le monde du e-commerce est la prise de décision en mode “stressé” ou en flux tendu, comme par exemple en période de solde. Lorsqu’il faut ajuster les prix en quasi temps réel, ActivePivot permet aux acheteurs de déterminer les références pour lesquelles une variation de prix aura l’effet de levier le plus fort sur les ventes sans pour autant détériorer la marge de l’ensemble du rayon. A PROPOS DE QUARTET FS Créée en 2005 par un groupe de cinq entrepreneurs issus du monde applicatif, Quartet FS est une société à capitaux privés avec des bureaux à Paris (siège de la R&D), Londres, New-York, Hong Kong et Singapour. Avec plus de 50 projets en production dans des groupes d’envergure internationale, Quartet FS a pour clients des entreprises dans de nombreux secteurs d’activité parmi lesquels la finance, la logistique, le transport ou encore la grande distribution. www.quartetfs.com Quartet FS QUARTET FS Nina KRAUSE Sales Executive 2 rue Jean Lantier 75001 Paris +33 (0) 1 40 13 91 00 +33 (0) 1 40 13 84 51 nina.krause@quartetfs.com +33 (0) 1 4Les Big Data ont trouvé leur maître. HIGH-PERFORMANCE SAS et les noms de produits ou services SAS® sont les marques déposées de SAS Institute Inc., Cary NC, USA. Les autres noms de produits ou concepts sont des marques déposées des sociétés respectives. Copyright © 2013. Tous droits réservés. Découvrez tous les atouts de l’analytique haute performance sur www.sas.com/france/hpa Il existe une solution rapide et efficace pour valoriser la masse de big data que vous affrontez. SAS® High-Performance Analytics simplifie l’analyse des grandes volumétries de données pour résoudre des problèmes complexes et permet de prendre des décisions rapides et fiables grâce à la puissance d’analyse, à la capacité et la rapidité de traitement de quantités massives de données.77 Coordonnées Contact Tél : Fax : Mail : SAS, votre atout performance Prenez de meilleures décisions plus rapidement SAS vous aide à résoudre vos problèmes complexes, atteindre vos objectifs clés et exploiter plus efficacement vos données. Pourquoi ? Leader mondial du décisionnel et des solutions de business analytics, nous proposons des outils analytiques puissants, reconnus sur le marché, des solutions de pilotage de l’information et de business intelligence, pour vous aider à faire face aux challenges d’aujourd’hui et anticiper les opportunités de demain. Regardez vos objectifs prendre forme Une des priorités de votre entreprise : savoir tirer parti des big data. L’analytique va vous aider à atteindre cet objectif, à vous permettre de percevoir qu’un détail peut faire la différence ou à prendre du recul pour détecter de plus grandes opportunités, de plus fructueuses perspectives. C’est toute la puissance apportée par l’analytique. A cet instant même, les clients de SAS – parmi lesquels 90 des 100 premières entreprises du classement FORTUNE Global 500® de 2012, s’appuient sur nos solutions analytiques pour : • Découvrir et saisir des opportunités de développement et de performance dans de multiples domaines. • Prendre des décisions stratégiques, opérationnelles et tactiques en un rien de temps. • Utiliser des données pour des décisions aux résultats tangibles. Avec SAS, c’est possible Nous nous engageons sur le succès de vos projets sur le long terme. Nos équipes de consultants, formateurs, support 24/7, vous accompagnent tout au long du cycle de vie de votre projet. La communauté de nos clients et partenaires contribuent à cet accompagnement. Comment nous vous aidons Vous avez besoin d’une solution spécifique adaptée à votre secteur ? Ou d’une solution fonctionnelle transverse qui va vous permettre de répondre à vos challenges ? Quelle que soit votre problématique, SAS a une réponse pour vous. Par exemple, nous aidons à combattre la fraude dans le secteur financier, à accélérer la mise sur le marché de médicaments ou identifier des opportunités de ventes croisées et additionnelles dans la distribution. Nous aidons aussi nos clients à valoriser leur relation client, à piloter leurs risques et à optimiser leurs réseaux informatiques. Nos solutions répondent à ces problématiques complexes en s’appuyant sur un socle technologique avec trois composantes clé : la gestion des données, les outils d’analyse et la restitution de l’information. Vous n’avez jamais pris de décisions aussi rapidement grâce à vos données. Avec SAS® High-Performance Analytics, vous n’avez plus besoin de longs processus pour analyser vos Big Data. Obtenez des résultats en quelques minutes ou secondes, et consacrez le temps ainsi gagné à votre business. Nous avons aussi rendu la business analytics accessible et simple. Changez votre manière d’analyser vos données : avec SAS® Visual Analytics vous explorez visuellement et rapidement vos données. Vous pouvez créer vos rapports et partager les résultats sur le web ou des tablettes Android® et iPad®. Tous vos collaborateurs amenés à prendre des décisions, quel que soit leur métier ou leur niveau hiérarchique, peuvent désormais avoir accès à des analyses prédictives rapides et précises. Votre succès est notre succès. Et c’est pourquoi nous vous aidons à déployer et utiliser les solutions SAS de la façon qui vous convient le mieux. Nous avons des offres flexibles pour répondre à vos besoins : cloud privé, hébergement, grid ou services web d’Amazon... SAS Institute, société privée créée en 1976. Plus de 65000 sites clients répartis dans 135 pays, dont 2600 en France. www.sas.com/france SAS Institute SAS INSTITUTE Serge BOULET Directeur Marketing Domaine de Grégy Grégysur-Yerres 77257 BRIE COMTE ROBERT CEDEX +33 (0) 1 60 62 11 11 +33 (0) 1 60 62 11 12 comsas@fra.sas.com79 Coordonnées Contact Tél : Fax : Mail : Si votre performance dépend de l’agilité de l’accès aux données… • Avec Aggrego Suite© de Semsoft, relevez le défi de l’intégration de données dans un contexte Big Data de manière simple et rapide tout en maitrisant votre investissement (intégration limitée, pas de stockage, mode Cloud). La solution Aggrego Suite© est une base de données virtuelle qui réconcilie des sources de données hétérogènes (internes / externes, structurées / non structurées) en les présentant de manière structurée et homogène. Avec Aggrego Suite© vous valorisez avec agilité votre capital informationnel étendu sans intrusivité, ni centralisation, pour : - Faire des requêtes métiers complexes, - Enrichir dynamiquement vos informations clients / produits / fournisseurs, - Collecter de manière simple des données pour analyse et Data mining. • Aggrego Suite© est le fruit de plus de 10 ans de R & D conjointe avec l’INRIA, Orange Labs, l’Université d’Orsay et le CNRS autour des technologies du web sémantique et du VLDB (Very Large Database). Elle a déjà séduit un certain nombre de clients en France dont Orange, Total, Médiamétrie/EuroDataTV,... • La solution Aggrego Suite de Semsoft a été primée lors des Data Intelligence Awards 2013. ROI Valorisation du capital informationnel étendu de l’entreprise vs. coûts d’intégration et d’exploitation faibles. Facilité Mise en œuvre en quelques jours/semaines. Agilité Ajout de sources et évolution du modèle instantanés, requêtes métiers complexes et contextuelles. www.semsoft-corp.com COO Regnault Damien Damien.regnault@semsoft-corp.com N/A +33 (0) 2 99 12 19 86 80, avenue des buttes de Coesmes 35700 Rennes SEMSOFT Semsoft STRATEGIE | GOUVERNANCE | ARCHITECTURE www.sentelis.com smart solutions for smart leaders81 Coordonnées Contact Tél : Fax : Mail : smart SOLUTIONS for smart LEADERS Nos métiers Stratégie / Gouvernance / Architecture Nos prestations Industrialisation du SI Gouvernance orientée service de la DSI Conception d’architecture nouvelle génération Etude et mise en œuvre de socles SI industriels Etude et activation de pratiques DSI industrielles Marketing de la DSI Une vocation à accompagner les directions des systèmes d’information grâce à : • une parfaite compréhension des tendances de fond sectorielles et des impératifs auxquels doivent répondre les décideurs • une capacité à comprendre, conseiller et défendre des approches et solutions innovantes • une exigence de haute qualité doublée de pragmatisme Un savoir-faire à forte valeur ajoutée fondé sur : • une pratique conjuguée de la stratégie, de la gouvernance et de l’architecture des systèmes d’information • des compétences interdépendantes en étude amont et mise en œuvre opérationnelle • une forte expérience sur les composants et pratiques transverses (SOA, BPM, MDM, BI, BigData, Shared Services Centre, Amélioration continue…) • une méthodologie dédiée à la mise en œuvre de ces fondations : smartfoundations™ Une approche très personnalisée de nos clients qui repose sur : • une compréhension approfondie de leur contexte métier et système d’information • la recherche de solution « sur mesure » • une équipe de talents complémentaires au sein d’un cabinet indépendant www.sentelis.com Sentelis SENTELIS Isabelle REGNIER Directeur Commercial 31 Rue du pont 92200 Neuilly-sur-Seine France +33 (0) 1 75 61 34 00 N/A i.regnier@sentelis.com83 Coordonnées Contact Tél : Fax : Mail : Sinequa fournit une plateforme de Search & d’Analyse du Big Data en temps réel. Sa solution s’adresse aux grandes entreprises et administrations publiques pour offrir à leurs utilisateurs un point d’accès unifié à l’information couvrant toutes les données textuelles et base de données. Son interface visuelle permet de découvrir de façon intuitive et conversationnelle l’information pertinente. Big Data ne serait que « Big Noise » (grand bruit sourd) sans des capacités d’analyse puissantes pour extraire et visualiser les informations pertinentes. Sinequa se distingue par cette capacité d’analyse approfondie pour extraire l’information pertinente à partir de toutes sortes de données : les données non structurées dans des documents , emails, sites Web et des réseaux sociaux, et les données structurées, dans les applications d’entreprise, telles que ERP , CRM , Finance, RH, etc. L’analyse sémantique, développée pour 19 langues, permet de lever le plus grand défi du Big Data : traiter la masse des données textuelles ou «données générées par l’humain». L’analyse sémantique permet à la fois de mieux comprendre les questions des utilisateurs, formulées en langage naturel, et le sens des textes, allant bien au-delà de la recherche de mots clés. Il contribue également à catégoriser des informations en utilisant des filtres spécifiques à un métier afin d’améliorer considérablement la découverte d’information. Sinequa offre une forte sécurité d’accès aux informations de l’entreprise avec un contrôle strict des droits d’accès de chaque utilisateur. Plus de 120 connecteurs aux sources de données aident à faire face à la diversité inhérente au Big Data. Nos clients utilisent notre plateforme de Search & d’Analyse du Big Data pour créer des applications spécifiques (Search Based Applications ou SBA) liées à leur cœur de métier, comme la création de vues à 360° (par exemple sur les clients) ou de révéler les réseaux sociaux implicites (réseaux d’experts sur un sujet donné), généralement avec un très fort ROI. Les données sur les clients viennent souvent d’applications d’entreprises classiques comme le CRM, ERP ou systèmes financiers, des systèmes de gestion de documents contenant des contrats, des descriptions de produits et de services, de courriers électroniques et des échanges de centre d’appels. Les données sur les experts et l’expertise peuvent provenir de publications internes et externes, rapports de projets, systèmes RH, RSE, etc. Sinequa ne fournit pas seulement une liste de noms comme résultat d’une recherche, mais le degré d’expertise de chacun ainsi que les documents relatifs à cette expertise et les relations entre experts. Ceci révèle les « réseaux sociaux implicites » ou la «matrice organisationnelle informelle » d’une entreprise, pas en fonction de la position hiérarchique, mais du travail accompli et de l’expertise détectée grâce à ce travail. Dans chaque cas, de fortes capacités sémantiques sont nécessaires pour aller au-delà de la recherche simpliste par mots clés, pour découvrir les contenus traitant d’un sujet particulier, même si elles ne contiennent pas les mots clés utilisés dans une requête de recherche. blog.sinequa.com Sinequa SINEQUA Hans-Josef JEANROND Directeur Marketing 12 rue d’Athènes 75009 Paris +33 (0) 1 70 08 71 71 +33 (0) 1 45 26 38 92 jeanrond@sinequa.comQuand on a la passion... ... l’innovation va plus loin. métiers High Tech • Conseil • Ingénierie Système • Ingénierie Physique • Ingénierie Logiciel • Testing 5 marchés clés • aéronautique, • spatial, • défense, • énergie, • ferroviaire, • télécoms 6 ans d’expérience au service de l’industrie +20 collaborateurs Sogeti dans 15 pays +20 000 orientations R&D - innovation • Incubateur de solutions • Partenariats laboratoires • Propriété intellectuelle • R&D interne 4 Avec 3 000 collaborateurs en France, et plus de 20 ans d’expérience,Sogeti High Tech figure parmi les leaders du marché de l’Ingénierie et du Conseil en Technologies. Nous intervenons dans de nombreux projets d’innovation et d’ingénierie technologiques des plus grands groupes industriels mondiaux. Nos expertises techniques et métiers renforcent la valeur ajoutée de nos solutions au service des challenges du monde industriel du XXIè siècle. www.sogeti-hightech.fr85 Coordonnées Contact Tél : Fax : Mail : Analyse du risque, affinement du ciblage marketing, aiguillon pour la R&D et autres axes d’application de l’analyse prédictive sont bienvenus dans tous secteurs d’activité, en ces temps de rigueur économique, perçus comme de potentiels axes de croissance. Donner accès, par exemple, aussi bien aux bureaux d’études qu’au service marketing, à la confrontation des données de conception et fabrication d’un produit avec celles issues de son exploitation, analyse des coûts induits incluse, afin d’optimiser le cycle de vie de ce produit et/ou alimenter la démarche d’innovation de l’entreprise. Tels sont en effet, d’un point de vue générique, les deux enjeux forts du Big Data : optimiser, dans une optique d’efficacité opérationnelle ; générer de nouvelles idées, propositions et débouchés, dans un objectif de croissance de revenus. L’offre Big Data de Sogeti High Tech, forte des compétences de plus de 200 scientifiques et analystes spécialisés et d’un savoir-faire dans le domaine de la simulation, répond à ces besoins d’analyse, expressions des besoins d’optimisation et d’innovation des industriels. L’offre Big Data de Sogeti High Tech s’adresse aux industriels de tous secteurs selon une déclinaison de services incluant : – le conseil avec notamment l’animation d’ateliers sur fond d’études de cas, visant à cerner l’impact potentiel d’un projet, sa nature, son périmètre, son organisation, les ressources impliquées, – le développement de modèles d’analyse, – la conduite de projet menant à la mise en place de systèmes Big Data, de l’infrastructure aux modèles d’analyse de données sur-mesure, et, en bout de chaîne, les modèles prédictifs ou prospectifs. Sogeti High Tech, filiale du groupe Capgemini, est un leader du marché de l’Ingénierie et du Conseil en Technologies. www.sogeti-hightech.fr Sogeti High Tech Sogeti High Tech Philippe RAVIX Directeur Innovation 15 bis rue Ernest Renan 92136 Issy-les-Moulineaux +33 (0) 1 40 93 73 00 +33 (0) 1 40 93 73 73 philippe.ravix@sogeti.comToutes vos applications, vos systèmes et votre infrastructure génèrent des données chaque milliseconde de chaque jour. Ces données machine constituent le domaine le plus complexe, avec la plus forte croissance du « Big Data ». C’est aussi le domaine qui possède le plus de valeur car on peut y trouver tous les détails des transactions effectuées par les utilisateurs, le comportement des clients, l’activité des capteurs de toutes sortes, le comportement des machines, les menaces de sécurité, les activités frauduleuses pour ne citer que ces exemples. Start with big data and Splunk® software. End with an unfair advantage. Splunk software collects, analyses and transforms machine-generated big data into real-time Operational Intelligence—valuable insight that can make your business more responsive, productive and profitable. Over half of the Fortune 100™ use Splunk software and have the business results to prove it. Learn more at Splunk.com/listen. © 2013 Splunk Inc. All rights reserved.87 Coordonnées Contact Tél : Fax : Mail : Les données machine contiennent des informations critiques, utiles pour l’ensemble de l’Entreprise. Par exemple : • Monitoring des transactions de bout en bout pour les business en ligne 24h/24 et 7j/7 • Comprendre l’expérience client, son comportement et l’utilisation des services en temps réel • Respect des SLAs internes et monitoring des SLAs des Fournisseurs de Services • Identifier les tendances et analyser les sentiments sur les réseaux sociaux • Cartographier et visualiser les scenarii et schémas comportementaux pour améliorer sa politique sécurité L’utilisation des données machine est un challenge. En effet, il est difficile de les traiter et de les analyser avec les outils de management de données classiques, sans parler des performances. • Les données machine sont générées par une multitude de sources différentes : effectuer des corrélations entre des évènements significatifs provenant de ces sources est extrêmement complexe • Ces données sont non structurées et difficiles à faire rentrer dans un schéma prédéfini • Les données machines atteignent rapidement des volumes importants et sont estampillées avec une unité de temps ; elles nécessitent une nouvelle approche pour les traiter et les analyser • Les informations les plus précieuses à en retirer sont le plus souvent utiles en temps réel Les solutions classiques de Business Intelligence, Data Warehouse ou IT Analytics ne sont tout simplement pas conçues pour ces types de données de très gros volume, dynamiques et non structurées. Des solutions émergentes en Open Source peuvent fournir une partie de la réponse mais nécessitent des équipes de développeurs de très bon niveau, très spécialisées et qui au final coutent très cher. De plus, quand les demandes évoluent, ces solutions fragiles n’ont très souvent pas l’agilité nécessaire pour s’adapter. Les entreprises d’aujourd’hui ne peuvent pas attendre. Les décideurs, ou qu’ils se trouvent dans l’organisation des entreprises, doivent constamment s’adapter aux changements incessants et de plus en plus rapides de leur environnement. Ils ont besoin d’une technologie qui permet les analyses temps réel, le data mining et la production de rapports a la volée : en bref, une solution qui leur apporte des réponses aussitôt qu’elles sont posées. Plateforme pour le Big Data La plupart des organisations maintient en parallèle plusieurs types de données (données machine, relationnelles et d’autres formes de données non structurées). Splunk permet naturellement cette intégration, afin de vous permettre d’obtenir le maximum de vos informations. Que vous soyez développeur, professionnel des TIC, expert sécurité ou Business Analyst, la plateforme Splunk et ses « apps » rendent vos données accessibles, utilisables et pleines de valeur. Qu’est ce qui rend Splunk Unique ? Splunk Enterprise est une solution temps réel, intégrée, de bout en bout, pour les données machine. Elle offre les capacités fondamentales suivantes : • Assemblage et Indexation universelle des données machine provenant de toute source • Langage de recherche puissant pour analyser des données temps réel ou historiques • Monitoring de comportements et de niveaux ; alertes en temps réel quand un ensemble de conditions sont remplies • Production de rapports et d’analyses • Tableaux de Bord personnalisés et spécifiques pour chaque fonction de l’entreprise • Haute disponibilité et évolutivité sur les plateformes standard du marche • Contrôle d’accès et sécurité basée sur les fonctions • Support flexible des déploiements multi-site et distribués • Connectivite avec les autres outils de données comme les SGBDR et une connectivité bidirectionnelle avec Hadoop • Une plateforme robuste et flexible idéale pour les applications Big Data Vous deployez Hadoop? Hunk (Splunk Analytics on Hadoop) est une nouvelle application qui permet d’explorer, analyser et visualiser des données dans Hadoop. S’appuyant sur les années d’expérience de Splunk dans le Big Data et le déploiement auprès de milliers de clients dans le monde, Hunk permet une amélioration spectaculaire en termes de vitesse et de simplicité pour analyser et interagir avec les données situées dans Hadoop. Tout cela sans programmation, ni intégration couteuse ni migrations forcées de données. Regional Sales Director, EMEA South Goyeneix Pierre fr.splunk.com emea_sales@splunk.com N/A +33 (0) 1 55 68 10 43 5, place de la Pyramide Tour Ariane La Défense 9 92088 Paris La Défense Cedex Splunk Inc. Splunk Inc.Notre société accompagne les entreprises dans le traitement de l’information autour du CRM, de la Business Intelligence et du Big Data. Nous apportons aux responsables fonctionnelles des moyens rapides et efficaces afin qu’ils puissent prendre les meilleures décisions. Aujourd’hui, exploiter les données diverses (interne ou externe à l’entreprise) est possible via des technologies robustes et innovantes. Nous conseillons et mettons en œuvre des systèmes d’informations efficaces de prise de décision pour pouvoir disposer d’une meilleure connaissance des données. Nous sommes une entreprise d’experts dans les solutions CRM, Business Intelligence et Big Data. Notre « Lab Data Scientist » est dédié à la pratique de la science sur les données. Aujourd’hui, de plus en plus d’entreprises souhaitent exploiter au mieux leurs données afin de pouvoir améliorer leur compétitivité et leur productivité. Dans cet objectif, notre entité accompagne les entreprises dans la prise en compte du besoin métier, dans la mise en place d’architecture de données, de transformation, d’acquisition de nouvelle connaissance pour ainsi transformer les données en connaissance. Cette entité travaille ainsi sur les volets dédiés à la Data Science à savoir : • Ingénierie de la donnée : architecture, stockage, modélisation, optimisation, automatisation autour des plateformes Big Data (Hadoop, Aster Data …) • Transformation des données : modèles statistiques (calculs de distances, calcul de corrélation, clustering, classification, arbre de décision, réseau de neurones) appliqués aussi aux documents textes, mise en place de techniques de machine learning • Visualisation des données : graphiques adaptés aux données, mise en récit des données pour une meilleure adhésion utilisateurs • Connaissance métiers : autour de l’intelligence sociale sur les clients et produits pour fidéliser, développer et gérer les clients89 Coordonnées Contact Tél : Fax : Mail : SRD Conseil, entreprise créé en 2006, a pour objectif d’aider les entreprises dans le cœur de leurs préoccupations à s’avoir l’acquisition, la rétention et la fidélisation de leurs clients. SRD Conseil aide à organiser, optimiser et à mesurer l’efficience des actions marketing et commerciales par la mise en place d’outils, de méthodes et de formations adaptés à métier aux besoins des entreprises. SRD Conseil intervient sous plusieurs formes de prestations à savoir : • Forfait : Sur des projets cadrés, ou afin de permettre aux clients de bénéficier d’offres basées sur nos domaines d’expertise (migration, projets QuickStart, solutions standards verticalisées en mode SaaS…), SRD Conseil propose à ses clients d’intervenir au forfait. • Régie : Pour un besoin de renfort technique et/ou fonctionnel, sur un périmètre et une durée indéfinie, un consultant SRD conseil peut intervenir en régie, de 0,5 à 220 jours par an. • TMA (tierce maintenance applicative) : SRD Conseil propose d’intervenir sur des TMA de 20 à 1000 jours, sur engagement de 6, 12 ou 24 mois, sans nécessairement être l’intégrateur à l’origine du projet. • Formation : En tant qu’organisme agréé, SRD Conseil intervient auprès de vos équipes techniques, métiers et/ou vos utilisateurs finaux avec des plans de formations adaptés. • Recrutement : En cas de besoin de renfort interne (CDI), n’hésitez pas à consulter SRD Conseil: la sélection de profil fait l’objet d’une rigueur particulière (plusieurs entretiens, contrôle de références poussé, éventuels tests …) Nous intervenons dans les domaines suivants : Banque - Finance / Assurances / Mutuelles / Santé - Pharma / Energie / Transports & Sécurité / Immobilier – BTP / Hôtellerie & Restauration / Services BtoB & BtoC / Négoce - Distribution / eCommerce / FAI & Telecom / Administration / Association Notre équipe de Data Scientist est là pour apporter leur connaissance des architectures Big data, de traitements statistiques et text-mining aux données structurées ou poly structurées, et mettre en place des data visualisations pertinentes pour mieux découvrir et comprendre ces données. L’objectif est d’accompagner nos clients dans une meilleure compréhension de leur métier et ainsi de leur permettre la mise en place d’une vraie stratégie autour de la donnée. www.srd-conseil.com SRD Conseil SRD CONSEIL Abed AJRAOU Directeur Business Unit BI et Big Data 10 rue château 75009 PARIS +33 (0) 1 74 64 06 07 N/A contact@srd-conseil.comThe collision between traditional approaches to Data Integration and Hadoop is one of the more interesting aspects of Big Data generally and of Hadoop specifically. Data integration and more specifically, Extraction, Transformation and Loading (ETL), represents a natural application of Hadoop and a precedent to achieving the ultimate promise of Big Data – new insights. But perhaps most importantly at this point in the adoption curve, it represents an excellent starting point for leveraging Hadoop to tackle Big Data challenges. ETL Must Die On Halloween 2012, Doug Henschen published a fascinating article around the work Sears is doing with Hadoop. Within the article, there is a section labeled, “ETL Must Die.” While I can appreciate the sentiment, let’s be clear: ETL as a capability in the information management stack is not going anywhere. Data will need to be sourced (“E”), it will need to be related and refined (“T”) and put somewhere (“L”). What Sears has done is a fundamental shift in architecture for delivering this capability. Sears needed a new architecture, and found one in Hadoop. As detailed in the article, Hadoop is providing a whole range of benefits to Sears. But to say Sears is no longer doing ETL is not accurate. In fact, the opposite would appear to be the case. Sears is sourcing more data, the scope of the transformations has increased, and the distribution of information has expanded. What Sears has done is to move existing workloads from various tools and platforms into a Hadoop environment. That has shifted the reliance on specific products but not the capabilities required to maximize the value of the data. Hadoop is not a Data Integration Solution In a recent research piece entitled “Hadoop is not a Data Integration Solution,” Ted Friedman and Merv Adrian from Gartner describe the gaps between Hadoop and a proper Data Integration Solution. But, what is it about the Hadoop infrastructure that is attracting such interest despite these significant gaps? In the era of Big Data, Hadoop’s architecture is fundamentally superior for supporting many of the most commonly deployed data integration functions. For this reason, organizations are flocking to Hadoop even if key functional capabilities must be written by hand today. Hadoop makes it easy to scale computing power horizontally with low cost components. More importantly, this architecture will also support a broader range of data integration functions. We are seeing willingness by organizations to abandon well-understood and mature features of Data Integration products and embrace a raw, open source technology. The main problem Big Data creates is an architectural one, not a functional one. Perhaps it is fair to say that today; Hadoop is not a Data Integration solution. But, as Mr. Adrian and Mr. Friedman seem to agree, it could very well be the Big Data operating system on which next-generation data integration solutions are built. Moreover, I believe it’s a safe bet that the applications needed to perform sophisticated Data Integration in Hadoop are coming quickly. Rebuilding ETL and ELT in Hadoop In his February 21st post entitled, “Big Data’s New Uses Cases: Transformation, Active Archive and Exploration,” Cloudera’s CTO, Amr Awadallah, provides a concise and accurate history of the “T” in ETL. In the late 90s and early 2000s, the conventional wisdom was to extract data from key source systems, cleanse and relate that data through transformations, then load it into the warehouse. As businesses got customized views of information combined from multiple systems, the traditional ETL approach, particularly the “T”, began to suffer under the weight of growing volumes. At the same time, databases and the hardware that supported them were evolving rapidly to support intense query load with massively parallel processing architectures. Over time, a new approach to data integration was developed which would avoid the lack of relative scalability in traditional data integration engines. The concept was simple: Extract the tables from source systems and then load those tables directly into the data warehouse into a separate staging area. Use SQL, a common and widespread skill to combine and relate those raw tables into the tables required for reporting and analytics. This approach became known as ELT and is, in fact, the most common approach used for data integration today. While this approach provides the scalability required to perform the “T” for integrating the growing sources and volumes of data, there are tradeoffs. Most of the logic used for data integration is expressed in SQL and it is hard to maintain. It requires constant tuning as data changes. It is difficult to test and debug. Oh, and, very often, it fails to perform well. ELT has become the conventional wisdom in integrating data but little focus has been put on the impact these tradeoffs have from an expense and agility perspective. Current practitioners would argue that it is the cost of operating a large-scale analytics and reporting environment and that there is no other alternative that can provide the required scale to meet the insights the business demands. By targeting the replacement of ELT or ETL in Hadoop, you can provide clear answers to many of these questions. There are massive cost savings in just offloading the data warehouse and there is a backlog of new sources that the business wants in the warehouse but has not been met because of cost and scalability.. Such an approach yields a series of side benefits to the organization that will equip the team to deliver the next Big Data project. Fundamentally, by focusing your first project on operational efficiencies, you will deliver a win for your business partners and your organization. ETL – the Leading Use Case for Hadoop The adoption of Hadoop and its promise is creating hype but make no mistake – it is also creating real value today. Identifying the right starting point can create momentum and initial wins on the journey to leveraging Big Data. Why not start with an approach that has a clear payback and builds the skills you need in order to consistently deliver results? Start by rebuilding and even augmenting existing ETL or ELT workloads. In the process, you won’t be killing ETL but rather moving this core capability to an architecture that can support the scale the business needs, at a cost it can afford. Hadoop will dramatically change the data integration landscape but it won’t kill ETL. Far from it. ETL is the killer app that will drive mainstream adoption of Hadoop, the new operating system for Big Data. Josh Rogers President of Data Integration Syncsort. Is ETL Dead in the Age of Hadoop? By Josh Rogers91 Coordonnées Contact Tél : Fax : Mail : www.syncsort.com Syncsort France SYNCSORT France Florence RABUEL Regional Sales Manager Tour Egée - La Défense 17 avenue de l’Arche 92671 Courbevoie Cedex +33 (0) 1 46 67 46 10 +33 (0) 1 47 88 04 38 syncsortSA@syncsort.com Syncsort propose aux organisations gérant d’énormes quantités de données des solutions logicielles permettant de collecter et traiter de manière plus intelligente cette avalanche exponentielle de données. Puisant dans son expérience de milliers de déploiements sur toutes les plateformes majeures, y compris le mainframe, Syncsort aide ses clients, partout dans le monde, à surmonter les limites architecturales des environnements Hadoop et ETL d’aujourd’hui. Les entreprises obtiennent ainsi de meilleurs résultats en moins de temps, avec moins de ressources pour un coût de possession réduit. Pour en savoir plus, veuillez consulter notre site.93 Coordonnées Contact Tél : Fax : Mail : Tableau Software aide les utilisateurs à visualiser et à comprendre leurs données. Tableau permet d’analyser, de visualiser et de partager simplement des informations. La société Tableau Software propose des solutions de Business Intelligence qui aident les personnes et les organisations à travailler plus efficacement en leur permettant d’identifier plus clairement les tendances. Grâce à l’utilisation des outils de Tableau, les utilisateurs optimisent leur temps en ayant accès aux informations qui leur sont importantes de manière très rapide. Plus de 12 000 entreprises font confiance à Tableau pour obtenir rapidement des résultats, au bureau comme lors des déplacements. Grâce à sa facilité d’utilisation, Tableau Public est un outil qui permet de traiter un gros volume de données facilement et rapidement et ensuite de les publier sur le web en un seul clic. Cet outil aide diverses typologies d’utilisateurs dont les journalistes à analyser des données complexes et extraire des informations pertinentes qui permettent de très belles visualisations de données et cela de manière dynamique. Tableau Software a trois produits principaux pour les entreprises : Tableau Desktop, Tableau Server et Tableau Online. Répondez aux questions immédiatement grâce à Tableau Desktop. Tableau Desktop utilise une technologie innovante de l’université de Stanford qui vous permet de glisser-déposer des données pour les analyser. Vous pouvez accéder aux données en quelques clics, puis visualiser et créer facilement des tableaux de bord interactifs. Nous avons mené des recherches pendant plusieurs années pour mettre en place un système prenant en charge la capacité naturelle des personnes à penser de manière visuelle. Basculez facilement entre les vues, suivez votre raisonnement naturel. Vous n’êtes pas coincé par des assistants d’exécution ni obligé de rédiger des scripts. Vous créez simplement des visualisations de données riches et harmonieuses. C’est tellement simple à utiliser que c’est à la portée de n’importe quel utilisateur d’Excel. Obtenez plus de résultats en fournissant moins d’efforts. Et c’est 10 à 100 x plus rapide que les solutions existantes. Tableau Server - Une incroyable alternative aux solutions décisionnelles traditionnelles. Tableau Server est une solution décisionnelle qui fournit un outil d’analyse basé sur navigateur Web accessible à tous. C’est une alternative très rapide aux logiciels d’informatique décisionnelle traditionnels connus pour leur lenteur et leur manque de flexibilité. Vous avez un travail à effectuer, mais les outils dont vous disposez actuellement sont lents et volumineux. Tableau Server est un nouveau type d’outil d’informatique décisionnelle 100 fois plus rapide et agréable à utiliser. Vous effectuez votre déploiement selon vos besoins. Testez-le gratuitement en ligne. Obtenez des résultats en quelques semaines seulement, et non plus après quelques années. La puissance de Tableau dans le cloud. Tableau Online est une version hébergée de Tableau Server. Elle rend l’analyse d’entreprise rapide et plus facile que jamais. Partagez des tableaux de bord avec l’ensemble de votre entreprise, et avec vos clients et partenaires en quelques minutes. Fournissez des vues de données interactives en direct qui permettront aux personnes de répondre à leurs propres questions directement dans un navigateur Web ou sur une tablette. Faites-le dans un environnement sécurisé et hébergé. Soyez opérationnel en quelques minutes. Ajoutez de nouveaux utilisateurs en quelques clics. Vous pouvez augmenter la puissance de Tableau Online en fonction de vos besoins et le rendre accessible où que vous soyez. Aucun achat, aucune configuration et aucune gestion d’infrastructure n’est nécessaire. www.tableausoftware.com Tableau Software TABLEAU SOFTWARE Julien SIGONNEY Sales Area Manager Blue Fin Building 110 Southwark Street London SE1 0TA - United Kingdom +44 (0) 203 310 4500 +44 (0) 203 310 4501 europeansales@tableausoftware.comRedesigning the data landscape around user experience95 Coordonnées Contact Tél : Fax : Mail : Worldline, filiale d’Atos, est le leader européen et un acteur mondial référent dans le secteur des paiements et des services transactionnels. En ajoutant à ses expertises et plates-formes transactionnelles historiques des composants Big Data industriels, Worldline construit avec ses clients et partenaires des projets exploitant pleinement la valeur intrinsèque des données. Worldline délivre ainsi à ses clients des services de bout en bout sur l’ensemble de la chaine de valeur : captation des données, analyse, visualisation et valorisation. • Pour la phase de captation, Worldline tire parti de ses compétences historiques en termes de collecte, intégration, stockage et nettoyage de gros volumes de données transactionnelles. Pour ces types de données, les composantes vélocité (temps réel) et variété (formats divers voire changeants) sont souvent critiques. Les données sont gérées au sein des datacenters Worldline, ce qui permet d’apporter flexibilité et fiabilité à cette phase du cycle. • Dans chaque contexte client, Worldline apporte son expertise en termes d’analyse de données, notamment dans les domaines de la lutte contre la fraude, du scoring de transactions et de la gestion de la relation client, et met en place des modèles statistiques et des algorithmes d’intelligence artificielle sur mesure pour passer de la donnée brute à l’information à valeur ajoutée. • La phase de visualisation est le maillon indispensable pour assurer un lien entre les données et les utilisateurs finaux. Elle est prise en compte dès la conception des services et ce quel que soit le terminal de l’utilisateur. Pour ce faire, Worldline met à profit ses réussites dans la création d’interfaces et d’applications adaptées aux multiples combinaisons contexte, support et usage. • Enfin, pour la valorisation, Worldline dispose des expertises business nécessaires pour accompagner ses clients dans le nouveau paysage informationnel du Big Data et leur permet de tirer le meilleur parti des données, qu’elles soient internes ou externes. C’est ainsi que se concrétisent pour eux les multiples opportunités qu’elles représentent. En associant cohérence et niveaux de qualité de service industriels de bout en bout de la chaine, Worldline va au-delà des enjeux purement techniques pour délivrer la valeur des technologies et des nouveaux usages de la Big Data à tous ses clients. du BigData. www.worldline.com Worldline Worldline Gregoire WIBAUX Business development & Marketing stratégique River Ouest 80 quai Voltaire 95877 Bezons Cedex +33 (0) 4 78 17 69 35 N/A infoWL@worldline.comPlay with yourBig Data Ysance créateur de plateformes digitales www.ysance.com97 Coordonnées Contact Tél : Fax : Mail : Créée en 2005 par une équipe d’experts IT, Ysance est une agence conseil en technologie digitale forte de 100 collaborateurs. Ysance aide les directions métier à tirer un profit des nouveaux usages du numérique en accompagnant ses clients dans la conception, la mise en œuvre et l’animation de leurs projets digitaux. Ses activités s’articulent autour de 5 métiers : le Marketing digital, la Business Intelligence, l’e-business, le Cloud Computing et le Big Data. Depuis 3 ans, Ysance construit des plateformes Big Data pour les mettre au service des différents métiers de l’entreprise : CRM, eCommerce, Marketing, Ventes, RH, Finances, BI, Datamining, etc. Fort de cette expérience, Ysance a conçu une méthodologie progressive et pragmatique déclinée en 4 étapes pour rapidement accéder aux potentiels des Big Data : 1. Découvrir et estimer la valeur d’une démarche Big Data pour son activité Evaluer les avantages et identifier les métiers pouvant en bénéficier Imaginer les services, les analyses et les opportunités rendus possibles Définir les scénarios Big Data et les business cases associés 2. Démarrer et réaliser VOS premières analyses Big Data Définir un premier scope d’analyse métier Collecter les données et les charger dans la plateforme Big Data d’Ysance Réaliser un ensemble d’analyses et valider le modèle 3. Développer et mettre en place le socle de VOTRE plateforme Big Data Formaliser et valider les besoins techniques et fonctionnels Identifier les sources et les volumes de cible Définir l’architecture et choisir les solutions techniques Implémenter la plate-forme Big Data 4. Déployer et faire du Big Data un avantage concurrentiel Industrialiser la collecte, le stockage et l’analyse en temps réel Élargir, organiser et sécuriser l’accès à la plate-forme Capitaliser les bonnes pratiques et les normes de développement Organiser la conduite du changement Ysance dispose d’une grande expertise des technologies Hadoop, des enjeux de Data management et des environnements Cloud. www.ysance.com Ysance YSANCE Romain CHAUMAIS Directeur du Développement Tour de l’Horloge 4 place Louis Armand 75012 Paris +33 (0) 1 43 36 23 17 +33 (0) 1 73 72 97 26 contact(à)ysance.comguide du big data 2013 / 2014 Synthèse du marché Big Data 2012 - 2013 www.bigdataparis.com Un évènement organisé par : Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 2 A – ETUDE DU MARCHE BIG DATA I. Le Big Data, du concept à la mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 03 1) Le Big Data : quelques rappels sur un phénomène 2) Le Bilan année 1, bilan et perspectives II. Le Big Data, du data deluge à l’exploitation de la donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 05 1) La nature de la donnée 2) Le traitement de la donnée : des innovations en plein essor 3) L’analyse de la donnée : quels changements ? III. Le Big Data, quels usages ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 06 1) Les usages marketing 2) Le management des opérations et de la supply chain 3) L’usage exploratoire 4) L’apparition de services innovants IV. Les principales questions entourant le Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 08 1) Enjeux stratégiques a) Comment mettre en place le Big Data au sein de son entreprise ? b) Quel business model ? Quels apports économiques du Big Data ? 2) Enjeu RH : le recrutement des data scientists 3) Enjeux technologiques a) La qualité de la donnée b) La sécurité des données 4) Enjeu réglementaire : la protection des données personnelles V. Vers de nouveaux marchés – L’impact du Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 11 1) La Dataviz 2) L’Open Data 3) L’Internet des Objets B – INTERVIEWS D’EXPERTS I. Jean-Marie Messager, SOPRA CONSULTING : Etat des Lieux du Big Data . . . . . . P 13 II. Pierre Delort, ASSOCIATION NATIONALE DES DSI : Le Chief Data Officer . . . . . P 14 III. Fiche Projet de Mathieu Gras, SFR : La mise en place d’un service de publicité géolocalisée . . . . . . . . . . . . . . . . . . . . . . . . . . . P 15 C – ARTICLES D’EXPERTISE I. Mouloud Dey, SAS FRANCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 16 II. Steven Totman, SYNCSORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 17 III. Sanjay Poonen, SAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 18 SOMMAIRESynthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 3 A. ETUDE DU MARCHE BIG DATA I. Le Big Data, du concept à la mise en œuvre 1) Le Big Data : quelques rappels sur un phénomène Le Big Data s’est imposé dans la sphère du management à la faveur d’un rapport de Mc Kinsey paru sur ce sujet en mai 2011. Déjà auparavant, quelques expérimentations issues du milieu de la recherche avaient permis d’évoquer cette thématique (cf la revue Nature en 2008). En quoi consiste le Big Data ? Comme le décrit Mc Kinsey, le Big Data est une réponse à l’explosion des données observée dans l’univers numérique (Internet, RFID, mobile) : il permet de capter celles-ci, de les traiter à très grande vitesse et de les rendre ainsi exploitables pour les entreprises et les organisations, quelle que soit la nature de cette donnée. Economiquement comme technologiquement, le Big Data apporte une avancée réelle dans l’appareil décisionnel de l’entreprise car il inscrit la donnée au cœur même de la décision et se décline en multiples usages indispensables pour permettre à l’entreprise d’accroître ses marges : meilleure connaissance du client, ajustements des flux physiques, détection d’erreurs… Mc Kinsey a énoncé une règle très simple pour reconnaître un produit Big Data : la règle des 3V. Ces 3V correspondent aux termes suivants : - Volume : des volumes de données conséquents, de l’ordre du téra-, du péta-, voire de l’exaoctet (1018 octets) - Variété : des données de natures très diverses, qu’il s’agisse de vidéos, de logs, de mails, etc… - Vélocité : une vitesse de traitement accélérée pouvant même aller jusqu’au temps réel Par la suite, les experts du sujet ont eu tendance à rajouter un 4e V à cette définition, celui de Valeur; en effet, le Big Data se définit par une valorisation de la donnée, c’est-à-dire une transformation de celle-ci en information qui générera par la suite d’importants bénéfices. Le Big Data s’appuie sur un socle technologique solide en plein essor (cf partie II) mais dispose d’applications très économiques (cf partie III) qui lui ont permis de réaliser un véritable buzz en 2012 : les décideurs de tous bords (et pas seulement les informaticiens ou statisticiens) se sont penchés sur la question, intrigués par la promesse du Big Data et par l’exemple de nombreux projets développés outre-Atlantique. En France, l’année 2012 a été marquée par l’apparition des premières expériences matures de Big Data. Pour autant, le Big Data n’en est qu’à ses débuts, ce qui explique que de nombreuses questions restent encore à l’étude (cf partie IV) et que d’autres marchés se développent dans son sillage (cf partie V). Bienvenue dans l’ère du déluge de données !Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 4 2) Le Bilan année 1, bilan et perspectives Avant de revenir plus concrètement sur ces différents aspects, il est utile de faire le point sur les développements de ce phénomène en France et dans les autres pays. Des rapports sont en effet parus sur la question en 2012, permettant d’y voir plus clair dans la mise en application du Big Data : les études IDC de juin, août et septembre 2012, respectivement pour SAP, Hitachi et EMC, ont donné des indications sur les besoins des entreprises, la maturité de leurs projets et les perspectives annoncées. Il ressort de ces études que le Big Data est encore à l’état de projet pour la majorité des entreprises françaises et européennes : en effet, 33% des entreprises britanniques avaient mis en place des solutions Big Data ou prévoyaient de le faire dans les 12 mois, alors qu’en Allemagne (18%), en Russie (10%) et en France (8%), les chiffres étaient bien plus bas. Le coût des infrastructures reste un frein régulièrement évoqué pour expliquer la lenteur du déploiement du Big Data. Cependant une bonne majorité des entreprises ont conscience de l’intérêt du Big Data et de la problé- matique soulevée par l’explosion des données : pour elles, il s’agit surtout de réduire les coûts en maîtrisant les données d’activité (cité par 40% des sondés) mais d’autres apports du Big Data sont bien identifiés parmi lesquels la gestion et la planification des budgets, l’analyse des risques ou la création de nouveaux marchés. Au total, IDC estime que la vente de solutions Big Data devrait passer de 3,2 milliards de $ en 2010 à 16,9 milliards de $ en 2015, soit un taux de croissance annuelle de près de 40%. Le marché du Big Data se structure donc peu à peu en France et en Europe et le terme « Big Data » est désormais largement reconnu ; qu’il s’agisse de petites entreprises spécialisées ou de grandes compagnies d’envergure mondiale, l’analyse de données multiples est devenue un critère de développement important en 2012, essentiellement dans les secteurs banque, telecom et secteur public. les chiffres Europe 2.000 USA 3.500 Amérique Latine 50 Inde 50 Chine 200 300 400 Japon Reste de l’Asie Pacifique Moyen-Oriant et Afrique 200 Quantité de nouvelles données par zones géographiques enregistrées en 2010, en petaoctets Evolution du marché en milliards de dollars - Source : IDC 3.2 en 2010 16.9 en 2015 (est.) 250 Mds $ de potentiel annuel pour l’administration publique Européenne, l’équivalent du PIB Grec 60 % du potentiel de hausse de la marge opérationnelle pour les commerces de détailSynthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 5 II. Le Big Data, du data deluge à l’exploitation de la donnée Avant d’être un phénomène économique, le Big Data est avant tout un processus technologique qui vise à transformer une donnée brute en information directement exploitable par l’entreprise. Les outils à l’œuvre lors de ce processus constituent la réelle innovation de ces dernières années. 1) La nature de la donnée A l’origine du Big Data, il y a la matière de base : la data. Cette donnée, issue des différents supports que sont Internet, les smartphones ou les capteurs RFID, est de plus en plus variée. En cause : l’apparition de formats plus complexes comme les vidéos mais également l’expansion d’une donnée davantage qualitative, « de contenu », issue par exemple des réseaux sociaux et des forums de discussion. Ce déferlement de données, qualifié de « déluge » dans le langage consacré, contraint les technologies à évoluer et à traiter des données qui ne sont pas structurées ; on parle de données non structurées, voire parfois de données multi-structurées. Au-delà du volume de ce data deluge, c’est la nature de ces données qui est souvent mise en avant : la donnée brute, directement extraite de l’activité ou de l’opinion de l’internaute apporte une information qui, si elle est bien traitée, promet à son détenteur de suivre pas à pas les comportements des clients et les opérations de l’entreprise. 2) Le traitement de la donnée : des innovations en plein essor Afin de s’adapter à cette contrainte représentée par la diversité des données et afin d’absorber les grands volumes observés, les éditeurs ont développé des solutions de bases de données adaptées à cet environnement. Historiquement, c’est au début des années 2000 que, confrontés les premiers à ces problèmes, les chercheurs de Google ont développé un mode de calcul fondé sur la parallélisation massive et permettant de traiter de grands volumes de données : MapReduce.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 6 Par la suite, c’est la fondation Apache qui a décliné ce mode de calcul sur une plateforme Open Source nommée Hadoop, véritable librairie de calculs parallèles permettant de traiter des données non structurées. Hadoop est rapidement devenue la référence en matière de parallélisation des big data, et les éditeurs se sont employés à adapter l’offre initiale Open Source Hadoop en solution commerciale, customisée en fonction des applications clientes et des indicateurs de performance. C’est aujourd’hui la principale offre qu’on retrouve sur le marché, soit au travers de solutions Cloud soit par le biais d’appliances (boîtier hardware intégrant la technologie Hadoop). D’autres briques s’ajoutent ensuite à Hadoop pour spécialiser le traitement : Hive, Pig, Cassandra… Ce sont des systèmes de gestion de bases de données non relationnelles distribuées, utilisant des modalités de requête NoSQL, qui dépassent donc les codifications du langage SQL. Ce mouvement NoSQL (Not Only SQL) est d’ailleurs une des autres caractéristiques majeures de l’avènement du Big Data. Ces différents outils permettent donc de traiter tous types de données, dans des quantités très volumineuses, et en un temps limité. La problématique du temps réel est d’ailleurs de plus en plus prégnante dans les offres des éditeurs, qu’il s’agisse de traitement sur des serveurs dédiés ou de traitement in-memory (dans la mémoire de l’ordinateur). 3) L’analyse de la donnée : quels changements ? Le traitement de la donnée effectué ne constitue pas pour autant un but en soi : à l’issue du traitement, la donnée est simplement lissée, triée, elle n’a pas encore révélé tout son potentiel. C’est ici que l’intervention d’analystes spécialisés, les data scientists, prend toute son importance : ceux-ci peuvent interpréter les données, les croiser, les remettre en perspective et proposer des représentations directement compréhensibles pour les niveaux décisionnels. La Business Intelligence, discipline de l’entreprise consacrée de longue date à l’analyse des données à des fins de pilotage et de reporting s’enrichit désormais de l’apport des Big Data : la saisie de données multiples provenant de sources internes comme externes, apporte un éclairage nouveau sur les chiffres et autorise davantage d’exploration des comportements statistiques. Le datamining en format Big Data a donc de beaux jours devant lui à condition que les compétences requises soient présentes au sein de l’entreprise pour analyser correctement les données.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 7 III. Le Big Data, quels usages ? Cette donnée transformée en information devient dès lors un outil incomparable pour les différents métiers qui l’utilisent: c’est au stade opérationnel qu’elle apporte réellement de la valeur à l’entreprise, conduisant celle-ci à mieux gérer l’activité et à accroître ses parts de marché, tout en assurant un sursaut d’innovation pour les grandes comme les petites structures. 1) Les usages marketing L’usage le plus répandu du Big Data se situe probablement du côté du marketing, et plus encore sur le terrain du digital. Les données multiples partagées sur le Web sont en effet un gisement inépuisable pour les entreprises qui cherchent à mieux connaître leurs clients et à communiquer avec eux de façon plus ciblée. Le Big Data apporte ainsi une précision plus forte dans la segmentation des clients et dans le message qui leur est adressé : personnalisation en ligne, reciblage, publicité temps-réel via le RTB, analyse de sentiment…les méthodes abondent pour identifier au plus fin les besoins de l’internaute et lui communiquer en temps réel une réponse à ses attentes. Un phénomène qu’on observe également dans le domaine offline : en magasin, dans la grande distribution, des études sont menées pour déterminer les prix les plus appropriés en fonction des populations, mais également les préférences géolocalisées des clients et visiteurs. Un outil qui s’avère déterminant lorsqu’il s’agit de comprendre les chiffres de ventes, région par région, et d’évaluer ainsi la performance des forces commerciales. Là où le Big Data s’avère véritablement innovant par rapport à un outil marketing classique (de type CRM), c’est dans l’analyse des données qualitatives : grâce au traitement des données géolocalisées ou des données sociales, les responsables marketing ont désormais la possibilité de pousser leur message au plus près de l’utilisateur, dans sa sphère de préférences ou sur son itinéraire géographique. Une révolution dans le domaine du marketing qui aiguise de nombreuses curiosités !Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 8 2) Le management des opérations et de la supply chain Mais le Big Data a également des usages internes à l’entreprise, notamment dans le suivi de l’activité et la détection des erreurs ; en effet, agréger les données de production et les analyser en temps réel permet aux décideurs de piloter plus précisément leur entreprise et de réagir dans les plus brefs délais si des erreurs ou des pannes sont détectées. Ces dispositifs sont particulièrement actifs dans le domaine des télécoms, des transports, de la logistique ou de la production industrielle, où le suivi au plus près des flux et des équipements est un facteur clé d’efficacité. A ce titre, le développement des outils de localisation autorise là encore les projets les plus ambitieux, puisque le monitoring géographique de la supply chain permet de contrôler en permanence le bon déroulé des opérations et conduit à une réponse immédiate si des anomalies sont détectées. Enfin, comme pour tout outil de pilotage, le caractère prédictif du Big data joue un rôle non négligeable : en analysant les données météo, techniques ou de trafic, les responsables logistiques sont capables de déterminer leur niveau de stocks, la maintenance de leurs équipements et d’adapter la production à venir en fonction de ces données externes. 3) L’usage exploratoire Le Big Data est avant tout un outil manipulé par les chercheurs pour détecter parmi les immenses jeux de données liés au vivant des informations significatives qu’ils pourront analyser et modéliser. C’est ainsi que des programmes Big Data ont vu le jour dans la génomique, l’imagerie médicale ou, au-delà, dans l’exploration des sous-sols et même de l’espace. L’idée est que le croisement de pétaoctets de données permet de plonger au cœur de l’infiniment petit et de déterminer ainsi en des temps réduits le comportement de particules infimes observées au cœur du vivant. Un potentiel de recherche impressionnant qui fait basculer les laboratoires et les directions R&D des entreprises dans une autre dimension. Même les sciences sociales sont concernées puisque l’observation de comportements macroéconomiques au sein de populations entières permet de déceler des signaux faibles pouvant être généralisés, et autoriser ainsi la prédiction. 4) L’apparition de services innovants Enfin le dernier usage du Big Data, déjà évoqué au cœur des autres domaines d’activité, concerne les services innovants : concrètement, il s’agit des métiers et des pratiques liés au temps réel et à la localisation qui permettent de créer des prestations totalement nouvelles auprès du consommateur final. On retrouve ces innovations dans le tourisme, le transport ou encore la distribution, avec une prégnance des PME dans la production de ces nouveaux services. L’utilisateur a à disposition, sur son smartphone, une information qui lui permet d’adapter ses usages : par exemple dans le domaine des loisirs, la possibilité de savoir en temps réel le nombre de places restantes dans les théâtres environnants est un service totalement nouveau qui facilite pourtant beaucoup la prise de décision du consommateur… et le remplissage des salles pour les guichetiers !Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 9 IV. Les principales questions entourant le Big Data Si le Big Data s’est imposé au cours de cette année 2012, il n’en reste pas moins l’objet de nombreux questionnements, et notamment sur les aspects technologiques, éthiques ou encore économiques qu’il comporte. L’année dernière, le débat portait essentiellement sur le caractère réellement novateur du Big Data, par rapport à l’analyse de données traditionnelle effectuée depuis de nombreuses années déjà ; cette interrogation ayant été partiellement balayée par l’observation de projets innovants issus du Big Data, les questions se tournent maintenant vers d’autres enjeux, plus techniques. 1) Enjeux stratégiques : …. A commencer par des enjeux stratégiques. Le Big Data répond en effet à un désir de performance des organisations et à une volonté de créer des opportunités de croissance dans un contexte relativement morose pour l’économie. Or cette volonté impose de réfléchir en terme de coûts des équipements et en terme d’organisation des tâches. Et par-dessus tout, il importe de se poser la question des bénéfices exacts retirés de cette implémentation. a) Comment mettre en place le Big Data au sein de son entreprise ? Les entreprises qui choisiront de s’équiper de technologies Big Data seront fatalement amenées à réfléchir sur leurs besoins : où le Big Data est-il nécessaire ? Où n’est-il pas indispensable ? Si tous les départements de l’entreprise ne retirent pas le même profit de l’analyse de leurs données, l’investissement en technologies Big Data devra être ciblé et adapté aux différentes activités de l’entreprise. Cette question s’impose également lorsqu’il s’agit d’évaluer les ressources humaines nécessaires pour travailler la donnée ; les métiers ont-ils besoin d’accéder au Big Data de la même façon que les directions informatiques ? Comment s’organise la remontée d’informations et selon quel objectif temporel ? Une organisation optimale devra alors être définie, pour s’assurer que l’objectif initial du Big Data (à savoir la réduction du temps de prise de décision) soit effectivement atteint. Pour certaines entreprises, cette organisation optimale des équipes recouvrera une approche décentralisée dans laquelle les métiers opérationnels seront chargés du traitement de leurs propres données et seront directement en lien avec le terrain pour cela. Mais pour d’autres sociétés, l’optimisation passera par la création d’un service central dédié à la donnée, qui se chargerait de traiter l’ensemble des Big Data de l’entreprise avant de rebasculer l’information vers les services. A cet effet, on parle de plus en plus d’un nouveau poste en création dans les majors américaines : celui de Chief Data Officer, autrement dit un responsable des données de l’entreprise dont le rôle serait de transmettre au comité de direction les observations et analyses appuyées sur les données, et ce afin d’éclairer davantage la prise de décision.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 10 b) Quel business model ? Quels apports économiques du Big Data ? Au-delà de cette analyse organisationnelle et financière, le Big Data pose également une question de fond sur le bénéfice qu’il apporte à son utilisateur. Nous avons vu les différents usages du Big Data… mais il est souvent difficile d’avoir une analyse économique de ces usages : concrètement, quelle valeur l’entreprise « Big Data » va-t-elle générer ? Les indicateurs sont multiples : on peut considérer ainsi que les opérations de ciblage marketing seront susceptibles d’augmenter le chiffre d’affaires de l’entreprise, là où l’agrégation de données internes permettra en revanche de suivre l’activité et de détecter les erreurs, avec pour conséquence la limitation des coûts. Mais d’autres analyses montrent que le véritable gain du Big Data réside dans les parts de marché : mettre en place une organisation Big Data permet de prendre le dessus par rapport à ses concurrents en termes de diffusion des messages et de captation d’audience… l’essentiel étant bien sûr de se situer aux avant-postes. Enfin, beaucoup s’accordent sur le fait que la véritable création de valeur du Big Data réside dans l’apport d’innovation et de nouveaux services que celui-ci encourage. Bien que difficilement mesurable économiquement, il induit une valeur ajoutée démultipliée par l’effet de réseau (notamment dans les télécoms ou les médias). 2) Enjeu RH : le recrutement des data scientists Autre enjeu qui se présente aux entreprises utilisatrices du Big Data, qu’elles soient petites ou grandes : la montée en compétences pour absorber le savoir-faire nécessaire à la pratique du Big Data. Concrètement, les profils les plus recherchés sont ceux des data scientists et des data analysts. Les uns comme les autres sont détenteurs d’un bagage à la fois statistique, technique et opérationnel, le data analyst étant certainement encore plus au contact du terrain que son homologue data scientist, plus orienté ingénieur. Leur rôle au sein de l’entreprise est de traiter les données d’activités et de prospection en les liant à une prise de décision « business » opérationnelle. Un enjeu réside dans la formation de ces experts de la donnée : en effet, les écoles commencent tout juste à proposer des formations en lien avec ce métier et les entreprises communiquent fréquemment sur le manque de profils disponibles. 3) Enjeux technologiques : Les enjeux technologiques du Big Data ont beaucoup évolué entre 2011 et maintenant : en 2011, en effet, les experts se penchaient davantage sur la question de la volumétrie, du stockage ou encore de la nature non-structurée des données traitées. Ces enjeux de base pour le Big Data semblent aujourd’hui surmontés, laissant place à d’autres préoccupations.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 11 a) La qualité de la donnée La question qui a occupé le devant de la scène en 2012 est celle de la qualité des données : en effet, les utilisateurs du Big Data ont constaté que le traitement de grands volumes de données pouvait accroître le nombre d’erreurs si les données n’étaient pas intègres à la base. De nombreuses anomalies pouvaient en effet entacher la véracité des données et du traitement : le fait que des données soient en doublons, le fait qu’elles proviennent de mauvaises sources, ou encore qu’elles soient déjà obsolètes… un aléa encore amplifié par le fait que les données proviennent de plus en plus de sources externes. Pour contrer cela, les intégrateurs ont développé de nouvelles solutions qui permettent de mieux percevoir la source de la donnée et de réduire le taux d’erreur. Des fournisseurs spécialisés dans l’analyse et le nettoyage de la donnée externe ont également vu le jour. Mais l’analyse humaine reste quoi qu’il en soit indispensable et la montée en compétence, évoquée précédemment, présente à ce titre un intérêt stratégique pour l’entreprise. b) La sécurité des données D’autre part, le second enjeu directement connecté à l’explosion des données est celui de la confidentialité et de la sécurité : en stockant des données stratégiques sur lesquelles elle compte appuyer ses décisions, l’entreprise s’expose à des phénomènes de cybercriminalité et de piratage. Les administrations publiques sont également fortement concernées par cette préoccupation. Les solutions de stockage sur serveurs et dans le Cloud doivent de ce fait répondre à ce risque d’insé- curité sur les réseaux ; mais même au sein de l’organisation, des systèmes de protection sont nécessaires afin de limiter l’accès aux données aux seules personnes qui en démontrent le besoin. On rejoint ici la problématique organisationnelle décrite plus haut : comment planifier la remontée d’informations ?Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 12 4) Enjeu réglementaire : la protection des données personnelles Enfin, la dernière problématique récurrente lorsque l’on évoque le Big Data est celle de la protection des données personnelles. En effet, l’utilisation massive de données issues des actes d’achat des consommateurs, ou de leurs historiques sur internet, ou encore de leur géolocalisation, contraint les organismes de protection comme la CNIL à être vigilants, et les entreprises à se conformer précisé- ment à ces recommandations. La législation est d’ailleurs en pleine évolution sur ces sujets : la Commission Européenne a ainsi fait paraître en janvier 2012 un projet de règlement visant à réformer l’accès aux données personnelles sur Internet. Ce projet est à l’étude et des avancées prochaines sont prévues (on a d’ores et déjà mis en place, sur certains sites internet, une autorisation préalable de l’internaute pour l’exploitation des cookies). C’est principalement par ces dispositifs d’autorisations que les entreprises se prémunissent contre une utilisation abusive des données (ex : « l’opt-in » pour les services géolocalisés) mais le critère principal est également l’anonymisation des données, essentiellement dans des activités de profiling et de segmentation. Quels que soient les leviers retenus par les organismes réglementaires, il est primordial pour les consommateurs et pour les entreprises que la protection des données soient assurée : en effet, toute faille dans ces dispositifs risquerait d’altérer la confiance des usagers, ce qui limiterait dès lors l’impact et le pouvoir d’innovation du Big Data.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 13 V. Vers de nouveaux marchés – L’impact du Big Data Comme tout nouveau marché en structuration, le Big Data entraîne dans son sillage d’autres segments d’activité connexes, dont certains l’ont d’ailleurs parfois précédé. Leurs degrés de maturité sont divers mais ils possèdent tous un lien assez fort avec le Big Data dont ils s’enrichissent mutuellement. 1) La Dataviz La dataviz, autrement appelée datavisualisation, s’est développée au croisement de la statistique et du design. Sa valeur ajoutée réside dans la représentation de la donnée et la communication de son contenu aux décideurs opérationnels et au grand public. L’idée est de rendre l’accès à la décision beaucoup plus immédiat grâce à une représentation hiérarchisant clairement les enjeux : la datavisualisation procède donc à la fois d’une analyse et d’une mise en forme graphique. Une exigence renforcée dans un contexte Big Data où l’avalanche de données produit une importante contrainte de restitution et de mise en perspective. Il importe donc aux fournisseurs de dataviz de présenter des qualités à la fois techniques, statistiques et créatives ; pour l’instant, on retrouve surtout les acteurs de la dataviz dans des petites structures à dimension fortement innovante. Les grands éditeurs commencent à s’approprier ces outils mais ceuxci restent encore le fait de quelques entreprises historiquement spécialisées dans la représentation graphique. Le véritable enjeu pour ce marché est de produire des outils directement en lien avec la perception du destinataire de l’information ; en effet, c’est en créant des ergonomies adaptées à leur utilisateur que les dataviz pourront s’implanter durablement dans le champ décisionnel des entreprises et des organisations. A la fois en tant qu’outil de communication, et en tant qu’aide à la décision. Pour l’instant, le champ d’utilisation est surtout orienté BtoC, les créations les plus ambitieuses s’imposant par le biais du datajournalisme ; cependant la multiplication des supports (tablettes, smartphones, etc...) ainsi que la quête de temps réel sont autant d’éléments qui militent en faveur d’un développement rapide de ce secteur.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 14 2) L’Open Data L’Open Data s’est développé bien en amont du Big Data ; en ce sens, il le précède… Mais il est aussi et surtout une part intrinsèque du Big Data par le flot d’informations qu’il véhicule. Concrètement l’Open Data recouvre l’ouverture gratuite des données publiques et privées au grand public et aux entreprises. Soit la mise en ligne d’informations statistiques et fonctionnelles jugées utiles aux destinataires de l’information (ex : les temps d’attente de métro et RER pour les usagers des transports publics, les indicateurs démographiques et sociologiques de certaines zones géographiques, etc…). L’objectif principal de l’Open Data est double : il vise à créer des nouveaux services auprès du citoyen et à limiter ainsi les pertes d’efficacité liées aux asymétries d’information. Cette dernière dimension de « bonne gestion » transparaît notamment dans les démarches Open Data lancées par les administrations publiques: leur volonté d’ouvrir les données souligne un effort de transparence qui les oblige vis-à-vis de leurs administrés (ex : révéler les temps d’attente sur les hotlines administratives conduira les organisations publiques à entreprendre des efforts pour réduire et limiter ces temps d’attente). Quant à la dimension « nouveaux services », elle se retrouve dans le domaine du grand public mais également dans celui du BtoB : en ouvrant leurs données anonymisées à d’autres acteurs, notamment des partenaires ou des organisations intégrées dans la même chaîne de valeur qu’eux, les entreprises fournissent un surcroît d’informations qui, transformée par les savoir-faire des partenaires, pourra générer de l’innovation dans leur propre écosystème…Un procédé largement gagnant-gagnant ! Si l’Open Data est autant lié au Big Data, c’est parce que l’ensemble des données mises en circulation par l’Open Data participent aujourd’hui au data deluge auquel répond le Big Data. La notion de création de valeur à partir de l’analyse de la donnée, chère au Big Data, est également bien présente ; aujourd’hui, des entreprises spécialisées se sont créées exclusivement autour de la question de l’Open Data, traitant et analysant des volumes très importants de données publiques afin de les valoriser et de les revendre par la suite. Les entreprises font d’ailleurs de plus en plus appel à ces données externes qui enrichissent bien souvent leur vision stratégique. L’Open Data s’affirme donc comme un terrain de développement important du Big Data, car la donnée qu’il véhicule est considérée comme fiable, intègre, nettoyée de ses imperfections, ce qui répond à l’enjeu récurrent de qualité des données.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 15 3) L’Internet des Objets Enfin, dans une vision davantage prospective, on associe souvent le Big Data à un phénomène innovant en plein développement technologique : l’Internet des Objets. L’Internet des Objets recouvre l’échange d’informations entre objets connectés qu’il s’agisse d’outils traditionnels de mobilité (ex : tablettes tactiles), de capteurs embarqués ou d’objets du quotidien. L’Internet des Objets reprend et prolonge les technologies RFID et M2M déjà à l’œuvre dans des environnements professionnels et grand public. Les potentialités ouvertes par l’Internet des Objets sont importantes en terme de temps réel et de synchronisation : en connectant de multiples objets sur des applications conjointes, les développeurs espèrent ainsi augmenter la systématisation des process et diminuer les pertes liées au manque de coordination des outils. Par-dessus tout, l’Internet des Objets offre une promesse d’intégration optimale de l’information au cœur même de l’environnement direct des utilisateurs : en effet, en utilisant des supports variés directement implantés au cœur de l’activité, et reliés par un même système de transmission, l’Internet des Objets garantit une importante simplification des usages. Ce développement de l’Internet de l’Objet implique forcément des transferts de données massifs et extrêmement rapides dans le temps, ce qui revient à la problématique du Big Data et conditionne l’essor de ce nouveau secteur à une maîtrise totale du traitement Big Data. En ce sens, le déploiement de ce type d’outils est encore en phase de recherche et d’expérimentation mais constitue un des secteurs de développement les plus attractifs des années à venir.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 16 B. INTERVIEWS D’EXPERTS Interview de Jean-Marie Messager, directeur de la practice BI chez Sopra Consulting 1. Le Big Data a gagné une véritable notoriété au cours de l’année écoulée… quelles sont les entreprises et les secteurs qui se sont montrés les plus sensibles à ce sujet ? Ce sont aujourd’hui les secteurs qui génèrent naturellement beaucoup de données. On retrouve notamment le secteur des télécoms, la finance, la distribution, mais aussi l’industrie. Cela pourrait être aussi le cas de la santé ou des administrations. En terme de métiers, le Marketing et la Logistique sont attirés par les apports du Big Data, d’autres semblent en prendre conscience (les ressources humaines par exemple). 2. Pour quels usages les entreprises s’intéressent-elles au Big Data ? On connaît certains exemples d’applications business du Big Data : par exemple, une tarification qui s’adapte en temps réel en fonction de la demande, ou encore l’anticipation du comportement des consommateurs en fonction des prévisions météorologiques, ou bien le pilotage de processus industriel ou de chaîne logistique complexe… les exemples sont nombreux et variés. Cependant, toutes les entreprises ne s’intéressent pas aux mêmes usages du Big Data, elles n’ont pas toutes les mêmes besoins. Nous pouvons répartir ces usages suivant 4 axes : 1)accéder à toutes les données sans limites, rapidement, ce qui permet d’optimiser les processus opérationnels, 2)accélérer les prises de décisions, 3)utiliser les nouvelles et futures sources de données (capteurs, objets connectés, données issues des réseaux sociaux, de l’open data, etc…), 4)être capable d’offrir de nouveaux services et usages auprès des clients, des partenaires et/ou du grand public. Dans tous les cas de figure, une analyse de la valeur dans le contexte de l’Entreprise (en examinant ses processus opérationnels) est nécessaire pour orienter les projets. D’autre part, on s’est rendu compte que les entreprises s’intéressent aussi au Big Data pour réduire les coûts (démocratisation des technologies de grande base de données). 3. Passée la question du Pourquoi vient celle du Comment... Avez-vous des conseils à donner sur l’intégration du Big Data en entreprise ? Là encore, il faut se demander où se trouvent réellement les besoins et identifier les opportunités. Une analyse de la valeur est indispensable en entrée pour orienter les projets. Il me semble important que la réflexion soit menée par les métiers avec une implication de l’IT. Sur le plan technique, il est nécessaire qu’il y ait une anticipation de l’appropriation de ces nouvelles technologies (Hadoop, MPP, NoSQL, in Memory,…), pour garantir leur insertion dans le SI de l’Entreprise. Cette anticipation peut se traduire par des études ou développement de prototypes dans le contexte de l’Entreprise. Pourquoi ? Pour mesurer l’effort de transformation, éviter le choc « culturel » et sensibiliser les équipes techniques internes aux nouvelles solutions et méthodes possibles avec le Big Data. Utiliser les possibilités du Cloud Computing permet de faciliter ces approches (investissement, délais) et l’appropriation de ces nouvelles technologies.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 17 4. Quelles évolutions avez-vous pu noter en l’espace d’un an sur le front du Big Data ? On remarque d’abord que ce sont les entreprises qui nous sollicitent et non l’inverse, comme auparavant : cela prouve une véritable prise de conscience. Elles sont aidées en cela par l’apparition de concepts et marchés connexes, comme l’Open Data ou l’Internet des Objets, qui imposent progressivement la donnée au centre de l’activité … De façon générale, il y a une véritable curiosité sur le sujet, même si les entreprises ont l’impression de découvrir un nouveau monde avec le Big Data. C’est peut-être pour cette raison qu’elles semblent pour l’instant plus séduites par le discours sur la réduction des coûts et l’optimisation opérationnelle que sur la création de nouveaux usages et d’innovation.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 18 Interview de Pierre Delort, président de l’Association Nationale des DSI 1) Cette année, les conversations autour du Big Data ont beaucoup mentionné l’apport d’une nouvelle fonction dans l’entreprise, celle de Chief Data Officer. Comment définiriezvous ce personnage ? Quel est son rôle ? La principale fonction d’un Chief Data Officer est d’augmenter ce qu’on appelle les « data-informed decisions » ; en d’autres termes, le rôle d’un CDO est de faciliter l’accès aux données lors de la prise de décision. Là où certaines orientations stratégiques sont souvent prises par vision ou intuition, la création d’un poste de CDO permettra d’appuyer davantage les décisions sur des éléments objectifs, les données, traitées par des méthodes statistiques solides. Pour cela, le Chief Data Officer doit assumer une fonction transversale afin d’acquérir une excellente connaissance de l’entreprise, qu’il s’agisse de process, de métiers, d’enjeux business mais également du vocabulaire propre à chaque activité. Il est donc au cœur des différents sujets de l’entreprise et s’appuie sur une équipe d’analystes et d’informaticiens pour agréger cette information et la rendre accessible au niveau décisionnel. 2) En quoi est-il lié aux DSI ? Est-ce une émanation de la fonction de DSI ou bien est-il différent ? Et quelles sont les compétences supplémentaires qu’il doit développer ? Pour moi, il est assez naturel et légitime qu’en phase d’initialisation de la fonction de CDO, ce soit le DSI qui assure le leadership de cette mission. En effet, la fonction de DSI est transversale et caracté- risée par une proximité avec les équipes en charge des datawarehouses qui disposent des meilleures connaissances sur les données. A travers le DSI, on peut considérer que les éventuelles créations ou modifications apportées au business par les décisions prises seront rapidement intégrées au datawarehouse pour suivi et amélioration. Cela permettra de procéder en temps de cycle court, ce qui me semble important. Cependant, avec la maturité de cette fonction, il est probable que le Chief Data Officer migre vers les métiers opérationnels, directement en lien avec l’activité… Il faudra alors arbitrer en fonction d’une réelle globalité et d’un besoin de transversalité. Concernant les compétences supplémentaires à développer, en plus des compétences techniques, il est fondamental pour moi que le CDO présente une très forte connaissance des statistiques inductives. Mais il importe tout autant qu’il possède des qualités de pédagogie et de communication, afin de faciliter la compréhension des statisticiens par les décideurs et de transmettre les informations le plus clairement possible au cœur de l’appareil décisionnaire. Dernière chose : l’humilité et l’ouverture ! En effet, il lui faudra accepter que la décision se prenne également sur des éléments subjectifs, issus d’une « vision » davantage que d’une analyse statistique. Le chef d’entreprise a besoin d’être tourné vers l’avenir et les données ne sont qu’une restitution du passé… charge au CDO d’accepter cette limite ! 3) Les entreprises françaises ont-elles conscience de la nécessité de créer ce nouveau poste ? Où en est-on dans la mise en place de cette fonction ? Et qu’en pensent les DSI : sont-ils prêts ? Les entreprises françaises sont encore dans un stade de relative curiosité mais gardent une certaine méfiance : en effet, ce n’est pas dans la culture française de faire confiance à des approches trop statistiques, trop déterministes. Les anglo-saxons sont davantage pragmatiques et intègrent plus facilement les concepts de corrélations et d’inductions. Cependant, la prise de conscience se fait jour peu à peu en France et nous constatons au sein de l’Association Nationale des DSI que les discussions sont de plus en plus nombreuses autour de cette approche: les DSI ont compris qu’il leur fallait passer d’un support « process » hérité des ERP à un support « décision » orienté par la data. En pratique, ce sont les laboratoires de Recherche qui sont les plus en avance sur la question et qui seront certainement pionniers pour expérimenter une inflexion du rôle de DSI vers celui de CDO !Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 19 Interview de Mathieu Gras, Responsable Services Géolocalisés chez SFR La mise en place d’un service de publicité géolocalisée Présentation du projet Notre projet de publicité géolocalisée a été lancé il y a environ deux ans alors que nous cherchions à nous développer sur de nouvelles activités ; de nombreux annonceurs sont venus nous voir pour nous faire part de leur intérêt vis-à-vis du support mobile pour transmettre de l’information promotionnelle aux usagers. Certaines technologies d’analyse de données en temps réel (notamment géographiques) avaient atteint un stade de maturité qui nous permettait d’envisager des actions dans ce domaine. Concrètement, il s’agit de récupérer des informations de géolocalisation du porteur du téléphone et de lui transmettre des contenus publicitaires en fonction de sa situation géographique : par exemple, s’il entre dans un centre commercial, il sera particulièrement attentif à toute offre qui pourrait lui être faite venant d’un des distributeurs présents sur les lieux, l’avantage de notre solution étant qu’elle est compatible avec 100% des téléphones et ne nécessite pas le téléchargement d’une quelconque application. La régie publicitaire de SFR oriente les messages en temps réel en fonction des données de géolocalisation et selon des segmentations effectuées au préalable par un Ad Server. Bien entendu, toutes ces opérations sont menées avec l’accord de l’usager, qui signale par un «Opt-In» initial son consentement vis-à-vis de ce type de messages. Sur le plan technologique, les solutions que nous avons décidé d’utiliser proviennent de la société Intersec, éditeur français de solution innovantes et spécialiste de la gestion de données Big Data pour les Télecoms. Les premiers résultats sont réellement encourageants ; nous observons un fort intérêt commercial des annonceurs pour ce type de plateforme ! Vous avez parlé d’une équipe dédiée… vous travaillez donc exclusivement sur le Big data ? Vous n’êtes pas directement intégrés dans les équipes opérationnelles ? Non, et c’est une particularité qui nous a semblé fortement innovante et mobilisatrice : nous avons créé une équipe consacrée exclusivement à l’exploitation de la donnée. Notre but est double : améliorer notre capacité opérationnelle en traitant et en analysant les données internes, mais également développer de nouvelles activités externes : en effet, les données que nous récupérons en tant qu’opé- rateur représentent une forte valeur ajoutée, que nous pouvons exploiter. La technologie Big Data nous permet de voir cette donnée avec une dimension supplémentaire, la même donnée peut être exploitée totalement différemment par une Direction Marketing ou une Direction Commerciale … Notre force est d’avoir la vision globale sur cette donnée ; ainsi en ciblant précisément leur besoin nous pouvons la mettre en forme au format souhaité. Justement, à part la publicité géolocalisée, quels sont les autres projets que vous menez ? Actuellement, nous apportons notre soutien aux équipes opérationnelles sur la détection des fraudes ; notre analyse permet de faire ressortir des anomalies statistiques, ces données sont ensuite mises à disposition pour les équipes expertes qui peuvent confirmer ou infirmer des fraudes. Cette capacité d’analyse unique au sein de SFR nous permet de signaler ces anomalies aux différentes Directions et ainsi d’intervenir très rapidement pour réduire les pertes. Mais nous travaillons également sur des services statistiques comme par l’exemple l’information auprès des collectivités locales pour déterminer des taux d’affluence lors de festivals, événements culturels ou dans les transports en commun. C’est une information très précieuse pour eux ! Quant à nous, ce type d’initiatives nous permet de transformer peu à peu notre réseau d’un centre de coût en un centre de profit. C’est une tendance lourde qu’on observe d’ailleurs de plus en plus en Europe et à l’international. Les télécoms sont à l’avant-garde du Big Data dans ce domaine !Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 20 C. ARTICLES D’EXPERTISE Mouloud DEY, Directeur des Solutions et Marchés Emergents SAS France C’est dans un contexte économique, social et environnemental difficile que les Big Data s’octroient progressivement une légitimité auprès des décideurs des plus grandes instances internationales. Pendant qu’aux Etats-Unis l’administration Obama y alloue $200 millions pour catalyser les initiatives de recherche et développement, le gouvernement français inscrit les Big Data dans le cadre de ses investissements d’avenir consacrés au développement de la société numérique. Les entreprises ne sont pas en reste et, même si la plupart d’entre elles s’interrogent sur les meilleures approches, les Big Data sont désormais reconnues comme un levier important pour l’innovation, susceptible d’engendrer à la fois de nouveaux modèles économiques et d’importants gains de productivité. Ce n’est pas la taille qui compte, mais les relations Des études récentes montrent que les entreprises les plus performantes sont celles qui complètent l’intuition de leurs décideurs dans des processus métiers instrumentés par des solutions analytiques. En effet « Big Data » ne signifie nullement « Better Data » et, bien que ce soit la partie la plus visible du phénomène, ce n’est pas tant la taille des données qui compte mais leurs relations. La valeur additionnelle qu’on peut retirer des nouvelles formes de données (en particulier des données non structurées) vient essentiellement des perspectives nouvelles et des possibilités d’expérimentation résultant de leurs combinaisons à l’infini avec les données plus traditionnelles de l’entreprise. Nous sommes au commencement d’une ère où toutes les activités professionnelles et personnelles des individus deviennent numériques mais seules les entreprises qui sauront adapter leurs systèmes d’informations à ces nouvelles perspectives pourront réellement en capter la valeur. Big data, big challenges De ce fait, les directions des systèmes d’information (DSI) ont un rôle de levier à jouer dans la création de cette valeur et de nombreux défis à relever. Le premier défi relève de la gouvernance des données. Il s’agit notamment d’éviter de se laisser déborder par des initiatives isolées de directions métiers tentées par les sirènes associées aux nouvelles sources de données (médias et réseaux sociaux, géolocalisation, open data,…) sans se soucier du volume, de la sécurité, de la qualité, du degré de fraîcheur et de pertinence de ces nouvelles formes de données. Le second défi relève de la nécessaire adaptation des services et des infrastructures techniques aux nouveaux besoins des directions métiers. La relative perméabilité entre usages professionnels et usages personnels a consacré le concept « Bring Your Own Device » (BYOD) déjà perçu comme une difficulté dans un certain nombre d’entreprises. L’usage devenu presque banal du Cloud Computing pourrait consacrer la généralisation du « Bring Your Own Cloud», voire du « Bring Your Own Data » pour des utilisateurs métiers progressivement habitués, par leurs usages personnels, à consommer des services élastiques dans le nuage plus que des applications. Data as a Service En effet, s’il est aisé de maîtriser les besoins en infrastructure des applications décisionnelles traditionnelles très automatisées, il est aujourd’hui plus difficile d’anticiper les charges et capacités associées aux Big Data du fait des aspects fortement expérimentaux de ce genre de projet. Les DSI devront proposer l’accès et l’analyse de ces données sous forme de services agiles, suffisamment séparées des applications décisionnelles actuelles pour ne pas fragiliser les infrastructures existantes mais néanmoins assez proches pour bénéficier également de la richesse des informations parfois dormantes accumulées depuis de nombreuses années dans les entrepôts de données. Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 21 Steven Totman, Responsable du pôle intégration de données chez Syncsort Big Data : le point de rupture. Qu’entend-on par Big Data ? Pourquoi ces données importent tant aux entreprises ? Steven Totman, Responsable du pôle intégration de données chez Syncsort, nous éclaire sur le pourquoi du comment. Des cartes perforées aux pétaoctets – retour sur l’incroyable croissance des volumes de données À quel moment les données sont-elles devenues des « Big Data » ? Cette question a fait l’objet d’un débat passionnant lors d’un récent dîner entre collègues. Le consensus s’est alors établi sur les années 70, au temps où le stockage des données s’effectuait encore sur des cartes perforées de 880 octets chacune. À cette époque, un problème de « Big Data » se traduisait essentiellement par l’achat d’une plus grande armoire de stockage et par les montagnes de confettis engendrées par la perforation des cartes. Dans les années 80, avec l’apparition des disquettes 3,5 pouces d’une capacité phénoménale de 1,44 Mo, les problèmes de « Big Data » prirent une toute autre tournure. Sachant qu’il en fallait pas moins de 20 pour stocker un jeu comme Monkey Island ou Wing Commander, l’équilibre précaire des piles de disquettes constituait en soi un problème de « Big Data ». Notons qu’à la même époque, IBM révolutionna le stockage en entreprise avec son système 3380 d’une capacité exceptionnelle de 2,5 Go. Or, nous étions encore bien loin des 23 pétaoctets de données nouvelles traitées quotidiennement par Google, comme l’un de nous le faisait si judicieusement remarquer ! Mais alors à quel moment nos infrastructures informatiques ont-elles commencé à ployer sous le poids des « Big Data » ? Un secret de Polichinelle Pour tout dire, cela fait un bon moment que les infrastructures ont atteint leur point de rupture. De fait, il n’est pas rare de voir certains clients effrayés par un simple téraoctet de données. Cette discussion avec mes collègues me rappela également une conversation que j’ai eue dernièrement avec le DSI d’un opérateur télécoms. Ce dernier m’expliquait que l’ETL (processus qui consiste à effectuer les opérations de transformation dans la base de données), l’obligeait à solliciter un financement de 40 % de nœuds supplémentaires (à 500 000 $ le nœud) sur la base de données de son datawarehouse, et ce uniquement pour faire face à une croissance annuelle de 10 % des volumes de données. Cependant, à la question de son DAF sur les retombées de cet investissement de 2 millions de dollars, le DSI n’avait d’autre argument à avancer que le maintien du statu quo : mêmes rapports, mêmes délais, aucune amélioration. On comprend alors son manque d’enthousiasme à l’idée de présenter son « dossier » à son DAF. Pendant des années, la saturation des infrastructures informatiques (en particulier les outils ETL) sous l’effet des Big Data est restée un secret de Polichinelle. Ainsi, ce n’est que maintenant que l’on observe une véritable prise de conscience collective et l’engouement pour de nouvelles technologies comme Hadoop et des solutions ETL performantes. Enfin, notons qu’à mon sens, la notion de « Big Data » se justifie aussi bien pour une équipe de cinq personnes devant gérer 10 téraoctets de données que pour une équipe de 500 personnes confrontée à un pétaoctet. Des solutions transparentes Votre entreprise rassemble des données provenant de sources multiples ? L’ajout d’une nouvelle source de données ou la création d’un nouveau rapport demande plus de trois mois de travail à votre département informatique ? Si oui, il est fort probable que vous soyez confronté à un problème de « Big Data ». Mais rassurez-vous, depuis la disparition des cartes perforées dans les années 70, il est possible d’intégrer en toute transparence des logiciels qui accélèrent le traitement des données aux environnements existants ; ceux-ci permettent donc de mettre un terme aux problèmes de Big Data. En conclusion, si « Big Data » est le terme en vogue pour traduire un problème de longue date, cela fait des années que nous apportons la solution aux problèmes de « Big Data ».Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 22 Sanjay Poonen, Président et Corporate Officer, Technology & Innovation, directeur de la division mobile de SAP Internet des objets : quand la mobilité rencontre le Big Data dans le Cloud (mot compte triple !) Pour Sanjay Poonen, à la tête de la division mobilité de SAP, l’Internet des objets apparaît comme le prolongement des terminaux mobiles, multipliant le nombre d’informations que l’entreprise doit géreren temps réel. Mais ouvrant la porte à de nouveaux scénarios métier très prometteurs.Travailler pour un groupe international suppose de se plier à quelques obligations, comme les conférences téléphoniques avec l’Europe démarrant pour moi à 5 heures du matin. Mais il est encore plus frustrant de se réveiller à 4 heures 30 pour découvrir que ladite conférence a été annulée pendant la nuit. Que se passerait-il si mon calendrier était en mesure de dialoguer avec mon réveil via Internet ? L’annulation de la conférence aurait reprogrammé mon réveil pour décaler l’heure de la sonnerie, me permettant de dormir un peu plus. Maintenant imaginez à quoi ressemblerait ma matinée si tous mes appareils étaient en mesure de se synchroniser. L’annulation du rendez-vous reprogrammerait alors non seulement mon réveil mais aussi ma machine à café. En complément, mon terminal mobile pourrait recevoir des alertes de ma voiture quand le niveau d’essence du réservoir est trop bas. Ou des informations sur les retards des trains que j’emprunte pour me rendre au travail. Ou encore des alertes quand un embouteillage se forme sur la route m’amenant à la gare. Autant de données qui pourraient venir, via Internet, nourrir mon réveil (et ma machine à café par voie de conséquence) afin de lui permettre d’adapter l’heure de la sonnerie en fonction des événements en temps réel. Poussons plus loin la réflexion : sur mon trajet vers la gare, mon téléphone reçoit une alerte de mon réfrigérateur signalant que je vais être à court de lait et qu’un magasin effectuant en ce moment des promotions sur le lait (et vendant également mon yaourt favori) se trouve sur ma route. Via la géolocalisation, je suis dirigé directement vers le rayon où sont stockés ces produits, tandis qu’un coupon personnalisé de réduction m’offrant un rabais de 50 % sur les yaourts arrive directement sur mon terminal mobile. M2M : la fonction « sociale » des objets Voici un autre scénario. Quand ma famille se rend à Tahoe (dans la Sierra Nevada, aux Etats-Unis, NDLR) pour faire du ski, ma femme et moi sommes en désaccord concernant le maintien ou non du chauffage dans notre domicile. Elle voudrait le conserver en marche pour le confort des enfants quand nous rentrerons ; je préfère de mon côté économiser l’énergie. La bonne réponse consisterait à baisser le thermostat lors de notre départ mais, sur la route du retour, à le reprogrammer via un terminal mobile. A condition bien sûr que ce thermostat soit connecté à Internet. Tous ces usages peuvent sembler sortir tout droit de « Retour vers le futur », mais la plupart des scénarios que je viens de décrire sont aujourd’hui envisageables via ce qu’on appelle l’Internet des objets (ou IoT pour Internet of Things) et le partage intelligent d’informations avec le Machine-toMachine (M2M). Avec les avancées de la RFID, la miniaturisation et les progrès des capacités d’analyse, l’Internet des objets devient de plus en plus tangible. Il faut penser aux communications M2M comme à une fonction de collaboration sociale entre objets ou entre des objets et des humains.Synthèse du marché Big Data www.bigdataparis.com Un évènement organisé par : 23 Gérer les machines comme des terminaux mobiles Ces technologies sont aujourd’hui entrées dans leur phase de maturation. Qu’il s’agisse de thermostats intelligents fournis par une start-up comme Nest Labs ou par Honeywell. Ou qu’il s’agisse de ce qu’on appelle le « precision retailing » (consistant pour un distributeur à entrer dans une relation personnalisée avec chaque consommateur), où des innovations dans l’analyse des Big Data couplées à la mobilité et au GPS permettent d’offrir aux consommateurs des promotions ciblées directement sur leur terminal mobile. Un des clients de SAP dans l’automobile m’a un jour expliqué qu’il y avait plus d’électronique dans une voiture moderne que dans la première navette spatiale. J’ai aussi appris que vous vous trompez du tout au tout si vous pensez que les tracteurs d’aujourd’hui sont des machines sans intelligence ; ils récupèrent de nombreux flux d’informations, à l’image d’un Airbus 380, afin que les agriculteurs puissent optimiser leur utilisation de la machine, programmer les périodes de maintenance de leur tracteur et consacrer plus de temps à leur production de denrées alimentaires. Les industriels de la grande consommation travaillent eux à des distributeurs automatiques intelligents permettant d’exploiter des données sur l’usage de leurs produits ou la météo du jour afin d’optimiser les fréquences de réapprovisionnement. Si vous savez que la journée va être chaude par exemple, être capable d’amener vos camions suffisamment rapidement sur le terrain, afin de réapprovisionner les distributeurs en boissons rafraîchissantes, peut être le facteur clef permettant à une entreprise de réaliser un trimestre historique. Chez SAP, nous sommes en train d’étudier toutes ces machines, qu’elles soient connectées via un câble ou sans fil, et les considérons comme des extensions des terminaux mobiles : elles doivent toutes être sécurisées, gérées et en mesure de faire fonctionner des applications un peu à la manière d’un téléphone mobile. Gérer cette évolution vers des communications M2M intelligentes requiert une architecture étendue et des solutions technologiques sur lesquelles nous travaillons avec nos partenaires. Mais au cœur même du M2M se trouvent trois éléments clefs : la mobilité, le Big Data et le Cloud. Et quand ces trois composantes sont réunies comme c’est le cas dans l’Internet des objets ou dans le M2M, c’est un peu comme obtenir un mot compte-triple au Scrabble !DÉCOUVREZ LA PROCHAINE RÉVOLUTION INFORMATIQUE ET MANAGÉRIALE MONDIALE Inscription sur www.bigdataparis.com BIG DATA PARIS CONGRÈS EXPO, les 3 et 4 avril 2013 CNIT Paris La Défense 2e édition Un évènement organisé par Flashez moi ! Introduction Big Data SOMMAIRE Rédacteurs : Réf.: QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE SH. Lazare / F. Barthélemy AXIO_BD_V1Data & Information System Présentation AXIODIS Avertissement Ce document constitue le support d’une présentation orale. Privé des commentaires l’accompagnant, il peut donner lieu à des interprétations erronées. 4 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe Historique & contexte L’évolution du SI amène les entreprises à traiter de plus en plus de données issues de sources toujours plus variées . Les prévisions de taux de croissance des volumes de données traitées dépassent les limites des technologies traditionnelles. On parle de pétaoctet (billiard d’octets) voir de zettaoctet (trilliard d’octets)  Quelle solution pour exploiter ces données ? 5 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe Marché du Big Data6 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe Big Data : exploration de très vastes ensembles de données pour obtenir des renseignements utilisables Le terme Big Data se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. En mixant intégration de stockage, analyse prédictive et applications, le Big Data permet de gagner en temps, en efficacité et en qualité dans l’interprétation de données. Les objectifs de ces solutions d’intégration et de traitements des données sont de traiter un volume très important de données aussi bien structurées que non structurées, se trouvant sur des terminaux variés (PC, smartphones, tablettes, objets communicants...), produites ou non en temps réel depuis n'importe quelle zone géographique dans le monde.  le Big Data sera un outil majeur à la fois pour la prise de décisions et l'optimisation de la compétitivité au sein des entreprises. Définition7 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe Le Big Data se caractérise par la problématique des 3V :  Vélocité : la vitesse à laquelle les données sont traitées simultanément  Variété : l'origine variée des sources de données qui arrivent non structurées (formats, codes, langages différents...)  Volume : le poids total des données collectées Vous êtes confronté à une problématique de gestion de données correspondant à ces trois critères ou plus simplement vous ne savez plus gérer ces données avec les architectures traditionnelles, alors vous avez une problématique de type Big Data. Il faut en effet penser à collecter, stocker puis analyser les données d’une façon qui ne peut plus être traitée par une approche traditionnelle pour permettre de satisfaire au 4ème V  la Valorisation des données. Problématique8 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe Est-ce une innovation? .  Bases de données d'analyse massivement parallèle (MPP). Ces bases de données conformes SQL sont conçues pour répartir le traitement des données sur plusieurs machines  Modèle Map-Reduce, Hadoop, et autres approches NoSQL. Ces approches, appelées collectivement "NoSQL" ou "Not Only SQL" permettent d'accéder aux données via des langages de programmation sans utiliser les interfaces basées sur SQL et permettent de répartir les données sur plusieurs machines distinctes. L’explosion des volumes des données nécessite une innovation en terme de :  Accélération matérielle Abandon des disques durs au profit des mémoires dynamiques DRAM ou flash  meilleur bénéfice des processeurs multicoeurs.9 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Annexe  Datavizualisation : capacité à représenter des données de façon visuelle (graphiques, diagrammes, cartographies, infographies). Plus largement c’est la capacité à naviguer rapidement et simplement dans les données.  Not Only SQL / Bases sans schéma : catégorie de systèmes de gestion de base de données (SGBD) qui n'est plus fondée sur l'architecture classique des bases relationnelles. L'unité logique n'y est plus la table, et les données ne sont en général pas manipulées avec SQL.  Map Reduce : modèle de programmation permettant de manipuler de grandes quantités de données non obligatoirement structurées.  Hadoop / Cassandra / MongoDB : framework de développement d’application utilisant le modèle Map Reduce.  Data Flow / Pig / Hive ..: logiciel et langage d’analyse de données permettant d’utiliser Hadoop. VocabulaireEnjeux stratégiques 10 Qu'est-ce que le Big Data? Big Data et RH Annexe Enjeux technologiques La compréhension de votre environnement passe la par la valorisation des toutes les données accessibles pour les raisons suivantes :  Stratégiques (Créer un avantage concurrentiel, Contrôler son image)  Organisationnelles (Piloter en temps réel, Impliquer les collaborateurs) l’environnement actuel toujours plus d’informations exploitables nécessite une nouvelle approche de l’analyse des données . Pourquoi faire du Big Data?Enjeux stratégiques 11 Qu'est-ce que le Big Data? Big Data et RH Annexe Enjeux technologiques  De nombreux secteurs sont concernés :  (e-) (m-) Commerce & CRM  Santé  Défense, renseignement (e.g. cybersécurité, biométrie)  Banque/Finance  Transports ”intelligents”  Et concerne différentes activités :  Moteurs de recherche, moteurs de recommandation  Maintenance prédictive  Marketing viral à travers les réseaux sociaux  Détection des fraudes  Médecine individualisée  Publicité en ligne (retargeting) Big Data : Secteurs & activitésEnjeux stratégiques 12 Qu'est-ce que le Big Data? Big Data et RH Annexe Enjeux technologiques L’émergence de nouveaux métiers capables de gérer vos données d’intérêt et d’en extraire les bonnes informations :  Architecte Big Data:  Connaissance infrastructures et logiciels Big Data  Connaissances en modélisations  Data Analyst:  Connaissance des logiciels & langages Big Data  Connaissance en modélisations  Data Scientist:  Connaissance des logiciels & langages Big Data  Connaissance en modélisations  Connaissances métiers  Chief-Data-Officer (Directeur des données)  Responsable des données et de leur gouvernance (collecte, traitement, sauvegarde, accès)  Responsable de l’analyse des données et aide à la décision  Mettre en œuvre des équipes agiles & transverses Impacts du Big Data dans l‘entreprise13 Qu'est-ce que le Big Data? Enjeux technologiques Big Data et RH Enjeux stratégiques Annexe Source de données hétérogènes Architecture Big Data Intégration des données Stockage et traitement de données Consommation / valorisation des données Analyse des données Faire évoluer votre SI traditionnel vers un SI BigData Sources hétérogènes14 Qu'est-ce que le Big Data? Enjeux technologiques Big Data et RH Enjeux stratégiques Annexe Stockage des données Les approches NoSQL (data in memory) sont particulièrement importantes pour les tâches d'analyse qui ne peuvent pas être codées efficacement dans SQL (itérations multiples sur les données, analyse de textes…) Map-Reduce et Hadoop sont les « outils » NoSQL les plus répandus pour mettre à disposition les données non structurée au niveau des applications HDFS15 Qu'est-ce que le Big Data? Enjeux technologiques Big Data et RH Enjeux stratégiques Annexe Les utilisateurs / décideurs doivent pouvoir visualiser et comprendre les résultats. Le « Reporting version Big Data » doit être conçu pour pouvoir trouver "une aiguille dans une botte de foin "  on parle de datavizualisation. Data visualisation Les présentations peuvent être simples, dynamiques… il faut choisir ce qu’on veut montrer. Un graphique n’est qu’une présentation de la réalité…16 Qu'est-ce que le Big Data? Enjeux technologiques Big Data et RH Enjeux stratégiques Annexe Sécurité et supervision Accès & sécurité Provenance et fiabilité des données Programmes de traitements, contrôles d’accès Archivage, entrepôts de données Il est nécessaire d’inclure dans votre architecture des solutions de supervision à même d’auditer en permanence votre environnement.  Garantir l’anonymisation des données la sécurité des traitements  Se prémunir des risques d’atteintes à la vie privée  Respecter les contraintes légales et réglementaires évolutifs. Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH 17 Annexe Repenser les fonctions RH Exploiter et croiser plus de sources de données H@rp GPEC Fidélisation des employés Ciblage des candidats / impact formation Corrélation de la performance et la structure d’une unité Explication de l’absentéisme / santé Résolutions de conflits Satisfaction au travail Le Big Data apporte une nouvelle dimension aux RH Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH 18 Annexe CEB indique dans son étude de 2012 que 77 % des professionnels RH ne savent pas évaluer l’impact du potentiel des salariés de leur entreprise sur ses résultats financiers. Le gain de productivité dû au Big Data pour les services RH s’élèverait à environ 70% et permettrait ainsi de traiter plus de sujets pour une meilleure connaissance des collaborateurs. De nouvelles ambitions Sécuriser Valoriser AnticiperQu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH 19 Annexe  Les premiers acteurs RH à avoir utilisé le Big Data sont les sous-traitants RH souhaitant améliorer le recrutement:  Démultiplication les sources d’informations :  Paye par action/motif sur une historique complet par collaborateur  Analyse des demandes de recrutement trop récurrente sur certains postes  Analyse des CV et banques externes (yc monster…)  Modélisation du parcours de recrutement permettant d’éviter les “erreurs” de recrutement.  En complement le Big Data leur a permis de développer :  une expertise sur les données collectées pour répondre à leurs clients  Une offre de services et de conseil à forte valeur ajoutée complémentaire à la sous-traitance L’exemple du recrutementQu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH 20 Annexe  Prévoir l’évolution des métiers de l’entreprise et des effectifs en croisant des données concernant tout type d’information :  La stratégie de l’entreprise => secteurs, marchés, technologies  Les compétences présentes aujourd’hui  Les formations internes et externes => durées, coûts, …  Les coûts RH => recrutements, salaires, …  Le Big Data leur a permis de concevoir un plan de maintient des effectifs et de prévision des compétences nécessaire dans le futurs  Prévoir les campagnes de recrutement, de formation  Accompagner les salariés vers de nouveaux challenges  Chiffrer ces évolutions L’exemple de la gestion des compétencesAnnexe 21 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH Autour du Big Data, on trouve également les termes :  Open Data : solution visant à rendre accessibles à tous des bases de données, s'appuyant sur le participatif et la transparence.  Little Data: parfois utilisé pour permettre aux entreprises qui n’auraient pas les 3V pour utiliser les technologies Big Data  Smart Data: Extraire parmi l’ensemble des données du Big Data les données “intelligentes” permettant de piloter vos activités… nouvelle expression synonyme de Business Intelligence. Attention à ne pas être confronté au final au Bad Data! Définition autres notionsAnnexe 22 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH  Quelles variables expliquent la performance d’une unité d’affaire ou d’une équipe ?  Quelles variables expliquent les statistiques obtenues en santé, en sécurité, en absentéisme, les plaintes clients, la fidélisation des clients, les ventes ?  Quels profils et quelles compétences prédisent le mieux la fidélisation d’employés et la performance des employés et des candidats?  Quels managers génèrent les meilleurs résultats en terme de civilité organisationnelle, de résolutions de conflits, de règlement de plaintes, de satisfaction au travail, de promotion ou de départ?  Quelle initiative de formation a eu le meilleur impact ?  Quelles statistiques influencent le plus la profitabilité et la croissance de l’entreprise ? Thématiques RHAnnexe 23 Qu'est-ce que le Big Data? Enjeux technologiques Enjeux stratégiques Big Data et RH  http://www.forbes.com/sites/gilpress/2013/05/09/a-veryshort-history-of-big-data/  http://www.martinhilbert.net/WorldInfoCapacityPPT.ht ml  Cabinets conseils ‘Big Data’:  IDATE  DATA&DATA Consulting  Enquête IBM ‘Big Data ’ 2012 Références bibliographiquesMERCI www.axiodis.com EARN A CERTIFICATE OF COMPLETION AND CEUS Participants who successfully complete all course requirements are eligible to receive a Certificate of Completion and 2.0 CEUs. COURSE VISION MIT wants to help solve the world’s biggest and most important problems such as Big Data. Tackling the Challenges of Big Data is an online course developed by the faculty of the MIT Computer Science and Artificial Intelligence Laboratory in collaboration with MIT Professional Education, and edX. COURSE OVERVIEW The course is held over six weeks and will provide the following: > Five modules covering 18 topic areas with 20 hours of video > Five assessments to reinforce key learning concepts of each module > Case studies > Discussion Forums for participants to discuss thought provoking questions in medicine, social media, finance, and transportation posed by the MIT faculty teaching the course; share, engage, and ideate with other participants > Community Wiki for sharing additional resources, suggested readings, and related links Participants will also take away: > Course materials from all presentations > 90 day access to the archived course (includes videos, discussion boards, content, and Wiki) CUSTOM PROGRAMS We can also offer this online course for large groups of employees from the same organization. Please contact MIT Professional Education (customprograms@ mit.edu) to discuss your training and education needs. COURSE DESCRIPTION This Online X course will survey state-of-the-art topics in Big Data, looking at data collection (smartphones, sensors, the Web), data storage and processing (scalable relational databases, Hadoop, Spark, etc.), extracting structured data from unstructured data, systems issues (exploiting multicore, security), analytics (machine learning, data compression, efficient algorithms), visualization, and a range of applications. Each module will introduce broad concepts as well as provide the most recent developments in research. The course will be taught by a team of world experts in each of these areas from the MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). With backgrounds in data, programming finance, multicore technology, database systems, robotics, transportation, hardware, and operating systems, each MIT Tackling the Challenges of Big Data professor brings their own unique experience and expertise to the course. MIT PROFESSIONAL EDUCATION For 65 years MIT Professional Education has been providing a gateway to renowned MIT research, knowledge, and expertise for those engaged in science and technology worldwide, through advanced education courses designed for working professionals. COMPUTER SCIENCE AND ARTIFICIAL INTELLIGENCE LABORATORY (CSAIL) The Computer Science and Artificial Intelligence Laboratory is the largest research laboratory at MIT and one of the world’s most important centers of information technology research. edX Open edX is the opensource educational platform developed by edX and its open source partners, including leading institutions. It powers the edX.org destination site and research initiatives. TACKLING THE CHALLENGES OF BIG DATA COURSE TITLE: Tackling the Challenges of Big Data COURSE DATES: November 4th - December 16th 2014 and February 3rd - March 17th 2015 FEE: $545 LOCATION: Online CEUS: 2.0 CONTACT: m onlinex-registration@mit.edu COURSE INFORMATION ONLINE: https://mitprofessionalx.edx.org REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORGKEY BENEFITS > Position yourself in your organization as a vital subject matter expert regarding major technologies and applications in your industry that are driving the Big Data revolution, and position your company to propel forward and stay competitive > Engage confidently with management on opportunities and Big Data challenges faced by your industry; analyze emerging technologies and how those technologies can be applied effectively to address real business problems while unlocking the value of data and its potential use for company growth > Learn and assess the issues of scalability – make your work more productive - to save time and money > Gain valuable insights from world-renowned MIT Faculty and access to CSAIL research that will differentiate how you and your company break down Big Data to save time and money, while making work more efficient > Convenient, flexible schedule with access 24 hours a day > MIT Professional Education Alumni Benefits: After completing the course, participants will become alumni of MIT Professional Education and will receive: > Exclusive discounts on all future Short Courses and Online X Courses > Access to our restricted alumni group on LinkedIn, and more WHO SHOULD PARTICIPATE? Prerequisite(s): This course is designed to be suitable for anyone with a bachelor’s level education in computer science. Tackling the Challenges of Big Data is designed to be valuable to both individuals and companies because it provides a platform for discussion from numerous technical perspectives. The concepts delivered through this course can spark idea generation among team members, and the knowledge gained can be applied to their company’s approach to Big Data problems and shape the way business operates today. The application of the course is broad and can apply to both early career professionals as well as senior technical managers. Participants will benefit the most from the concepts taught in this course if they have at least three years of work experience. Participants may include: > Engineers who need to understand the new Big Data technologies and concepts to apply in their work > Technical managers who want to familiarize themselves with these emerging technologies > Entrepreneurs who would like to gain perspective on trends and future capabilities of Big Data technology At CSAIL, we think of Big Data as a big opportunity to develop the next generation of technologies to store, manage, analyze, share, and understand the huge quantities of data we are now collecting. Based on interactions with our industry partners, we’ve gained a unique perspective on the issues posed by large amounts of complex, digital data. SAM MADDEN | Director, Big Data Initiative, MIT Computer Science and Artificial Intelligence Laboratory Professor, Electrical Engineering and Computer Science “ “ LEARNING OBJECTIVES Participants will learn the state-of-the-art in Big Data. The course aims to reduce the time from research to industry dissemination and expose participants to some of the most recent ideas and techniques in Big Data. After taking this course, participants will: > Distinguish what is Big Data (volume, velocity, variety), and learn where it comes from, and what are the key challenges > Determine how and where Big Data challenges arise in a number of domains, including social media, transportation, finance, and medicine > Investigate multicore challenges and how to engineer around them > Explore the relational model, SQL, and capabilities of new relational systems in terms of scalability and performance > Understand the capabilities of NoSQL systems, their capabilities and pitfalls, and how the NewSQL movement addresses these issues > Learn how to maximize the MapReduce programming model: What are its benefits, how it compares to relational systems, and new developments that improve its performance and robustness > Learn why building secure Big Data systems is so hard and survey recent techniques that help; including learning direct processing on encrypted data, information flow control, auditing, and replay > Discover user interfaces for Big Data and what makes building them difficult TACKLING THE CHALLENGES OF BIG DATA REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORGEARN A CERTIFICATE OF COMPLETION Upon successful completion of the course and all assessments a Certificate of Completion will be awarded by MIT Professional Education. To earn a Certificate of Completion in this course, participants should watch all the videos, and complete all assessments by the course end date with an average of 80 percent success rate. Note: On the right, this is a Sample Certificate of Completion MODULES, TOPICS, AND FACULTY Module One: Introduction and Use Cases The introductory module aims to give a broad survey of Big Data challenges and opportunities and highlights applications as case studies. > Introduction: Big Data Challenges (Sam Madden) > Case Study: Transportation (Daniela Rus) > Case Study: Visualizing Twitter (Sam Madden) Module Two: Big Data Collection The data capture module surveys approaches to data collection, cleaning, and integration. > Data Cleaning and Integration (Mike Stonebraker) > Hosted Data Platforms and the Cloud (Matei Zaharia) Module Three: Big Data Storage The module on Big Data storage describes modern approaches to databases and computing platforms. > Modern Databases (Mike Stonebraker) > Distributed Computing Platforms (Matei Zaharia) > NoSQL, NewSQL (Sam Madden) Module Four: Big Data Systems The systems module discusses solutions to creating and deploying working Big Data systems and applications. > Multicore Scalability (Nickolai Zeldovich) > Security (Nickolai Zeldovich) > User Interfaces for Data (David Karger) Module Five: Big Data Analytics The analytics module covers state-of-the-art algorithms for very large data sets and streaming computation. > Machine Learning Tools (Tommi Jaakkola) > Fast Algorithms I (Ronitt Rubinfeld) > Fast Algorithms II (Piotr Indyk) > Data Compression (Daniela Rus) > Case Study: Information Summarization (Regina Barzilay) > Applications: Medicine (John Guttag) > Applications: Finance (Andrew Lo) Note: Schedule and faculty are subject to change without notice. Thanks to our dedication to developing the technologies of the future, conducting fundamental, long-term research in computer science and information technology, solving significant societal problems, and inspiring the future workforce of innovators and big thinkers, we can provide a one-of-a-kind learning experience for participants looking to learn about the tools and skills they need to solve their Big Data problems. DANIELA RUS | Director, MIT Computer Science and Artificial Intelligence Laboratory Professor, Electrical Engineering and Computer Science “ TACKLING THE CHALLENGES OF BIG DATA REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORGTACKLING THE CHALLENGES OF BIG DATA FACULTY CO-DIRECTORS DANIELA RUS | Professor, Electrical Engineering and Computer Science Rus is Professor of Electrical Engineering and Computer Science and Director of the Computer Science and Artificial Intelligence Laboratory (CSAIL) at MIT. Rus’ research interests include distributed robotics, mobile computing, and programmable matter. At CSAIL, she has led numerous groundbreaking research projects in the areas of transportation, security, environmental modeling and monitoring, underwater exploration, and agriculture. Her research group, the Distributed Robotics Lab, has developed modular and self-reconfiguring robots, systems of self-organizing robots, networks of robots and sensors for first responders, mobile sensor networks, techniques for cooperative underwater robotics, and new technology for desktop robotics. They have built robots that can tend a garden, bake cookies from scratch, cut birthday cake, fly in swarms without human aid to perform surveillance functions, and dance with humans. SAM MADDEN | Professor, Electrical Engineering and Computer Science Madden is a computer scientist specializing in database management systems. He is the faculty director of MIT’s Big Data Initiative at CSAIL and co-director of the Intel Science and Technology Center (ISTC) in Big Data at CSAIL. Recent projects include CarTel, a distributed wireless platform that monitors traffic and onboard diagnostic conditions in order to generate road surface reports, and Relational Cloud, a project investigating research issues in building a database as a service. In 2005, Madden was named one of Technology Review magazine’s “Top 35 Under 35.” He is also cofounder of Vertica (acquired by HP). ADDITIONAL FACULTY INSTRUCTORS Regina Barzilay Associate Professor Electrical Engineering and Computer Science Andrew Lo Professor MIT Sloan School of Management John Guttag Professor Electrical Engineering and Computer Science Ronitt Rubinfeld Professor Electrical Engineering and Computer Science Piotr Indyk Professor Electrical Engineering and Computer Science Michael Stonebraker Adjunct Professor Electrical Engineering and Computer Science Tommi Jaakkola Professor Electrical Engineering and Computer Science Matei Zaharia Assistant Professor Electrical Engineering and Computer Science David Karger Professor Electrical Engineering and Computer Science Nickolai Zeldovich Associate Professor Electrical Engineering and Computer Science REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORG“This course was an eye-opener for me. It helped me understand what Big Data actually is and what it is not. It also helped me realize that at the core of Big Data there are two important technologies: distributed storage & processing, and machine learning algorithms. Because of this course, I am now focusing on machine learning algorithms.” Sunny Shah, Consultant, Robert Bosch, INDIA “This course provided a comprehensive overview of what Big Data really represents, and how the analysis of large data sources may improve operating efficiencies, result in new business opportunities, and improve profit margins. This knowledge will allow me to lead efforts to utilize resources more efficiently.” Norman Yale, Professional Technical Architect, AT&T Corporation, UNITED STATES “I learned the latest technologies and financial models from both the course content and the discussion forum where I communicated with participants from across the continents. I could apply the knowledge I gained from this course to my projects right away.” Satoshi Hashimoto, Account Manager, Coca-Cola Business Services Company, Ltd., JAPAN “The course was a great survey of topics directly relevant to challenges we face daily, and served as a fantastic launching point for further learning.” Jairo Lozano, Chief Implementation and Production Director, Senseta, COLOMBIA “MIT offers up a very relevant course that exposes the myths, challenges, and right approaches to solving Big Data problems.” Sanjeev Katariya, Director of Engineering, Microsoft Corporation, UNITED STATES “The course improved my understanding of how Big Data can boost a company’s performance. As a management consultant in an IT firm, I’m now far better positioned to help my clients understand how to leverage Big Data to their benefit.” Felipe A. Bustos, Business Manager, Everis Business Consulting, CHILE “The course material/lectures were very useful, and covered a wide array of related topics to explore. I enjoyed doing the course and found the course material/lectures way beyond my expectation in a positive way.” Srinivas Veereshwara, Technical Leader Leader, Cisco Systems Inc., UNITED STATES “Participants provided so many valuable resources throughout the class. Their comments, knowledge, and contributions were extraordinary. I connected with some of them offline to exchange practical experiences about various methods and software. We continue to do so, via our FB group page and LinkedIn Group.” Alina Tousain, Senior Management Consultant, Plante Moran, UNITED STATES “This course helped me to obtain a better and wider vision of the issues related to the world of Big Data. Now, thanks to this acquired knowledge, I have a whole new perspective on the steps that should be applied to Big Data projects, and I can make better decisions in all my business tasks.” Adrià López, Project Manager, e-laCaixa, SPAIN PARTICIPANTS’ COMMENTS TACKLING THE CHALLENGES OF BIG DATA REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORGPARTICIPANTS’ COMMENTS “The course provides an end-to-end view of what disciplines and specialties are involved in Big Data solutions, and stimulates participants to explore the most recent research on the subject.” Alexandre Lima, Technical Delivery Manager, Hewlett Packard, BRAZIL “As a CTO, I really appreciated being brought up to speed on the many aspects of a fast-moving tech area. The in-depth discussions of the typical use cases, differentiators, and pros & cons of each technology were very valuable and more objective and insightful than all the buzzy, best-foot-forward marketing hype that seems to surround every product.” Mark Paquette, CTO, thedatabank, inc., UNITED STATES “The MIT course on Big Data has proven to be a very complete course. It offers not only the opportunity to delve into the different components of the Big Data ecosystem, but also to gain significant insights through exchanges with fellow students. A must do!” Jurgen Jannssens, Senior Consultant, TETRADE Consulting, BELGIUM “I left the course with a big toolbox to handle data strategies which have made a huge impact on our small startup company. The knowledge I gained from this course has saved us hundreds of hours of work.” Tommy Otzen, CEO, Networker.net, DENMARK “I have taken many technical courses, and this course has given me a much broader view of the possibilities for projects with Big Data.” Cesar Siqueira, Advisory IT Specialist, IBM of Brazil, BRAZIL “The course takes you through the vastness of Big Data technologies, processes, algorithms, and architectural approaches and provides you with the building blocks of a Big Data strategy for your project/company. The greatest professors of MIT join their forces in order to demystify what Big Data really is, from advanced GPU clusters to data cleaning processes. The course is bold, straight to the point, detailed, and lives up to the reputation of what is probably the greatest engineering university in the world.” Vlad Marin, Big Data Architect, Airbus S.A.S., FRANCE “I thought the course positively impacted me. Having the information condensed and delivered in a comprehensive and intelligent way was a huge asset. It helped me understand the power and complexities in the world of Big Data.” Mimi Slaughter, COO, Tower 3 Ventures, UNITED STATES “I was working with Big Data previously, testing Big Data use cases with my team of graduate interns, but I was missing some new developments and structured information since I left university 9 years back. Having attended this course, I am now able to remove the gaps, become aware of what is going on in research and academics, and I have better insight into the problems with Big Data. With this certificate, people across departments now recognize me as an SME.” Hemant Kumar, Associate Architect in Advance Analytics and Big Data, IBM Global Services, SINGAPORE “The course gave us very useful, state-of-the-art knowledge about the subject. It helped us steer our research project about online social network analysis in the right direction, which saved us a lot of time!” Thijs Waardenburg, MSc, Researcher/lecturer, University of Applied Sciences Utrecht, THE NETHERLANDS TACKLING THE CHALLENGES OF BIG DATA REGISTER NOW > HTTPS://MITPROFESSIONALX.EDX.ORG La Chaire Accenture Strategic Business Analytics de l’ESSECLa création de nouvelles opportunités par l’analyse des données Dans le monde numérique actuel, l’analyse des données est au cœur des réseaux sociaux et des technologies mobiles et cloud. Elle permet aux entreprises de mieux exploiter les informations dont elles disposent pour en tirer des enseignements à même d’améliorer leurs résultats sur le long terme. Ce marché est immense, et ne cesse de se développer. Actuellement estimé à 40 milliards de dollars, il croît de 15 % par an. Les entreprises n’ont jamais eu autant de données à leur disposition. En 2011, des études ont montré que 1,8 zétaoctets (soit 1800 milliards de gigaoctets) avaient été générés en un an. Les chercheurs pensent que ce volume devrait atteindre 35,2 zétaoctets en 2020. Devant cette masse d’information sans cesse croissante, le besoin en expertise analytique est de plus en plus pressant. Certaines études estiment que le nombre de postes d’experts des données à pourvoir en 2018 pourrait atteindre 140 000, voire 180 000 personnes. (Source : données préliminaires IDC BA Services Forecast pour ACN, 5 fév. 2013). La Chaire Accenture Strategic Business Analytics de l’ESSEC a été créée pour répondre à deux types de besoins de ce marché : la nécessité d’être capable de tirer un enseignement pertinent de ces données tout en disposant d’un niveau d’expertise et de compétences d’analyses nécessaires à ces processus. Pour réussir dans l’univers numérique, les entreprises doivent non seulement collecter des données, mais aussi en tirer des enseignements exploitables qui leur permettent de générer des résultats sur le long terme afin de rester compétitives. Les entreprises doivent apprendre à extraire la véritable intelligence que leurs systèmes de Business Intelligence (BI) peuvent leur fournir. La Chaire Accenture Strategic Business Analytics de l’ESSEC qualifie cette approche de Business Intelligence adaptée aux problématiques des organisations. Le premier objectif de la Business Intelligence est d’identifier les bonnes informations au bon moment et au bon endroit, afin d’améliorer et d’optimiser la performance de l’organisation et de ses prises de décision. Mais la réalité de la Business Intelligence est souvent bien éloignée de ce concept. Trop souvent, les dirigeants l’envisagent comme un fichier statique de lignes de données et rarement comme un moyen de contextualiser l’information, encore moins comme un véritable outil à la décision. Les données sont de plus en plus intégrées aux opérations quotidiennes des entreprises et elles deviennent par là même des éléments essentiels à la compréhension d’un métier. Elles doivent donc être analysées à la lumière de l’expérience concrète. Les académiques et les chercheurs doivent donc se rapprocher des spécialistes de terrain qui ont une expérience pratique du marché, et comprendre clairement comment les données influencent les organisations du secteur public et les entreprises. La Chaire Accenture Strategic Business Analytics de l’ESSEC a été créée afin d’encourager une meilleure compréhension des impacts du numérique sur l’économie, sur les entreprises et les administrations, et sur la vie quotidienne. Elle vise également à identifier les compétences nécessaires à une parfaite maîtrise des enjeux actuels et émergents. Armée de cette connaissance, la Chaire formera les « Digital Architects » de demain, des individus capables de mettre en œuvre cette approche multisectorielle, en lien avec les problématiques réelles des organisations, et tournée vers le résultat. Jean-Michel Blanquer Dean and President, groupe ESSEC Pierre Nanterme Chairman & CEO, AccentureUne approche originale Le développement d’une stratégie transverse à l’entreprise L’ESSEC et Accenture voient le Business Analytics comme un moteur de croissance qui va révolutionner la façon dont les entreprises interagissent avec leurs clients, mais aussi la façon dont les différents éléments de ces entreprises interagissent entre eux. Dans ce sens, outre les besoins en compétences statistiques et informatiques, l’analyse de données nécessite une connaissance métier et une capacité à transmettre l’information obtenue d’une manière intelligible pour obtenir des résultats positifs. Cela implique de collecter des données (relatives par exemple aux clients, aux concurrents et aux tendances) et d’appliquer des méthodes et modèles statistiques, mais aussi de pouvoir les mettre en relation avec les problématiques liées aux métiers et de tirer les enseignements de ces analyses afin de les transmettre à ceux qui prendront et appliqueront les décisions. Les projets de Business Analytics ont un caractère transversal : les données collectées par un service informatique peuvent être utiles aux services Finance ou Marketing. Elles peuvent ainsi contribuer à définir la stratégie des Opérations ou des Ventes. La gestion d’un projet d’analyse des données est donc difficile à aborder, mais cruciale. Or, la plupart des entreprises ne disposent pas des processus, des compétences, de l’organisation ni des technologies nécessaires à la mise en œuvre de ces projets transversaux. La Chaire Accenture Strategic Business Analytics de l’ESSEC associe deux principes : L’interaction entre praticiens et académiques Pour développer des méthodologies et des modèles d’analyse des données rigoureux et pertinents mais aussi afin de tester l’utilité des technologies et des outils, il est essentiel d’utiliser des données réelles. Les chercheurs sont capables d’élaborer des méthodologies de pointe, mais leurs recherches sont souvent entravées par un accès limité aux données réelles. L’interaction entre les académiques et les praticiens dans ce domaine ouvre la porte à une véritable collaboration associant innovation, rigueur et pertinence. La définition des questions de recherche en collaboration entre praticiens et académiques garantit donc, d’une part, la cohérence avec l’état de l’art de la recherche et, d’autre part, la pertinence au regard des problématiques concrètes que les praticiens affrontent chaque jour et que le Business Analytics est appelé à résoudre. L’expert Business Analytics Statistique Informatique Métiers Communication Gestion de Projets Leadership Une approche stratégique du Business Analytics pour traiter les problématiques de Business Intelligence des entreprises et des administrations L’approche de la Chaire est de traiter les problématiques de Business Intelligence afin de répondre aux enjeux des entreprises et des administrations. Au cœur de cette approche, on trouve la volonté de s’assurer que les données d’une organisation sont traitées comme un atout. Que l’entreprise dispose des bonnes données, au bon moment et au bon endroit. Et que celles-ci permettent de tirer des conclusions claires qui amènent à des enseignements orientant les décisions métier d’une manière efficace et bénéfique. L’augmentation du nombre de prises de décisions basées sur l’analyse des données est une question de mentalité, de culture et d’organisation, mais aussi de processus, de structure et d’architecture informatique adaptés.Une expertise au service de la société Une recherche de pointe Notre équipe de chercheurs réalise des études innovantes, grâce à une approche transverse aux disciplines, aux secteurs d’activité et aux fonctions de l’entreprise. Transverse aux disciplines : En raison de la transversalité des projets de Business Analytics, nos chercheurs des départements marketing, systèmes d’information, management des opérations, stratégie, etc. participent conjointement aux projets de la Chaire. Transverse aux secteurs d’activité : Les travaux rassembleront des experts du monde de l’entreprise et de la recherche académique, en provenance de différents secteurs et pays. Transverse aux fonctions : Les données seront collectées par des spécialistes des technologies de l’information, analysées par des experts en statistique, et les résultats seront communiqués aux parties prenantes sous une forme pertinente et exploitable. Les partenariats de l’ESSEC avec d’autres écoles d’ingénieurs ou de statistiques, comme Centrale-Supélec ou l’ENSAE, contribueront à ces activités. Un périmètre international La dimension internationale est au cœur de la dynamique de la Chaire Accenture Strategic Business Analytics de l’ESSEC. L’école a des campus en Europe et en Asie, et a noué des partenariats avec des institutions prestigieuses, comme l’University of Mannheim Business School (Allemagne), Tuck School of Business at Dartmouth (États-Unis), School of Management Fudan University (Chine), FGV (Bresil), et Keio Business School (Japon). De son coté, Accenture compte près de 275 000 collaborateurs qui travaillent et opèrent dans plus de 200 villes et 56 pays. Les programmes pédagogiques associés Qu’est-ce qu’un « Digital Architect » ? Les Digital Architects sont des spécialistes à même d’exploiter les statistiques, l’analyse quantitative et les techniques de modélisation pour orienter ou prendre des décisions métier. L’intérêt croissant des entreprises pour la mise en pratique du Business Analytics a provoqué un écart entre les talents disponibles et la demande des entreprises. Grâce à la Chaire Accenture Strategic Business Analytics de l’ESSEC, les employeurs disposeront d’un vivier de talents nouvellement formés, dotés de compétences originales. Les étudiants auront accès aux programmes de formation de l’ESSEC liés au Business Analytics, et soutenus par les activités de la Chaire. Le premier programme associé à la Chaire, la filière « Strategic Business Analytics », fait partie du programme de la Grande Ecole. Elle a pour objectif de préparer les étudiants généralistes de la Grande Ecole aux fonctions Business Analytics. Une fois diplômés, les étudiants disposeront d’une expérience pratique des applications Business Analytics, qu’ils pourront mettre en œuvre dans le domaine des big data, du marketing stratégique, des opérations, et bien d’autres encore. En plus de ce programme Grande Ecole, il existe un Master en Business Analytics qui offre l’opportunité aux étudiants qui n’ont pas eu une formation en management d’acquérir des compétences sur ce sujet, tout en se spécialisant déjà aux métiers liés aux données.Activités La Chaire Strategic Business Analytics a pour ambition d’apporter un éclairage sur la manière dont le Business Analytics change notre société et les organisations, tout en proposant aux décideurs des solutions concrètes pour répondre à ces changements et atteindre leurs objectifs. Le périmètre d’action de la Chaire Accenture Strategic Business Analytics de l’ESSEC comprend : Le Club Le Club Strategic Business Analytics regroupe des directeurs (généraux, marketing, financier, etc.) de grandes entreprises françaises et internationales, ainsi que des représentants de l’ESSEC et Accenture. C’est un « Think Tank » sur la thématique Business Analytics. Ces décideurs collaborent avec les chercheurs afin d’alimenter le débat et contribuer à leurs réflexions. La Conférence annuelle Chaque année, la Chaire présente les résultats de ses recherches lors d’une conférence annuelle ouverte au grand public. En plus d’une communication autour d’activités récentes, cette conférence propose une plateforme de développement du réseau et d’interaction. Cette conférence offre l’opportunité à tous ceux qui sont intéressés par le Business Analytics de bénéficier du résultat de nos recherches, mais surtout d’échanger avec nos équipes. Les séminaires La Chaire Strategic Business Analytics organise aussi de nombreux séminaires tout au long de l’année (séminaires classiques, « petitsdéjeuners », débats, etc.). L’objectif est de rendre compte de l’état d’avancement des activités d’une manière régulière, et ce aux différents types d’audience qui pourraient être intéressés par nos travaux. Ces séminaires ont lieu sur les différents campus de l’ESSEC (Cergy, La Défense et Singapour), mais aussi au sein des bureaux d’Accenture à Paris ou ailleurs. Ils offrent aux participants l’opportunité d’entretenir une relation régulière avec les étudiants, les entreprises, l’Etat et la société civile dans son ensemble. Les publications Ces événements et activités sont nourris par des publications rédigées par des équipes de chercheurs de la Chaire Strategic Business Analytics -professeurs, doctorants et étudiants - en collaboration avec des partenaires externes dans certains cas. Certaines publications ont un caractère strictement académique. Toutefois, dans la mesure où l’objectif est d’éclairer le débat public, la Chaire propose des publications plus accessibles et développe des collaborations avec des Think Tanks externes à l’ESSEC et les médias.Organisation La Chaire Accenture Strategic Business Analytics de l’ESSEC associe la rigueur académique à la pertinence pratique en rassemblant des praticiens et des consultants issus de divers secteurs d’activité, en encourageant la collaboration entre les professeurs de différents départements et en jetant des passerelles entre la recherche, l’enseignement et le monde de l’entreprise, notamment par des études de cas. L’équipe Le professeur titulaire de la Chaire est Nicolas Glady, accompagné par Martine George, directrice exécutive de la Chaire, Jean-Pierre Bokobza, directeur exécutif au sein d’Accenture Analytics, et Fabrice Marque, directeur exécutif au sein de l’activité CRM d’Accenture. D’autres professeurs de l’ESSEC basés à Paris ou à Singapour, ainsi que des étudiants doctorants apporteront leur contribution aux recherches. Des professeurs étrangers visitants viendront occasionnellement compléter cette équipe. Enfin, des experts du secteur privé ou du secteur public contribueront aux projets d’une manière ponctuelle.Nicolas Glady est docteur en économétrie et professeur à l’ESSEC où il dispense des cours de Marketing Stratégique, Marketing Analytics et Marketing Management au sein de la Grande École et du programme doctoral. Ses travaux de recherche portent sur les techniques quantitatives au service de la stratégie et du marketing (Business Analytics), le big data et d’autres thèmes liés aux transformations numériques en général. Il est l’auteur de nombreuses publications académiques et conseille régulièrement des entreprises du secteur financier, de la grande distribution, de l’alimentaire, ou des nouvelles technologies. Gouvernance La Chaire est co-gérée par l’ESSEC et Accenture via son comité de pilotage. Le comité de pilotage oriente la stratégie du programme et comprend des directeurs exécutifs de grandes entreprises, des représentants de l’administration de l’ESSEC, de son corps enseignant, ainsi que les partenaires financiers du programme. Le Club joue le rôle de Think Tank de la Chaire Accenture Strategic Business Analytics de l’ESSEC. Constitué de directeurs de grandes entreprises, d’universitaires et de praticiens français et internationaux, experts des questions « Business Analytics », ce Club contribue à la réflexion sur les tendances du secteur et sur le rôle que doit jouer la Chaire Strategic Business Analytics. Martine George est docteur en sciences. Elle possède plus de 20 ans d’expérience professionnelle dont 15 passées à développer des équipes de Business Analytics au sein de grandes organisations de différents secteurs. Elle est régulièrement invitée comme speaker et expert dans des évènements relatifs à l’analytique à l’étranger. Passionnée par le développement des talents et des organisations en business analytics, elle est également coach certifiée ICF et facilitateur. Jean-Pierre Bokobza, Directeur exécutif d’Accenture, pilote les activités Analytics d’Accenture en Europe, Amérique latine et Afrique. Il était au préalable responsable des activités BPO (externalisation des processus métier) d’Accenture pour la même zone géographique. Jean-Pierre Bokobza est diplômé de l’Ecole nationale de l’aviation civile (ENAC) et pilote de ligne. Fabrice Marque, Directeur exécutif d’Accenture, dirige la ligne de service CRM en France. Il est également responsable des offres Transformation des services au niveau EALA (Europe et Amérique latine). Diplômé d’une école d’ingénieurs et d’une école de commerce (ESSEC), il titulaire d’un MBA de Cranfield University.ESSEC Depuis plus d’un siècle, l’ESSEC poursuit un projet pédagogique innovant plaçant l’individu au cœur de son modèle d’enseignement, promouvant les valeurs de liberté et d’ouverture, d’innovation et de responsabilité. Préparer les managers de demain à réconcilier intérêt personnel et responsabilité collective, intégrer à la réflexion une vision de l’intérêt général et mettre les défis économiques en perspective avec les enjeux sociaux sont quelques unes des missions que s’est fixé l’ESSEC. Pour plus d’informations, suivre @essec et consulter www.essec.edu Copyright © 2013 Accenture All rights reserved. Accenture, its logo, and High Performance Delivered are trademarks of Accenture. Accenture Analytics Accenture Analytics met à la disposition des entreprises des solutions analytiques ciblées pour leur permettre d’améliorer leurs performances. Ses capacités complètes vont de l’accès et du reporting sur les données jusqu’à la modélisation mathématique, la prévision et l’analyse statistique sophistiquée. Avec plus de 16 000 spécialistes de l’analytique, Accenture Analytics s’appuie sur une robuste expérience sectorielle, fonctionnelle, métier et technique pour concevoir des services de conseil et d’externalisation innovants destinés aux clients des secteurs publics et privés. Pour plus d’informations, suivre @ISpeakAnalytics et consulter http://www.accenture.com/analytics © Group ESSEC 2013 Big Data Alchemy: How can Banks Maximize the Value of their Customer Data?2 Banks are Struggling to Profit from Increasing Volumes of Data More than 70% of banking executives worldwide say customer centricity is important to them1 . However, achieving greater customer centricity requires a deeper understanding of customer needs. Our research indicates that only 37% of customers believe that banks understand their needs and preferences adequately (see Figure 1). This may be surprising given the increasing volume and variety of data that banks have about their customers. The Banks Have Not Fully Exploited the Potential of Customer Data frequent use of web and mobile channels has led to a steady increase in the number of customer interactions and, as a result, increasing volume of customer data. However, banks are only using a small portion of this data to generate insights that enhance the customer experience. For instance, research indicates that less than half of banks analyze customers’ external data, such as social media activities and online behavior. Further, only 29% analyze customers’ share of walleta , one of the key measures of a bank’s relationship with its customers2 . Figure 1: Customer Satisfaction across Five Core Areas of the Customer–Bank Relationship Source: Capgemini and EFMA, Retail Banking Voice of the Customer Survey, 2013. a) Customers’ share of wallet is the percentage of financial services products customers have with a particular bank relative to all of the financial services products they hold. 60% of financial institutions in North America believe that big data analytics offers a significant competitive advantage and 90% think that successful big data initiatives will define the winners in the future. Knowledge of Customer Product-Channel Fit Intimacy and Relationship Building Consistent Multi-Channel Experience Trust and Confidence % of respondents Satisfied Not Satisfied Unsure 43% 13% 43% 37% 47% 16% 36% 51% 13% 44% 12% 44% 45% 12% 43%3 It is certainly strange given that the value of big data is clear to business leaders across the financial services industry. Over 60% of financial institutions in North America, for instance, believe that big data analytics offers a significant competitive advantage. Additionally, over 90% believe that successful big data initiatives will determine the winners of the future3 . However, knowledge of the impact of big data has not translated to on-the-ground investments. For instance, only 37% of Figure 2: Big Data Adoption Levels in Banks Source: Microsoft and Celent, How Big is Big Data: Big Data Usage and Attitudes among North American Financial Services Firm, March 2013. Big data maturity levels (% of respondents) Exploring Experimenting Deploying Expanding 38% 25% 12% 37% 63% 25% Exploring Experimenting Deploying Expanding Only 37% of banks have hands-on experience with live big data implementations, while the majority of banks are still focusing on pilots and experiments. banks have hands-on experience with live big data implementations, while the majority of banks are still focusing on pilots and experiments (see Figure 2). In the next section, we examine some of the reasons for this gap between the clear case for action and the will to achieve it. 4 Our research shows that ‘organizational silos’ are the biggest barrier to success in big data. Dearth of analytics talent, high cost of data management, and a lack of strategic focus on big data are also major stumbling blocks (see Figure 3). Finally, privacy concerns – which are high on many bank executives’ agendas – are also a significant issue. Silos of Data Block a Single Customer View Customer data typically resides in silos across lines of business or is distributed across systems focused on specific functions such as CRM, portfolio management and loan servicing. As such, banks lack a seamless 360-degree view of the customer. Further, many banks have inflexible legacy systems that impede data integration and prevent them from generating a single view of the customer. For instance, Deutsche Bank embarked on a big data project to analyze a large amount of unstructured data, but faced difficulties in the extraction of data from legacy systems, and their integration with big data systems (see insert on Page 5). Why are Banks Unable to Exploit Big Data? Figure 3: Key Impediments to Big Data Success Source: Capgemini and the Economist Intelligence Unit, The Deciding Factor: Big Data and Decision-making, 2012. Organizational silos constitute the top barrier to success in big data. 57% 44% 40% 34% 33% 24% 17% Time taken to analyze large data sets Shortage of skilled people for data analysis Big data is not viewed sufficiently strategically bysenior management Unstructured content in big data is too difficult to interpret The high cost of storing and analyzing large data sets Big data sets are too complex to collect and store Too many "silos" - data is not pooled for the benefit of the entire organization What are your organization’sthree biggest impedimentsto using big data for effective decision-making (select up to three)? % of respondents5 Big Data Plans at Deutsche Bank Held Back due to Legacy Infrastructure Deutsche Bank has been working on a big data implementation since the beginning of 2012 in an attempt to analyze all of its unstructured data. However, problems have arisen while attempting to unravel the traditional systems – mainframes and databases, and trying to make big data tools work with these systems. The bank has been collecting data from the front end (trading data), the middle (operations data) and the back-end (finance data). Petabytes of this data are stored across 46 data warehouses, where there is 90% overlap of data. It is difficult to unravel these data warehouses that have been built over the last two to three decades. The data integration challenge and the significant investments made by the bank in traditional IT infrastructure pose a key question for the bank’s senior executives – what do they do now with their traditional system? They believe that big, unstructured and raw data analysis will provide important insights, mainly unknown to the bank. But they need to extract this data, streamline it and build traceability and linkages from the traditional systems, which is an expensive proposition. Source: Computerworld UK, Deutsche Bank: Big data plans held back by legacy systems, February 2013. The Skills and Development Gap Needs Closing Banks need new skill sets to benefit from big data analytics. New data management skills, including programming, mathematical, and statistical skills go beyond what is required for traditional analytics applications. For instance, ‘data scientists’ need to be not only well versed in understanding analytics and IT, they should also have the ability to communicate effectively with decision makers. However, this combination of skills is in short supply4 . Three-quarters of banks do not have the right resources to gain value from big data5 . Banks also face the challenge of training end-users of big data, who may not be data experts themselves but need to use data to enhance decision-making. Lack of Strategic Focus: Big Data Viewed as Just Another ‘IT Project’ Big data requires new technologies and processes to store, organize, and retrieve large volumes of structured and unstructured data. Traditional data management approaches followed by banks do not meet big data requirements. For instance, traditional approaches hinge on a relational data model where relationships are created inside the system and then analyzed. However, with big data, it is difficult to establish formal relationships with the variety of unstructured data that comes through. Similarly, most traditional data management projects view data from a static and/or historic perspective. However, big data analytics is largely aimed to be used in a near real-time basis. While most IT projects are driven by the twin facets of stability and scale, big data demands discovery, ability to mine existing and new data, and agility6 . Consequently, by taking a traditional ITbased approach, organizations limit the potential of big data. In fact, an average company sees a return of just 55 cents on every dollar that it spends on big data7 . Privacy Concerns Limit the Adoption of Customer Data Analytics The use of customer data invariably raises privacy issues8 . By uncovering hidden connections between seemingly unrelated pieces of data, big data analytics could potentially reveal sensitive personal information. Research indicates that 62% of bankers are cautious in their use of big data due to privacy issues9 . Further, outsourcing of data analysis activities or distribution of customer data across departments for the generation of richer insights also amplifies security risks. For instance, a recent security breach at a leading UK-based bank exposed databases of thousands of customer files. Although this bank launched an urgent investigation, files containing highly sensitive information — such as customers’ earnings, savings, mortgages, and insurance policies — ended up in the wrong hands10. Such incidents reinforce concerns about data privacy and discourage customers from sharing personal information in exchange for customized offers. So how can banks effectively overcome these challenges? What are some of the key areas that they should focus on? In the next section, we discuss some starting points for banks in their big data journey. An average company sees a return of just 55 cents on every dollar that it spends on big data.6 Banks that apply analytics to customer data have a fourpercentage point lead in market share over banks that do not. Customer Data Analytics is a Low Priority Area for Banks Most banks have not focused significant energy on using analytics to enhance customer experience. Our survey with the EFMA indicates that risk management has been a high-priority focus area for most banks, mainly to comply with regulatory requirements, while customer analytics has largely been neglected (see Figure 4)11. Customer Analytics has Proven Benefits from Acquisition to Retention Processes Research showed that banks that apply analytics to customer data have a four-percentage point lead in market share over banks that do not. The difference in banks that use analytics to understand customer attrition is even more stark at 12-percentage points12. We believe banks can maximize the value of their customer data by leveraging big data analytics across the three key areas of customer retention, market share growth and increasing share of wallet (see Figure 5). Big Data Analytics Helps Maximize Lead Generation Potential Big data solutions can help banks generate leads for customer acquisition more effectively. Take the case of US Bank, How Can Banks Realize Greater Value From Customer Data? Figure 4: Banks have Limited Focus and Capabilities around Customer Analytics Source: Capgemini and EFMA, World Retail Banking Report, 2013. the fifth largest commercial bank in the US. The bank wanted to focus on multichannel data to drive strategic decisionmaking and maximize lead conversions. The bank deployed an analytics solution that integrates data from online and offline channels and provides a unified view of the customer. This integrated data feeds into the bank’s CRM solution, supplying the call center with more relevant leads. It also provides recommendations to the bank’s web team on improving customer engagement on the bank’s website. As a result, the bank’s lead conversion rate has improved by over 100% and customers receive an enhanced and personalized experience. The bank also executed three major website redesigns in 18 months, using data-driven insights to refine website content and increase customer engagement13. Advanced Analytics Improves Credit Risk Estimation by Exploring Diverse Datasets Assessing risks and setting the right prices are key success factors in the competitive retail banking market. Existing scoring methodologies, mainly FICO scoresb , assess credit worthiness based solely on a customer’s financial history. However, in order to ensure a more comprehensive assessment, credit scores should also include additional variables such as demographic, financial, employment, and behavioral data. By using advanced predictive analytics based on these additional data points, banks can significantly enhance their credit scoring mechanisms. Bank’s Current Priorities High Bank’s Self-Assessed Capabilities Low High Risk Management Fraud Analytics Financial Reporting Portfolio Analytics Low Pricing Channel Analytics Sales Analytics Customer Analytics Marketing Analytics b) FICO score is the most widely used credit score model in the US. It takes into account factors in a person’s financial history such as payment history, credit utilization, length of credit, types of credit used, and recent searches for credit. 7 Figure 5: How can Big Data Analytics Help Banks Maximize Value from Customer Data? Source: Capgemini Consulting analysis. At US Bank, analytics enabled a single customer view across online and offline channels, which improved the bank’s lead conversion rate by over 100%. Grow Share of Wallet Big Data Analytics Improve Credit Risk Estimation Maximize Lead Generation Potential Acquire Customers Retain Customers Limit Customer Attrition Improve Customer Satisfaction Drive Efficiency of Marketing Programs Increase Sales Through Predictive Analysis For instance, although ‘current account’ balance levels and volatility are good indicators of financial robustness and stability, transaction drill-down analysis provides in-depth insights about customers. It enables the segmentation of customers based on spending behavior. Several start-ups are also leveraging social network data to score customers based on credit quality. These include Zest Finance and Kreditech14. Other startups such as LendUp and Lendo even provide loan services based on social network data15. ‘Next Best Action’ Analytics Models Unlock Opportunities to Drive Top Line Growth From ‘next best offer’ to cross-selling and up-selling, the insights gleaned from big data analytics allows marketing professionals to make more accurate decisions. Big data analytics allows banks to target specific micro customer segments by combining various data points such as past buying behavior, demographics, sentiment analysis from social media along with CRM data. This helps improve customer engagement, experience and loyalty, ultimately leading to increased sales and profitability. Predictive Analytics can Improve Conversion Rates by Seven Times and Top-line Growth Ten-fold We studied the impact of using advanced, predictive analytics on marketing effectiveness for a leading European bank. The bank shifted from a model where it relied solely on internal customer data in building marketing campaigns, to one where it merged internal and external data sets and applied advanced analytics techniques to this combined data set. As a result of this shift, the bank was able to identify and qualify its target customers better. In fact, conversion rates of prospects increased by as much as seven times16. In another instance, a European bank built a ‘propensity to save’ model that predicts the probability of its customer base to invest in savings products, which in turn leads to increased cross-selling. The input to this model included data sets of 1.5 million customers with over 40 variables. The analytics team tested over 50 hypotheses through logistic regression propensity models to calculate the probability of savings for each customer. The pilot branches where this model was implemented witnessed a 10x increase in sales and a 200% growth in conversion rate over a two-month period compared to a reference group17. Big Data Analytics Helps Banks Limit Customer Attrition A mid-sized European bank used data sets of over 2 million customers with over 200 variables to create a model that predicts the probability of churn for each customer. An automated scorecard with multiple logistic regression models and decision trees calculated the probability of churn for each customer. Through early identification of churn risks, an outflow of nearly 30 million per year was avoided18.8 How Can Banks Realize Greater Value From Customer Data? Advanced analytics increased the conversion of prospects by Drive Share of Wallet Limit Customer Attrition 2 million customers across 200+ variables Developed automated scorecards and multiple logistic regression models and decision trees avoid an outflow of about Analyzed over Early identification of cancellation risks helped €30 Million Acquire New Customers (Internal data) (Internal data and External data) Conventional Analytics Advanced Analytics The data input included increase in sales and 200% 10x growth in 1.5 Mn customer data A B C D for the product in scope across 40 variables 7 times conversion rate Leading European bank European bank Mid-sized bank 9 Bank of America Leverages Big Data Analytics to Deliver Consistent Customer Experience and Detect Risks Early Needs or Events-Based Marketing Bank of America is focusing on big data with an emphasis on an integrated approach to customers and internal operations. The key objective of its big data efforts is understanding the customer across all channels and interactions, and presenting consistent, appealing offers to well-defined customer segments. For example, the bank utilizes transaction and propensity models to determine which of its primary relationship customers may have a credit card, or a mortgage loan that could benefit from refinancing. When the customer accesses the bank’s online channel, calls a call center, or visits a branch, that information is available to the online app, or the sales associate to present the offer. The bank has launched a program called ‘BankAmeriDeals’, which provides cash-back offers to holders of the bank’s credit and debit cards based on analyses of where they have made payments in the past. Risk Management The bank moved from a shared-services data modeling environment to a dedicated ‘Grid Computing’ platform to drive operational efficiency by early detection of high-risk accounts. The initiative is benefiting the bank in several ways, such as reducing its loan default calculation time for a mortgage book of more than 10 million loans from 96 hours to just four. The bank is also able to process ad hoc jobs at three times the speed of the previous environment. Governance Structure The bank modified its organizational structure in line with big data initiatives. The bank historically employed several quantitative analysts, but in order to support its big data initiatives, the bank consolidated dispersed analytics talent. The bank also set up matrix reporting lines from its analytics teams to a central analytics group as well as business units. This has improved visibility and reusability of initiatives along with providing customized services specific to a function or a business unit. Source: International Institute for Analytics and SAS, “Big Data in Big Companies”, May 2013. Given that there are numerous avenues for the application of customer data analytics, where and how should banks begin? In the next and concluding section, we present a structured approach for banks to industrialize their big data efforts across the organization. 10 How Can Banks Scale-up to the Next Level of Customer Data Analytics? Transformation across Culture, Capabilities and Technology is Critical for the Success of Big Data Initiatives In order to graduate to higher levels of maturity in customer data analytics, banks will need to build the right organizational culture and back it up with the right skill sets and technological components (see Figure 6). Drive a Shift from a ‘Data as an ITasset’ to a ‘Data as a Key Asset for Decision-Making’ Culture Effective big data initiatives require cultural changes within the organization and a concerted shift towards a datadriven behavior. To drive successful big data programs, banks should strive towards full executive sponsorship for analytics initiatives, develop and promote a company-wide analytics strategy, and embed analytics into core business processes. In essence, banks need to graduate towards a model where analytics is a company-wide priority and an integral element of decision-making across the organization. Develop Analytics Talent with a Targeted Recruitment Process and Continual Training Programs As a first step towards building expertise in customer data analytics, banks will need to establish a well-defined Figure 6: Roadmap to Building Analytics Maturity Source: Capgemini Consulting. recruitment process to attract analytics talent. Further, disparate analytics teams should be consolidated into an Analytics Centre of Excellence (CoE) that promotes the sharing of best practices and supports skills development. Banks must also invest in continually training their analytics staff on new tools and techniques. Finally, specialized training programs should be developed for line of business personnel, to train them in the use of analytics to enhance decision-making. Beginner Culture Proficient Level of Maturity Expert Preliminary analytics strategy, but little buy-in from leadership Analytics used to understand issues, develop data-based options across the business Full executive sponsorship of analytics Capabilities & Operating Model Technology Pockets of reporting and analysis capability Mass/random targeting of customers to increase product profitability using basic product eligibility criteria Sample Applications of Customer Data Analytics Well-defined recruitment process to attract analytics talent Analytics Centre of Excellence to promote best practices Dispersed talent Budget for analytics training Use of some statistical and forecasting tools Strategic partnerships for supplementary analytics skills Data No defined data infrastructure Data available for existing and potential customers Internal, external and social media data is merged to build an integrated and structured dataset Conflicting, informal and dispersed data Most data is still unstructured and internal Poor data governance Basic data reporting using mainly spreadsheet based tools Coherent procedures for data management Basic profiling of customer base with customized analysis on drivers of purchase of each product individually Established, robust master data management framework for structured and unstructured data sets Analyzing customer behavior across channels to predict interest areas; developing personalized products and services11 Figure 7: Key Steps to Effective Big Data Initiatives Source: Capgemini Consulting. Establish a Strong Data Management Framework for Structured as well as Unstructured Data The quality, accuracy, and depth of customer data determine the value of customer insights. Consequently, banks will need to establish robust data management frameworks to formalize the collection, storage and use of structured as well as unstructured data. Additionally, banks must graduate to more advanced analytics techniques such as predictive and prescriptive analytics that enable more precise modeling of customer behavior. These in turn will drive increased cross-selling opportunities, pricing optimization and targeted offerings. Move Up the Analytics Maturity Curve with Three Sequential Controlled Steps Big data initiatives are typically time and resource-intensive. To pave the way for a smooth implementation, we recommend a three-step approach that begins with an assessment of existing analytics capabilities (see insert on Page 12) and is followed by the launch of pilot projects, which are subsequently expanded into full-scale organization-wide programs (see Figure 7). A capability assessment at the beginning of a big data program will provide banks with a view of analytics capability gaps that are holding them back, such as untapped data assets and key external data sets that are required to create a holistic view of the customer. With a clearer view of capability gaps, banks will be better placed to prioritize their actions and investments. Following a capability assessment, we recommend that banks undertake their transformation journey in controlled steps, rather than in a giant leap. As such, banks should first identify and focus on a few small pilot projects, and use these as opportunities to test the efficacy of new analytics tools and techniques. For instance, Rabobank, the Netherlandsbased banking and financial services company, started its big data initiative with a clear goal – to improve efficiency in business processes by analyzing customer data (see insert on Page 13). Based on the learning from a pilot project, banks can modify how they manage big data, add more complexity to use cases and subsequently rollout big data initiatives across the organization. Assess Big Data Analytics Capabilities Begin with a Pilot Big Data Use Case Extend Big Data Initiatives across Organization Stage 1 Stage 2 Stage 3Assess Your Big Data Maturity For each answer, select the option that you most closely relate with your organization 1 3 5 Do you have the right culture for driving big data analytics? Would you describe your organisation as datadriven? No, we largely rely on intuition We use limited analytics to develop data-based decision options for the business Collection and analysis of data underpins our business strategy and day-to-day decision making How important will big data be to decision-making in your organisation in the next five years? We are not yet impacted To a limited extent We expect big data to be a key component of decision-making going forward How do your business and IT teams operate? Both teams operate separately, with the business team giving guidelines and IT implementing Business and IT teams come together, but only for key projects driven from the top We have joint steering committees where business and IT teams work together as one team Does your organization have the capabilities for benefiting from big data? What is your investment level in analytics capabilities? We largely use adhoc tools based on individual experience with data analysis We have analytics teams in different business units who largely work independently We have a centralized analytics team that constantly invests in skill upgradation and works with smaller capability groups across the company How do you develop big data analytics capabilities? We rely solely on in-house trainings We rely on a mix of in-house and external trainings from third-party institutions such as universities We have multiple partnerships with specialist analytics firms that help in building long-terms capabilities in-house Do you have the right data that big data analytics demands? How structured are your datasets? We don’t have a defined data policy We have data availability, but in silos, and most data is limited to existing and some potential customers We rely on structured internal data sets, and combine them with external data sets. We then integrate them with social media to create a merged and integrated dataset that gives us a single view of the customer How do you deal with growing data volume? We haven’t developed a defined policy on handling growing datasets For those datasets that we have been tracking, we rely on historical growth volumes, while factoring in additional volume from external datasets We have well-defined systems and policies to cope with the explosion in datasets that we are already seeing Do you have the technology to ensure the success of big data Analytics? What tools do you use for big data analytics? We don’t use tools specific to big data. We use traditional tools that we have used for analytics in the past We use some big data tools based on the dataset, but haven’t standardized on their usage across the organization We have a full suite of integrated technology driven tools that enables us to do both predictive and prescriptive analytics on customer data How do you manage your data sets? Most teams within the company manage data in their own formats We have some data management guidelines, but they are not fully implemented yet We have established, robust master data management framework for structured and unstructured data sets Overall Score (0 - 45) Big Data Maturity Overall Score <9: Beginner, 10-30: Proficient, >30: Expert13 Rabobank Embarked on a Big Data Journey by Adopting a ‘Start Small and Add More Complexity Step-by-Step’ Strategy Rabobank named big data as one of the 10 most important trends in their 2013 yearly report and started developing a strategy around it. They created a list of 67 possible big data use cases, divided them into four categories – fix organizational bottlenecks, improve efficiency in business processes, create new business opportunities and develop new business models. For each of these categories they measured IT impact, time required for implementation, and business value proposition. The bank moved ahead with big data applications for the improvement of business processes due to their low IT impact and the possibility of a positive ROI. Rabobank started with a few proof-of-concepts using only internal data. Later, the bank extended the scope of its big data program to include web data (click behavior), social network data, public data from government sources and macrotrend data. The bank built small clusters using open-source technology to test and analyze unstructured data sets, which kept costs low and offered the scalability to expand. A dedicated multidisciplinary team was setup to implement big data use cases. The team experimented with small and short implementation cycles. One of the use cases at Rabobank involved analyzing criminal activities at ATMs. Rabobank found that the proximity of highways, and the season and weather conditions increased the risk of criminal activities. The bank also used big data tools to analyze customer data to find the best locations for ATMs. Based on its initial success with big data analytics, Rabobank is now focusing on addressing more pressing big data issues around privacy concerns and data ownership. Source: BigData-Startups.com, With Proof of Concepts, Rabobank Learned Valuable Big Data Lessons, 2013. Implementation challenges remain the biggest hurdles towards the effective use of customer data analytics by banks. While pilots deliver quick and measurable results, banks need to concurrently lay the foundations to effectively scale-up big data initiatives. The key lies in adopting a comprehensive approach, where pilots are backed by a well-defined data strategy and data governance model. The first step towards such an approach lies in altering traditional mindsets. Big data initiatives must be perceived differently from traditional IT programs. They must extend beyond the boundaries of the IT department and be embraced across functions as the core foundation for decision-making. Only then will banks be able to make the best use of their vast and growing repositories of customer data.1 SAP and Bloomberg Businessweek Research Services, “Banks Betting Big on Big Data and Real-Time Customer Insight”, September 2013 2 BBRS 2013 Banking Customer Centricity Study, 2013 3 Microsoft and Celent, “How Big is Big Data: Big Data Usage and Attitudes among North American Financial Services Firms”, March 2013 4 MIT Sloan Management Review and SAS, “How ‘Big Data’ is Different”, July 2012 5 Finextra Research, Clear2Pay, NGDATA, “Monetizing Payments: Exploiting Mobile Wallets and Big Data”, 2013 6 MIT Sloan Management Review and SAS, “How ‘Big Data’ is Different”, July 2012 7 Wikibon, “Enterprises Struggling to Derive Maximum Value from Big Data”, September 2013 8 O’Reilly Media, “EBook: Big Data Now”, October 2012 9 Finextra Research, Clear2Pay, NGDATA, “Monetizing Payments: Exploiting Mobile Wallets and Big Data”, 2013 10 Mail Online, “Exposed: Barclays account details for sale as ‘gold mine’ of up to 27,000 files is leaked in worst breach of bank data EVER”, February 2014 11 Capgemini, “World Retail Banking Report”, 2013 12 Aberdeen, “Analytics in Banking”, July 2013 13 US Bank Case Study by Adobe, 2012 14 The Economist “Lenders are Turning to Social Media to Assess Borrowers”, February 2013 15 Slate, “Your Social Networking Credit Score”, January 2013 16 Capgemini Consulting analysis 17 Capgemini Consulting analysis 18 Capgemini Consulting analysis ReferencesJean Coumaros Head of Financial Services Global Market Unit jean.coumaros@capgemini.com Jerome Buvat Head of Digital Transformation Research Institute jerome.buvat@capgemini.com Olivier Auliard Chief Data Scientist, Capgemini Consulting France oliver.auliard@capgemini.com Subrahmanyam KVJ Manager, Digital Transformation Research Institute subrahmanyam.kvj@capgemini.com Stanislas de Roys Head of Banking Market Unit stanislas.deroys@capgemini.com Laurence Chretien Vice President, Big Data and Analytics laurence.chretien@capgemini.com Vishal Clerk Senior Consultant, Digital Transformation Research Institute vishal.clerk@capgemini.com Authors For more information contact Digital Transformation Research Institute dtri.in@capgemini.com The authors would also like to acknowledge the contributions of Ingo Finck from Capgemini Consulting Germany, Sebastien Podetti from Capgemini Consulting France, Tripti Sethi from Capgemini Consulting Global, Steven Mornelli and Rajas Gokhale from Capgemini Financial Services Global Business Unit and Roopa Nambiar and Swati Nigam from the Digital Transformation Research Institute. Germany/Austria/Switzerland Titus Kehrmann titus.kehrmann@capgemini.com France Stanislas de Roys stanislas.deroys@capgemini.com Spain Christophe Mario christophe.mario@capgemini.com Global Jean Coumaros jean.coumaros@capgemini.com Norway Jon Waalen jon.waalen@capgemini.com United Kingdom Keith Middlemass keith.middlemass@capgemini.com United States Jeff Hunter jeff.hunter@capgemini.com BeNeLux Robert van der Eijk robert.van.der.eijk@capgemini.com India Natarajan Radhakrishnan natarajan.radhakrishnan@capgemini.com Sweden/Finland Johan Bergstrom johan.bergstrom@capgemini.comRightshore® is a trademark belonging to Capgemini Capgemini Consulting is the global strategy and transformation consulting organization of the Capgemini Group, specializing in advising and supporting enterprises in significant transformation, from innovative strategy to execution and with an unstinting focus on results. With the new digital economy creating significant disruptions and opportunities, our global team of over 3,600 talented individuals work with leading companies and governments to master Digital Transformation, drawing on our understanding of the digital economy and our leadership in business transformation and organizational change. Find out more at: http://www.capgemini-consulting.com/ With more than 130,000 people in over 40 countries, Capgemini is one of the world’s foremost providers of consulting, technology and outsourcing services. The Group reported 2013 global revenues of EUR 10.1 billion. Together with its clients, Capgemini creates and delivers business and technology solutions that fit their needs and drive the results they want. A deeply multicultural organization, Capgemini has developed its own way of working, the Collaborative Business ExperienceTM, and draws on Rightshore®, its worldwide delivery model. Learn more about us at www.capgemini.com About Capgemini and the Collaborative Business Experience Capgemini Consulting is the strategy and transformation consulting brand of Capgemini Group. The information contained in this document is proprietary. © 2014 Capgemini. All rights reserved. Customer Value Analytics Capgemini Consulting’s Customer value analytics solution identifies levers of profit improvement and growth across online and offline channels for clients, leveraging customer behavioural and preference patterns. The solution is sector-specific, and has specific modules developed for the Banking, Automotive & Insurance industries. The solution spans the entire customer journey, providing clients multiple opportunities to drive their top line through increased acquisition, an expanding share of wallet, demand forecasting and reduction of customer attrition. Several pre-built components like ready to use analytical platforms, proof of concept and data diagnostic methodologies, pre-fabricated models and use cases allow for quick deployment in project delivery. WHITE PAPER Big Data Meets Big Data Analytics Three Key Technologies for Extracting Real-Time Business Value from the Big Data That Threatens to Overwhelm Traditional Computing ArchitecturesSAS White Paper Table of Contents Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 What Is Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Rethinking Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 From Standalone Disciplines to Integrated Processes . . . . . . . . . . . . 3 From Sample Subsets to Full Relevance . . . . . . . . . . . . . . . . . . . . . . . 4 Three Key Technologies for Extracting Business Value from Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Information Management for Big Data . . . . . . . . . . . . . . . . . . . . . . . . . 5 High-Performance Analytics for Big Data . . . . . . . . . . . . . . . . . . . . . . 6 Flexible Deployment Options for Big Data . . . . . . . . . . . . . . . . . . . . . . 8 SAS Differentiators at a Glance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Big Data and Big Data Analytics – Not Just for Large Organizations . 9 It Is Not Just About Building Bigger Databases . . . . . . . . . . . . . . . . . . 9 Choose the Most Appropriate Big Data Scenario . . . . . . . . . . . . . . . . 9 Moving Processing to the Data Source Yields Big Dividends . . . . . . 10 Big Data and Big Data Analytics Don’t Have to Be Difficult . . . . . . . 10 Closing Thoughts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Content for this paper, Big Data Meets Big Data Analytics, was provided by Mark Troester, IT/CIO Thought Leader and Strategist at SAS. Troester oversees the company’s marketing efforts for information management and for the overall CIO and IT vision. He began his career in IT and has worked in product management and product marketing for a number of startups and established software companies.1 Big Data Meets Big Data Analytics Introduction Wal-Mart handles more than a million customer transactions each hour and imports those into databases estimated to contain more than 2.5 petabytes of data. Radio frequency identification (RFID) systems used by retailers and others can generate 100 to 1,000 times the data of conventional bar code systems. Facebook handles more than 250 million photo uploads and the interactions of 800 million active users with more than 900 million objects (pages, groups, etc.) – each day. More than 5 billion people are calling, texting, tweeting and browsing on mobile phones worldwide. Organizations are inundated with data – terabytes and petabytes of it. To put it in context, 1 terabyte contains 2,000 hours of CD-quality music and 10 terabytes could store the entire US Library of Congress print collection. Exabytes, zettabytes and yottabytes definitely are on the horizon. Data is pouring in from every conceivable direction: from operational and transactional systems, from scanning and facilities management systems, from inbound and outbound customer contact points, from mobile media and the Web. According to IDC, “In 2011, the amount of information created and replicated will surpass 1.8 zettabytes (1.8 trillion gigabytes), growing by a factor of nine in just five years. That’s nearly as many bits of information in the digital universe as stars in the physical universe.” (Source: IDC Digital Universe Study, sponsored by EMC, June 2011.) The explosion of data isn’t new. It continues a trend that started in the 1970s. What has changed is the velocity of growth, the diversity of the data and the imperative to make better use of information to transform the business. The hopeful vision of big data is that organizations will be able to harvest and harness every byte of relevant data and use it to make the best decisions. Big data technologies not only support the ability to collect large amounts, but more importantly, the ability to understand and take advantage of its full value.2 SAS White Paper What Is Big Data? Big data is a relative term describing a situation where the volume, velocity and variety of data exceed an organization’s storage or compute capacity for accurate and timely decision making. Some of this data is held in transactional data stores – the byproduct of fast-growing online activity. Machine-to-machine interactions, such as metering, call detail records, environmental sensing and RFID systems, generate their own tidal waves of data. All these forms of data are expanding, and that is coupled with fast-growing streams of unstructured and semistructured data from social media. That’s a lot of data, but it is the reality for many organizations. By some estimates, organizations in all sectors have at least 100 terabytes of data, many with more than a petabyte. “Even scarier, many predict this number to double every six months going forward,” said futurist Thornton May, speaking at a SAS webinar in 2011. Determining relevant data is key to delivering value from massive amounts of data. However, big data is defined less by volume – which is a constantly moving target – than by its ever-increasing variety, velocity, variability and complexity. • Variety. Up to 85 percent of an organization’s data is unstructured – not numeric – but it still must be folded into quantitative analysis and decision making. Text, video, audio and other unstructured data require different architecture and technologies for analysis. Big Data When the volume, velocity, variability and variety of data exceed an organization’s storage or compute capacity for accurate and timely decision making.3 Big Data Meets Big Data Analytics • Velocity. Thornton May says, “Initiatives such as the use of RFID tags and smart metering are driving an ever greater need to deal with the torrent of data in nearreal time. This, coupled with the need and drive to be more agile and deliver insight quicker, is putting tremendous pressure on organizations to build the necessary infrastructure and skill base to react quickly enough.” • Variability. In addition to the speed at which data comes your way, the data flows can be highly variable – with daily, seasonal and event-triggered peak loads that can be challenging to manage. • Complexity. Difficulties dealing with data increase with the expanding universe of data sources and are compounded by the need to link, match and transform data across business entities and systems. Organizations need to understand relationships, such as complex hierarchies and data linkages, among all data. A data environment can become extreme along any of the above dimensions or with a combination of two or all of them at once. However, it is important to understand that not all of your data will be relevant or useful. Organizations must be able to separate the wheat from the chaff and focus on the information that counts – not on the information overload. Rethinking Data Management The necessary infrastructure that May refers to will be much more than tweaks, upgrades and expansions to legacy systems and methods. “Because the shifts in both the amount and potential of today’s data are so epic, businesses require more than simple, incremental advances in the way they manage information,” wrote Dan Briody in Big Data: Harnessing a Game-Changing Asset (Economist Intelligence Unit, 2011). “Strategically, operationally and culturally, companies need to reconsider their entire approach to data management, and make important decisions about which data they choose to use, and how they choose to use them. … Most businesses have made slow progress in extracting value from big data. And some companies attempt to use traditional data management practices on big data, only to learn that the old rules no longer apply.” Some organizations will need to rethink their data management strategies when they face hundreds of gigabytes of data for the first time. Others may be fine until they reach tens or hundreds of terabytes. But whenever an organization reaches the critical mass defined as big data for itself, change is inevitable. From Standalone Disciplines to Integrated Processes Organizations are moving away from viewing data integration as a standalone discipline to a mindset where data integration, data quality, metadata management and data governance are designed and used together. The traditional extract-transform-load (ETL) data approach has been augmented with one that minimizes data movement and improves processing power. Big data refers to enormity in five dimensions: • Volume – from terabytes to petabytes and up. • Variety – an expanding universe of data types and sources. • Velocity – accelerated data flow in all directions. • Variability – inconsistent data flows with periodic peaks. • Complexity – the need to correlate and share data across entities. “Most businesses have made slow progress in extracting value from big data. And some companies attempt to use traditional data management practices on big data, only to learn that the old rules no longer apply.” Dan Briody “Big Data: Harnessing a Game-Changing Asset,” Economist Intelligence Unit, 20114 SAS White Paper Organizations are also embracing a holistic, enterprise view that treats data as a core enterprise asset. Finally, many organizations are retreating from reactive data management in favor of a managed and ultimately more proactive and predictive approach to managing information. From Sample Subsets to Full Relevance The true value of big data lies not just in having it, but in harvesting it for fast, factbased decisions that lead to real business value. For example, disasters such as the recent financial meltdown and mortgage crisis might have been prevented with risk computation on historical data at a massive scale. Financial institutions were essentially taking bundles of thousands of loans and looking at them as one. We now have the computing power to assess the probability of risk at the individual level. Every sector can benefit from this type of analysis. “Big data provides gigantic statistical samples, which enhance analytic tool results,” wrote Philip Russom, Director of Data Management Research for TDWI in the fourth quarter 2011 TDWI Best Practices Report, Big Data Analytics. “The general rule is that the larger the data sample, the more accurate are the statistics and other products of the analysis.” However, organizations have been limited to using subsets of their data, or they were constrained to simplistic analysis because the sheer volume of data overwhelmed their IT platforms. What good is it to collect and store terabytes of data if you can’t analyze it in full context, or if you have to wait hours or days to get results to urgent questions? On the other hand, not all business questions are better served by bigger data. Now, you have choices to suit both scenarios: • Incorporate massive data volumes in analysis. If the business question is one that will get better answers by analyzing all the data, go for it. The game-changing technologies that extract real business value from big data – all of it – are here today. One approach is to apply high-performance analytics to analyze massive amounts of data using technologies such as grid computing, in-database processing and in-memory analytics. SAS has introduced the concept of an analytical data warehouse that surfaces for analysis only the relevant data from the enterprise data warehouse, for simpler and faster processing. • Determine upfront which data is relevant. The traditional modus operandi has been to store everything; only when you query it do you discover what is relevant. SAS provides the ability to apply analytics on the front end to determine data relevance based on enterprise context. This analysis can be used to determine which data should be included in analytical processes and which can be placed in low-cost storage for later availability if needed. Cheap storage has driven a propensity to hoard data, but this habit is unsustainable. What organizations need is a better information engineering pipeline and a better governance process. Organizations do not have to grapple with overwhelming data volumes if that won’t better serve the purpose. Nor do they have to rely solely on analysis based on subsets of available data.5 Big Data Meets Big Data Analytics Three Key Technologies for Extracting Business Value from Big Data According to Philip Carter, Associate Vice President of IDC Asia Pacific, “Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery and/or analysis.” (Source: IDC. Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, September 2011.) Furthermore, this analysis is needed in real time or near-real time, and it must be affordable, secure and achievable. Fortunately, a number of technology advancements have occurred or are under way that make it possible to benefit from big data and big data analytics. For starters, storage, server processing and memory capacity have become abundant and cheap. The cost of a gigabyte of storage has dropped from approximately $16 in February 2000 to less than $0.07 today. Storage and processing technologies have been designed specifically for large data volumes. Computing models such as parallel processing, clustering, virtualization, grid environments and cloud computing, coupled with high-speed connectivity, have redefined what is possible. Here are three key technologies that can help you get a handle on big data – and even more importantly, extract meaningful business value from it. • Information management for big data. Manage data as a strategic, core asset, with ongoing process control for big data analytics. • High-performance analytics for big data. Gain rapid insights from big data and the ability to solve increasingly complex problems using more data. • Flexible deployment options for big data. Choose between options for onpremises or hosted, software-as-a-service (SaaS) approaches for big data and big data analytics. Information Management for Big Data Many organizations already struggle to manage their existing data. Big data will only add complexity to the issue. What data should be stored, and how long should we keep it? What data should be included in analytical processing, and how do we properly prepare it for analysis? What is the proper mix of traditional and emerging technologies? Big data will also intensify the need for data quality and governance, for embedding analytics into operational systems, and for issues of security, privacy and regulatory compliance. Everything that was problematic before will just grow larger. SAS provides the management and governance capabilities that enable organizations to effectively manage the entire life cycle of big data analytics, from data to decision. SAS provides a variety of these solutions, including data governance, metadata management, analytical model management, run-time management and deployment management. A “stream it, store it, score it” approach determines the 1 percent that is truly important in all the data an organization has. The idea is to use analytics to determine relevance instead of always putting all data in storage before analyzing it.6 SAS White Paper With SAS, this governance is an ongoing process, not just a one-time project. Proven methodology-driven approaches help organizations build processes based on their specific data maturity model. SAS® Information Management technology and implementation services enable organizations to fully exploit and govern their information assets to achieve competitive differentiation and sustained business success. Three key components work together in this realm: • Unified data management capabilities, including data governance, data integration, data quality and metadata management. • Complete analytics management, including model management, model deployment, monitoring and governance of the analytics information asset. • Effective decision management capabilities to easily embed information and analytical results directly into business processes while managing the necessary business rules, workflow and event logic. High-performance, scalable solutions slash the time and effort required to filter, aggregate and structure big data. By combining data integration, data quality and master data management in a unified development and delivery environment, organizations can maximize each stage of the data management process. Stream it, score it, store it. SAS is unique for incorporating high-performance analytics and analytical intelligence into the data management process for highly efficient modeling and faster results. For instance, you can analyze all the information within an organization – such as email, product catalogs, wiki articles and blogs – extract important concepts from that information, and look at the links among them to identify and assign weights to millions of terms and concepts. This organizational context is then used to assess data as it streams into the organization, churns out of internal systems, or sits in offline data stores. This up-front analysis identifies the relevant data that should be pushed to the enterprise data warehouse or to high-performance analytics. High-Performance Analytics for Big Data High-performance analytics from SAS enables you to tackle complex problems using big data and provides the timely insights needed to make decisions in an ever-shrinking processing window. Successful organizations can’t wait days or weeks to look at what’s next. Decisions need to be made in minutes or hours, not days or weeks. High-performance analytics also makes it possible to analyze all available data (not just a subset of it) to get precise answers for hard-to-solve problems and uncover new growth opportunities and manage unknown risks – all while using IT resources more effectively. Whether you need to analyze millions of SKUs to determine optimal price points, recalculate entire risk portfolios in minutes, identify well-defined segments to pursue customers that matter most or make targeted offers to customers in near-real time, high-performance analytics from SAS forms the backbone of your analytic endeavors. Quickly solve complex problems using big data and sophisticated analytics in a distributed, in-memory and parallel environment.7 Big Data Meets Big Data Analytics To ensure that you have the right combination of high-performance technologies to meet the demands of your business, we offer several processing options. These options enable you to make the best use of your IT resources while achieving performance gains you never would have thought possible. Accelerated processing of huge data sets is made possible by four primary technologies: • Grid computing. A centrally managed grid infrastructure provides dynamic workload balancing, high availability and parallel processing for data management, analytics and reporting. Multiple applications and users can share a grid environment for efficient use of hardware capacity and faster performance, while IT can incrementally add resources as needed. • In-database processing. Moving relevant data management, analytics and reporting tasks to where the data resides improves speed to insight, reduces data movement and promotes better data governance. Using the scalable architecture offered by third-party databases, in-database processing reduces the time needed to prepare data and build, deploy and update analytical models. • In-memory analytics. Quickly solve complex problems using big data and sophisticated analytics in an unfettered manner. Use concurrent, in-memory, multiuse access to data and rapidly run new scenarios or complex analytical computations. Instantly explore and visualize data. Quickly create and deploy analytical models. Solve dedicated, industry-specific business challenges by processing detailed data in-memory within a distributed environment, rather than on a disk. • Support for Hadoop. You can bring the power of SAS Analytics to the Hadoop framework (which stores and processes large volumes of data on commodity hardware). SAS provides seamless and transparent data access to Hadoop as just another data source, where Hive-based tables appear native to SAS. You can develop data management processes or analytics using SAS tools – while optimizing run-time execution using Hadoop Distributed Process Capability or SAS environments. With SAS Information Management, you can effectively manage data and processing in the Hadoop environment. In addition, a new product from SAS provides a Web-based solution that leverages SAS high-performance analytics technologies to explore huge volumes of data in mere seconds. Using SAS Visual Analytics, you can very quickly see correlations and patterns in big data, identify opportunities for further analysis and easily publish reports and information to an iPad®. Because it’s not just the fact that you have big data, it’s what you can do with the data to improve decision making that will result in organizational gains. SAS can cut through the complexities of big data and identify the most valuable insights so decision makers can solve complex problems faster than ever before. High-performance analytics from SAS is optimized to address new business requirements and overcome technical constraints. In addition, SAS is leading the way in empowering organizations to transform their structured and unstructured data assets into business value using multiple deployment options. “Today’s rapid pace of business requires operational analytics that deliver answers before a question becomes obsolete; the sooner you act on a decision, the greater its potential value. SAS High-Performance Analytics can turn any data, including big data assets, into quicker, better business decisions and ultimately competitive advantage.” Dan Vesset, Program Vice President, Business Analytics, IDC8 SAS White Paper Flexible Deployment Options for Big Data Flexible deployment models bring choice. High-performance analytics from SAS can be deployed in the cloud (with SAS or another provider), on a dedicated high-performance analytics appliance or in the existing on-premises IT infrastructure – whichever best serves your organization’s big data requirements. Whatever the deployment environment – from a desktop symmetric multiprocessing (SMP) to massively parallel processing (MPP) running on tens, hundreds or even thousands of servers – high-performance analytics from SAS scales for the best performance. A flexible architecture enables organizations to take advantage of hardware advances and different processing options, while extending the value of original investments. For some organizations, it won’t make sense to build the IT infrastructure to support big data, especially if data demands are highly variable or unpredictable. Those organizations can benefit from cloud computing, where big data analytics is delivered as a service and IT resources can be quickly adjusted to meet changing business demands. SAS Solutions OnDemand provides customers with the option to push big data analytics to the SAS infrastructure, greatly eliminating the time, capital expense and maintenance associated with on-premises deployments. SAS Differentiators at a Glance • Flexible architecture approach. SAS provides flexible architecture approaches that are optimized based on business requirements and technical constraints. • Ability to manage and leverage many models. Multiple deployment models include on-premises, cloud-hosted or hybrid options that provide the flexible capabilities required in many big data scenarios. • Solutions that are enabled for big data. SAS provides comprehensive big data analytics capabilities, from robust information management support (data, analytics and decision management) to high-performance analytics infrastructure support, big data visualization and exploration capabilities, solutions that integrate structured and unstructured data, and prepackaged business solutions. • Proven, trusted adviser status. SAS is uniquely positioned to help organizations turn big data and big data analytics into business value and differentiation based on our unparalleled leadership, product and solution offerings, and domain expertise. • Comprehensive information management approach supports the entire analytics life cycle. Our graduated big data analytics maturity curve approach allows organizations to address their current and future needs in an optimal fashion. High-performance analytics lets you do things you never thought about before because the data volumes were just way too big. For instance, you can get timely insights to make decisions about fleeting opportunities, get precise answers for hardto-solve problems and uncover new growth opportunities – all while using IT resources more effectively. Flexible deployment models bring choice. High-performance analytics from SAS can be deployed in the cloud (with SAS or another provider), on a dedicated high-performance analytics appliance or in the existing on-premises IT infrastructure – whatever best serves your organization’s big data requirements.9 Big Data Meets Big Data Analytics Conclusion “One-third of organizations (34 percent) do big data analytics today, although it’s new,” wrote Russom of TDWI. “In other words, they practice some form of advanced analytics, and they apply it to big data. This is a respectable presence for big data analytics, given the newness of the combination of advanced analytics and big data.” Given that more than one-third of organizations in Russom’s research reported having already broken the 10-terabyte barrier, big data analytics will see more widespread adoption. Organizations that succeed with big data analytics will be those that understand the possibilities, see through the vendor hype and choose the right deployment model. Big Data and Big Data Analytics – Not Just for Large Organizations If we define big data as the data volume, variety and velocity that exceed an organization’s ability to manage and analyze it in a timely fashion, then there are candidates in any industry. It doesn’t matter if the breaking point is reached at hundreds of gigabytes or tens or hundreds of terabytes. The principles that apply to big data and big data analytics are similar and can help the smaller organization extract more value from its data assets and IT resources. It Is Not Just About Building Bigger Databases Big data is not about the technologies to store massive amounts of data. It is about creating a flexible infrastructure with high-performance computing, high-performance analytics and governance – in a deployment model that makes sense for the organization. SAS can run in a symmetric multiprocessing (SMP) or grid environment – on-premises, in a cloud environment or on an appliance. Organizations can choose the approach that meets their needs today and scales for the future. Choose the Most Appropriate Big Data Scenario Depending on your business goal, data landscape and technical requirements, your organization may have very different ideas about working with big data. Two scenarios are common: • A complete data scenario whereby entire data sets can be properly managed and factored into analytical processing, complete with in-database or in-memory processing and grid technologies. • Targeted data scenarios that use analytics and data management tools to determine the right data to feed into analytic models, for situations where using the entire data set isn’t technically feasible or adds little value. SAS can help assess, provide guidance and deliver solutions that support the best approach for any organization. “Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery and/or analysis.” Philip Carter, Associate Vice President of IDC Asia Pacific “Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO,” September 2011 “The new technologies and new best practices are fascinating, even mesmerizing, and there’s a certain macho coolness to working with dozens of terabytes. But don’t do it for the technology. Put big data and discovery analytics together for the new insights they give the business.” Philip Russom, Director of Data Management Research, TDWI “Big Data Analytics, TDWI Best Practices Report,” Fourth Quarter 201110 SAS White Paper Moving Processing to the Data Source Yields Big Dividends SAS was one of the first vendors to move data preparation and analytical processing to the actual data source, taking advantage of the massive parallel processing (MPP) capabilities in some databases. This approach eliminates the need to move the data, which in turn reduces demand on processing and network resources and accelerates performance. In-database processing will pay additional dividends as data volumes continue to grow. Big Data and Big Data Analytics Don’t Have to Be Difficult Big data technologies don’t have to be complex and require specialized skills. SAS provides an extensive array of preconfigured business solutions and business analytics solutions that greatly simplify the most complex analytical problems, including those based on big data. With cloud computing, big data analytics becomes an on-demand service. And of course, SAS offers technical support, professional services, training and partnerships to ease the way into big data analytics. Closing Thoughts Big data is not just about helping an organization be more successful – to market more effectively or improve business operations. It reaches to far more socially significant issues as well. Could we have foreseen the mortgage meltdown, the financial institution crisis and the recession, if only we had gotten our arms around more data and done more to correlate it? Could we trim millions of dollars in fraud from government programs and financial markets? Could we improve the quality and cost of health care and save lives? The possibilities are wide open. At SAS, we are optimistic about the potential for deriving new levels of value from big data with big data analytics. That’s why we reinvented our architecture and software to satisfy the demands of big data, larger problems and more complex scenarios, and to take advantage of new technology advancements. High-performance analytics from SAS is specifically designed to support big data initiatives, with in-memory, in-database and grid computing options. SAS Solutions OnDemand delivers SAS solutions on an infrastructure hosted by SAS or on a private cloud. The SAS High-Performance Analytics solution for Teradata and EMC Greenplum appliances provides yet another option for applying high-end analytics to big data. So, bring on the petabytes. Big data analytics has arrived. Learn more Explore SAS high-performance solutions to learn how to turn your big data into bigger opportunities. sas.com/hpa White paper: SAS® High-Performance Analytics: What Could You Do with Faster, Better Answers? Transform Your Organization and Gain Competitive Advantage sas.com/reg/wp/corp/41948 White paper: In-Memory Analytics for Big Data: Game-Changing Technology for Faster, Better Insights sas.com/reg/wp/corp/42876About SAS SAS is the leader in business analytics software and services, and the largest independent vendor in the business intelligence market. Through innovative solutions, SAS helps customers at more than 55,000 sites improve performance and deliver value by making better decisions faster. Since 1976, SAS has been giving customers around the world THE POWER TO KNOW®. For more information on SAS® Business Analytics software and services, visit sas.com. SAS Institute Inc. World Headquarters +1 919 677 8000 To contact your local SAS office, please visit: sas.com/offices SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. Copyright © 2012, SAS Institute Inc. All rights reserved. 105777_S81514_0512 BIG DATA With Jean-Michel Lasry Fany Declerck Jean-Cyprien Héam Erwan Koch Valentin Patilea Omar Mehdi Roustoumi Thierry Duchamp Didier Davydoff #13 March 2014 LES CAHIERS2 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 3 Big data:what are the implications for research and industry? A Jean-Michel Lasry’s interview Should there be mandatory transparency in the bond market? By Fany Declerck Does the search for diversification account for bank interconnectedness? “Big Data” in the service of the banking industry Specific data requirements for empirical research? By Jean-Cyprien Héam and Erwan Koch By Omar Mehdi Roustoumi and Thierry Duchamp By Didier Davydoff Statistics and data processing: an indispensable combination By Valentin Patilea PUBLICATION OF INSTITUT LOUIS BACHELIER Palais Brongniart 28 place de la Bourse - 75002 PARIS Tel. 01 73 01 93 25 www.institutlouisbachelier.org www.louisbachelier.org PROJECT MANAGERS Cyril Armange Loïc Herpin CONTACT cyril.armange@institutlouisbachelier.org loic.herpin@institutlouisbachelier.org EDITORIAL DIRECTOR Jean-Michel Beacco CHIEF EDITOR Isaure du Fretay WITH PARTICIPATION OF Coralie Bach PARTNERS • MPG Partners • IODS GRAPHICS DESIGNER, COVER AND IMPLEMENTATION Gaël Nicolet La Cote Bleue 10-12 place Vendôme - 75001 Paris Tel. 01 44 76 85 85 www.lacotebleue.fr PRINTER Kava 42, rue Danton - 94270 Le Kremlin-Bicêtre Tel. 06 14 32 96 87 big data With Jean-Michel lasry Fany Declerck Jean-cyprien héaM erWan koch Valentin patilea oMar MehDi roustouMi thierry DuchaMp DiDier DaVyDoFF #13 March 2014 LES CAHIERS 6 8 10 16 18 14 INDEX FONDATION DU RISQUE RESEARCH FUNDATION INSTITUT www.institutlouisbachelier.org THE CREATION OF SCIENTIFIC TEAMS OF EXCELLENCE The Institut Louis Bachelier is a unique organization that brings together, around industrial partnerships, the best research teams in economics and mathematics, as attested by the LABEX (Laboratoire d’Excellence) certification awarded to the ILB within the framework of its Finance and Sustainable Development project.. • Creation of research programmes directly linked to the financial industry : 30 Chairs and research initiatives have been created under the aegis of the Institut Europlace de Finance (EIF) and the Fondation du Risque (FDR) since 2007, involving more than 200 researchers. • Management and organization of innovative R&D projects in collaboration with the Pôle Finance Innovation. • Contribution to and support for the emergence of new training at undergraduate, masters and doctoral level in phase with the requirements of the Paris Stock Exchange. • Cooperation with French, European, American and Asian universities and research centres. ENHANCING THE IMPACT OF RESEARCH The Institut Louis Bachelier disseminates the widest and most effective results from its research programs, particularly to French and European regulatory authorities. • The quarterly review “Les Cahiers Louis Bachelier” presents research work from its Chairs and research initiatives in language accessible to a wide public. • Publication of discussion papers aiming to clearly inform the public authorities and finance professionals on current topics. • The “Recherche en Finance” portal in partnership with AGEFI. • The financial research community network : www.louisbachelier.org REFLECTION AND DISCUSSION AT A EUROPEAN LEVEL The Institut Louis Bachelier is a veritable crossroads for encounters and contacts with a view to encouraging interaction between the world of research and economic actors. • Financial Risks International Forum : this annual event aims to present the best international research work and, by means of exchanges, discussions and round-tables, to address the concerns of economic actors. • Thematic Semesters : organized in the form of lectures, seminars and courses, these thematic semesters aim to encourage exchanges between academics and professionals on shared problem areas. • Chairs Day : held annually, this event aims to present and compare the work carried out in the context of the Chairs and research initiatives of the Institut Louis Bachelier. • Scientific Mornings : occasions for reviewing the latest developments in financial research through the research projects supported by the Institut Europlace de Finance. PROMOTING, SHARING AND DISSEMINATING FINANCIAL RESEARCH Created in September 2008, the Institut Louis Bachelier (ILB) is an internationally networked research centre with the mission of promoting, sharing and disseminating French financial research and teaching. 29% 19% 41% 11% Axe 1 : Finance and Sustainable Development Axe 2 : Finance of Demographic and Economic Transitions Axe 3 : Risk and Regulation Axe 4 : Behavioural Finance BREAKDOWN OF 30 CHAIRS AND RESEARCH INITIATIVES IN TERMS OF THE FOUR STRATEGIC AXES OF LABEX FINANCE AND SUSTAINABLE GROWTH4 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 5 EDITO Megadata, analytics 2.0, zettaoctets, infomagic, infom@gic… does this terminology point to a new scientific revolution? For several decades, there has been a rapid and continuous development of IT tools, storage capacity and data response and computation time. These increased technological capabilities have, however, been incorporated in fits and starts by companies due to substantial adaptation costs in terms of equipment, staff training and governance. The previous revolution of this kind for finance and insurance took place in the early 1990s with, on the one hand, the creation of electronic trading markets and, on the other, the real-time monitoring of current accounts and permanent credits. It also allowed the management of stocks in real time. From analysis based on a few thousand observations, we moved to analysis based on tens of millions of observations, or an increase by a factor of 10,000 in the size of the databases used. This leap was not only quantitative; it also made available new information, which in turn led to new types of market with, for example, highfrequency trading, the introduction of appropriate regulations, etc. This new potential revolution with regard to data is of the same type and with a scale effect of similar size. The questions now being asked are not dissimilar to those of the early 1990s. How does one avoid being overwhelmed by the data? Should one use automatic data analysis methods or adopt newly conceived approaches for such massive data? Does the interest lie in the amount of data or in the existence of new types of data and questions to be considered? Do all businesses need to adapt to this new environment or is such adaptation too costly compared to the expected gain? How is privacy to be protected in the use of new data? How should governance pertaining to these new developments be partitioned among managers, IT services, marketing specialists, risk specialists, etc.? The automatic methods of the 1990s, slightly improved, covered by the general term “data mining”, are once again proposed for the analysis of big data. However, “drilling” at random in databases turns out to be costly in return for low productivity. Before doing so, it is better to specify what is wanted and to identify the area to be prospected. What is one looking for and what can one expect to find? Two major potential uses of these databases should be distinguished. • The data can be used to improve answers to standard questions. A typical example is the use of geolocation data to improve prediction of the risk of car accidents and provide new types of car insurance policies. Similarly web data can be used to better understand people’s consumption choices and to target marketing campaigns more effectively; and smart meters allow electricity consumption to be monitored in real time and production processes to be adapted more efficiently. • There is other data that will help to resolve questions that could not be considered earlier. Thus data on the detailed balance sheets of banks and their counterparts and on the composition of fund managers’ portfolios will improve understanding of interaction effects and their importance in the analysis of systemic risk. Similarly, by combining data from web sites, it may be possible to discover how ads in different media interact and influence a given consumer. To answer such questions, we must develop new models and introduce appropriate statistical methods. There are a number of such methods, introduced over the last 15 years, and they should be used appropriately, depending on the problem being considered. They have names such as: Lasso, sparse regression, statistical learning, segmentation, granularity, non-linear panel models with individual and time effects, compression, etc. (References on these methods are provided below). Finally, we should emphasize three points: 1. Big data is often of poor quality. Preliminary processing to make it more reliable can be very expensive, thus limiting the value of using it. 2. The methods used must have a well controlled level of computational complexity. In particular, the number of operations required to process n data should not increase too quickly with n. Thus momentum-type portfolio management based on a large number of assets will be less expensive from a computational standpoint than mean-variance management, for example. 3. The availability of real-time data does not necessarily imply real-time responses, which should take into account the people they are intended for. Thus knowledge of continuous auto risk will not prevent insurance premiums being adjusted on a monthly basis, for example. This issue of the Institut Louis Bachelier Cahier provides examples of questions and methods related to big data: analysis of liquidity from high frequency data, understanding the interconnections between banks from balance sheet data, potential uses of sparse regression, and so on. Christian Gouriéroux • Beath, C., Becerra-Fernandez, I., Ross, S., and T., Short (2012): “Finding Value in the Information Explosion”, MIT Sloan Management Review. • Mayer-Schonberger, V., and K., Cukier (2013): “Big Data: A Revolution that Will Transform How We Live, Work and Think”, John Murray. • Nichols, W. (2012): “Advertising Analytics 2.0”, Harvard Business Review. • Gagliardini, P., and C., Gouriéroux (2014): “Granularity Theory”, forthcoming Cambridge University Press. • Gagliardini, P., Gouriéroux, C., and M., Rubin (2013): ”Positional Portfolio Management”, CREST DP. • Hastie, T., Tibshirani, R., and J., Friedman (2009): “The Elements of Statistical Learning, Data Mining, Inference and Prediction”, 2nd ed., Springer. • Novicki, K., and T., Snijders (2001): “Estimation and Prediction for Stochastic Blockstructures”, J. Amer. Statist. Assoc., 96, 1077-1087. • Tibshirani, R. (1996): “Regression Shrinkage and Selection via Lasso”, JRSS B, 58, 267-288. If you would like to subscribe to the Louis Bachelier review, please contact the Institut Louis Bachelier team by email at the following address : contact@institutlouisbachelier.org Make sure to state the subject of your message and to provide your full details. You will then receive every issue by email at the address you have indicated. www.institutlouisbachelier.org SUBSCRIPTIONS NB : Note that there are a limited number of copies of each issue of The Louis Bachelier research review ! Further reading on big data Further reading on new statistical approaches6 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 7 Jean-Michel Lasry Jean-Michel Lasry is Emeritus Professor at Université Paris Dauphine and Chairman of the Steering Committee of the Finance and Sustainable Development Chair. Prior to his retirement in 2013, he was Senior Scientific Advisor at Crédit Agricole CIB (previously CALYON). He was also a member of the Executive Committee of CALYON Markets Activities for four years as well as the Global Head of Research & Capital Management. Before that, he was Deputy CEO of CPR Bank in Paris for four years. From 1994 to 1996, Jean-Michel Lasry was the CEO of the Caisse Autonome de Refinancement. From 1990 to 1993, he was a member of the Executive Committee of CDC Banking Divisions and a Board Member of CDC Gestion. He worked as a Professor at Université Paris-Dauphine and École Polytechnique for 17 years, and has had more than 100 papers published in mathematics and economics journals. Jean-Michel Lasry, the topic of big data has had much media coverage in recent years. In what respects is the big data phenomenon new? Big data represents a break in several respects. First, in quantitative terms. The volumes of data available and the creation of new data are higher by several orders of magnitude than what we saw in the late 1990s. Next, this information is mostly available in real time, in contrast with the past, even the recent past, for much of the data. And the data is very varied in its nature. It includes things as diverse as the massive geolocation associated to the democratization of connected objects, widespread detailed timestamped recording of individual consumption – through supermarket receipts for example – and the continuous monitoring of biological constants, particularly through heart rate sensors. These various measurements are often linked to the development of new tools. In parallel, storage and computing capacity have greatly increased, while becoming more accessible in terms of cost. In short, big data amounts to a revolution in terms of the magnitude of data available and the democratization of measurement, storage and analytic tools. This mass of disparate data comes from many sources. Professionals are no longer the only producers of information… Indeed. It is no longer a matter only of the results of well-established process studies. Data now originates from a host of internet users, though their participation in blogs, social networks, etc. Their every click is recorded by the site visited as well as by cookies incorporated into browsers. The data also arises from all kinds of connected objects: smartphones, tennis rackets that record the player’s movements during a game, personalized connected weather stations, and so on. Finally, the acts of economic life are systematically recorded, whether they be financial flows, commercial exchanges or simple prospecting activities. Big data: what are the implications for research and industry? In November 2013, Paris Dauphine University and Havas teamed up to create the “Economics of new data” Chair within the Institut Louis Bachelier. This research programme brings together industrial sponsors and scientific experts to respond to the economic and scientific challenges of big data. Why does the advent of big data mark a break? Do researchers have appropriate techniques for analysing this information? What are the opportunities offered by big data? Jean-Michel Lasry, at the initiative of the Chair, discusses these various issues. Does this massive influx of data have anything in common with past experience? Let’s say we have met with precursor phenomena. The data collected by genetic biologists, by specialists in linguistic processing and by image processing specialists provided a foretaste of the issues encountered today. Typical examples include genome analysis, medical imaging and detecting spam on the web. To respond to these various questions, learning specialists, statisticians and computer scientists had to define new techniques that are very different from those traditionally used. A whole discipline has thus emerged over the past two decades in order to provide quantitative methods that can be grouped together under the heading “statistical learning” or “machine learning”1 . What principles are these methods based on? It is a matter of defining complex algorithms to systematically explore structures that enable information to be extracted. This work is conducted in a context whose massive scale is at first sight daunting. Underlying these quantitative methods is the concept of parsimony, which postulates that the objects of interest can be represented parsimoniously, that is to say, using a limited number of variables. Identifying these variables in an effective way, through efficient algorithms, becomes the central issue in the fast-growing discipline of high-dimensional statistics. Apart from mathematical and computing questions, what are the main big data issues for research? The arrival of this wealth of data paves the way for new research in many areas, for example sociological studies of social networks, microeconomic studies of consumption through the analysis of purchase receipts, and so on. The field of possibilities is very broad and extends to all disciplines. Big data is of value only if we make sense of it. This involves technical and algorithmic work, but also modelling according to the context and existing or potential uses. Companies are also increasingly likely be interested in this topic. How does this new data affect their business? Big data overturns the relationship between producers and consumers. Brands can now find out about their customers without going through an intermediary, thanks in particular to social networks. They are thus able to establish an individual relationship with each customer, and strengthen their image in much more complex ways than traditional advertising. Through a Facebook application, for example, Warner now has a much more detailed picture of spectators’ tastes in film, and can build a closer relationship with them. In other words, current technologies offer the possibility of constructing a completely new type of CRM. It was in this context that the Havas-Dauphine “Economie des nouvelles données” Chair was created in November 2013. What are its objectives? The Chair is intended to be multidisciplinary and transversal and has the aim of facilitating access by economics and management researchers to work on big data. Researchers in economics and management at Paris Dauphine, and more generally from PSL (Paris Sciences et Lettres), will be able more easily to set up scientific collaborations with researchers specializing in statistical learning and machine learning. Backed by a number of corporate sponsors, the Chair will conduct studies both on theoretical topics, such as the development of new algorithmic and statistical methods, and in more practical areas of applied related to its partners’ businesses. In the latter case, part of this research will probably revolve around the theme of the customer relationship. We hope, through this initiative, to promote exchanges between professionals and researchers so as to combine know-how and expertise. It is essential to quickly develop responses to on-going changes. Thanks to the quality and diversity of its expertise, France is in a position to become one of the world’s leading centres of excellence in the area of big data. Big data constitutes a revolution through the magnitude of the data available and through the democratization of measurement, storage and analytic tools. Big data represents a break both in the quantity and kind of data available. Professionals, such as pollsters for example, no longer have a monopoly on the production of data. The activity of internet users and the use of connected objects create a very heterogeneous mass of information. The advent of this information opens the way to new research in the majority of scientific disciplines. For companies, big data offers a chance to rethink the customer relationship. Key points 1. Scientific discipline concerned with the development, analysis and implementation of automated methods that allow machines (broadly defined) to evolve through a learning process. Wikipedia BIOGRAPHY8 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 9 Finding the price of a share is easy. Information on stock prices and the latest transactions are at one’s fingertips. The process is more complicated for bonds. Yet in Europe, the bond market handles twice as much money as the stock market. Although substantial, this trading of corporate debt generally occurs in the greatest opacity. Online databases, such as Bloomberg’s, for example, have grown in recent years and can increase the amount of information available. However, they are relatively little used. The majority of transactions still take place in the traditional way, by telephone between buyers, sellers and dealers, confining the data to a small circle of insiders. Does such a way of operating allow sufficient liquidity? Does it ensure proper transmission of information and fair price formation? These are questions that the study by Bruno Biais and Fany Declerck seeks to answer. Calibrating bond issuance to meet market expectations Based on a sample of transactions implemented between 2003 and 2005, the authors studied the corporate bond trading system. They were particularly interested in the secondary market (resale of securities). It appears that the extent to which securities are traded depends on several factors. First, the size of the issue: the larger it is, the more active the trading. Second, maturity: bonds with a five year or ten year maturity are the most traded. Similarly, the rating directly affects demand from buyers. Thus bonds with the highest rating (AAA) appeal to investors because of their low level of risk. But lower-rated (BBB), and therefore risky, securities are also traded in large volumes. This phenomenon is explained by the amount of information provided by the company, another key element in bond trading. Risky bonds are subShould there be mandatory transparency in the bond market? Allowing investors quicker access to financial information is one of the challenges of Big Data. It is still essential that actors are cooperative in sharing their data. Yet the bond market today operates in a fairly opaque manner, preferring to trade OTC rather than using a public platform. Is this way of working efficient? Does it ensure good liquidity and fair price formation? Bruno Biais and Fany Declerck have addressed these questions. ject to more frequent communication, and investors react to the information provided. A liquid European market ... Market transparency also affects the difference between the seller’s price and the buyer’s price. In the United States, regulation has been introduced requiring dealers to divulge, in real time, the time, price and quantity of securities sold. This requirement has reduced the gap between the seller’s price and the buyer’s price by 5 to 10 per cent. No equivalent regulation has yet been introduced in Europe. Surprisingly, however, the study shows that the European market is more liquid than the U.S. market. Overall it records more transactions for lower fees, and within Europe, the euro market itself is more liquid than the sterling market. The researchers interpret these results as a positive result of European economic integration. Indeed, the European Union, and even more so the Eurozone, favour the proliferation of actors, thus generating greater competition. The market is fragmented, consisting both of large international banks and national institutions. The United States, by contrast, with its limited number of large players, operates less competitively. …despite a lack of information The European situation is not ideal either. Fany Declerck and Bruno Biais draw attention to a shortcoming in the price discovery process. They find that on the day of the transaction, the information contained in transactions is not included in the prices quoted by dealers. In total, it takes at least five days for all the information to be passed on. price adjustment is therefore delayed, and as a result investors buy at the wrong price. Despite good liquidity, the European bond market thus suffers from a lack of information. Dealers take advantage of this opacity to maintain high costs and delay price adjustment. A first attempt to improve the situation was made in July 2011 with the creation of NYSE BondMatch. This electronic exchange, dedicated to European corporate bonds, makes available data related to securities trades. While theoretically a step forward, in practice it has not had the success anticipated. Despite its full pre-and post-transaction transparency, the platform so far remains underutilized. Regulations favouring greater transparency, similar to those introduced in the United States, may therefore be necessary. More reliable and faster information t r a n s m i s s i o n should enable corporate issuers to better promote their bonds. It would probably also facilitate the resale of securities in the secondary market, thereby increasing liquidity and the attractiveness of corporate bonds. However, it would probably first be advisable to look at the impact of such regulation by comparing a sample of transactions subject to a reporting requirement to the rest of the market. This verification can only be carried out, however, with the support of the European authorities. They alone have the ability to compel dealers to report their data in real time. It takes five days for all post-transaction information to be passed on to the market The European bond market is more liquid than the U.S. market. Yet it is less transparent. This liquidity can be accounted for by European economic integration, which has opened the market to a large number of players and generated strong competition. However, the market suffers from poor transmission of information. Data related to a transaction (price, quantity, time) takes more than five days to reach the market. Price adjustment is therefore delayed. Key points Bruno Biais and Richard C. Green, “The Microstructure of the Bond Market in the 20th Century”, working paper. Carnegie Mellon University Research Showcase 2007. Michael A. Goldstein, E. Hotchkiss and E. Sirri, “Transparency and Liquidity: A Controlled Experiment on Corporate Bonds”, 2007, Review of Financial Studies, 235- 273. Norman Schuerhoff and Li Dan, “Dealer Networks”, working paper. Further reading... article on Find the Fany Declerck’s @www.louisbachelier.org Fany Declerck Fany Declerck is professor of finance at Toulouse School of Economics. After her master in econometrics and a Phd in finance, she spent 3 months as Marie Curie fellow at the Centre for Studies in Economics and Finance (University of Salerno). In May 2013 she was visiting researcher at Berkeley and in May 2014 visiting researcher at Banque de France. Her expertise as an academic is complemented by her professional experience, as she was associate researcher at Euronext before joining Toulouse. Her main interest research is in the microstructure of financial markets. Her work is based on large stocks and bonds high-frequency databases. She has published empirical studies in the Journal of Banking and Finance and the Journal of Financial Markets. Bruno Biais and Fany Declerck drew on the IIC and ICMA databases to analyse a sample of transactions implemented between 2003 and 2005. The sample is composed of 300 bonds denominated in euro and 300 bonds denominated in sterling. The securities have ratings ranging from AAA to BBB, and were issued by companies from various sectors (commodities, consumer goods and services, industry, health, etc.). The sample is thus comparable to that used by the U.S. TRACE study. In detail, the study considered 1,844,826 transactions, for which the researchers analysed the time of the transaction, price, quantity, characteristics and “dealer code”. METHODOLOGY The European bond market currently operates in an opaque fashion. Greater transparency could improve its effectiveness and enable bond prices to adjust faster. To confirm this hypothesis, one would need to compare two samples of transactions: one where the information is made public, and the other second without any reporting requirement. This experiment should be endorsed by the European Commission, to make dealers provide the information requested. Recommendations Based on the paper “Liquidity, Competition & Price Discovery in the European Corporate Bond Market” by Bruno Biais and Fany Declerck and on an interview B with Fany Declerck. IOGRAPHY10 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 11 Are competition and cooperation compatible? It would seem so, on the strength of how financial institutions operate. Although banks compete to increase their market share, they also forge partnerships, particularly through interbank exchange. In this paradoxical situation, the failure of a bank is both good and bad news for other banks. The primary justification given for this interconnectedness is liquidity. Interbank transactions allow each institution to manage its short-term risks and meet its debt obligations. The literature is clear on this point. However, limiting the relationship among banks to this single concern would be simplistic. Other factors need to be considered. Banks, like insurance companies, may decide to form links in order to create a common product, transfer risk (in the case of reinsurance, for example) or diversify their positioning. It is this last point that Jean-Cyprien Héam and Erwan Koch wished to investigate in greater depth. Is the search for diversification a valid explanation of networking among financial institutions? Should we be concerned about this interconnectedness and exercise greater control over it? Or does it contribute to the proper functioning of the market? For their study, the researchers drew on new data made available by the regulator. Indeed, banks are required to submit their detailed accounts each quarter – an obligation that will soon become weekly for larger institutions. The advent of this information opens the way to new research, such as the study presented in this article. Benefitting from the positioning of its competitors The interconnectedness of banks stems firstly from the way the market is organised. Not all institutions follow the same business model: mutual benefit organisations and commercial groups, Jean-Cyprien Héam Jean-Cyprien Héam is economist at the Research Directorate of the French Prudential Supervisory Authority (Autorité de Controle Prudentiel et de Résolution) and PhD candidate at CREST, Paris. His research topics are focused on systemic risk based on network analysis and on liquidity risk. He is a graduate of the ENSAE and the Ecole Centrale Lyon. Erwan Koch Erwan Koch approachs the end of his PhD program at the ISFA and at the Laboratory of finance/insurance at CREST. His research concerns spatial risks and risks in networks, with applications to climate extremes and financial contagion. Engineer of “Ecole Centrale de Paris”, he also obtained a Master’s Degree in mathematical modeling and climatology at the same Engineer School and a Master’s Degree in actuarial sciences at Paris-Dauphine University. Does the search for diversification account for bank interconnectedness? Banks are financially linked to each other through interbank transactions. In this way they are able to manage their liquidity needs. But not only that. The obligation for banks to provide detailed accounts would provide access to new data and enable other hypotheses to be tested. Would interconnectedness also be a way for banks to diversify their positioning? Is it only a risk factor or does it contribute to the proper functioning of the banking market? Based on an interview1 with Jean-Cyprien Héam and Erwan Koch and on their paper “Diversification and Endogenous Financial Networks” (2014). for example, operate on the basis of very different logics. Similarly, for historical reasons, some banks are highly developed in a specific segment (geographical area, type of customer, etc.). Given this situation, each bank seeks to define the best strategy to optimize its investments. Since acquiring a new customer is expensive, it often prefers to enter a partnership with an already established competitor rather than attempting to win customers itself. Its choices are then guided by a tradeoff between risk and return. Several parameters will influence the level of diversification and therefore of interconnection. In particular the authors examined the profitability of loans from different banks, and the correlation between yields and the extent of regulatory capital constraint. It emerges that the greater the risk sensitivity of the institution, the more it seeks to diversify, since this is a way to limit differences in profitability and thus to reduce risk. Conversely, a riskneutral institution will be guided solely by the search for profit. Ensuring a good regulatory level Regulation also has a strong impact on the degree of interconnectedness. Prudential rules require banks to maintain a certain level of capital for each investment made. Interbank assets are no exception to this rule. The stronger this constraint, the more institutions will reduce their purchases of shares or bonds from other banks. In their study, Jean-Cyprien Héam and Erwan Koch emphasize this point. It is important to have a good regulatory level that limits systemic risk while providing an optimal level of lending to the real economy. The researchers show that excessive interconnectedness could generate contagion. Conversely, too little interconnectedness would penalize bank diversification strategies and consequently the operation of the banking market. Between diversification and contagion Trade-offs by banks are therefore implemented according to these different factors and the banks’ knowledge of their competitors’ business. Each institution then invests with its partners in the expectation that these links will have a positive impact on its business. It optimizes its balance sheet in accordance with the situation of other banks in the network. But traditionally, regulation views interconnectedness only through the prism of risk. From this perspective, the more banks are interconnected, the greater the risk of contagion. The need for diversification is not taken into account. Yet this need for diversification seems a plausible explanation for financial interconnectedness – one valid reason among others. Several factors should be considered in order to identify interbank activity, and further studies are thus necessary. It would in any case be interesting to find out about the impact of the different motives for interconnectedness so as to evaluate the sensitivity of the banking system to various shocks. Understanding these mechanisms should also guide the formulation of the most appropriate regulation. Interconnectedness is partly a response to banks’ optimization procedures Jean-Cyprien Héam and Erwan Koch have constructed a model where the interbank network results from banks’ desire for diversification. This choice depends on a set of parameters, the relative importance of which the authors seek to identify. Among these parameters are the profitability of loans, the correlation between returns, and the weight of the regulatory capital constraint. Initially, it is a matter of examining how an institution manages its interbank transactions based on its knowledge of the balance sheets of other banks; then of understanding how the entire system is constructed from this principle of individual optimization. METHODOLOGY Bank interconnectedness is often seen as a response to the liquidity needs of financial institutions. There are long-term interconnections that are not based on considerations of liquidity. For example, a bank may seek to diversify. By entering into partnership with a competitor specialising in a particular segment, it gains access to this segment. At the level of individual banks, interconnectedness is seen as a positive element. However, at a global level, interconnections can give rise to the risk of contagion. Key points Financial Stability Board Data Gaps Initiative, 2014 “Senior Supervisors Group Report on Counterparty Data”, www.financialstabilityboard.org Acemoglu, D., Ozdaglar, A., and A. Tahbaz-Salehi, 2013: “Systemic Risk and Stability in Financial Networks”, NBER Working Paper 18727. Elliott, M., Golub, B., and M. Jackson, 2014: “Financial Networks and Contagion”, mimeo. Further reading... @ Find the Jean-Cyprien Héam and Erwan Koch’s article on www.louisbachelier.org Evaluating the different reasons for banking interconnectedness is essential for measuring the sensitivity of the system to various shocks. Understanding this phenomenon can guide regulation with regard to the trade-off between diversification and contagion. This work also serves to provide an analysis of new data collected by the regulatory authorities. Further models analysing other reasons for interconnectedness should be developed to establish the broadest possible mapping of the formation mechanisms of financial networks. Recommendations 1. The opinions expressed here are those of the authors and do not necessarily reflect the views of the institutions to which they belong. BIOGRAPHIES12 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 13 Valentin Patilea Valentin PATILEA is professor of statistics at Ecole Nationale de la Statistique et de l’Analyse de l’Information (Ensai). After a master in mathematics in Bucarest and a master in mathematical economics and econometrics in Toulouse, he obtained the PhD in statistics in Louvain-la-Neuve. He’s now leading the Ensai part of the Center of Research in Economics and Statistics (CREST). Valentin Patilea published numerous papers in top journal in the fields of statistics and econometrics. He’s regularly invited for seminars and short visits in prestigious universities and research centers and for invited talks in top field conferences. Valentin PATILEA is co-principal investigator of the new research program New Challenges for New Data. explanatory variables are selected. In addition, this method can be implemented simply and efficiently. The parsimony approach is also promising for modelling high-dimensional time series. The LASSO technique and its variants enable significant autocorrelations to be identified and thus to bring to light temporal interactions between the components of the vector observed over time. This can be used, for example, to anticipate the risk of contagion among banking institutions. These statistical techniques using penalization also apply in the case of structural breaks where the autocorrelations change on certain dates and remain stable between these dates. In other words, the concept of parsimony is not restricted to null parameters, but also applies to constant parameters through time periods. Summarizing the content of complex data Many applications in finance and insurance produce data that can be considered as belonging to continuous units of observation, also known as functional or curve data. This is the case, for example, with volatility curves or GPS records sometimes used in insurance. Technological advances allow increasingly fine-grained observation grids, enabling virtually any information about the entity to be captured. Once observed, the curve can be approached with high accuracy by a linear combination of a number, often quite small, of well chosen basic curves. Using only the basic curves and the coefficients of the combination for each observation entity, the method allows, on the one hand, the data to be compressed and, on the other, standard models to be used. Most of the statistical techniques usable with mass data were developed several years ago, and have simply been adapted to respond to the challenges of increased amounts of data. For researchers, the current “big data” phenomenon does not represent a scientific break in terms of statistical modelling. However, the massive influx of this data strengthens the legitimacy of the science. If IT provides the computational power, statistics provides the analytic tools – hence the importance of IT and statistics, sometimes viewed as in conflict, working together. However, as the amount of information always increases much faster than the power and capacity of computers, it is essential, before starting any research, to define a study protocol in order to ascertain the nature of the economic or financial question of interest, and which variables are likely to respond to it. High-dimensional statistics adapts traditional techniques to the proliferation of data Statistics has long been responding to problems of data analysis. The techniques have simply been adapted to deal with the growing amount of information. Computing power cannot replace statistical analysis. The two are complementary. Key points Bühlmann, P., and S.A. van de Geer (2011), Statistics for HighDimensional Data. Springer, New York. Ramsay, J.O., and B.W. Silverman (2005), Functional Data Analysis, 2nd ed. Springer, New York. Rigollet, P., and A.B. Tsybakov (2011), “Sparse estimation by exponential weighting”, Statistical Science, vol. 27, 558-575. Tibshirani, R. (1996), “Regression Shrinkage and Selection via the Lasso”, Journal of the Royal Statistical Society, Series B, vol. 58, 267-288. Further reading... article on Find the Valentin Patilea’s @www.louisbachelier.org Statistics and data processing: an indispensable combination Faced with the invasion of Big Data, professionals are in search of the “magic” methodology able to isolate the information needed to respond to the economic and financial questions that interest them. For, in itself, this wealth of data is of little interest. Within this flood of information, only a small proportion is relevant. A database, therefore, is only of value and utility if it is regularly updated and cleansed. However, the more information there is, the more complex this work of selection and analysis becomes. So how does one succeed in this process? How can structures, connections and causal relations be extracted from this mass of data? In Valentin Patilea’s view, the solution lies in the combination of statistics and IT, two keys that can together can reveal the full value of the data. Adapting traditional statistical techniques With the proliferation of data, analysts find themselves faced with new challenges. Valentin Patilea takes the example of a variable – economic or financial, discrete or continuous – that he wants to explore with the help of a large amount of information, sometimes collected automatically. This is typically the case with information retrieved mechanically from the web and social networks. The standard approach is based on statistical regression models, which allows one to model the relationship between the variable of interest and the explanatory variables that summarize the available information. However, conventional approaches, such as linear or logistic regressions may be unusable, both from a methodological and a numerical computational standpoint – the reason being that there are too many variables, sometimes greater even than the number of individuals observed. It is then necessary to adapt the classical model to the reality of big data. Reducing complexity by means of the parsimony principle The problem of modelling sometimes allows a parsimonious representation, i.e. just a small number of explanatory variables among those available can fully explain the variable of interest. In this case a strategy emerges: automatically selecting, from the data, those variables that are truly relevant. The parsimony principle is thus consistent with the idea that only a small proportion of the information contained in big data is really useful. A simple adaptation of standard techniques based on the idea of penalization provides an effective response to parsimonious problems. For example, to adapt the least squares criterion, one could add a penalty proportional to the number of non-zero coefficients among the regression coefficients in order to force the algorithm to prefer parsimonious representations. However, the form of such a penalty is not suitable for effective calculation of a solution. But there are several variants of this method. The most common, LASSO (Least Absolute Shrinkage Selection Operator), provides a theoretically effective method: with high probability, only the relevant The proliferation of data complicates modelling and analysis. How does one find relevant information in this flood of heterogeneous data? Is computer power adequate for extracting the data needed? What contribution can statistics make regarding these questions? Searching for information blindly is ineffective. It is first necessary to specify the use protocol and to define which data should be retained. Databases should be regularly updated and cleansed. Before engaging in data mining, one needs to compare the cost of this operation with its benefits. Recommendations Based on an interview with Valentin Patilea, head of the Rennes site of the Centre de Recherche en Economie et Statistique (CREST). BIOGRAPHY7th Financial Risks INTERNATIONAL FORUM Big Data in Finance anD insurance INSTITUT Program and online registration http://risk2014.institutlouisbachelier.org/ Design by Paul Morgan : www.paulmorgan.fr Paris, March 20 & 21, 2014 CCI Paris Ile-de-France 27, avenue de Friedland - 75008 PARIS Associate partner: Venue: With the support of:16 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 17 suitable financial instruments and thus to better structure the commercial approach. Data retention as the second use of big data But big data is not confined to a purely analytic function. It can very much be the leading and sole owner of data: this is, for example, the use made by Facebook, which since 2011 has been storing and processing more than 1.5 million messages per second at peak times and 6 billion messages a day. A bank may also retain all its data, including all versions, while adding information such as timestamps. The audit of each entry is complemented by recording all accesses and actions in the system. Used this way, big data responds to the objective of storing more data and keeping it online, i.e. usable by operatives, while providing full traceability. Perspectives opened up by dynamic analysis Real time is needed to resolve investment banking issues, particularly those concerning the front office, where a massive amount of data is modified every instant2 . But much of this data is not used due to lack of storage capacity and/ or processing or analytic capacity. One specific application of big data enables data to be retained, including any changes over time (different versions), while allowing the format to evolve. Data are continuously added with great flexibility. The addition of a search engine enables this data to be efficiently explored in real time, just as Google allows one to search the entire World Wide Web and can instantly present the 10 top-ranked results at that time. This programmed automated use opens up new prospects, such as fraud detection or the optimisation of trading strategies. For the latter, the analysis is at once dynamic – for decision-making – and static – for back testing. Made available to a middle office operator, big data pro- vides unmatched power for detecting anomalies, because it is possible to access all the bank’s data without any real historical limits. The capacities can be used for ‘free’ research as well as various audit functions. Conclusion and perspectives The big data concept pertains not only to size but also to the cost and time of data processing. Its use allows the various needs of the banking industry to be met, with reduced processing times (a few minutes rather than several hours), at least cost (standard servers) on an adaptable platform (servers may be added). It is these three elements – time, cost and elasticity – that differentiates big data from conventional technologies. Thus thanks to big data, calculations of sensitivities, VaR measures, CVA (and DVA, FVA etc.) and other regulatory ratios are processed more effectively; in addition, the realtime analysis offers new opportunities in terms of fraud prevention, arbitrage and decision-making support. In this respect the EMIR regulation will offer further new opportunities for big data. In particular it will certainly yield valuable lessons on the OTC market, which is scheduled to be transparent as from 12 February 2014. Many other examples reveal the tangible prospects for applications of this technology in banking and other industries. A new era has just begun in which the challenges of big data will be constantly renewed, as a result of the exponential growth of data and its storage and processing capacity. In 2014, big data unquestionably represents the future, the prehistory of which today’s data scientists are modestly attempting to write. “Big Data” in the service of the banking industry Big data as defined by Gartner1 can be summed up as a combination of three properties: • storage capacity, • calculation capacity, • low cost. It is based on the simultaneous use of several standard or “general public” servers. These computers, produced in large quantities, are much cheaper than their high-end version, and are more powerful. Because they are also less reliable, software must be designed to withstand failures. In practice, a big data solution can store a large amount of data (up to several peta-bytes), carry out a large number of calculations on this data, and dynamically add computers to increase capacity, while resisting hardware failures. The technology is supported by three pillars: • regular scientific publications, particularly through Google since 2003, • practical validation of this technology by using Google for its own needs, • use of its Open Source version by many actors, initially from the web (eBay, Facebook), and now for the enterprise information system (Saleforces.com). Big data requirements in banking Issues of data storage and processing for a retail bank are very different from those of an investment bank. The former aims to better meet the needs of its customers and to attract new ones. In terms of data processing, it needs to be able to analyse the banking behaviour of its customers so as better understand and anticipate their needs. In short, it is a matter of comprehending socio-economic behaviour with the aim of improving the bank’s marketing strategies and its customer relationships. An investment bank, on the other hand, aspires to increase its earnings by making the right buying and selling decisions among the various products quoted in the markets or traded over-the-counter, while controlling its exposure to financial risks (market, counterparty, interest rate, liquidity, currency, etc.). In other words, it needs to be able to analyse in real time the market data available to it in order to maximize profitability and minimize its exposure to risk. For several decades, digital technologies have been constantly revolutionizing the banking industry. Prospects of gain, in market finance in particular, now call for the ability to analyse a very broad spectrum of financial infor- mation in record time. Occasional analysis as the first use of big data Big data was initially used to periodically analyse the periodic analysis of data that was already available but not exploited. It was a matter here of adding a system to the existing one is in order to duplicate the data for analysis. This replication was done internally, i.e. without outsourcing the data to a third party, thereby respecting the need for confidentiality. The advantage of big data was in this case to allow the use of hitherto unexploited data at a lower cost. In retail banking, it was typically used for multi-channel analysis of customers, so as to identify the most In recent years, many companies have been using big data to store and process their Google, Facebook, Twitter or Salesforce.com data, which are among the best known precursors of its use. While this technology seems to be proven, does that mean it is suitable for the banking sector? Can big data respond to its many specificities, from retail banking to investment banking, and help it to better comply with its prudential requirements? The deployment of Big Data in the banking sector comes in many forms, while meeting certain basic criteria that combine performance, speed, flexibility and robustness, with no limit on volume. The possibilities offered by big data allow all types of data – structured and unstructured, static and dynamic – to be stored and analysed. Data to be processed is subjected to algorithms from financial engineering, orienting big data storage and processing capacity in accordance with the requirements of banking activities in terms of information, analysis, efficiency and speed of decision-making. Because trading, investing and financing decisions are made only when their risks have been fully assessed, financial institutions’ big data issues concern a wide professional spectrum: real-time VaR and CVA measurement, explanation of intraday PnL, stress tests, calculation of LCR, collateral optimization, arbitrage and speculation, etc. Methodology Devise competitive advantages and business models made possible by Big Data thanks to new large volume storage and data processing opportunities. It is also necessary to take into account the regulatory requirements which big data makes it possible to comply with, covering audit, fraud detection (“Rogue trading”), and overall risk consolidation. Recommendations 1. Originally, then revised in 2012: unlimited storage (volume) and processing (speed) capacity for all types of document (variety). 2. Indices, asset prices, rate curves, etc. IN THE EYES OF OUR PARTNERS FURTHER READING... KEY POINTS o Big data should not only be seen as an alternative to conventional technologies. It also enables data to be processed more rapidly and at lower cost. o The three major features of a big data business solution are lower costs, better service continuity, and the elasticity of the solution. • Highly Available Transactions: Virtues and Limitations: Peter Bailis, Aaron Davidson, Alan Feket, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica, UC Berkeley and University of Sydney (2013). • Consumer Credit Risk Models via MachineLearning Algorithms: Amir Khandani and Adlar Kim, Journal of Banking & Finance34 (2010). By Omar Mehdi Roustoumi and Thierry Duchamp18 THE LOUIS BACHELIER RESEARCH REVIEW THE LOUIS BACHELIER RESEARCH REVIEW 19 • Are the classifications accurate? It is, for example, essential to be able to unambiguously identify the principal trading line of a given company, and not confuse it with secondary lines. • What checks are carried out on the accuracy of the data? Is the information simply requested from the actors, with all the risk of error, unintended or otherwise, thereby entailed, or is it systematically verified? To ensure high quality, it is vital to select the right data providers. IODS thus chose EUROFIDAI, a research institute founded by the CNRS in 2003, as its partner for stock exchange prices. For data on governance and mergers and acquisitions, the databases concerned were constructed by researchers, from the Paris-Dauphine University in the first case and from SKEMA in the second. For basic data on French companies, ALTARES was selected. This provider does not limit itself to obtaining information available at the registry of commercial courts. Individual contact is made at least once a month with all companies having a turnover in excess of €10 million, thus allowing the information to be verified and refined and more generally allowing data to be collected over and beyond the legal minimum, including, for example, the composition of executive committees and the identity of the heads of the main divisions in the company. The insistence on quality should not prevent the diversification of the types of data used. Advances in research often arise from the use of new data, which previously either did not exist or was not visible. For example, in the late 1980s, the exploitation of data from electronic markets – the Paris Stock Exchange having been a pioneer in this field – gave rise to the first publications in what would in later years become a prolific stream of research on market microstructure. Today, the growing mass of data from electronic bond trading platforms is perhaps a new frontier. This linkage of databases may also give rise to innovations in research. It is then necessary either to have common identifiers for the databases – though this is not always possible with regard to independent or even competing data providers – or to construct bridging tables allowing, for example, one to move from a database of company fundamentals to stock market databases. Specific data requirements for empirical research? Europe differs in two respects from the United States. First, European financial markets are still fragmented. The World Federation of Exchanges lists 16 member exchanges in Europe, despite market groupings such as the London Stock Exchange, Euronext, OMX and Deutsche Börse. In the United States, there are still only two (NYSE Euronext and NASDAQ OMX). The second problem specific to Europe is that even though some research clusters with impressive resources have emerged in various countries, the fact remains that the average budget available to European laboratories and teaching units is on average significantly lower than in the United States. The creation of IODS (INSEAD OEE Data Services) in 2011 should be seen in this context. Most useful data in finance is produced by and for market actors, not for academic research. The data is often accessible through ergonomic workstations with interactive visual displays. But in addition to visual display, research generally requires selecting relevant data by using all the variables as a selection criterion, not only those commonly used by practitioners. It is also important to be able to load bulk data and then carry out the processing specific to the research. That is why, whenever possible, data providers are asked to deliver flat files, which are stored on servers accessible through search engines that can be used in accordance with any selection criteria. It is also essential that databases be of high quality. In this regard the following questions are relevant. • How is missing data treated? If a market price on a stock is not available on a given day, it may be because its listing has been suspended and under no circumstances should the previous day’s price be used to make good the missing price. Conversely, information from a different source than the main flow should be searched for before being declared missing. S. Ince and R. Burt Porter (2006) showed that 7% of the ob- servations of U.S. share dividends in the Thomson Datastream Database (TDS) differed from CRSP, the standard academic database. • Is the database exempt from survivor bias? On average, investment funds that disappear from databases or securities whose listings are withdrawn have performed less well than the whole population before disappearing. The above-mentioned study showed that for this reason the TDS database overestimated the average performance of U.S. stocks by 2.40%. Most financial research published in scientific journals consists of empirical studies. The ease of access to data and the quality of the data are thus crucial production factors for the academic community. In this area, American researchers have a head start, thanks especially to the CRSP database of stock prices produced by the University of Chicago and the Compustat database of fundamental information on listed companies. European researchers are endeavouring to catch up. Macro-financial time series on savings can be classified on the basis of various factors: • The economic nature of the savingsproduct. The operational terminology of French national accounting is used because it provides a breakdown of all possible financialtransactions. But this breakdown is sometimes not fine-grained enough for analysis. More specialized information such as monetary statistics or statistics from professional associations is generally consistent with the terminology of national accounting. • The geographical dimension (country or group of countries) • The type of data: outstanding and transaction flow data, dissemination within the population, financial performance • Seasonality: raw series or seasonally adjusted series • Currency: the national currency or converted into euros or dollars Metadata should be documented, so as to clarify, for example, seasonal adjustment methods, statistical conversion methods and statistical discontinuities. Methodology When a study has entailed constructing a specific database, it is desirable to allow the entire academic community access to it, so that search results are verifiable, and to ensure updating that will allow development of future research. Market actors and data providers should ensure that the data is available to researchers. Recommendations IN THE EYES OF OUR PARTNERS FURTHER READING... KEY POINTS o The fragmentation of the European financial market should be taken into account for building recognized financial databases. o Financial databases are mostly produced by and for the market. They should be selected, edited, supplemented and interlinked to respond to the needs of empirical research. o Failure to correct data errors can lead to completely invalid empirical research results. • Ozgur S. Ince and R. Burt Porter (2006), “Individual Equity Return Data from Thomson Datastream: Handle with Care!”, Journal of Financial Research, Volume 29, Issue 4, pages 463–479 • Laurent Frésard, Christophe Pérignon and Anders Wilhelmsson, (2011), “The Pernicious Effects of Contaminated Data in Risk Management”, Journal of Banking & Finance, Volume 35, Pages: 2569-2583 • Roman Brückner, Patrick Lehmann, Martin H. Schmidt and Richard Stehle (2013), “Fama/French Factors for Germany: Which Set Is Best?” Working paper, School of Business and Economics at Humboldt University in Berlin By Didier DavydoffSAVE THE DATE Journée des Chaires Louis Bachelier Palais Brongniart à Paris 29 Avril 2014 Renseignements et inscription sur www.louisbachelier.org 4couv_LJDC2014.indd 1 11/03/2014 19:16:40 Institut Louis Bachelier is at the forefront of the research in Big DataILB Research Cluster Startups Public Institutions Academic Research International Network Businesses Innovation International Consortiums Startups Incubator Applied Research Programs 60% R&D Tax Credit Go to Market Public and Private FundingCreated in September 2008 by the French Ministry of Finance, the Institut Louis Bachelier (ILB) is a global research network. Institut Louis Bachelier Ecosystem Startups Public Institutions Academic Research International Network Businesses Innovation The ILB is thus a unique organization, bringing together teams of the most talented researchers in mathematics, economics & business administration in the financial field. Operating on an international scale, Institut Louis Bachelier aims to support, to promote and to disseminate French research and teaching in economics and finance.2014- Big Data in Finance and InsuranceFinancial The Financial Risks International Forum is an International Research Forum for academics and professionals organized by Institut Louis Bachelier in Paris, France. •The 2014 Risk Forum pursues three objectives: to identify the main streams of research in Big Data that will structure the Finance and Insurance’s evolutions in the future; to organize presentations and debates on these new data trends; to assess the market and regulatory impacts of Big Data evolutions.A Renowned Scientific Council Including members from the following institutions : Centrale Paris, Columbia, Imperial College London, Sorbonne, Stanford, Pierre & Marie Curie, HEC Paris, Toronto, Evry, Göteborg, Cambridge, TSE, Dauphine, Zurich &Geneva.Big Data or Smart Data? Big Data : 3V Volume, Variety and Velocity The more you get, the Best it is? More and more data do not always give better correlations. Big Data have to be Smart Data. Granular Data collection should be as important as correlations. New jobs are going to emerge: Data Scientists integrate models and data approaches.From Data to Information Roberto Rigobon Professor of Applied Economics, Sloan School of Management, MIT. The Bilion Prices Project : calculate inflaction with online prices collected on a daily basis all over the world Pr. Roberto Rigobon and its research team at MIT focused on Argentina among 20 countries studied. BBP points out a huge difference (expected) with the Argentinian National Institute of Statistics.Christian Gourieroux, Professor at the University of Toronto and and its PhD student, Andrew Hencic. The daily Bitcoin/USD exchange rate series displays episodes of local trends which can be modeled, and interpreted, as speculative bubbles. This paper uses a noncausal autoregressive process with Cauchy errors to model and predict the Bitcoin/USD exchange rate. Bitcoin and Data Analysis Andrew HencicEIF – Louis Bachelier Awards Best Paper Award in Finance for Sophie Moinas and Sébastien Pouget, scholars at the Toulouse School of Economics. Paper : « The bubble game : an experimental analysis of speculation. Best Hot Topic Paper Award for Pierre Henry Larbordère, scholars at Ecole Polytechnique and quatitative research analyst at Société Générale, for its paper : « Model-Independent Bounds for Option Prices – a Mass Transport Approach ». Best Young Researcher Award in Finance for : •Mathieu Rosenbaum, Professor at University of Paris – Pierre & Marie Curie and at Ecole Polytechnique. •Christophe Pérignon, Professor of Finance at HEC Paris.Mathieu Rosenbaum Professor at : University of Paris – Pierre & Marie Curie Ecole Polytechnique Best Young Researcher Award in Finance 2014 Market microstructure and High Frequency trading •Statistical approach to build new models •Optimization of HFT methods •Collaborative research between economists, mathematicians and physicists. •Access to banks’ databaseLouis Bachelier Review - Big Data Big Data, what is at stake for the academic world and the industry? Informatics and Statistcs, the need for cooperation. Empirical research, the need for Big (and Smart) Data. Les Cahiers Louis Bachelier is the Academic Review of the Institut regarding hot academic topics. French best scholars addresses their last research and results. www.strategie.gouv.fr Analyse des big data Quels usages, quels défis ? 11/2013 No LA Note D 08 ’ANALyse La multiplication croissante des données produites et le développement d’outils informatiques permettant de les analyser offre d’innombrables possibilités tant pour l’État que pour les entreprises. Il ne fait aucun doute que le traitement de ces masses de données, ou big data, jouera un rôle primordial dans la société de demain, car il trouve des applications dans des domaines aussi variés que les sciences, le marketing, les services client, le développement durable, les transports, la santé, ou encore l’éducation. Par ailleurs, le potentiel économique de ce secteur est indéniable et les retombées en termes d’emploi et de création de richesse seront non négligeables. Son développement nécessite toutefois de bien comprendre les enjeux qui y sont liés. C'est l'objectif de cette note, qui s'attache à détailler ce qu'est l'analyse des big data et présente les usages possibles de ces technologies, qu'il s'agisse de rendre la gestion plus efficace, d'améliorer les services rendus ou de prévenir des phénomènes nuisibles (épidémies, criminalité, etc.). Elle expose les principales difficultés associées à ces usages : garantir la confidentialité et le respect de la vie privée. Enfin, elle montre comment diffé- rents pays et entreprises ont d’ores et déjà investi dans ce secteur. g Marie-Pierre Hamel et DavidMarguerit, département Questions sociales2 L’accroissement des données produites par les entreprises, les particuliers, les scientifiques et les acteurs publics, couplé au développement d’outils informatiques, offre de nouvelles perspectives d’analyses. Ces dernières ont des répercussions importantes en termes de création d’emploi, de recherche et développement ou d’amélioration des services et de leur gestion1 . Cette note définit tout d’abord ce qu’est l’analyse des big data. Elle montre en quoi c'est un phénomène nouveau et à quelles évolutions sociales et techniques il est lié. Elle détaille ensuite les usages et les possibilités offertes par les analyses de masses de données et leurs applications concrètes. Puis elle s’attache à signaler les principaux risques associés à ces usages. L’analyse des big data peut engendrer des inquiétudes du fait du croisement d'un grand nombre de données. Ainsi, se pose la question des conditions nécessaires au respect de la vie privée et à la sécurité des données. Enfin, cette note présente les grandes stratégies mises en œuvre par le secteur privé et les gouvernements de différents pays et détermine quelles sont les conditions indispensables au développement de l’analyse des big data. DÉFINIR L’ANALYSE DES BIG DATA Big data et 5 V Le volume de données numériques augmente de manière exponentielle : 90 % de l’ensemble des données aujourd’hui disponibles ont été créées ces deux dernières années2 . Alors que l’on parlait il y a peu de gigaoctets (109 octets), on parle maintenant plutôt de téraoctets (1012 octets), de pétaoctets (1015 octets), d’exaoctets (1018 octets) et même de zettaoctets (1021 octets) 3 . Cette augmentation s’explique principalement par les évolutions techniques et d’infrastructures. Entre 1990 et 2011, le pourcentage des utilisateurs d’internet et de téléphones mobiles au niveau mondial est passé respectivement de 0,05 % à 32,7 %4 et de 0,21 % à 85,5 %5 . Entre les troisièmes trimestres de 2011 et de 2012, les ventes mondiales de tablettes numériques et de smartphones ont pour leur part augmenté de 45,2 %6 . Ericsson prédit qu’il y aura 50 milliards d’objets connectés (encadré 1) dans le monde d’ici à 2020, contre environ 12 milliards aujourd’hui 7 . Le développement d’applications et de réseaux sociaux liés à ces nouvelles technologies explique aussi la création de données. L’avènement d’outils comme le cloud computing (encadré 1) permet par ailleurs de stocker des données à moindre coût. Globalement, le prix d’un gigaoctet pour un disque dur est passé d’environ 16 USD (12,30 euros) en février 2000 à 0,10 USD (0,07 euros) en août 20108 . Les eNjeux 1. World Economic Forum (2012), Big Data, Big Impact: New Possibilities for International Development. 2. Brasseur C.(2013), Enjeux et usages du big data.Technologies, méthodes et mises en œuvre, Paris, Lavoisier, p. 30. 3. 1 téraoctet représente par exemple 6 millions de livres, 1 pétaoctet représente 2 milliards de photos numériques de résolution moyenne, et 1,8 zettaoctets représentent toutes les informations enregistrées en 2011. 4. Banque mondiale (2013), World Development Indicators. 5. Ibid. 6. IDC – Press Release (2012), Smartphones Drive Third Quarter Growth in the Worldwide Mobile Phone Market, According to IDC, 25 octobre. 7. Ericsson White Paper(2011), More than 50 Billion Connected Devices. 8. http://ns1758.ca/winch/winchest.html.3 www.strategie.gouv.fr 11/2013 No 08 LA Note D’ANALyse 9. Brasseur C.(2013), op. cit., p. 30. 10. Data center : en français, “centre de traitement de données”. Il s’agit d’un site physique sur lequel se trouvent regroupés des équipements constituants du système d’information d’une entreprise ou d’une institution, que ce stockage soit interne et/ou externe à l’entreprise, exploité ou non avec le soutien de prestataires. 11. Gille L. etMarchandise J.-F.(dir.)(2013), La dynamique d’Internet. Prospective 2030, étude réalisée pour le Commissariat à la stratégie et à la prospective, Paris, Études, n° 1. 12. Mayer-Schönberger V. et Cukier K.(2013), Big Data. A Revolution That WillTransform How We Live, Work, and Think, Boston, New York, Eamon Dolan, Houghton Mifflin Harcourt, p. 60. 13. http://www.smartplanet.fr/smart-technology/fin-des-embouteillages-lautoroute-du-futur-plus-efficace-a-273-17768/. 14. http://talkingtechno.com/2013/02/26/un-faux-tweet-plombe-le-cours-de-bourse-dune-entreprise-le-web-et-la-folie-des-rumeurs/. 15. GFII(2012), Dossier de synthèse de la journée d’étude du GFII “Big data : exploiter de grands volumes de données : quels enjeux pour les acteurs du marché de l’information et de la croissance ?”. eNcADré 1. éLéMeNts De DéfiNitioN Big data : Énormes volumes de données structurées et non structurées, difficilement gérables avec des solutions classiques de stockage et de traitement 9 . Ces données proviennent de sources diverses et sont(pour la plupart) produites en temps réel. cloud computing : Désigne des prestations à distance – logiciels, stockage de données – physiquement réparties dans des data centers10 et non pas sur le terminal de l’utilisateur. Datamining : Ensemble de techniques ayant pour objet l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semiautomatiques. internet des objets : Désigne les objets connectés à internet qui transmettent des données numériques par le biais de puces radiofréquences (RFID). Ces objets peuvent communiquer entre eux. On les retrouve dans la grande distribution, dans les objets du quotidien (podomètres connectés, domotique, compteurs électriques intelligents), dans les avions, les voitures, dans le monde médical, etc. 11 . open data : Processus d’ouverture des données publiques ou privées pour les rendre disponibles à l’ensemble de la population sans restriction juridique, technique ou financière. L’open data contribue à l’augmentation des données disponibles à l’analyse. Tout l’intérêt des masses de données ne réside pas uniquement dans leur quantité. Le volume à partir duquel il est possible de parler de big data ne fait d’ailleurs pas l’unanimité. L’analyse des big data comprend quatre autres critères que l’on retrouve de façon plus ou moins simultanée : vitesse, variété, véracité, valeur. La vitesse réfère aux délais d’actualisation et d’analyse des données numériques. Les données ne sont plus traitées en différé, mais en temps réel (ou quasi réel). Selon les cas, il est même possible de ne plus stocker les informations, mais de les analyser en flux (streaming). Cette rapidité peut être primordiale. Au Canada, en analysant en temps réel les informations sur l’état de santé de bébés prématurés avec un logiciel d’aide au diagnostic (encadré 2), des infections ont pu être détectées vingtquatre heures avant la manifestation de symptômes visibles12 . Autre exemple : en croisant les données de capteurs installés sur des éoliennes avec celles relatives à la météo ou aux marées, il est possible d’optimiser leur orientation en temps réel, de mieux prévoir les temps de maintenance, etc. De la même façon, des voitures autopilotées, “communicantes” entre elles et avec l’environnement, sont aussi en développement pour éviter les accidents (données venant de capteurs des voitures, de capteurs sous les routes, données de prévision météo, données historiques/statistiques de densité de trafic, etc.) 13 . Autre caractéristique, les données analysées ne sont plus forcément structurées comme dans les analyses anté- rieures,mais peuvent être du texte, des images, du contenu multimédia, des traces numériques, des objets connectés, etc. (variété). Par exemple, alors qu’il n’existait auparavant pas de systèmes permettant d'analyser automatiquement du texte, il est aujourd’hui possible d’étudier l’état de l’opinion via les tweets (social medias analysis), ou encore de proposer une aide au diagnostic en se basant sur la littérature médicale (encadré 2). Les acteurs du secteur mentionnent aussi la véracité ou la qualité des données. Par exemple, comment l'analyste peut-il s’assurer que les données de réseaux sociaux comme Facebook ne sont pas des rumeurs ou des diffusions malveillantes ? En 2013, une information d’un faux compte Twitter a dégradé le cours de l’action d’une société cotée au NASDAQ. Le tweet a entraîné l’échange de 300 000 actions en deux minutes, et une baisse de 25 % de la valeur de l’action14 .Autre exemple : un capteur défectueux utilisé dans un système de conduite assistée peut causer un accident. À ces quatre V s’ajoute souvent un cinquième, qui désigne la valeur qu’il est possible de tirer de ces données, les usages qu’elles produisent 15 . Outils et méthodes Pour répondre aux besoins provenant d’entreprises comme Google ou Facebook, des logiciels capables de traiter de gigantesques volumes de données structurées et non structurées ont vu le jour, pour la plupart il y a moins de cinq ans. Ces logiciels, souvent open source comme Hadoop, peuvent distribuer des données simultanément sur plusieurs serveurs. D’autres logiciels, à4 l’image de MapReduce¸ servent à effectuer des calculs en parallèle avec ces données distribuées. On bénéficie ainsi de la puissance de calcul concomitante de multiples serveurs banalisés en cluster (secteurs). Pour améliorer le traitement des données, les logiciels doivent être capables de détecter l’information intéressante : on parle alors de datamining16 (encadré 1). De plus, l’analyste utilise une méthode inductive et non plus déductive : il cherche à établir des corrélations entre plusieurs informations sans hypothèses prédéfinies. Le projet BrainsSCANr a permis la fabrication d’un logiciel qui, en s'appuyant sur 3,5 millions de résumés d’articles scientifiques, fait automatiquement un lien entre des parties du cerveau et certaines maladies. Les corrélations faibles sont les plus intéressantes, car elles représentent celles qui n’ont pas souvent fait l’objet de recherches. Ainsi, un lien entre “migraine” et “striatum” a été mis au jour, l’ordinateur ouvrant de lui-même une nouvelle piste de recherche17 . Les logiciels, évolutifs, peuvent aussi appréhender l’environnement des données et apprendre des résultats antérieurs. On parle alors de machine learning ou d’apprentissage automatique (encadré 2). eNcADré 2. WAtsoN-iBM Watson est un programme informatique d’intelligence artificielle conçu par IBM dans le but de répondre à des questions formulées en langage naturel. Pour développer ce programme, IBM s’est donné un objectif ludique. Il s’agissait de remporter le jeu télévisé américain Jeopardy! contre des champions. Ce jeu consiste en l’énoncé de réponses pour lesquelles les candidats ont à trouver les questions correspondantes. Le programme informatique doit pouvoir comprendre l’énoncé (en langage naturel) et trouver la question dans un temps de réflexion comparable à celui des humains. Ce programme d’intelligence artificielle utilise le logiciel Hadoop (voir supra) afin de parcourir une grande quantité de contenus (200 millions de pages lors de sa victoire à Jeopardy!)très rapidement(en moins de trois secondes pour Jeopardy!). Watson évalue la probabilité que la réponse qu’il trouve soit la bonne, répondant seulement si celle-ci est jugée assez élevée. IBMcherche maintenant à commercialiserl’utilisation de Watson.Watson est par exemple utile dans le domaine du diagnostic médical. En analysantles symptômes etles données médicales fournis par un médecin (en langage naturel), etles connaissances emmagasinées (dictionnaires médicaux, littérature scientifique, études de cas, etc.), selon un modèle de machine learning qui lui permet d’apprendre des diagnostics antérieurs, Watson propose un diagnostic. Ce dernier est évalué selon une probabilité et le raisonnement est explicité. D’autres applications sont envisagées : dans les métiers du droit(étant donné l’importance des législations, des réglementations, etc.), l’analyse de dossiers, le conseil financier, etc. La technologie big data est également associée au développement de logiciels capables de rendre intelligibles les résultats – rendu possible par l'émergence de nouveaux outils de visualisation (images, diagrammes, animations). COMPRENDRE LE POTENTIEL DES ANALYSES DES BIG DATA Simplifier et adapter les services L’analyse des big data permet tout d’abord de mieux écouter les usagers, de mieux comprendre leurs modes d’utilisation des services et d’affiner l’offre. Google Analytics propose par exemple aux entreprises d’améliorer la conception de leur site internet par l’analyse des visites des internautes. Ces applications ont aussi leur utilité dans le secteur public. Avec l’éducation en ligne (dont les Massive Open Online Courses – MOOC), on peut analyser les activités des élèves (temps consacré, façon de suivre les programmes, arrêt-retour dans les vidéos pédagogiques, recherches internet parallèles, etc.) pour améliorer les modes d’enseignement. Dans le domaine des transports, on modélise les déplacements des populations pour adapter les infrastructures et les services (horaires des trains, etc.). À cette fin, les données provenant des pass de transports en commun, des vélos et des voitures “communes”, mais aussi de la géolocalisation (données cellulaires et systèmes de localisation par satellites) de personnes ou de voitures, sont utilisées. Dans un autre domaine, celui de la logistique, à la suite du séisme qui s’est produit en Haïti en 2010, les mouvements de foule ont été analysés à l’aide des données cellulaires pour faciliter la distribution de l’aide18 .Toujours en Haïti, l’épidémie de choléra qui s’est développée après le tremblement de terre a été mieux combattue grâce à l’étude des déplacements des personnes contaminées19 . Autre exemple, les analyses peuvent faciliter la recherche d’emploi. Il s’agit de combiner les qualifications des indi- 16. Brasseur C.(2013), op. cit. 17. Fischmann S.(2013), Sciences et technologies de l’information et de la communication. Big data, partie 2 : le quatrième paradigme de la science, Bulletins électroniques États-Unis, n° 336, Ambassade de France aux États-Unis / ADIT. 18. World Economic Forum (2012), op. cit., p. 5. 19. Ibid.5 www.strategie.gouv.fr 11/2013 No 08 LA Note D’ANALyse 20.TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 15. 21. Hamel M.-P.(2012), “Fraude, indus, non-recours : comment faciliter le juste paiement des prestations sociales ?”, La Note d'analyse, Centre d’analyse stratégique, n° 306, novembre ; Hamel M.-P.(2013), “Comment utiliser les technologies numériques pour poursuivre l'amélioration des relations entre l'administration et ses usagers ?”, La Note d'analyse, Centre d’analyse stratégique, n° 317, janvier. 22. Yiu C.(2012),The Big Data Opportunity: Making Government Faster, Smarter and More Personal, Policy Exchange, p. 13. 23.TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 12 ; McKinsey Global Institute (2011), Big Data. The Next Frontier for Innovation, Competition, and Productivity, 156 p. 24. Jouniaux P.(2013), “Big data au service de la sécurité du transport aérien : l’analyse des données de vol”,Télécom, n° 169, juillet. 25. À ce sujet, voir Siegel E.(2013), Predictive Analytics:The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons. d’économiser des ressources23 . Une entreprise peut, par exemple, suivre ses ventes en temps réel pour mieux réapprovisionner ses stocks. De même, une administration publique peut suivre l’activité des agents, le versement de prestations, l’accroissement des demandes, etc. Les possibilités sont multiples et s’appliquent à une infinité de secteurs. Le datamining (encadré 1) de masses de données est par exemple très performant pour détecter les fraudes. En analysant quantité de données sur des populations de fraudeurs, on découvrira certains profils types qui n’étaient pas “visibles”. Il est alors possible de mieux cibler les contrôles (l’administration douanière fran- çaise commençe à utiliser ces technologies). Le traitement en temps réel permet aussi de lancer des alertes : l’émission d’une contravention pourrait par exemple permettre de détecter qu’un individu en congé maladie ne devrait pas se trouver dans un département différent de celui où il réside. En matière d’énergie et de développement durable, les systèmes de compteurs intelligents (électricité, gaz, eau) rationalisent la consommation énergétique. En plus d’offrir aux citoyens la possibilité de mieux contrôler leur consommation, ils permettent de couper à distance, avec l’accord des clients, l’alimentation d’équipements pour éviter les surcharges du réseau. De même, en analysant les données provenant de capteurs sur les avions et en les associant à des données météo, on modifie les couloirs aériens pour réaliser des économies de carburant, on améliore la conception, la maintenance des avions ou leur sécurité24 . Prédire et prévenir L’analyse des masses de données permet plus spécifiquement d’anticiper, avec un certain degré de certitude, des comportements ou des besoins25 . La société Critéo vend, par exemple, des services de publicités ciblées sous forme de bannières affichées sur les sites consultés. Il s’agit d’analyser une importante quantité d’informations sur les habitudes de consommation des internautes pour établir des corrélations, et ainsi prévoir leurs achats. De la même façon, l’enseigne américaine Target parvient à identifier les femmes qui attendent un enfant pour leur proposer des produits pour nourrisson. À cette fin, les analystes ont corrélé des millions de données à l’aide de cartes de fidélité de femmes ouvrant une liste de cadeaux vidus avec les offres d’emploi (issues des sites internet de type Le Bon Coin, des sites d’entreprises, des sites administratifs, etc.). Les analyses permettent aussi d’identifier les formations pertinentes, d’anticiper les reconversions, d’adapter la recherche aux besoins du marché20 . L’entreprise Monster.fr utilise ainsi un logiciel, conçu sur le modèle d’un site de rencontre, qui vise à trouver l’employeur idéal en croisant les compétences, mais aussi les affinités “psychologiques”, les caractéristiques des individus embauchés, etc. L’analyse de masses de données permet également de mieux comprendre les sentiments ou les besoins des citoyens. Pour la campagne de réélection de Barack Obama en 2012, les conseillers ont analysé localement les messages sur Twitter pour adapter en direct le discours du président.Autre exemple, en France, la mairie de Toulouse a demandé en 2013 à la société Apicube d’analyser 1,6 million de documents (tweet, Facebook, blogs, forums, etc.) pour mieux connaître les sujets de préoccupation des citoyens. Ces analyses ont toutefois leurs limites en termes de représentativité de la population. Elles permettent encore d’envoyer à un usager des informations sur des services publics ou privés suivant l’évolution, en temps quasi réel, de sa situation. On peut imaginer qu’une information fournie par un employeur déclenche l’octroi d’une prestation sociale ou en facilite le calcul 21 . L’amélioration des services publics passe aussi par la limitation des demandes de pièces justificatives, la majorité des informations se trouvant déjà dans les masses de données détenues par les institutions publiques. Au Royaume-Uni, pour les demandes de nouveaux permis, l’agence en charge des permis de conduire et de l’immatriculation des véhicules peut récupérer les photographies et les signatures nécessaires dans les données en ligne du service en charge des passeports (si le demandeur a un passeport) 22 . Les analyses permettent également de préremplir les formulaires administratifs en croisant les données. Améliorer les performances gestionnaires Les analyses de données massives peuvent accroître la transparence administrative, faciliter l’évaluation des services, assister la prise de décision, ou permettre6 de naissance. Ils ont observé qu’elles commençaient à acheter des crèmes sans parfum à environ trois mois de grossesse, puis certains suppléments alimentaires à un stade de grossesse plus avancé. Ces profils de comportements ont ensuite été étendus à toute la clientèle. Target s’est toutefois retrouvé au cœur d’un scandale, un père ayant découvert la grossesse de sa fille mineure parce qu’elle recevait ces publicités ciblées26 . Dans le domaine de la santé, il est possible de mieux prévenir certaines maladies ou épidémies, ou d’améliorer le traitement des patients. En analysant les recherches des internautes sur Google, une équipe est parvenue à détecter plus rapidement l’arrivée des épidémies de grippe27 . Autre exemple, en s’intéressant aux données disponibles sur Facebook, des chercheurs ont détecté les adolescents ayant des comportements à risque pour cibler les campagnes de prévention28 . Les technologies associées aux big data permettent aussi des avancées spectaculaires dans l’analyse du génome humain. Alors qu’il a fallu dix ans et 3 milliards USD (2,3 milliards d’euros) pour réaliser le premier séquen- çage humain complet, il est maintenant possible d’en réaliser un en quelques jours et pour environ 1 000 USD (760 euros) 29 . Ces connaissances, couplées à d’autres informations, permettent de mieux comprendre l’évolution de pathologies, d’améliorer les mesures de prévention ou encore les protocoles de soins (encadré 3). eNcADré 3. coHorte coNstANces La cohorte Constances est une enquête épidémiologique ayant pour objectif de suivre à long terme un échantillon représentatif de 200 000 personnes affiliées au régime général de la Sécurité sociale30 . Elle est menée en partenariat par l’Institut national de la santé et de la recherche médicale (INSERM), l’université Versailles-Saint Quentin, la Caisse nationale d’assurance maladie des travailleurs salariés (CNAMTS), et la Caisse nationale d’assurance vieillesse (CNAV), avec le soutien du ministère de la Santé. Les personnes enquêtées, âgées de 18 à 69 ans à l’inclusion, ont été sélectionnées par tirage au sort. Les volontaires doivent répondre annuellement à un questionnaire et passer un examen de santé tous les cinq ans. Ces données sont ensuite appariées tous les ans avec celles de la CNAMTS (SNIIRAM31 et PMSI 32 ), de la CNAV (SNGC33 ) et de l’INSERM (données sur les causes de décès). L’équipe de recherche souhaite intégrer ultérieurement dans la cohorte des données sous forme d’images, par exemple des résultats de résonance magnétique ou de séquençage du génome. Le croisement des données sur la séquence d’ADN, les pathologies déclarées et l’environnement de vie (type de profession, lieu d’habitation, etc.) permettra notamment d’améliorer la compréhension des mécanismes de l’épigénétique34 . La prévention des crimes est l’une des applications possibles de l’analyse des masses de données. La police et l’université de Memphis ont développé un programme (Blue Crush), maintenant utilisé par de nombreuses villes, qui permet d’identifier les zones et les heures où des délits sont le plus à même d’avoir lieu, afin d’optimiser l’affectation des services35 . De la même façon, la ville de New York a développé un système pour détecter les logements où des incendies sont le plus susceptibles de se produire (squats, taudis, appartements surpeuplés, découpés en plusieurs “lots”, ne respectant pas les règles de sécurité). Il s’agit de croiser quantité de données issues de différents services et agences municipaux portant sur les cinq dernières années : informations sur les logements, procédures d’expulsion, impayés de gaz, d’électricité, de taxes municipales, visites d’ambulance, taux de criminalité, historique des incendies, etc. En appliquant des techniques de datamining à ces masses de données, on détermine des profils types de plaintes reçues sur la “hotline” de la ville (à propos de nuisances sonores, de troubles du voisinage, sur des suroccupations présumées). Lors de contrôles, ces profils sont le plus susceptibles de déboucher sur la détection de logements où les normes de sécurité ne sont pas respectées. Avant les analyses, 13 % des inspections donnaient finalement lieu à des évacuations pour des raisons de sécurité, contre environ 70 % aujourd’hui 36 . 26. Mayer-Schönberger V. et Cukier K.(2013), op. cit., p. 58. 27. Ginsberg J. et al.( 2009), “Detecting influenza epidemics using search engine query data”, Nature, n° 457, p. 1012-1014. 28. Moreno M. et al.(2012), “Associations between displayed alcohol references on facebook and problem drinking among college students”, Archives of Pediatrics & Adolescent Medicine, 166(2), p. 157-163. 29. Fischmann S.(2013) op. cit. 30. http://www.constances.fr/fr/. 31. Le Système national d'informations inter régimes d'assurance maladie (SNIIRAM) donne des informations sur les remboursements de l’assurance maladie aux particuliers. 32. Le Programme de médicalisation des systèmes d’information (PMSI): il renseigne les séjours hospitaliers des patients à des fins de remboursements. 33. Le Système national de gestion des carrières (SNGC)regroupe les informations sur la carrière des assurés : salaires, emplois occupés, congé maternité, invalidité, chômage, etc. 34. L’épigénétique est l’expression différenciée des gènes en fonction de l’environnement. En d’autres termes, deux personnes porteuses d’un même gène peuvent, ou non, développer une maladie selon l’influence de l’environnement sur ce gène. 35. http://www.memphispolice.org/blue%20crush.htm. 36. Mayer-Schönberger V. et Cukier K.(2013), op. cit., p. 185-189.7 www.strategie.gouv.fr 11/2013 No 08 LA Note D’ANALyse 37. http://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/. 38. Loi 78-17 du 6 janvier 1978 modifiée. 39. Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, JOCE n° L 281 du 23/11/1995, p. 31. Proposition de règlement du Parlement européen et du Conseil relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (règlement général sur la protection des données), Bruxelles, le 25 janvier 2012, COM(2012) 11 final, 2012/0011 (COD). 40. Levallois-Barth C.(2013), Big data et protection des données personnelles : un défi(quasi)impossible ?,Télécom, n° 169, juillet. 41. À ce sujet, voir le premier cahier “Innovation et prospective” de la CNIL, Vie privée à l’horizon 2020, p. 32-33. 42. Levallois-Barth C.(2013), op. cit. 43. Ibid. 44. Pas de motif légitime à invoquer dans le cadre de la prospection commerciale. 45. Levallois-Barth C.(2013), op. cit. 46. CNIL, Décision n° 2013-025 du 10 juin 2013 de la présidente de la CNIL mettant en demeure la société GOOGLE INC. PRENDRE EN COMPTE LES RISQUES Le développement de l’analyse de masses de données doit s’accompagner d’un questionnement relatif à la protection des données. Le récent scandale “Prism” sur la transmission de données d’utilisateurs d’internet à des fins de surveillance – entre des compagnies comme Google, Yahoo !, Microsoft, Apple, Aol, You Tube, Skype, Paltalk ou Facebook et les services de renseignements américains (National Security Agency) – a d’ailleurs donné une attention considérable à cette problématique et pourrait avoir de lourdes conséquences pour le secteur 37 . Respecter la vie privée Traiter les données à caractère personnel En France, l’usage des données à caractère personnel est réglementé par la loi “Informatique et Libertés38 ”. Dans sa version modifiée, cette loi transpose directement la directive européenne de 1995 relative à la protection des données que le projet de règlement européen du 25 janvier 2012 doit réviser 39 . Pour la loi, la donnée personnelle concerne toutes les informations relatives à une personne physique identifiée ou qui peut être identifiée par des éléments qui lui sont propres. Pour déterminer si une personne est identifiable, tous les moyens auxquels l’analyste peut avoir accès sont pris en considération. Beaucoup de données peuvent alors permettre cette identification – comme un numéro de téléphone, des données de géolocalisation ou une adresse IP –, et surtout lorsqu’elles sont combinées à d’autres40 . Leur utilisation peut aussi se faire à la suite d’une anonymisation qui suppose de détruire le lien entre l’information et l’identité. Cependant, compte tenu des possibilités de croisement des données permises par l’analyse des big data, cette anonymisation est quasiment impossible à obtenir. Toutes les données doivent-elles pour autant être considérées comme personnelles41 ? Leur utilisation étant souvent fort utile, comme dans le champ de la santé, cette voie serait contreproductive si elle conduisait à empêcher toute exploitation de données imparfaitement anonymisées. L’anonymisation a, en tout cas, le mérite de compliquer la tâche de ceux qui seraient mal intentionnés42 . La loi “Informatique et Libertés” précise par ailleurs que ces données personnelles doivent être collectées et traitées pour des finalités déterminées, explicites et légitimes. Seules les données pertinentes pour un usage défini peuvent donc être collectées. Leur durée de conservation ne doit pas excéder le temps nécessaire à l’atteinte des objectifs pour lesquels elles sont collectées (passé ce délai, prévaut le “droit à l’oubli” ou l’obligation de destruction des données). Même si les données ne sont pas enregistrées mais traitées en temps réel, la loi s’applique. Dans le cadre des débats européens sur le projet de règlement européen du 25 janvier 2012, la position de la Commission est que la finalité de l’utilisation des données personnelles devrait être clairement établie. Avec l’analyse des big data, il est cependant difficile d’anticiper quel usage il en sera fait. La collecte ciblée et le principe de suppression entrent par ailleurs en contradiction avec la nécessité d’un volume de données le plus important possible43 . La loi “Informatique et Libertés” reconnaît aussi le droit d’être informé de la collecte et de l’utilisation des données, et en particulier de la finalité du traitement, de l’identité du responsable du traitement ou des destinataires des données et des droits dont ils disposent (des droits d’accès, de rectification, d’opposition peuvent être exercés pour motif légitime) 44 . Selon le même principe, la Commission européenne veut demander un consentement explicite par type de données. La législation est cependant allégée lorsque les données collectées sont très vite anonymisées. Le consentement, lorsqu’il est requis par la loi, est en tout cas supposé offrir à la personne un pouvoir. Il désigne toute manifestation de volonté libre, spécifique ou informée45 . Selon la CNIL et pour plusieurs autorités européennes de protection des données personnelles, cette autorisation donnée dans un contexte spécifique ne correspond pas aux pratiques actuelles de Google. On reproche ainsi à l’entreprise un manque de transparence et d’information envers les usagers concernant l’utilisation de leurs données et la maîtrise de celles-ci 46 .8 Même s’il est explicitement demandé, le consentement peut être biaisé ou manipulé – la personne pouvant être poussée à le donner 47 . Cependant, dans certains cas, par exemple pour détecter plus rapidement des épidémies, le champ du consentement pourrait être élargi aux fins de l’intérêt général 48 . La question du consentement rejoint celle du “détenteur de la donnée”. Qui peut avoir accès aux données disponibles sur Internet, comme les données publiques des réseaux sociaux ? D’abord gratuites, la plupart sont maintenant payantes et constituent l’actif principal d’entreprises comme Facebook ou Google, d’où leur opposition à la législation européenne. Alors que les organisations produisaient et utilisaient jusqu’à maintenant leurs propres données, des data brokers revendent aujourd’hui les données d’entreprises ou encore de l’État à divers acteurs49 . On estime ainsi que la société américaine Acxiom, spé- cialisée dans le recueil et la vente d’informations, et qui a dégagé un revenu de 1,15 milliard de dollars en 2012, posséderait en moyenne 1 500 données sur 700 millions d’individus dans le monde50 . Traiter les données administratives En ce qui concerne la collecte et le traitement des données personnelles dont dispose l’administration, l’individu béné- ficie là encore du droit d’en être informé et de donner son consentement. Toutefois, dans le cadre des procédures administratives, de nombreuses obligations légales restreignent ses droits. Le consentement n’est par exemple pas requis lorsqu’une autorité administrative est légalement habilitée à obtenir, dans le cadre d’une mission particulière ou de l’exercice d’un droit de communication, la transmission directe d’informations par une autre autorité administrative51 . L’usager n’a alors aucun recours : c’est plutôt la CNIL qui autorise en amont les échanges. Le consentement à la transmission d’informations peut, par ailleurs, être difficile à maîtriser : pour un patient, le fait de remettre sa carte vitale à un médecin revient par exemple à consentir à ce que ce dernier ait accès aux données relatives à l’historique de ses remboursements52 . La transmission de données à des personnes extérieures à l’administration n’est en principe pas permise, mais des exceptions apparaissent, comme l’accès à des données de géolocalisation lorsqu’un usager utilise des services comme Proxima mobile53 . L’administration peut aussi – dans certains cas spécifiques prévus par une loi – vendre des données, comme les données de carte grise, sauf opposition de l’automobiliste qui peut cocher (s’il la remarque) une case sur son certificat de demande. Inté- ressants dans le cadre des big data, certains de ces usages reflètent une moins bonne prise en compte de la protection des données personnelles par l’administration. La CNIL réfléchit aux réglementations qui pourraient encadrer les analyses. Plus généralement, à côté des risques liés au traitement des données à caractère personnel, les progrès importants qui peuvent en résulter – pour le traitement de pathologies, l’octroi de droits sociaux ou encore la protection de l’environnement par exemple – doivent être mis dans la balance. Assurer la sécurité des données Au-delà des règles de traitement, se pose la question de la sécurité des outils utilisés pour traiter ces données. Les masses de données sont généralement stockées dans des clouds (encadré 1). Toutefois, les créateurs de ces technologies instaureraient régulièrement des backdoors54 leur permettant d’avoir accès à l’ensemble des données stockées. Ainsi, quelles que soient ces données, elles seraient théoriquement accessibles par le fournisseur du service. De plus, le Patriot Act, mis en place aux États-Unis après les attentats du 11 septembre 2001, accorde aux autorités américaines le droit d’accéder directement aux données cloud stockées sur les serveurs des sociétés américaines (ou des entreprises étrangères ayant des intérêts économiques dans le pays), et ce quel que soit leur lieu d'implantation. Pour assurer la sécurité de ces données personnelles, alors que les principaux clouds utilisés en France sont étrangers et que le recours à ces technologies de stockage s’est accru de 30 % en 201255 , l’État français finance, à hauteur de 150 millions d’euros, deux clouds computing nationaux dans le cadre d’un partenariat 47. Levallois-Barth C.(2013), op. cit. 48. Ibid. 49. Dans un rapport publié en 2012, la Commission fédérale américaine du commerce s’est souciée de l’essor de la profession d’information broker. Elle demande entre autres à ce que les citoyens puissent avoir accès aux informations que ces “vendeurs d’informations” ont sur eux. FederalTrade Commission (2012), Protecting Consumer Privacy in an Era of Rapid Change, mars. 50. http://www.zdnet.fr/actualites/data-brokers-aux-etats-unis-votre-vie-privee-est-en-vente-39789295.htm. 51. Article 6 de l’ordonnance du 8 décembre 2005, loi Informatique et Libertés. Cluzel-Métayer L.(2013), “Les téléservices publics face au droit à la confidentialité des données”, Revue française d’administration publique, n° 146, 2013/2, p. 405-418. 52. Cluzel-Métayer L.(2013), op. cit., p. 405-418. 53. Proxima mobile, disponible depuis mars 2010, est le portail des services aux citoyens sur terminal mobile. Cet outil permet d’identifier des services d’intérêt général, gratuits et sans publicité, accessibles sur terminaux mobiles, qui cherchent à faciliter la vie quotidienne de tous les citoyens. Diverses applications pour smartphones, dont une application du service des impôts, sont par exemple disponibles à partir de ce portail. 54. Les backdoors sont des points d’accès confidentiel à un système d’exploitation, à un programme ou à un service en ligne installés par le concepteur. 55. http://blog.markess.fr/2013/05/barometre-markess-des-prestataires-du-cloud-computing-2013.html.9 www.strategie.gouv.fr 11/2013 No 08 LA Note D’ANALyse 56. Le projet de cloud public Andromède s’est concrétisé en 2012 au travers de la création de Numergy et de Cloudwatt, deux sociétés nées de partenariats public-privé avec SFR et Bull d’un côté, et Orange etThales de l’autre. 57. Achiary A., Hamelin J. et Auverlot D.(2013), “Cybersécurité, l’urgence d’agir”, La note d’analyse, Centre d’analyse stratégique, n° 324, mars. 58. Voir les guides de sécurité sur la méthode de gestion des risques “IL” et sur le catalogue de mesures de sécurité à mettre en place, édités récemment par la CNIL. 59. Premier ministre, ANSSI, ministère du Budget, des Comptes publics et de la Réforme de l’État(DGME), Référentiel général de sécurité. Version 1.0 du 6 mai 2010. 60. Mayer-Schönberger V. et Cukier K(2013), op. cit., p. 157-163. 61. Reynaudi M. et Sauneron S.(2012), “Médecine prédictive : les balbutiements d’un concept aux enjeux considérables”, La note d’analyse, Centre d’analyse stratégique, n° 289, octobre. 62. Voir par exemple au sujet de la création de séries télévisées : http://www.salon.com/2013/02/01/how_netflix_is_turning_viewers_into_puppets/. 63.Tata Consultancy Service (2013),The Emerging Big Returns on Big Data. A TCS 2013 GlobalTrend Study. http://www.lesechos-conferences.fr/data/classes/produit_partenaire/fichier_5183_540.pdf. public-privé56 . Il est essentiel de poursuivre ces initiatives, tout en sensibilisant les acteurs privés aux risques sur les libertés et la vie privée57 . Pour protéger les données, des recommandations de la CNIL portent par ailleurs sur la sécurité des systèmes d’information et la gestion des risques liés au traitement des données personnelles58 . On vise à protéger les ordinateurs et les données stockées contre les intrusions, les virus, ou les dommages causés aux données. Le projet de règlement européen en cours d’adoption vise aussi à mettre à la charge des responsables de traitement informatique des obligations, comme celle de prendre en compte la protection des données dès la conception des systèmes (privacy by design). Concernant les échanges d’informations entre administrations, des outils de sécurisation sont mis à disposition par le Secrétariat général pour la modernisation de l’action publique (SGMAP). Le Référentiel général de sécurité (RGS) veut sécuriser, en fixant des règles, les échanges électroniques entre les usagers et les autorités administratives et entre les autorités administratives59 . La Plateforme d’échange de confiance (PEC) met, pour sa part, en place un système d’intermédiation entre les administrations et les partenaires/usagers pour leur permettre de communiquer en confiance. Protéger les libertés individuelles Certains usages des big data posent par ailleurs des risques pour les libertés individuelles. Comme cela a été dit plus haut, de nombreux États américains utilisent des logiciels qui permettent de prédire les moments ou les lieux où des crimes sont les plus à même d’être commis. Cela signifie que les individus les plus susceptibles de commettre un crime à un moment et un lieu donnés pourront sans doute être identifiés avec beaucoup de précision60 . Comment tirer profit de ces connaissances sans mettre en péril les libertés individuelles ? En permettant de mieux anticiper les comportements, mais aussi l’apparition de maladies associées à des profils génétiques, ces technologies pourraient aussi être utilisées par les services de santé ou les compagnies d’assurance pour refuser des traitements ou des clients, encadrer les comportements des assurés, etc. 61 . Quels garde-fous mettre en place ? À un autre niveau, la connaissance des comportements permettra sans doute de créer des produits de consommation, mais aussi des produits “culturels” (téléséries, cinéma, etc.) ou des services correspondant, au plus près, aux attentes, aux goûts et aux désirs des individus62 . Des questions comme celle du libre choix se posent alors. PROMOUVOIR LES BIG DATA Dans le secteur privé Les pays qui instaurent une stratégie nationale pour encourager l’analyse des big data font figure d’exception. Les sommes investies par le secteur public (voir infra) sont d’ailleurs minimes par rapport aux investissements privés. Selon une enquête internationale réalisée en 2012-2013 auprès de 1 217 entreprises ayant un chiffre d’affaires supérieur à 1 milliard USD (759,6 millions d’euros), 643 entreprises ont eu une stratégie big data en 2012 ; parmi celles-ci, 7 % ont investi au moins 500 millions USD (379,8 millions d’euros) et 15 % au moins 100 millions (75,9 millions d’euros) 63 . Les États-Unis sont sans doute le pays le plus avancé en termes de stratégie big data. En mars 2012, l’administration américaine a annoncé un investissement de 200 millions USD (154 millions d’euros) pour améliorer les technologies (stockage, analyse, collecte des données), accélérer la recherche en science et en ingénierie, renforcer la sécurité nationale, transformer l’enseignement et l’apprentissage, et développer une main-d’œuvre qualifiée dans le secteur. L’Irlande aspire pour sa part à devenir le pays de réfé- rence des technologies big data. Le Plan d’action pour l’emploi de 2013 prévoit le développement d’une filière big data depuis la formation de la main-d’œuvre jusqu’à la création ou l’installation d’entreprises. S’y ajoute un investissement de 1 million d’euros pour développer un centre de recherche dont les grandes orientations seront définies par un consortium d’entreprises privées. De son côté, la Commission européenne a entre autres mis en place le programme Big Data Public Private Forum (2012). Sur une période de vingt-six mois, 3 millions d’euros seront au total investis pour la création d’un forum internet visant à définir les grandes orientations en10 matière d’analyse des big data au sein de l’Union européenne. Ce projet veut fournir une plateforme de discussion sur l’émergence d’une économie de la donnée pour l’industrie, la recherche et les décideurs politiques. La France est entrée très récemment dans la course à l’analyse des big data. Dans le cadre des investissements d’avenir, sept projets traitant des big data ont été sélectionnés pour recevoir 11,5 millions d’euros, quatre autres projets sont en cours d’instruction et un nouvel appel à projets devrait avoir lieu avant la fin de 2013. Les projets financés rassemblent une grande diversité d’acteurs : concepteurs de systèmes informatiques, éditeurs de logiciels, intégrateurs de technologies, laboratoires de recherche et un nombre important de start-up. Les retombées attendues sont multiples, touchant au marketing ou à la recherche génétique. En parallèle, la ministre déléguée auprès du ministre du Redressement productif chargée des petites et moyennes entreprises, de l'innovation et de l’économie numérique a créé une mission ayant pour but de définir les grandes orientations nécessaires à l’émergence d’une filière big data. Pour la période 2013-2018, cette mission préconise de créer un “incubateur” parisien avec un investissement de 300 millions d’euros provenant de fonds publicsprivés. Elle estime que la valeur générée par cet investissement pourrait atteindre 2,8 milliards d’euros et créer dix mille emplois directs sur la période64 . Environ cent start-up spécialisées dans les applications big data doivent ainsi être financées. Plusieurs autres travaux insistent sur le développement de la filière en France. Citons le rapport de la Commission innovation 2025 qui fait du développement des analyses big data l’une des “sept ambitions pour une France innovante et dynamique65 ”, mais aussi le rapport La nouvelle France industrielle présenté par Arnaud Montebourg en septembre 2013, qui désigne les big data comme l’un des 34 plans prioritaires66 . La France investit également dans le développement d’outils spécifiques de stockage de données (voir supra) ou encore dans la création de moteurs de recherche nationaux comme Quaero67 . La majorité des données créées sur internet sont en effet détenues par des entreprises étrangères, et principalement états-uniennes. En France, la part de marché de Google sur les moteurs de recherche était estimée à 90,9 % en avril 201368 . Cette situation est problématique, d’une part en termes de 64. http://www.afdel.fr/actualites/categorie/actualite-afdel/article/big-data-filiere-d-avenir-pour-la-france-les-propositions-de-l-afdel. 65. Commission innovation 2025 (2013), Un principe et sept ambitions pour l’innovation, commission présidée par Anne Lauvergeon, Paris, La Documentation française, octobre. 66. Ministère du Redressement productif, La nouvelle France industrielle, Paris, 2013. 67. À l’origine un projet franco-allemand, puis seulement français. 68. http://www.atinternet.fr/documents/barometre-des-moteurs-avril-2013/. 69. McKinsey Global Institute (2011), Big Data.The Next Frontier for Innovation, Competition, and Productivity, 156 p. 70.Télécom ParisTech. compétitivité et de création de “richesse”, d’autre part en termes de relations stratégiques : il peut être préoccupant que des acteurs étrangers et/ou privés en sachent davantage que l’État français quant aux habitudes de vie, aux comportements, aux préoccupations, etc. des citoyens. Précisons finalement que la demande en spécialistes de l’analyse de données massives est en plein essor. Il n’existe pas d’estimation nationale officielle, mais, à titre indicatif, l’institut Mc Kinsey Global estime que les besoins en analyses de masses de données induiront, aux ÉtatsUnis d’ici à 2018, le recrutement de 140 000 à 190 000 spécialistes69 . Ces technologies nécessitent la maîtrise d’outils mathé- matiques et statistiques de très haut niveau. Des compé- tences dans le domaine de l’informatique, et notamment en programmation, sont également requises. Élément important, les spécialistes doivent pouvoir travailler main dans la main avec les services commerciaux et avec les gestionnaires, et être au fait des règles concernant la sécurité et le respect de la vie privée. Pour l’heure, la plupart des analystes de données massives ont suivi une formation soit en informatique, soit en mathématiquesstatistiques, puis se sont formés en autodidacte. Une première formation de niveau master a toutefois ouvert ses portes en septembre 2013 à Paris70 . Elle ne pourra cependant pas répondre à toute la demande et aux besoins. Dans le secteur public Bien qu’il soit difficile d’appréhender l’ensemble des usages amenés à se développer, l’analyse des big data est un atout important pour l’administration. Peu de pays ont cependant mis en place des stratégies spécifiques en la matière. L’Australie fait figure d’exception en voulant améliorer la gestion et les services publics à l’aide des analyses de masses de données. Dans son plan stratégique concernant les Technologies de l’information et de la communication (TIC) pour la période 2012-2015, le bureau de la gestion de l'information du gouvernement préconise par exemple d’établir un centre d’excellence pour l’analyse et la gestion des big data rattaché à l’ensemble du gouvernement, ou encore de rendre les données accessibles entre administrations. D’autres pays, tel le Royaume-Uni, concentrent plutôt leurs efforts dans des secteurs spécifiques comme celui11 www.strategie.gouv.fr 11/2013 No 08 LA Note D’ANALyse 71. CNIL (2013), Workshop OpenCNIL Open Data, Paris, 4 juillet. 72. Mayer-Schönberger V. et Cukier K.(2013), op. cit., p. 60. 73. Les auteurs tiennent à remercier pour leur aide précieuse : Agnès Benassy-Quéré et Antoine Bozio (Conseil d’alayse économique), Denis Berthault(LexisNexis), Rémi Bilbault et Ruth Martinez (GFII), Pascal Caillerez (Décideur public – Systèmes d’information), Jean-Pierre Camilleri, Mehdi Benchoufi, Alexandre Bredimas et Christian Delom (Club Jade), Christine Chambaz, Alain Folliet et Marie-Noëlle Séhabiague (CNAF), Stéphan Clemençon (Telecom Paris Tech), Julien Damon (Sciences Po), Bertrand Diard (Talend), Joël Hamelin et Antton Achiary (CGSP), Charles Huot(TEMIS), Mathieu Jacomy (Médialab), Mathieu Jeandron et Annelise Massiera (DISIC), Nadia Joubert, Philippe Louviau, Rémi Favier et Bruno Nicoulaud (DNLF), Maxime Lesur et Bernard Ourghanlian (Microsoft), Claire Levallois-Barth (Institut Mines- Télécom), André Loth (DREES), Hammou Messatfa, Christophe Burgaud, David Kerr et Laura Haas (IBM), Philippe Niewbourg (Decideo), Judicaël Phan, Geoffrey Delcroix et Delphine Carnel(CNIL), Vincent Poubelle (CNAV), Pascal Saubion et Jean-Paul Leroux (Orange), Henri Verdier(Etalab), Marie Zins et Marcel Goldberg (INSERM). de la santé. Les pouvoirs publics doivent financer, à hauteur de 90 millions de livres sterling (106 millions d’euros), l’institut Big data de l’université d’Oxford. Cet institut réalisera des analyses pour améliorer la détection, la surveillance, le traitement et la prévention d’un large éventail de maladies. En France, que ce soit au niveau de la conception, de la mise en œuvre ou de l’évaluation des politiques publiques, mais aussi dans la gestion quotidienne des administrations, les analyses empiriques sont globalement peu utilisées. En ce sens, au-delà des contraintes associées à la protection de données, l’analyse des big data nécessite d’instaurer une culture de la donnée qui fait encore défaut. Il existe ainsi des quantités énormes de données “publiques” qui ne sont pas valorisées. Étroitement liée à ce manque de recours aux analyses empiriques, la difficulté pour les administrations est d’investir dans des technologies dont les retombées sont difficilement chiffrables et dont la mise en œuvre peut s’avérer délicate (contraintes juridiques, partage des données entre administrations, etc.). Alors que les logiciels de type open source existent, des investissements sont nécessaires pour normaliser les données, pour sécuriser les échanges, mais aussi pour recruter ou former des analystes (voir supra). Le peu de recours aux analyses de données dans la gestion et la prise de décision s’explique en partie par le cloisonnement des données. Le partage d’informations entre administrations et avec des acteurs externes est indispensable pour donner plus de valeur à l’analyse des big data, la richesse des analyses résidant essentiellement dans le rapprochement des données entre lesquelles on n’avait pas présupposé de relations. Pour encourager les échanges, des normes de sécurité des échanges ont cependant été mises en place (voir supra). Des outils comme le Référentiel général d’interopérabilié (RGI), qui fixe les règles techniques permettant d’assurer l’interopérabilité des systèmes d’information, encouragent aussi le partage. Le mouvement d’open data (encadré 1) doit par ailleurs contribuer à ce décloisonnement. Autre exemple, depuis 2010, le Centre d’accès sécurisé distant (CASD) donne accès, de façon très encadrée, aux chercheurs (publics-privés) à des données individuelles (INSEE et Services statistiques ministériels). LA Note D’ANALyse 11/2013 - No08 Le nombre de données continue à croître et les outils d’analyse vont se perfectionner. Sans présager des futurs usages, l’analyse des big data est sans aucun doute vouée à gagner en importance, certains parlant même de révolution72 . Loin d’être un simple effet de mode, l’analyse permet de traiter des pathologies, de créer de nouvelles technologies, d’accroître nos connaissances, de prévenir des catastrophes, d’organiser les services, etc. D’un autre côté, l’analyse des données massives comporte des risques liés au respect de la vie privée, à la confidentialité, au libre-arbitre, auxquels il convient de réfléchir dès maintenant 73 . Mots clés : masse de données, analyse, données personnelles, administration électronique, prédiction. coNcLusioN Les responsables prévoient d’intégrer à ce dispositif des outils informatiques permettant des analyses de type big data71 . Bien que divers formats de données puissent être croisés, il est par ailleurs important de faire en sorte que les données soient le plus harmonisées possible. Les données récoltées par deux administrations, à des niveaux géographiques différents ou pour des temporalités variables, ne seront par exemple pas ou difficilement compatibles. Cette incompatibilité s’explique par le fait que les données administratives ne sont généralement pas recueillies à des fins d’analyse, mais pour la gestion interne. Dans la mesure du possible, une réflexion sur la compatibilité des données entre administrations devrait être menée.www.strategie.gouv.fr Retrouvez les dernières actualités du Commissariat général à la stratégie et à la prospective sur : g www.strategie.gouv.fr g CommissariatStrategieProspective g DerNières PuBLicAtioNs à coNsuLter www.strategie.gouv.fr,rubrique publications Créé par décret du 22 avril 2013, le Commissariat général à la stratégie et à la prospective se substitue au Centre d’analyse stratégique. Lieu d’échanges et de concertation, le Commissariat général apporte son concours au Gouvernement pour la détermination des grandes orientations de l’avenir de la nation et des objectifs à moyen et long termes de son développement économique, social, culturel et environnemental. Il contribue, par ailleurs, à la préparation des réformes décidées par les pouvoirs publics. Notes d’analyse : N° 01 g Un fonds européen pour l’emploi des jeunes - Proposition pour une initiative (juin 2013) N° 02 g Internet : prospective 2030 (juin 2013) N° 03 g Approvisionnements en métaux critiques : un enjeu pour la compétitivité des industries française et européenne ? (juillet 2013) N° 04 g Les compagnies aériennes européennes sont-elles mortelles ? Perspectives à vingt ans (juillet 2013) N° 05 g Pour un secteur des semences diversifié et innovant (octobre 2013) N° 06 g Intensifier et réorienter les transferts de technologies bas carbone pour lutter contre le changement climatique (octobre 2013) N° 07 g Doha, Varsovie, des conférences de transition vers un accord climatique mondial en 2015 (octobre 2013) La Note d’analyse n° 08 - novembre 2013 est une publication du Commissariat général à la stratégie et à la prospective Directeur de la publication : Jean Pisani-Ferry, commissaire général Directeur de la rédaction : HervéMonange, adjoint au commissaire général Secrétaires de rédaction : Delphine Gorges, Valérie Senné Impression : Commissariat général à la stratégie et à la prospective Dépôt légal : novembre 2013 - N° ISSN : 1760-5733 Contact presse : Jean-Michel Roullé, responsable de la communication - 01 42 75 61 37 / 06 46 55 38 38 jean-michel.roulle@strategie.gouv.fr Commissariat général à la stratégie et à la prospective - 18, rue de Martignac - 75700 Paris SP 07 - Tél. 01 42 75 60 00 Big DATA : effet de mode ou levier stratégique avis d’experts Livre blanc produit dans le cadre du Salon par :> 2 Une semaine sans voir émerger une nouvelle conférence ou un nouvel article sur le Big Data est un peu une semaine unique en son genre depuis ces derniers mois. En construisant le CONGRES CONEXT, il était évident que nous allions, nous aussi, aborder cette thématique, mais plus que simplement vous proposer un panel sur le sujet... Nous avons privilégié un parti-pris : proposer à des auditeurs du Mastère Spécialisé Marketing Direct et Commerce Electronique de SKEMA Business School d’interviewer plus de 12 experts d’horizons différents sur ce sujet et restituer sous forme d’une synthèse ces différents regards croisés. Le Big Data un vrai levier pour booster son activité en profondeur ? ou simple poudre aux yeux ?... Nous livrons les propos de ces experts à votre propre analyse et vous souhaitons bonne lecture. Brigitt ALBRECHT ROHN SKEMA Business School Yann KERVAREC EURATECHNOLOGIES Big Data www.skema-bs.fr > 2 www.euratechnologies.comDéfinition De plus en plus médiatisé, ce terme reste méconnu, incompris ou mal interprété, certainement en grande partie de par sa terminologie anglo-saxonne et la diversité de ce qu’il englobe. C’est la création en continu de données de plus en plus diversifiées dans leurs contenus (images, vidéos, audio, etc.), leur mise à disposition et leur exploitation maintenant possible en temps réel qui ont fait émerger ce concept. La définition de Gartner en 2011 explique les dimensions du Big Data par la combinaison des 3 V : > Volume > Vitesse > Variété des données. Certains experts considèrent qu’à partir du moment où l’on est en présence de l’une des variables, on se trouve dans un contexte Big Data. La définition communément acceptée par les principaux “acteurs” (éditeurs de logiciels, spécialistes de l’innovation dans les entreprises ou dans le secteur public) se résume à la création de valeur par la combinaison de ces 3V. Néanmoins, le concept amène à des positions très tranchées tant sur son évolution et ses enjeux que sur les conditions initiales d’une approche Big Data dans un secteur. Quel seuil “minimum” de Volume, Vitesse et Variété de données est requis pour s’interroger sur la nécessité d’exploiter des solutions Big Data ? Y-a-t’il un “V” qui prime sur les autres? > 3 Le phénomène Big DataDéfinition Si on se base sur le critère du volume uniquement, selon Patrick Bertolo, le Big Data n’a de raison que si l’on traite des Péta Octets de données. La volumétrie n’étant pas encore existante en de telles proportions dans la majorité des entreprises, cela réduirait le champ des possibles du Big Data à certains secteurs uniquement. On ne peut pas se focaliser sur un critère seulement, il faut considérer le cycle de vie des données : de la captation des données produites par des tiers à l’agrégation avec des données internes, la valeur et l’intégrité de la donnée brute, la sécurisation du stockage de ces données, leur analyse et leur mise en perspective. Pour Mouloud Dey, le volume n’est pas le critère le plus déterminant. Si l’entreprise est confrontée à un problème économique particulier, pour lequel l’analyse des données internes combinées à des données externes générées par l’Open date peut apporter de nouvelles réponses, ou de nouveaux modèles économiques, alors, cette problématique justifie des conditions d’une solution Big Data. Djeraba Chabane estime quant à lui que le phénomène n’est pas nouveau, il est simplement amplifié par Internet qui est la partie visible de l’iceberg. Mais d’autres applications moins visibles génèrent énormément de données, notamment les applications autour de la vidéo. Pour le chercheur, 3 mots clés résument les Big Data : « volume, flux et complexité » . > 4 V comme VOLUME Définition Certes, les données sont de plus en plus nombreuses et rapides, mais pour René Lefebure, c’est la vitesse à laquelle les modèles doivent être fournis qui justifie le Big Data. Plus on se base sur du temps réel, plus on est dans la problématique Big Data. Les données sont de plus en plus nombreuses et pour la plupart de plus en plus volatiles. Progressivement, le traitement immédiat de la donnée sera l’élément clef d’un modèle. Patrick Nicholson complète : le coût du stockage a baissé, le temps réel prend un vrai essor donc les grands distributeurs doivent pouvoir faire autre chose que de l’analyse transactionnelle, mais que font-ils réellement ? Un des enjeux serait de pouvoir proposer des offres avant l’entrée en magasin et non après le passage en caisse. Pour Patrice Poiraud, la vitesse revêt un aspect primordial en termes d’avantage concurrentiel : avoir un ou des produits de qualité est important, et nous savons le faire en France, mais le ROI est minoré sans la capacité à faire rapidement des offres pertinentes dans un contexte mondialisé. La vitesse est un enjeu important. > 5 V comme VITESSEDéfinition Bien qu’il existe plusieurs approches du Big Data, pour Matt Bailey, c’est la capacité de donner une valeur supplémentaire à des données internes traditionnelles en les combinant avec une grande variété d’autres sources de données externes. Par exemple, croiser les données sur les ventes et les données météorologiques régionales, ou corréler les ventes de produits en visualisant les habitudes d’achat à l’aide de vidéos . La variété est aussi une contrainte pour les entreprises car comme le rappelle Djeraba Chabane : aujourd’hui le stockage coûte moins cher grâce au Cloud mais l’indexation et le datamining coûtent très chers si l’information n’est pas structurée . La nécessité de mixer des données internes et externes pour en extraire une valeur supplémentaire est évidente . Pour résumer Au delà de la terminologie et des constantes de la définition, chaque entreprise, qu’elle soit une grande entreprise ou une PME, privée ou publique, doit au préalable se repositionner sur la problématique métier pour laquelle elle veut apporter une réponse et faire le point sur ses acquis stratégiques. Elle déterminera ensuite la nécessité ou non de se lancer dans le Big Data. Si la prolifération des données et les capacités de stockage ont fait du Big Data une réalité, il s’avère, pour une entreprise, que les Big Data sont une opportunité business. Alors selon Matt Bailey cette entreprise n’en est qu’à la première étape, l’étape suivante est l’organisation de ces données, c’est le principal obstacle à l’utilisation de Big Data. Ce phénomène est-il une évolution induite par Internet ou une véritable révolution pour l’ensemble des acteurs économiques? > 6 V comme VARIÉTÉÉvolution Le battage médiatique et la littérature concernant le Big Data ces dernières années lui confèrent un statut de phénomène révolutionnaire. Cependant dès 2011, le constat est clair, les Big Data existent depuis 20 ans mais elles sont au cœur des préoccupations scientifiques plutôt qu’économiques. Il devient évident que l’explosion d’Internet et des données clients impliquent que les entreprises doivent investir dans l’analyse des données. Alors que la puissance du datamining devenait limpide, dit Fayyad, les motivations économiques pour investir dans ce domaine émergeaient aussi. MIT Technology Review -The New Big Data- Erica Naone Août 2011. Dans un contexte où la concurrence se renforce, où les doutes persistent sur une reprise économique, il était urgent d’intégrer l’analyse des données à tous les niveaux de décision de l’entreprise. Et rattraper, pour certaines entreprises, un retard en matière de culture de la donnée et de prise de décision en temps réel. Cette évolution, qu’est en réalité le Big Data, est exponentielle comme l’explique Djeraba Chabane et représente un phénomène majeur mais ne date pas d’hier. Si le Datamining est apparu, c’est pour exploiter un nombre croissant de données. Par ailleurs les opérateurs de télécommunications, le secteur de la banque assurance n’ont pas attendu l’apparition du concept Big Data pour gérer de grands volumes de données. > 7Évolution Dans l’ étude Big Data@work en 2012 pour IBM Institute of BusinessValue, on note les deux tendances significatives qui font évoluer le contexte : > 1. La numérisation quasi-systématique crée désormais de nouveaux types de groupes de données volumineux en temps réel pour un grand nombre d’industries. Ces dernières étant la plupart non structurées, elles ne peuvent être stockées dans les entrepôts de données traditionnels, structurés et relationnels. > 2. Les technologies et techniques d’analyse avancées actuelles aident les organisations à extraire des connaissances grâce aux données avec des niveaux de sophistication, de précisions et de vitesse impensables avant ce jour. Mouloud Dey souligne également que l’évolution technologique démocratise le Big Data, notamment en ce qui concerne l’augmentation des capacités de stockage et la réduction de leur coût. Il existe par ailleurs des positions plus tranchées. Pour Philippe Nieuwbourg, le Big Data est un concept marketing venant définir et formaliser une situation déjà existante dans le monde. C’est un relais de croissance pour les fournisseurs de solutions informatiques. Mais relativiser le phénomène Big Data ne remet pas en cause la nécessité pour les entreprises d’exploiter leurs données, notamment pour les entreprises dont elles sont l’ADN et qui n’ont pas attendu cette médiatisation pour s’y intéresser. Comme le confirme Matt Bailey, le business centré sur la data a toujours été un fondement de la VAD. Les données sont devenues de plus en plus nombreuses et ont pris des aspects variés. Cette évolution a fait un bond en avant en raison de la quantité de stockage disponible ces dernières années. Yan Claeyssen renchérit sur cette position en précisant que c’est le contexte qui guide l’évolution, et que pour les VAD-istes, le e-business a accéléré le phénomène. > 8Révolution Au delà des aspects techniques soulevés par le Big Data, la révolution viendra selon Mouloud Dey des usages et permettra de créer ou de renouveler des modèles économiques si on évite de tomber dans la simple génération de revenus publicitaires. Il ajoute : si l’apport des Big Data permet d’utiliser des informations anonymisées pour un usage cohérent (aménagement du territoire plutôt que surveillance des citoyens), on peut considérer ce phénomène comme une véritable lame de fond. Elle pourrait être destructrice sur certains secteurs traditionnels, en ce sens qu’elle laissera l’opportunité à de nouveaux entrants de se positionner en contestataires sur des marchés “légitimes” (par exemple, les opérateurs téléphoniques qui pourraient remettre en cause la légitimité des banques avec l’émergence du paiement sans contact). Yan Claeyssen confirme : certains business modèles exploitent la donnée par des algorithmes plus puissants et permettent d’aller plus vite en personnalisant la relation avec le consommateur. La révolution est quantitative et qualitative. Cet aspect révolutionnaire ne va pas se cantonner à la transaction commerciale, mais va également remettre en cause un certain nombre de croyances et de pratiques au sein des entreprises. L’entreprise n’est plus la seule détentrice des datas, comme le souligne René Lefebure. Le stockage de données est accessible sur le cloud computing à des coûts relativement faibles et évolutifs en fonction des besoins et de la volumétrie. Les modèles économiques vont se construire sur de nouvelles technologies Open data. > 9Cependant, l’aspect métier des informaticiens et des dataminers va être bousculé car la structuration actuelle des données et les modélisations apprises sont dépassées dans un contexte Big Data. Patrice Poiraud renchérit en précisant que le Datamining est le degré zéro du Big Data, mais que ça n’est plus suffisant, puisqu’on analyse uniquement le passé. La Business Intelligence intègre maintenant 3 étapes : le descriptif, le prédictif et le prescriptif c’est à dire, l’analyse de ce qui va se passer, l’optimisation des modèles mais surtout leur automatisation. Le Big Data semble donc prometteur, même si peu de preuves sont apportées. Comme le note René Lefebure, les entreprises sont relativement réticentes à communiquer, c’est encore un peu secret. Etude Gartner Sept 2013 > 56 % des entreprises interrogées déclarent que l’item « comment extraire de la valeur du Big Data » figure parmi leurs premiers challenges, > pour 26% d’entre elles, c’est leur priorité n°1 Révolution > 10La production de données est telle pour Djeraba Chabane, que le phénomène Big Data est majeur et qu’il ne risque pas de s’arrêter. Plusieurs nuances peuvent être apportées à ce stade : > D’une part, l’entreprise doit être au préalable data-centric et tirer partie de ses propres données avant de vouloir les enrichir avec des données externes pour Matt Bailey. > D’autre part, Philippe Nieuwbourg précise que l’enjeu reste la capacité à les analyser et à en tirer profit. Toutes les entreprises et organisations ont un gisement de valeur au travers de leurs données, le Big Data est une génération de valeurs en tant qu’analyse de ces données. C’est l’analytics qu’on va appliquer aux données qui va justifier le Big Data, et non la collecte de données en soi. > Pour Yan Claeyssen aussi : la combinaison des 3V rend possible énormément de choses, il y a un fort potentiel, mais attention au fantasme. L’exploitation est le plus gros enjeu. Des solutions et méthodes ont été mises en place dans des entreprises comme Google ou Amazon pour lesquelles le Big Data a vraiment du sens. Il préfère parler, pour des entreprises plus modestes, de Valued Data et précise que dans cet océan de données, l’enjeu de la valeur est de déterminer lesquelles sont exploitables de manière intelligente. Tous nos experts s’accordent à dire que l’ensemble des secteurs est concerné, même s’ils ne sont pas tous générateurs d’autant de données. La santé est évidemment un enjeu majeur. Dans ce cadre, l’enjeu est la connaissance et la prévention au travers de recoupements de nombreuses données, et non une éventuelle génération de valeur (détection de maladie plus en amont, répartition de vaccins de populations à risque en fonction de la propagation de virus). La Valeur, le 4e V ? Pour l’entreprise > 11Les secteurs les plus en pointe sur le sujet de la data sont : > les télécommunications (qualité de service en temps réel), > les banques (prévention des fraudes) et assurances (gestion du risque), > l’industrie (amélioration des capacités de production, réduction des coûts de maintenance traités en préventif et non en curatif), > les transports (optimisation de trafics et des taux de remplissage), > l’éducation au travers des MOOC (Massive Open Online Courses) pour comprendre les comportements des apprenants, et adapter les programmes. Le Big Data est également prometteur dans un contexte de marketing, qu’il soit relationnel ou produits (innovants et connectés à des services associés). Il faut cependant prendre garde à ne pas tout labelliser “Big Data”. Dans de nombreux cas, les entreprises n’en sont encore qu’au stade du datamining et/ou d’un CRM évolué. La Valeur, le 4e V ? Pour l’entreprise > 12Dans un contexte marketing le phénomène Big Data peut générer de la valeur pour l’entreprise, mais il vient aussi bousculer la relation avec le consommateur. Les consommateurs ou citoyens peuvent-ils en tirer un avantage ? Est-ce le début d’un nouvel équilibre entre les marques et les consommateurs ? Doit on espérer un bénéfice individuel ou collectif ? s’interroge Patrick Bertolo. L’enjeu collectif se positionne vraisemblablement sur des orientations stratégiques de santé publique ou d’éducation. Pour Mouloud Dey, les bénéfices sont collectifs pour le citoyen mais rien n’est encore prouvé. Dans le cadre de la santé, les données collectives pourraient aider la recherche, mais cela implique un partage de données personnelles et intimes. Gilles Venturi complète en parlant de confort de vie du citoyen, dans le cadre d’une meilleure prévision des embouteillages par exemple, et René Lefebure, par l’optimisation des temps de trajet et de transport, et donc de gain en économie d’énergie. D’un point de vue purement marketing, si le Big Data se réduit à des coupons, promotions, publicités mieux ciblées, selon Mouloud Dey, il n’y aura pas de changement fondamental dans la vie du consommateur. Les sollicitations seront éphémères, voire intrusives et risqueront d’accentuer le ras le bol de l’utilisation des données personnelles. Yan Claeyssen y décèle pour le consommateur d’avantage de fluidité, un parcours et une expérience de marque mieux personnalisés en offrant des services supplémentaires, des produits innovants et moins de saturation publicitaire. La limite du Big Data en termes d’enjeux individuel et collectif reste la transparence des entreprises ou des organisations dans l’exploitation des données, et la possibilité pour les individus de gérer leurs propres données. D’où l’émergence de projets tels que Midata au Royaume-Uni ou Mesinfos en France pour encourager les entreprises à partager leurs données avec les consommateurs. La Valeur, le 4e V ? Pour le consommateur/citoyen > 13Le Big Data est-il une problématique réservée aux grandes entreprises ? La réponse est négative pour Patrice Poiraud pour qui la grande taille d’une entreprise peut avoir certaines contraintes comme un historique plus complexe alors que les petites entreprises sont plus agiles dans la mise en place du Big Data sous forme de solutions cloud ou intégrées. Matt Bailey constate que si la multinationale possède des moyens et des ressources pour analyser de grandes quantités de données, une PME pourra utiliser des jeux de données plus petits, plus spécifiques et y trouver tout autant de valeur. Pour Mouloud Dey, une start-up peut créer d’entrée de jeu son modèle économique en se basant intensivement sur la donnée sans être une grosse entreprise qui en a accumulé depuis 30 ans. Et pour arbitrer sur le sujet, Yan Claeyssen conclut qu’il s’agit plus d’une question d’agilité, de vision, d’opportunisme ou de pragmatisme que de taille. Si il doit y avoir une différence entre les entreprises, elle se fera entre celles qui ont pris l’habitude de collecter, intégrer et exploiter la donnée en tant qu’actif stratégique et les autres. Les premières considéreront le Big Data comme une évolution naturelle créatrice de plus de valeur. Les secondes essayeront de composer avec leurs données propres, structurées en silos, ce qui sera long, complexe et coûteux. Une fracture ? Grandes vs Petites entreprises > 14Patrick Bertolo précise qu’il faut respecter un certain équilibre dans la chaîne nécessaire au Big Data. Il faut relativiser les investissements avec les résultats attendus, capitaliser sur les outils existants dans l’entreprise et les agréger avec d’autres outils. Il ne doit pas y avoir de maillon faible dans la chaîne. Pour Gilles Venturi, l’infrastructure à mettre en place s’envisage en 3 couches : > des serveurs dédiés ou sur le Cloud, > combinés avec des outils qui permettront de gérer les bases de stockages de traitement (Hadoop), > et des outils de Business Intelligence et de visualisation. Cette façon de procéder est très linéaire : on augmente les investissements et les capacités de traitement au fur et à mesure des besoins, avec une espérance de ROI de 6 à 12 mois. Et les chantiers à prioriser seraient : > la mise en place des moteurs de recommandations > l’écoute active des réseaux sociaux et l’interaction avec le consommateur > l’étude et le décodage des parcours consommateurs sous l’angle expérience client (tracking web mais également tracking physique dans les centres commerciaux en utilisant des données anonymisées). Ces chantiers ont une connotation Big Data parce qu’ils impliquent des analyses et des applications en temps réel. Le Cloud Computing a beaucoup démocratisé l’approche Big Data en offrant des capacités de stockage plus importantes à des coûts accessibles. Pour René Lefebure, l’équation économique est plus basse qu’avant : la technologie est moins onéreuse, et il est possible et intéressant de passer des contrats à l’utilisation. Vers une stratégie Big Data : premiers pas Etude Gartner Sept 2013 > 29 % des entreprises considèrent l’infrastructure et/ou l’architecture comme un des premiers défis du Big Data > 15Les différentes données : Deux types de données existent : les données nominales et les données anonymisées. D’un point de vue légal, la conservation des données nominales peut-être facteur de risque puisque les entreprises n’ont pas le droit de tout conserver ad vitam. Comme le souligne Blandine Poidevin : les entreprises (françaises et européennes) ne pourront jamais s’affranchir des lois, impliquant des sanctions pénales, stipulant que, même avec l’accord de l’intéressé, elles ne peuvent conserver la donnée personnelle indéfiniment. Grégory Delfosse du Cabinet BRM insiste aussi sur la pertinence de la donnée stockée. Aujourd’hui la législation européenne est basée sur un principe de proportionnalité des données collectées et de transparence. Ainsi, la loi exige des acteurs qu’ils ne collectent que les données strictement nécessaires et pour une finalité bien spécifiée de sorte qu’il parait aujourd’hui difficile pour une entreprise de garder des données qui ne sont pas « utiles » pour elle. En ce qui concerne les données anonymisées qui ne sont pas sous contrainte juridique, il y a lieu de se demander s’il faut garder tout ou partie des informations. Vers une stratégie Big Data : quelles données ? > 16Tout ou partie ? La plupart des experts optent pour le stockage d’une partie seulement des données. Pour Christophe Cousin, iI faut limiter au maximum les données dans les bases car cela a beaucoup d’effets pervers, cela coûte cher, cela ne sert à rien, on s’y perd. Il faut être extrêmement sélectif et se poser la question de ce qu’est une donnée utile. Mais avant tout, il faut replacer la conservation des données dans le contexte de l’activité de l’entreprise. Comme le précise Philippe Nieuwbourg : si la structure des produits change en permanence, la donnée historique a moins de valeur et il n’est pas utile de la stocker. Si l’on prend l’exemple de l’industrie forestière, la durée de vie d’un arbre est de 70 ans, alors que les produits de grande distribution ont une durée de vie de quelques saisons. Pour Patrick Nicholson : vouloir tout stocker est absurde, on ne sait pas forcément ce qu’on va faire des données conservées. Ce sont des projets reportés et donc qui n’aboutissent jamais. Une donnée ne vaut que si on sait ce qu’on veut en faire, elle devient alors une information stratégique. Il faut distinguer les données des informations : la donnée est ce qu’on mesure à un instant T, une information est ce qui permet de faire des différences entre les consommateurs. René Lefebure précise que dans un cadre de Big Data on travaille sur des données non ACID, et le flux est tel qu’on peut se permettre d’en perdre une partie : 95% du flux est constitué de bruit. L’enjeu est de trouver les 5% d’informations pertinentes, celles qui ont été benchmarkées au regard d’un indicateur économique, ou qui ont une valeur stratégique. Vers une stratégie Big Data : quelles données ? > 17> 18 La donnée se périme très vite et peut avoir deux valeurs différentes selon l’activité et l’usage que l’on veut en faire, précise Mouloud Dey. Elle doit avoir du sens par rapport au métier. Par exemple, la géolocalisation peut être perçue dans un contexte d’instantanéité, ou de récurrence, selon les besoins de l’activité de l’entreprise. Envoyer un SMS offrant un café parce que le consommateur passe tous les matins devant un Starbucks café est pertinent pour le fidéliser, le proposer lors d’un passage unique l’est moins. Qu’elles soient anonymisées ou non, Patrice Poiraud estime que lorsqu’on garde longtemps les données, elles coûtent de plus en plus cher en stockage, se périment et elles deviennent dangereuses juridiquement. Il faut mettre en place une gouvernance des données stricte qui doit prendre en compte les aspects légaux et les stratégies commerciales. En guise de conclusion, Djeraba Chabane estime qu’ il faut trouver un équilibre entre les deux, l’important est de savoir où on va. Vers une stratégie Big Data : quelles données ? Etude Gartner Sept 2013 > 27 % des entreprises entreprises interrogées placent les problématiques de risques et de gouvernance (Sécurité, vie privée, qualité des données) dans le top des défis du Big Data > 18> 19 Les sources de données Après avoir considéré les problématiques soulevées par le phénomène Big Data, nos experts s’accordent à dire qu’il faut s’attacher en premier lieu aux données internes et propres à l’entreprise. Comme le précise Matt Bailey, les entreprises doivent être conscientes de la richesse des données qu’elles ont à disposition en interne, et de la manière de les exploiter pour en retirer de la valeur avant de vouloir les enrichir par des données externes. L’important est la capacité à cartographier les données internes pour en avoir une représentation utilisable. Il faut s’assurer par exemple d’avoir une vision à 360° de notre client pour Patrick Poiraud. Il y a des données client dans le CRM, dans le support client, à la logistique et au service après vente. Rien que de pouvoir agglomérer ces données et d’avoir une vue interne à 360°, c’est déjà pertinent. Puis on peut agglomérer des données externes et établir des micro segmentations comportementales, alors tout ce qu’on mettra en place sera d’autant plus efficace. La base est d’avoir une vue globale du client. Dans un deuxième temps, il faut développer un projet Big Data à l’échelle de l’entreprise et s’attacher à répondre aux besoins des différents métiers. Ce projet doit être transversal à l’entreprise et accompagné par la Direction, mais qui du Marketing ou de la DSI va porter le projet? Vers une stratégie Big Data : quelles données ? Etude Gartner Sept 2013 Un des 3 premiers défis du Big Data pour 33 % des entreprises interrogées est d’intégrer de multiples sources de données > 19> 20 Un “3e homme” est souvent évoqué en tant que Datascientist ou Chief Data Officer. Pour Matt Bailey, c’est un profil en forte demande actuellement, avec une palette de compétences extrêmement rares. Une personne doit être capable d’analyser d’énormes quantités de données et de trouver des corrélations. Cependant, ces corrélations doivent être applicables, rentables et réalisables. Donc, des compétences en matière de données, de la créativité dans l’interprétation des données et la validation des corrélations, mais aussi une connaissance de l’entreprise pour voir comment cela peut être utilisé ou trouver des modèles qui améliorent la rentabilité. Ces compétences mixées sont donc extrêmement difficiles à trouver aux USA et encore plus en Europe, où le cursus de formation est faible. Il faudra quelques années pour trouver en nombre suffisant ces “couteaux suisses” de la data. Les Data scientists connaissent les méthodes et outils statistiques, informatiques, maîtrisent les algorithmes, établissent les cahiers des charges techniques et fonctionnels, font l’interface entre la DSI, les directions métiers et le Marketing selon Yan Claeyssen. Enfin, si ces compétences sont clairement nécessaires, faut-il opter pour une solution externe ou faire le choix d’utiliser des ressources internes ? Yan Claeyssen privilégie de commencer par des POC, petits projets apprenants (Proof Of Concept ), où l’on met en place des pilotes pour exploiter des données de manière fonctionnelle et pragmatique sans nécessairement recruter de nouvelles ressources. De la même manière René Lefebure décrit qu’une courbe d’apprentissage devra être mise en place et il faudra trouver le chemin critique du projet. Gilles Venturi précise que chaque entreprise doit trouver sa manière d’exploiter les données, et d’en tirer un ROI sur 6 à 12 mois. Il n’existe pas de projet “one size fits all”. D’un point de vue plus prosaïque, un des investissement qui ne sera jamais perdu est la formation car comme le rappelle Djeraba Chabane : “la formation est un pré requis essentiel avant de se lancer”. Vers une stratégie Big Data : quelle organisation ? > 20 Etude Gartner Sept 2013 Pour 34 % des entreprises interrogées : acquérir les compétences et les capacités requises figure dans le top des défis du Big Data.> 21 Oui, le Big Data fait le buzz et ceux qui pratiquent l’analyse de données depuis 30 ans observent avec amusement l’effervescence qui l’entoure. Mais pour les autres, une fois cette question résolue, que faire ? Attendre encore un an et voir arriver un nouveau concept “data” ? Il faut répondre aux questions soulevées par le Big Data : est-ce que l’entreprise exploite toutes ses datas correctement et suffisamment pour piloter ses opérations et sa stratégie ? Est-ce que l’intégration de données externes lui permettrait d’améliorer ses performances ? Dans un environnement cross canal, avec des clients volatiles, face à des innovations qui changent la donne comme l’impression 3D et des nouveaux business modèles comme le leasing sur les biens de consommation, la crise fragilise les entreprises et exige de la rentabilité à court terme. Il est impératif de faire le point sur la cartographie des données détenues par l’entreprise, sa capacité à en extraire de la valeur. Il faut définir une question métier prioritaire et mettre en place les solutions pour y répondre, que ceux-ci soient étiquetés Big Data ou pas. Ce premier “petit projet” de génération de valeur au travers des data propres et tierces doit démontrer à court terme son efficacité pour permettre d’engager d’autres projets de plus en plus complexes et ambitieux. L’entreprise évitera ainsi de laisser une autoroute à la concurrence. Pour nos métiers marketing et plus particulièrement en retail, le consommateur attend de notre offre produits/services plus de pertinence aux vues des informations qu’il partage. Restons vertueux et ouverts dans notre usage des données personnelles. Demain nos limites ne seront pas techniques mais juridiques. Conclusion .../... > 21> 22 Une question se pose : quel sera notre rôle dans cet univers de la donnée? Y ’aura-t’il un pilote dans l’avion ? Qui sera ce pilote ? Les technologies de la donnée ne remettent pas en cause nos rôles de managers, elles enrichissent nos métiers pour nous concentrer sur le pilotage, l’arbitrage, l’innovation et la stratégie. Il y a certainement nécessité à renforcer les équipes en statisticiens et mathématiciens en attendant que les cursus soient pertinents pour former de futurs “Data scientists”. En 1909, le Blériot XI franchissait la Manche, 100 ans plus tard l’A380 réalisait son premier vol inaugural transatlantique. Entre ces deux avions, une galaxie de technologies mais toujours un pilote dans le cockpit ! Conclusion > 22> 23 Nous tenons à remercier les personnes sans qui la réalisation de ce travail n’aurait pu être possible : > Bien sûr les experts qui ont eu l’amabilité de nous consacrer de leur temps > Les personnes qui nous ont mis en contact avec ces experts : Sylvain Bertrand (ORANGE Business), Julie Moreau, Gaëlle Duvet (Sté MEURA), Grégoire De Lassence (SAS), Gaëlle Vallée (ORANGE). Remerciements> 24 > Matt Bailey https://linkedin.com/in/mattbaileysitelogic > Patrick Bertolo https://fr.linkedin.com/pub/patrickbertolo/3/344/ab0 > Me Martine Ricouart-Maillet Cabinet BRM https://fr.linkedin.com/pub/martine-ricouartmaillet/0/2a2/713 > Djeraba Chabane http://fr.linkedin.com/pub/chabanedjeraba/15/9b0/a68 > Yan Claeyssen https://fr.linkedin.com/pub/ yan-claeyssen/1/1b8/a8b > Christophe Cousin https://fr.linkedin.com/pub/christophecousin/0/36/565 > Mouloud Dey https://fr.linkedin.com/in/moulouddey/ > René Lefebure https://fr.linkedin.com/pub/ rene-lefebure/8/729/572/ Les experts> 25 Les experts > Patrick Nicholson patrick.nicholson@skema.edu > Philippe Nieuwbourg https://ca.linkedin.com/in/pnieuwbourg/ > Me Blandine Poidevin https://fr.linkedin.com/pub/blandinepoidevin/0/813/135/ > Patrice Poiraud https://fr.linkedin.com/pub/patricepoiraud/15/9ab/901 > Gilles Venturi https://fr.linkedin.com/in/gillesventuri/> 26 Les Rédacteurs > Amaury Bouretz - MDCE SKEMA http://fr.linkedin.com/pub/amaury-bouretz/29/a46/19/ > Régine Garric Advielle - MDCE SKEMA http://fr.linkedin.com/pub/regine-garric-advielle/6b/15/22/ > Anne Le Bihan - MDCE SKEMA http://fr.linkedin.com/pub/anne-guillemin-le-bihan/76/b5b/89/ MDCE SKEMA http://www.skema-mdce.fr/ Les liens étroits qu’entretient Télécom ParisTech avec l’industrie en font un témoin privilégié de l’émergence du phénomène « Big Data » et de son impact technologique, sociétal et économique, ainsi qu’un acteur légitime dans le domaine de la formation et de la recherche. Thales, Safran, Airbus Group, Criteo, SAS, Capgemini, Orange, Xebia, Ezakus et McKinsey participent aux comités de veille et de perfectionnement du Mastère Spécialisé, comme aux enseignements, aux études de cas et mises en situation professionnelle. Les Mastères Spécialisés sont des formations intensives et professionnelles dont l’objectif est de permettre à de jeunes diplômés et/ou à des ingénieurs venant d’horizons divers, d’acquérir une spécialisation de haut niveau correspondant à des besoins identifiés par les entreprises et de se doter ainsi d’une double compétence reconnue sur le marché du travail. Mastère Spécialisé Près de 1 500 étudiants choisissent Télécom ParisTech chaque année. Plus de 300 start-up y ont été créées. L'école est ainsi au service de l'économie et de la société française par les ingénieurs qu'elle forme, par les recherches dont elle transfère les résultats à l'industrie, par les entreprises qu'elle aide à faire naître et grandir au sein de ses deux incubateurs. La formation initiale La formation continue La recherche L'innovation Renseignements et inscriptions http://masteres.telecom-paristech.fr Tél : 01 45 81 75 97 Contact : masteres@telecom-paristech.fr 37/39 rue Dareau, 75014 Paris Une définition du programme en étroite collaboration avec les entreprises „ Un réseau de plus de 14 600 diplômés dont 2 000 Mastères Spécialisés. Télécom ParisTech forme ses diplômés à innover et entreprendre dans un monde numérique ! Mastère Spécialisé BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Le Mastère Spécialisé (MS) est accrédité par la Conférence des grandes écoles 4 missions dans le domaine des technologies de l'information Rejoignez le secteur le plus stratégique de l’économie numérique Appréhendez les challenges économiques et juridiques du Big Data Mesurez l’impact de l’utilisation des algorithmes de Machine Learning Accompagnez votre entreprise dans les changements liés à l’exploitation de ses données Conception graphique : RectoVerso 01 46 24 10 09 Document non contractuel - mars 2014 L’objectif de cette Chaire de l’institut Mines Télécom est notamment de contribuer aux réflexions sur la régulation juridique, éthique, économique et technique des informations personnelles et des identités numériques. Elle a été créée en partenariat avec : 3 Valeurs et Politiques des Informations Personnelles Claire Levallois-Barth Cette chaire témoigne de l’excellence des équipes de recherche de l’École dans ces domaines stratégiques pour Télécom ParisTech, et de la reconnaissance de ces compétences par les entreprises du secteur, ellesmêmes de plus en plus focalisées sur les besoins de traitement optimisé de l’énorme masse de données disponibles sur les différents canaux. La chaire est créée avec le soutien de la et est financée par et Yves Rocher. Big Data & Market Insights Pr. Talel Abdessalem 2 Big Data : Gestion et analyse des données massives CAR : Conception et architecture de réseaux CASI : Conception et architecture des systèmes informatiques CPD-CPM : Concepteur de projet digital (en partenariat avec l’INA) IDL : Ingénierie du logiciel Télécom ParisTech propose 14 programmes de Mastères Spécialisés à de jeunes diplômés et à des ingénieurs venant d’horizons divers, pour leur permettre d’acquérir ou de compléter une compétence dans un des grands domaines d'élection de l’École. MPT : Management de projets technologiques (en partenariat avec l’ESSEC) RM : Radio-Mobiles SCHD : Systèmes de communications à haut débit SIRF : Signal, images et reconnaissance des formes SSIR : Sécurité des systèmes informatiques et des réseaux ARS : Architecture réseaux et sécurité ATOMS : Architecte télécom orienté multiservices MSIR : Management des systèmes d’information en réseaux (en partenariat avec l’ESSEC) REgNum : Régulation de l’économie numérique (en partenariat avec l’ARCEP du Burkina Faso) MS à temps plein Executive MS Réseaux et architecture Internet Management des SI Systèmes de communications Cybersécurité Systèmes embarqués 3 chaires dédiées au Big Data Une équipe de réputation internationale sur le sujet du « Machine Learning » ou apprentissage statistique ; domaine à l'interface des mathématiques et de l'informatique. Quatre entreprises prestigieuses sont les partenaires de cette chaire : 1 Machine Learning for Big Data Pr. Stéphan Clémençon Doc Big Data_Mise en page 1 28/03/14 13:44 Page1 2-electrode arrester Series/Type: EF800X Ordering code: B88069X2641xxxx a) Version/Date: Issue 03 / 2008-01-18 Version: 6 Content of header bars 1 and 2 of data sheet will be automatically entered in headers and footers! Please fill in the table and then change the color to "white" (or invisible). This ensures that the table disappears for the customer PDF. To update the data sheet, click on the symbol "Preview" and then "Close". Please do not alter the header or footer when copying the content. Identification/Classification 1: (header 1 + top left header bar) Surge arrester Identification/Classification 2: (header 2 + bottom left header bar) 2-electrode arrester Ordering code: (top right header bar) B88069X2641xxxx a) Series/Type: (top right header bar) EF800X Preliminary data (optional): (if necessary) Department: KB AB E / KB AB PM Date: Issue 03 / 2008-01-18 © EPCOS AG 2008. Reproduction, publication and dissemination of this document, enclosures hereto and the information contained therein without EPCOS' prior express consent is prohibited. Surge arrester B88069X2641xxxx a) 2-electrode arrester EF800X KB AB E / KB AB PM Issue 03 / 2008-01-18 Please read Cautions and warnings and Page 2 of 4 Important notes at the end of this document. Features Applications Standard size High follow current capability Very fast response time Stable performance over life Very low capacitance High insulation resistance RoHS-compatible Application with high follow current Power supply Electrical specifications DC spark-over voltage 1) 2) 680 ... 1000 V Impulse spark-over voltage at 100 V/µs - for 99 % of measured values - typical values of distribution at 1 kV/µs - for 99 % of measured values - typical values of distribution < 1200 < 1000 < 1300 < 1100 V V V V Service life 10 operations 50 Hz, 1 s 5 A 1 operation 50 Hz, 0.18 s (9 cycles) 65 A 10 operations 8/20 µs 5 kA 1 operation 8/20 µs 10 kA Max. follow current during one voltage half cycle at 50 Hz 200 A Insulation resistance at 100 Vdc > 10 GΩ Capacitance at 1 MHz < 1.5 pF Arc voltage at 1 A Glow to arc transition current Glow voltage ~ 22 < 0.5 ~ 140 V A V Weight ~ 1.5 g Operation and storage temperature -40 ... +90 °C Climatic category (IEC 60068-1) 40/ 90/ 21 Marking, red positive EF 800 YY O EF - Series 800 - Nominal voltage YY - Year of production O - Non radioactive a) xxxx = S102 (100 pcs on 5 stripes) = T502 (500 pcs on tape and reel) 1) At delivery AQL 0.65 level II, DIN ISO 2859 2) In ionized mode Terms in accordance with ITU-T Rec. K.12 and DIN 57845/VDE0845 Surge arrester B88069X2641xxxx a) 2-electrode arrester EF800X KB AB E / KB AB PM Issue 03 / 2008-01-18 Please read Cautions and warnings and Page 3 of 4 Important notes at the end of this document. Dimensional drawing Cautions and warnings Surge arrester must be selected so that the maximum expected follow current can be quenched. The follow current must be limited so that the arrester can be properly extinguished when the surge has decayed. The arrester might otherwise heat up and ignite adjacent components. Surge arresters must not be operated directly in power supply networks. Surge arresters may become hot in case of longer periods of current stress (danger of burning). Surge arresters may be used only within their specified values. In case of overload, the head contacts may fail or the component may be destroyed. Damaged surge arresters must not be re-used. Not to scale Dimensions in mm Non controlled document Important notes Page 4 of 4 The following applies to all products named in this publication: 1. Some parts of this publication contain statements about the suitability of our products for certain areas of application. These statements are based on our knowledge of typical requirements that are often placed on our products in the areas of application concerned. We nevertheless expressly point out that such statements cannot be regarded as binding statements about the suitability of our products for a particular customer application. As a rule, EPCOS is either unfamiliar with individual customer applications or less familiar with them than the customers themselves. For these reasons, it is always ultimately incumbent on the customer to check and decide whether an EPCOS product with the properties described in the product specification is suitable for use in a particular customer application. 2. We also point out that in individual cases, a malfunction of passive electronic components or failure before the end of their usual service life cannot be completely ruled out in the current state of the art, even if they are operated as specified. In customer applications requiring a very high level of operational safety and especially in customer applications in which the malfunction or failure of a passive electronic component could endanger human life or health (e.g. in accident prevention or life-saving systems), it must therefore be ensured by means of suitable design of the customer application or other action taken by the customer (e.g. installation of protective circuitry or redundancy) that no injury or damage is sustained by third parties in the event of malfunction or failure of a passive electronic component. 3. The warnings, cautions and product-specific notes must be observed. 4. In order to satisfy certain technical requirements, some of the products described in this publication may contain substances subject to restrictions in certain jurisdictions (e.g. because they are classed as hazardous). Useful information on this will be found in our Material Data Sheets on the Internet (www.epcos.com/material). Should you have any more detailed questions, please contact our sales offices. 5. We constantly strive to improve our products. Consequently, the products described in this publication may change from time to time. The same is true of the corresponding product specifications. Please check therefore to what extent product descriptions and specifications contained in this publication are still applicable before or when you place an order. We also reserve the right to discontinue production and delivery of products. Consequently, we cannot guarantee that all products named in this publication will always be available. The aforementioned does not apply in the case of individual agreements deviating from the foregoing for customer-specific products. 6. Unless otherwise agreed in individual contracts, all orders are subject to the current version of the “General Terms of Delivery for Products and Services in the Electrical Industry” published by the German Electrical and Electronics Industry Association (ZVEI). 7. The trade names EPCOS, BAOKE, Alu-X, CeraDiode, CSSP, MiniBlue, MKK, MLSC, MotorCap, PCC, PhaseCap, PhaseMod, SIFERRIT, SIFI, SIKOREL, SilverCap, SIMDAD, SIMID, SineFormer, SIOV, SIP5D, SIP5K, ThermoFuse, WindCap are trademarks registered or pending in Europe and in other countries. Further information will be found on the Internet at www.epcos.com/trademarks. Introduction Ce document détaille la procédure de mise à jour du firmware du SSD Crucial m4 via notre utilitaire de mise à jour Windows. L’utilitaire consiste en un seul fichier exécutable qui contient tous les codes nécessaires pour procéder à la mise à jour. La création d’un support de démarrage distinct est inutile. Ce programme est destiné à la mise à jour du firmware depuis les révisions 0001, 0002, 0009, 0309, 000F et 010G vers la révision 040H. REMARQUE : Cette mise à jour du firmware ne s’applique pas à tous les SSD Micron acquis seuls ou en tant que matériel de première monte d’un ordinateur. Les mises à jour de firmware de ces disques là seront, le cas échéant, fournies par le fabricant de l’ordinateur ou seront disponibles sur www.micron.com. Cette mise à jour du firmware ne concerne pas n’importe quel disque Micron RealSSD C300. De même, elle ne doit pas être utilisée pour un SED (Self Encrypting Drive) Micron RealSSD C400. Cette mise à jour s’applique uniquement aux disques m4 2,5” et ne doit pas être utilisée pour mettre à jour des disques m4 mSATA. AVERTISSEMENT : Comme pour toutes mises à jour, il est fortement recommandé de sauvegarder ou de copier tous vos fichiers importants auparavant. Cette procédure de mise à jour du firmware s’effectue sous votre seule responsabilité. Si elle est exécutée correctement, il n’y aura aucune perte de données système ou utilisateur présentes sur le disque. Toutefois, une interruption de la mise à jour, quelle qu’en soit l’origine, peut entraîner le dysfonctionnement de votre SSD. Si cette mise à jour est appliquée sur un ordinateur portable, il est fortement recommandé de le brancher en secteur pendant la procédure. Instructions générales Procédez aux opérations suivantes avant de démarrer la procédure de mise à jour du firmware : 1. Sauvegarde du contenu du SSD Il est fortement recommandé de procéder à une sauvegarde complète du système avant de démarrer cette mise à jour du firmware. Si la procédure de mise à jour est interrompue (coupure d’alimentation ou défaillance matérielle de toute nature), il est possible que le SSD ne fonctionne pas correctement. 2. Utiliser une alimentation CA Veillez à ce que votre ordinateur portable ou de bureau soit relié à une alimentation CA pendant la mise à jour. Il est déconseillé de n’utiliser que la batterie pendant la procédure. Ne débranchez l’alimentation à aucun moment de la procédure de mise à jour du firmware car cela pourrait aboutir à un déroulement incomplet de celle-ci et donc, rendre le SSD inutilisable. 3. Désactiver/supprimer les mots de passe associés au disque La protection par mots de passe, comme le cryptage du disque contenant le SE ou les mots de passe du BIOS, peut bloquer les mises à jour du firmware. Le cryptage du disque peut être désactivé via le SE ou le logiciel de cryptage. Pour désactiver un mot de passe de BIOS, vous devez éditer les paramètres de votre BIOS. Veuillez consulter le manuel utilisateur de votre ordinateur pour savoir comment procéder. Entrez dans le BIOS (généralement en appuyant sur les touches « Suppr », « F2 » ou « F12 » au démarrage de l’ordinateur) et désactivez tous les mots de passe éventuellement associés au SSD. 4. Mettre à jour Microsoft .NET Framework Pour être compatible avec Windows 7 et 8, cet utilitaire de mise à jour du firmware a été conçu avec Microsoft .NET Framework 4. Il se peut que certains utilisateurs de Windows 7 doivent mettre à jour leur version de .NET Framework pour exécuter cet utilitaire. Si le message d’erreur suivant apparaît à l’exécution de l’utilitaire de mise à jour, veuillez mettre à jour .NET Framework via Windows Update. Guide pratique de mise à jour du firmware d’un SSD Guide de mise à jour du firmware du SSD Crucial® m4 2,5” vers la révision 040H - Windows 7 et 8 (mise à jour depuis les versions 0001, 0002, 0009, 0309, 000F, 010G vers la version 040H)Guide pratique de mise à jour du firmware d’un SSD Guide de mise à jour du firmware du SSD Crucial® m4 2,5” vers la révision 040H - Windows 7 et 8 (mise à jour depuis les versions 0001, 0002, 0009, 0309, 000F, 010G vers la version 040H) Téléchargez la mise à jour du firmware 1. Avant de commencer le téléchargement du firmware, fermez tous les autres programmes, sauf votre navigateur internet. 2. Recherchez l’utilitaire Windows de mise à jour du firmware associé à votre SSD Crucial m4 à l’adresse : http://www. crucial.com/support/ firmware.aspx 3. Cliquez sur le lien correspondant et sélectionnez Enregistrer pour télécharger le fichier *.ZIP contenant l’utilitaire de mise à jour pour votre système. 4. Double-cliquez sur le fichier *.ZIP pour extraire son contenu. Enregistrez les fichiers extraits sur votre bureau. Lancez la mise à jour du firmware 1. Si ce n’est pas déjà fait, copiez l’utilitaire de mise à jour sur votre bureau. 2. Double-cliquez sur l’icône pour lancer l’utilitaire de mise à jour. 3. Une fenêtre de contrôle des comptes d’utilisateurs s’affichera : Assurez-vous que l’éditeur soit bien Micron Technology, Inc. Si ce n’est pas le cas, sélectionnez No (Non) pour interrompre cette opération. Cliquez sur Yes (Oui) pour continuer si la signature du fichier est exacte. 4. Vous devez accepter le Contrat de Licence pour poursuivre. Lorsque la fenêtre suivante apparaît, cliquez sur le bouton « Licence ». 5. Parcourez et lisez le Contrat de Licence du logiciel. Pour continuer, cliquez sur le bouton Accept (Accepter). 6. L’utilitaire est prêt à démarrer la procédure de mise à jour. Avant de cliquer sur Continue (Continuer), assurez-vous que toutes les autres tâches ont été sauvegardées et toutes les applications ouvertes ont été fermées. Un clic sur Continue (Continuer) déclenchera la procédure. Windows sera arrêté et l’ordinateur redémarré. 7. Votre ordinateur redémarrera sur l’utilitaire de mise à jour. L’écran affichera ceci : 8. Après le chargement complet de l’utilitaire de mise à jour, ces éléments apparaîtront à l’écran : La mise à jour est possible depuis les révisions 0001, 0002, 0009, 0309, 000F ou 010G du firmware ; c’est pourquoi l’une d’entre elles peut apparaître sur l’écran ci-dessus (juste en dessous du numéro de série de votre disque). Si votre disque m4 est absent de la liste affichée sur l’écran ci-dessus, veuillez vous reporter au paragraphe « Astuces de dépannage » à la page suivante. 9. L’utilitaire mettra à jour votre firmware immédiatement en affichant cette mention : 10.Sur la plupart des systèmes, cette procédure durera entre 30 et 60 secondes. Dans certains cas, cela peut être plus long. 11. À la fin de la procédure, le message suivant apparaîtra : 12.Après quelques secondes, le système redémarrera à nouveau, relançant Windows. 13.Lorsque Windows a correctement redémarré, la mise à jour du firmware est terminée.Astuces de dépannage • Bien que tout ait été mis enœuvre pourtesterla compatibilité de ce logiciel avec différentes configurations de systèmes et de jeux de composants, il est impossible de procéder à des essais sur tous les systèmes existants. Par conséquent, certains systèmes (anciens par exemple) peuvent se heurter des problèmes de compatibilité. • Si vous rencontrez des difficultés après le redémarrage de l’utilitaire, vérifiez que vous avez désactivé tous les mots de passe du BIOS. • Si votre disque m4 n’est pas reconnu lors de l’étape 8 du paragraphe « Lancez la mise à jour du firmware », il peut s’avérer nécessaire d’exécuter cette mise à jour en mode IDE et non AHCI, sur certains systèmes anciens. Si un basculement du mode IDE ou AHCI est nécessaire, il peut falloir redémarrer le système au moyen d’un support externe tel qu’un CD-ROM amorçable. Des instructions d’exécution de la mise à jour 040H à partir d’un support amorçable sont disponibles sur la page d’assistance consacrée aux SSD http://www.crucial.com/support/firmware.aspx • Certains systèmes empêchent les mises à jour de firmware en mode RAID. Dans ce cas, le basculement en mode AHCI ou IDE peut aider à terminer la mise à jour. Toutes les configurations RAID devraient être conservées après la mise à jour, lorsque le système rebascule en mode RAID mais vérifiez ceci dans le manuel utilisateur de votre système avant de démarrer la procédure. • Les cartes RAID périphériques ne transmettront pas les commandes nécessaires aux mises à jour du firmware. Il se peut que vous deviez déplacer le disque cible sur un adaptateur de bus hôte SATA ou un connecteur SATA de la carte mère qui facilite ces commandes. • Cet utilitaire de mise à jour du firmware peut ne pas fonctionner sur des ordinateurs fixes, portables ou des tablettes disposant d’une interface UEFI. Nous mettrons à disposition un outil de mise à jour séparé qui prendra en charge les mises à jour du firmware sous UEFI (Unified Extensible Firmware Interface). Vérification de la version actuelle du firmware Dans Windows 7, l’utilisateur peut vérifier la version actuelle du firmware du disque en suivant la procédure suivante : • Cliquez sur le bouton “Démarrer” de Windows, puis sur “Ordinateur”. • Faites un clic droit sur l’icône correspondant à votre disque et sélectionnez “Propriétés”. • Dans la fenêtre qui s’affiche, sélectionnez l’onglet “Matériel”. • Dans la liste Tous les lecteurs de disque, sélectionnez votre disque m4 et cliquez sur “Propriétés”. • Dans la fenêtre suivante, sélectionnez l’onglet “Détails”. • Dans le menu déroulant Propriété, sélectionnez “Numéros d’identification du matériel” et les mentions suivantes apparaîtront : • La version actuelle du firmware est entourée en rouge sur la capture d’écran ci-dessus. Si la révision du firmware est la 040H, aucune autre action n’est nécessaire.©2012 Micron Technology, Inc. Tous droits réservés. Ces informations peuvent être modifiées sans avis préalable. Crucial et le logo Crucial sont des marques commerciales ou marques de service de Micron Technology, Inc. Toutes les autres marques commerciales et marques de service sont la propriété de leurs détenteurs respectifs. REVISION: 04/12/12 FW040H Notes de version du firmware Le firmware du SSD m4 a été mis à jour de la version 010G à 040H. Le firmware 040H est recommandé pour tous les disques disposant de la version 010G, ou précédentes. Il comporte des améliorations et corrections cumulatives par rapport à ces versions, susceptibles d’améliorer l’expérience utilisateur globale. Comme le firmware 010G, la version 040H contient des améliorations par rapport à la version 000F et aux révisions précédentes, notamment pour les systèmes sous Windows 8 et les nouveaux UltraBook, même si des améliorations peuvent également être constatées sur les systèmes sous Windows 7 et autres systèmes d’exploitation. Toute version du firmware du m4 fonctionnera normalement sous Windows 8, même sans ces améliorations de fonctionnement. Voici un résumé des différences entre la version 010G et 040H, quel que soit le système d’exploitation : • Amélioration de la fiabilité en cas de coupure d’alimentation inattendue.* Réduction significative des effets de durées de redémarrage prolongées après une coupure d’alimentation inattendue. • Correction d’un problème concernant le statut du lecteur lors de l’exécution du test SMART Drive Self Test (n’affecte pas les données d’attribut SMART). • Amélioration du processus de mise à jour pour Windows 8. • Amélioration des algorithmes de gestion de l’usure du SSD afin de réduire leur influence sur les débits. * Une « coupure d’alimentation inattendue » lorsqu’une coupure d’alimentation n’est pas précédée d’une commande ATA de VEILLE IMMÉDIATE ou autre commande identique. La VEILLE IMMÉDIATE est une commande système qui avertit le dispositif de stockage d’une coupure d’alimentation imminente ou d’un passage en modes basse consommation tels que la VEILLE ou VEILLE PROLONGÉE. Généralement, la VEILLE IMMÉDIATE ne se déclenche pas quand la coupure d’alimentation est due à une coupure de connexion électrique, une batterie épuisée ou au maintien du bouton Power pendant au moins 4 secondes. Bien que le nouveau firmware réduise significativement le risque, ce type de coupures d’alimentation inattendues peuvent entraîner un temps de redémarrage plus long à la mise sous tension suivante. D’un autre côté, un arrêt normal sur un système Windows ou Mac déclenchera la commande VEILLE IMMÉDIATE auparavant, permettant ainsi un démarrage sans encombre lors de sa remise sous tension. Versions précédentes Rév. A………………………………………………………… 4 Décembre 2012 • Version initiale Introduction Ce document décrit le processus de mise à jour du microprogramme sur l’unité Crucial m4 SSD en utilisant votre fonction de mise à jour Windows. La fonction est un seul fichier exécutable qui contient tous les codes nécessaires pour faire une mise à jour. La création d’une unité amorçable séparée n’est pas nécessaire. Ce programme peut être utilisé pour la mise à jour du Microprogramme de Révisions 0001, 0002, 0009, 0309 ou 000F vers Révision 010G. ATTENTION : Cette mise à jour pour microprogramme ne s’applique pas à toute unité Micron SSD qui a été achetée séparément ou comme équipement d’origine dans le système informatique. Toute mise à jour pour microprogramme pour une telle unité sera mise à disposition, si besoin, par le fabricant de l’ordinateur ou sur www.micron.com. Cette mise à jour pour microprogramme ne s’applique pas aux unités Micron RealSSD C300. La mise à jour ne devrait pas être utilisée non plus pour toute unité Micron RealSSD C400 Self Encrypting Drive (SED) [Unité Auto-Encryptage]. Cette mise à jour est uniquement destinée aux unités 2.5’’ m4 et ne devrait pas être utilisée pour mettre à jour des unités mSATA m4. AVERTISSEMENT : Comme pour toute mise à jour pour microprogramme, il est fortement recommandé de faire une sauvegarde ou des copies des fichiers importants avant d’exécuter cette mise à jour. L’exécution de la mise à jour pour microprogramme est entièrement à votre risque. Si exécutée correctement, le système ou les données sur l’unité ne seront pas perdus. Cependant, si le processus est interrompu, votre unité SSD peut ne pas fonctionner correctement. Si cette mise à jour est effectuée sur un ordinateur notebook, il est fortement recommandé d’utiliser un adaptateur courant alternatif pour alimenter l’ordinateur en électricité. Instructions Générales Complétez les étapes suivantes avant de démarrer le processus de mise à jour pour microprogramme : 1. Faire une sauvegarde de l’unité SSD Il est fortement recommandé de faire une sauvegarde complète avant de démarrer cette procédure de mise à jour. Si la mise à jour est interrompue (coupure de courant ou panne d’équipement…), il est possible que l’unité SSD ne fonctionne pas correctement. 2. Utiliser du courant alternatif Assurez-vous que votre ordinateur portable ou PC est alimenté avec du courant alternatif pendant le processus de mise à jour. Il n’est pas recommandé d’utiliser uniquement la batterie pendant la mise à jour. Ne coupez pas le courant pendant le processus de mise à jour pour microprogramme car ceci pourrait donner un résultat incomplet et rendre votre unité SSD inutilisable. 3. Désactiver/Supprimer les Mots de passe sur l’Unité La protection par mot de passe, comme l’encryptage sur unité OS ou des mots de passe au niveau BIOS, peuvent bloquer les mises à jour du microprogramme. L’encryptage de l’unité peut être désactivé dans l’OS ou l’outil de logiciel que vous utilisez pour l’encryptage. Pour désactiver un mot de passe BIOS, il faut régler les paramètres BIOS sur votre ordinateur. Consultez le mode d’emploi de votre ordinateur pour les détails concernant le réglage de ces paramètres. Rentrez le BIOS (normalement en appuyant sur « Supprimer », « F2 » ou « F12 » pendant le démarrage de l’écran) et désactivez tout mot de passe que vous avez pu programmer sur l’unité SSD. 4. Mise à jour Microsoft.NET Framework Afin de pouvoir être compatible avec Windows 7 et Windows 8, cet outil de mise à jour pour microprogramme est construit sous Microsoft.NET Framework 4. Certains utilisateurs Windows 7 doivent mettre à jour leur version .NET Framework afin de pouvoir activer cet outil. Si le message d’erreur suivant s’affiche quand vous utilisez la mise à jour pour microprogramme, utilisez la fonction Windows Update [mise à jour Windows] pour mettre à jour .NET Framework. Guide pour la Mise à Jour du Microprogramme SSD Guide pour la mise à jour du microprogramme Crucial® m4 2.5’’ Révision 000F pour Windows 7 + Windows 8 (Mise à jour du Rév 0001,0002, 0009, 0309, 000F vers Rév 010G)Guide pour la Mise à Jour du Microprogramme SSD Guide pour la mise à jour du microprogramme Crucial® m4 2.5’’ Révision 000F pour Windows 7 + Windows 8 (Mise à jour du Rév 0001,0002, 0009, 0309, 000F vers Rév 010G) Télécharger la Mise à jour pour Microprogramme 1. Avant de commencer le processus de mise à jour pour microprogramme, fermez tous les programmes sauf votre navigateur Internet. 2. Trouvez la Fonction Mise à jour Microprogramme Windows associé avec votre unité Crucial m4 SSD sur http://www. crucial.com/support/firmware.aspx 3. Cliquez sur le lien pour la Fonction Mise à jour Microprogramme Windows et sélectionnez Save pour télécharger le fichier ZIP qui contient l’outil mise à jour microprogramme, sur votre système. 4. Double-cliquez sur le fichier ZIP pour extraire les fichiers. Sauvegardez-les sur votre PC. Exécuter la Mise à jour pour Microprogramme 1. Si vous ne l’avez pas encore fait, copiez le fichier fonction mise à jour sur votre PC. 2. Double-cliquez sur l’icône pour démarrer la fonction de mise à jour. 3. Un cadre Gestion du Compte Utilisateur apparait : Assurez-vous que l’Editeur Vérifié est bien « Micron Technology, Inc. ». Si ce n’est pas le cas, sélectionnez « No » pour arrêter cette opération. Cliquez « Yes » pour continuer si le fichier est correctement signé. 4. Vous devez accepter l’Accord de Licence afin de pouvoir continuer. Quand vous voyez la fenêtre suivante, cliquez sur la touche « License ». 5. Lisez l’Accord de License pour le Logiciel. Si vous souhaitez continuer, cliquez sur la touche « Accept ». 6. La fonction est prête à démarrer le processus de mise à jour. Avant de cliquer sur « Continue », assurez-vous que tout votre travail est sauvegardé et que les applications ouvertes sont fermées. En cliquant sur « Continue », le processus commencera, Windows sera fermé et votre ordinateur sera redémarré. 7. Votre ordinateur redémarre et va vers l’outil de mise à jour. Vous voyez le message suivant sur votre écran : 8. Une fois l’outil de mise à jour complètement chargé, vous voyez le suivant : Il est acceptable de faire une mise à jour du microprogramme de la révision 0001, 0002, 0009, 0309 ou 010G donc vous voyez peut-être une de ces révisions sur l’écran (juste en dessous le numéro de série de votre unité). Si votre unité m4 n’est pas listée sur l’écran, vérifiez la section « Astuces Dépannage » en dessous. 9. La fonction exécutera immédiatement la mise à jour de votre unité, indiquant le message suivant : 10.Sur la plupart des systèmes, ce processus prend entre 30 et 60 secondes. Certains systèmes peuvent prendre plus longtemps. 11. Une fois ce processus complété, le message suivant s’affiche : 12.Après quelques secondes, le système sera réinitialisé à nouveau, Windows redémarre. 13.Quand Windows redémarre normalement, le processus de mise à jour pour microprogramme est complété.Astuces Dépannage • Malgré des efforts faits pour tester la compatibilité de ce logiciel avec des configurations de différents systèmes et de jeux de composants, il n’est pas possible de tester tout système disponible. Certains systèmes (par ex. des systèmes plus anciens) peuvent donc avoir des problèmes de compatibilité. • Si vous avez des problèmes après la réinitialisation de l’outil, vérifiez que vous avez bien désactivé les mots de passe BIOS sur l’unité. • Si votre unité RealSSD m4 n’est pas reconnue pendant l’étape 8 de la section « Exécuter la Mise à jour pour Microprogramme » ci-dessus, il peut être nécessaire d’exécuter cette mise à jour sur certains systèmes plus anciens en mode IDE au lieu du mode AHCI. Quand vous devez changer le système en mode IDE ou AHCI, il peut être nécessaire de réinitialiser le système en utilisant un média externe comme un CD-ROM amorçable. Des instructions pour exécuter la mise à jour 010G à partir des médias amorçables sont disponibles sur la page SSD Support sur http://www.crucial.com/support/firmware.aspx • Certains systèmes bloquent une mise à jour pour microprogramme quand en mode RAID. Dans ce cas, changer en mode AHCI ou IDE peut aider à compléter le processus de mise à jour. Toute configuration RAID doit être préservée après la mise à jour pour quand le système est à nouveau mis en mode RAID, mais vérifiez le mode d’emploi pour votre système avant de continuer. • Des cartes périphériques RAID ne font pas passer les commandes nécessaires pour exécuter des mises à jour pour microprogramme. Vous devez peut-être déplacer l’unité cible vers un adaptateur de bus hôte SATA ou un connecteur SATA sur la carte-mère qui accepte ces commandes. • Cetoutil demise à jour pourmicroprogramme ne fonctionne peut-être pas correctement sur des PCs, notebooks ou tablettes avec BIOS-UEFI. Nous proposerons un outil de mise à jour séparément qui accepte les mises à jour pour microprogramme avec UEFI [interface micrologicielle extensible unifiée]. Validation de la Révision Actuelle du Microprogramme Windows 7 permet à l’utilisateur de vérifier la révision actuelle du microprogramme pour l’unité en suivant les étapes suivantes : • Cliquez sur Windows « Start » et sélectionnez « Computer ». • Sur l’icône du disque, représentant votre unité, faites un clic-droit et sélectionnez « Properties ». • Dans la fenêtre qui s’ouvre par la suite, vous sélectionnez l’onglet « Hardware ». • Dans la liste All Disk Drives, vous sélectionnez votre unité C400 et vous cliquez sur « Properties ». • Dans la fenêtre suivante qui s’ouvre, sélectionnez la page « Details ». • Dans le menu déroulant Property, sélectionnez « Hardware Ids « , ensuite vous voyez le suivant : • La révision actuelle du microprogramme est entourée en rouge. Si la révision du microprogramme indique « 010G », aucune action supplémentaire est nécessaire.REVISION : 11/5/12 FW010G ©2012 Micron Technology, Inc Tous droits réservés. L’information peut être modifiée sans notification. Crucial et le logo Crucial sont des marques commerciales de Micron Technology, Inc. Toute autre marque commerciale et marque de service est la propriété des propriétaires respectifs. Notes de Publication pour Microprogramme Le microprogramme pour l’unité SSD m4 est mis à jour de la version 000F vers la version 010G. Microprogramme 010G est une option pour toute personne qui utilise actuellement la version 000F comme la nouvelle version comprend des améliorations incrémentales mais est recommandé si l’utilisateur a eu des problèmes avec la version actuelle. La version 010G comprend des améliorations spécifiques pour Windows 8 et des nouveaux systèmes UltraBook, même si Windows 7 et d’autres systèmes et des plates-formes informatiques peuvent également voir des améliorations. Toute version m4 pour microprogramme fonctionnera normalement dans Windows 8. Cependant, les améliorations suivantes ont été ajoutées pour répondre aux nouvelles exigences de certification pour ce système d’exploitation : Améliorations pour Windows 8 • Meilleur Time-to-ready (« TTR ») après un cycle de détente. TTR est maintenant moins de 850 millisecondes pour tous les points de capacité. Un « cycle de détente » est une séquence OFF-ON suite à une commande STANDBY IMMEDIATE envoyée par l’hôte et acceptée par l’unité SSD. STANDBY IMMEDIATE est typiquement envoyée durant une mise à l’arrêt du système d’exploitation. • Ce changement améliore également le temps resumefrom-sleep afin de répondre aux nouvelles exigences Windows 8. • Le temps de réponse a été réduit de 50ms à 20ms (typique). Consommation d’électricité améliorée pour certains ordinateurs notebook • HIPM (Host Initiated Power Management) n’est plus accepté. Dans certains ordinateurs notebook, HIPM peut interférer avec la capacité de SSD de rentrer et de rester dans des modes basse consommation en utilisant DIPM (Device Initiated Power Management). Utiliser DIPM seul est la méthode la plus efficace pour conserver la puissance SSD. • SATA pin 11 (Device Activity Signal) est électroniquement isolé de l’hôte quand l’unité SSD est en mode basse consommation. Ceci élimine une voie de fuite potentielle qui peut consommer de l’électricité pendant que l’unité SSD soit en veille. Ceci n’affecte pas la plupart des systèmes informatiques. Historique des Révisions Rév. A…………………………...............………….25 septembre 2012 • Publication Initiale Summary This white paper addresses the energy consumption of DRAM in computing applications and the opportunities to maximize energy savings by targeting more efficient products for data center servers. Micron estimates module power savings at 24 percent; this has the potential to achieve energy savings of 5.5 billion kilowatt hours (kWh) on a global basis annually. At typical industrial power costs1 ($0.06 per kWh), the savings are more than $300 million per year. Michael Sporer Regional Sales Manager, Micron Memory Products Group ©2008 Micron Technology, Inc. All rights reserved 1 The power demands of data centers require memory innovationsThe power demands of data centers require memory innovations Introduction The U.S. EPA Energy Star program is conducting a study to assess opportunities for energy efficiency improvements to computer servers and data centers2. This is in response to Public Law 109-431, which was passed and signed into law December 20, 20063. This legislation requires an investigation down to the microchip level. As a manufacturer of semiconductor memory products used in server systems, Micron intends to proactively address these opportunities. Justification A recent study conducted by Dr. Jonathan Koomey4 with the Lawrence Berkeley National Laboratory (LBL) and funded by Advanced Micro Devices (AMD), illustrated the significant and growing energy use by data centers. Data centers are rooms, floors or sometimes entire buildings that house computer, storage, and networking equipment. Data centers can serve up Web pages, stream media, enable Internet access, and run simulations of any kind of research. They can also provide computing power for traditional and private uses like banking or other financial transactions. The computers in data centers, called servers, are similar to PCs in that they have the same basic microchips—the CPU and memory. Unlike PCs, servers in data centers are packed together as densely as possible and use substantial amounts of electricity, the majority of which ends up in the form of heat, which then must be removed from the servers. The power delivery to the systems is provided through uninterruptible power supplies (UPS) that are not 100 percent efficient and also produce copious amounts of heat as well. The heat must be carefully and continuously managed to keep the systems running within their specified operating temperature and humidity ranges. Regardless of the type and efficiency of the cooling system, the heat must be removed from the data center in one way or another. To do so requires additional energy be used to operate the cooling infrastructure. ©2008 Micron Technology, Inc. All rights reserved 2 The data centers’ incremental overhead power consumption due to inefficiencies and cooling is estimated to be equal to the amount that is consumed by servers, storage, and networkingIntroduction The data centers’ incremental overhead power consumption due to inefficiencies and cooling is estimated to be equal to the amount that is consumed by servers, storage, and networking. The user of a single PC, workstation, or laptop doesn’t see system heat generation ias a concern, but for data centers, managing the overhead is as important as the servers themselves. If system power is reduced, then the available overhead can handle a greater IT load and perform more useful work in the same power envelope. The Role Memory Plays in the Challenges of Servers and Energy Use The memory content in servers has been growing at a rapid pace and is expected to continue to do so for a variety of reasons. In general, software with more functionality requires both greater computational ability as well as a larger memory footprint. However, some factors are more applicable to servers than PCs. First is the proliferation of multi-core CPUs executing single-threaded applications. Each thread requires its own memory space, therefore doubling the number of CPU cores requires doubling the memory. A recent seminar5 on server design cited this rule of thumb: 1GB per (1 GHz × # cores) This equation reinforces the idea that each CPU core mandates an increase in memory space. Another factor driving memory content growth and server power consumption is the adoption of virtualization technologies. A server running a virtualized environment is able to achieve a higher utilization which, in turn, increases the total power consumption of the server. Once again, the importance of energy efficient component selection increases. By analogy, a car will burn very little fuel if it isn’t driven. Virtualization, or anything that increases server operation, is like adding a new driver to the mix. Now the car gets driven more and energy efficiency becomes a greater concern. Traditionally, the CPU has been the component that consumes the most power in the system. Improvements in CPU power consumption now place a greater scrutiny on the other components. Where memory once played a distant second to CPUs in the ranking of system power consumption, now, in some cases, it exceeds the power consumption of the CPU. The power demands of data centers require memory innovations ©2008 Micron Technology, Inc. All rights reserved 3 The memory content in servers has been growing at a rapid pace and is expected to continue to do so for a variety of reasonsThe power demands of data centers require memory innovations Energy Efficient Memory Advantages Micron’s new energy efficient Aspen Memory® product line includes several new products that have a lower power consumption compared to legacy standard products. These technologies are intended for use in both client machines—PCs, laptops, workstations—as well as in servers. The new products are 1Gb-based, DDR2 reduced chip count (RCC) modules; and 1.5V DDR2 FBDIMMs. The 1.5V DDR2 SDRAM operates at 1.5V instead of 1.8V. The 1Gb-based, DDR2 RCC modules provide the same memory capacity and performance as a DIMM built using legacy (currently 512Mb) devices, but use half as many higher density (1Gb) DRAM devices (see Appendix A for product details). The combined savings of these two technologies is estimated to be 24 percent of the memory DIMM power consumption. For reasons previously cited, extrapolating the savings to the system level is difficult; instead, we have directly measured power savings at the power supply input of the server under test. Under minimum and maximum loading conditions and using commercially available systems, Micron has measured between 1.5 to 1.8 watts per 2GB DIMM improvement in power consumption when comparing standard legacy products to 1Gb-based, DDR2 reduced chip count DIMMs. Measurements made in a lab environment using modified commercial hardware with the adaptations required to support 1.5V DDR2 on FBDIMMs show power reductions in the 1.5 to 2.0 watts per 4GB 1.5V DIMM attributed only to the DRAM. Additional power savings could be possible using a low-voltage advanced memory buffer (AMB) chip, which is also on the FBDIMM. For the purpose of the analyses that follow, it is necessary to convert these savings into a percentage basis. We will assume a conservative 24 percent DIMM-level savings for the 1Gb-based, DDR2 RCC DIMM and 1.5V DDR2 SDRAM. ©2008 Micron Technology, Inc. All rights reserved 4 The combined savings of these two technologies—1Gbbased, DDR2 reduced chip count modules and 1.5V DDR2 SDRAM devices—is estimated to be 24 percent of the memory DIMM power consumptionThe power demands of data centers require memory innovations Data Centers and Energy Use According to Dr. Koomey’s report, data center servers consumed 616 billion kWh worldwide in 2005. The historical growth rate of this figure has been 15 percent annually from the year 2000 to 2005. Estimating the power consumption attributed to memory is a difficult challenge. A computer system has multiple memory sockets that can be fully or partially populated with memory modules, and the memory module density can also vary. In addition to these physical variations, the portion of power attributed to memory also depends on the type of workload and memory utilization. Certainly, further study is needed in this area. For the purpose of this paper we are going to assume memory accounts for 20 percent7 of the total system power budget in a server. The reader can adjust this assumption as needed. Micron has come up with an alternative method for estimating DRAM power consumption (summarized here; details in Appendix C). This method incorporates analysts’ data to estimate the total DRAM production in a given year and the DRAM consumption by market segment. This method also makes assumptions regarding hours of operation as well as system utilization to estimate power consumption and potential savings. (Figure 2 provides the estimate for calendar year 2008.) The production of DRAM is quantified in terms of 512Mb equivalent units. For example, a single 1Gb DRAM is equivalent to two 512Mb devices. First, we divide the market into three categories: server, client, and other. The client-machine category includes desktops, laptops, and workstations. The other category is a catch-all for non-computing markets and is not considered in this analysis. Given these market segments, it’s apparent that the client market consumes four times as many DRAM equivalent units as the server market. Next, we consider the hours of operation and system utilization on an annual basis. Servers operate 24 hours a day, 7 days a week; client machines operate approximately 8 hours a day, 5 days a week. Server utilization is assumed to be 15 percent; client, 5 percent. By applying the usage model to each DRAM market, we conclude that despite the four-to-one difference in shipments, the DRAM in servers consumes more power than all DRAM in the client machines. ©2008 Micron Technology, Inc. All rights reserved 5 Estimation of Memory Power Consumption and Potential Savings Illustrates the potential savings. For a detailed description, see Appendix B. 2005 61 billion kWh servers 12 billion kWh servers 20% 24% 2.9 billion kWh potential savings in 2005 34 billion kWh non-memoryThe power demands of data centers require memory innovations Next, we consider the total available 1Gb DRAM which could be used to build the 1Gb-based, DDR2 RCC DIMMs (see Appendix A for RCC details). For 2008, all 1Gb DRAM production is estimated to be enough to provide for 98 percent of the total demand for servers or 24 percent of the total demand for client machines. Finally, we look at the potential power savings for all the 1Gb-based, DDR2 RCC DIMMs if they were installed into either client machines or servers. When we analyze this power-savings comparison, we see that although the DIMM power requirements and potential savings are identical in either application, the cumulative energy savings is substantial for the server market due the longer hours of operation and higher utilization factors of server platforms. In this example, 462 million kWh energy savings would be achieved for energy efficient DRAM devices sold this year. This approach would conserve 2.3 billion kWh over a five-year product lifecycle. ©2008 Micron Technology, Inc. All rights reserved 6 Savings in servers are much greater because, unlike client machines, servers are always running Estimation of power conusmption based on annual DRAM manufacturing and market usage 13,849 million 512Mb EQ DRAM produced 1,870 million in servers 7,478 million in client machines 66MW potential savings 13MW potential savings 53MW could be saved by steering all available 1Gb DRAM to servers instead of client machines in 2008 463 million kWh per year 2,314 million kWh potential savings in 2008 9,348 million in servers and client machines 135MW total power for all DRAM in servers 109MW total power for all DRAM in client machines 67.5% High use Low use If all 1Gb went into servers as RCC If all 1Gb went into client machines as RCC Straight conversion to kWh annually Assume 5-year lifecycle; extrapolate to the entire installed base 20% Other marketsThe power demands of data centers require memory innovations Comparing the Two Methods Let’s attempt to correlate the two estimation methods. First we need to look at the differences so we can compensate accordingly. The first method is based on data from 2005 and assumes both 1Gb-based, DDR2 RCC DIMMs and 1.5V devices are placed into the installed base. The second method is based on data for 2008 and assumes only 1Gb-based, DDR2 RCC DIMMs are used (see figure below). To extrapolate from 2005 to 2008, we will assume a 15 percent annual growth rate consistent with the previous five years. As a first approximation we will assume that the savings from 1.5V DDR2 devices and 1Gb-based, DDR2 RCC modules are equal. As shown below, both methods demonstrate 4.5 billion kWh annual potential savings for DRAM in servers. The aggregate data center energy savings would be doubled when considering the incremental overhead and cooling energy costs. Alternately, instead of reducing power consumption, these savings could be used to support more IT equipment within the existing infrastructure, resulting in better asset utilization and deferring the need for new data center construction. ©2008 Micron Technology, Inc. All rights reserved 7 Comparing the Two Methods for Estimating Energy Savings 4.4 billion kWh in 2008 -4.6 billion kWh from both RCC and 1.5V devices 4.5 billion kWh from both RCC and 1.5V devices Savings from overhead roughly equal to IT load; therefore, 4.5 billion x 2 = -9 billion kWh savings 2.9 billion kWh in 2005 potential saving from RCC and 1.5V devices 2.3 billion kWh in 2008 potential saving from RCC only Data Center Use Calculation DRAM Production Calculation Extrapolate to 2008 based on 15% annual growth historical trend Reasonable agreementThe power demands of data centers require memory innovations Conclusion This paper brings together three important findings for memory with respect to energy consumption in computing applications. First, we highlight the growing memory content per server due to the increasing deployment of multi-core CPUs. We also discuss the relative importance of memory as CPUs and other sub-assemblies are being optimized for lower energy consumption. Second, we demonstrate two methods for estimating the energy consumption and potential savings of DRAM in both the general computing market and data centers. This also reinforces the idea that the greatest opportunity for power savings is in data center applications due to servers’ high utilization. Finally, we show how a significant reductions in power consumption can be achieved by adopting high-density 1Gb-based, DDR2 reduced chip count modules with 1.5V DDR2 SDRAM devices. ©2008 Micron Technology, Inc. All rights reserved 8 The greatest opportunity for power savings is in data center applications due to servers’ high utilizationThe power demands of data centers require memory innovations Appendix A: Product Availability Micron has introduced a product line which features products that are optimized for low power consumption and have superior performance compared to standard products. 1.5V DDR2 Devices The 1.5V DDR2, DIMMs, and motherboards that can use this technology are currently under development. Please contact Micron for the latest status. 1Gb-based, DDR2 Reduced Chip Count DIMMs Currently, 1Gb-based, DDR2 reduced chip count modules are available for a wide range of computer applications. These 1Gb-based, DDR2 RCC modules provide the same memory capacity and performance as a DIMM built using legacy (currently 512Mb) devices while using half as many higher density (1Gb) DRAM chips. For existing systems that can address 1Gb DRAM technology, the 1Gb-based, DDR2 RCC modules should easily work. Systems that use registered DIMMs or fully buffered DIMMs (FBDIMMs) and can support a 4GB density should be able to use 2GB reduced chip count DIMMs, which are built using the same 1Gb DRAM technology. Some systems require DIMMs to be installed in matched pairs. For these systems, pairing a reduced chip count DIMM with a standard DIMM could reduce system performance or possibly cause the system to stop functioning. Oftentimes, a memory upgrade or a firmware or BIOS update will solve the problem. Refer to your system manufacturer for compatibility questions. ©2008 Micron Technology, Inc. All rights reserved 9 Micron’s Aspen Memory® product line features modules that are optimized for low power consumptionThe power demands of data centers require memory innovations For some of the more common system questions, check the Micron® motherboard compatibility page from www.micron.com. For additional compatibility questions, refer to your system manufacturer. TABLE 1: Quick Reference for Reduced Chip Count DIMMs Note: Even numbers are for standard DIMMs; odd numbers are for ECC (error correction code) DIMMs. Appendix B: Derivation from LBL/AMD8 White Paper Calculating energy use and potential energy savings has not yet become a standard practice for data centers. Because of this, many calculations for determining actual energy use can be inaccurate. This situation is further complicated by the fact that power equipment efficiency is commonly calculated as the difference between power out and power in. Power consumed by memory in servers varies significantly depending on many factors. The two primary factors are the memory capacity of the server relative to the power consumed by the rest of the system and the second factor is the actual amount of memory installed. We assume 20 percent of the power is consumed by memory. 61 billion × 0.2 = 12 billion kWh By implementing 1.5V chips in reduced chip count server modules, data centers could reduce system memory power consumption by approximately 24 percent, which would be a reduction of 2.9 billion kWh. 12 billion × 0.24 = 2.9 billion kWh ©2008 Micron Technology, Inc. All rights reserved 10 4 or 5 8 or 9 16 or 18 512MB 1GB 2GB 8 or 9 16 or 18 32 or 36 DIMM Density Number of Chips on a DIMM Standard Reduced Chip CountThe power demands of data centers require memory innovations Assuming a power cost of $0.06 per kWh a 24 percent drop in power consumption translates into an average annual savings of $0.174 billion ($174 million)9. 2.9 billion × 0.06 = $174 million > ~$150 million Including the savings in overhead power raises this to 5.8 billion kWh and more than ~$300 million, respectively. Appendix C: DRAM Energy Consumption Based on Manufacturing and Market Another method for determining total energy consumption focuses on cumulative DRAM production and the applications into which DRAM is placed. According to market analysts although 13.5 percent of total DRAM gets placed into servers; the majority—54 percent—goes into workstations, PCs, and laptops (client machines). (The remainder goes into market segments not covered in this paper.) A typical client machine is operated approximately eight hours a day, five days a week. Utilization of clients is typically cited at 5 percent. Many government regulatory agencies have instituted energy efficiency requirements, with EnergyStar in the United States as one such example. Given these factors, the total energy consumed by DRAM in client machines is reasonably low, even when the power switch is on throughout the day. Compare that to a typical server in a data center that is powered on twenty-four hours a day, seven days a week. Utilization of servers is typically cited at about 15 percent. Table 2 shows the difference in total DRAM power consumption between client and server machines. ©2008 Micron Technology, Inc. All rights reserved 11The power demands of data centers require memory innovations TABLE 2: Use Percentages of Client Machines and Servers Note: Client machines limited to desktop, laptop, and workstations. In Table 2, total power equals the sum of : Percent of DRAM market × [Power-on hours × [%Utilization × DIMM Power (Utilized) + (1-%Utilization) × DIMM Power (Idle)]] Table 2 shows that, although client machines have four times more DRAM than servers, the total DRAM power consumed by servers is nearly equal, if not slightly higher, than power consumed by client machines. Initially, the implications might not be apparent. Of course, putting more energy efficient DRAM in either application will save power. The problem, however, is that advanced, energy efficient DRAM technology is not widely available. Given the limited availability, the question is what is the best use of what little is available? To determine what is available, we need to examine the total worldwide production of advanced DRAM products. Market analyst data in Table 3 shows the distribution of forecasted DRAM production and use for 2007 and 2008. ©2008 Micron Technology, Inc. All rights reserved 12 54 24 5 6 2 0 0.29 45 % % % Watts per DIMM Watts per DIMM Watts per DIMM % 13.5 100 15 6 2 0 0.35 55 Clients Servers Units Percent of DRAM market Annual power-on hours Utilization DIMM Power Utilized Idle Sleep Total Power: Percent of totalThe power demands of data centers require memory innovations TABLE 3: Projected Distribution of DRAM Production Notes: 1. Average of Gartner, iSupply, and IDC. 2. iSupply 4Q06 report. 3. 6W/DIMM typical for system in use; 2W for system idle; 0W for client in E-star or off. www.sun.com/servers/coolthreads/t2000/calc/ www.sun.com/servers/x64/x2200/calc/ 4. Calculated. 5. Maximum savings assumes all 1Gb DRAM goes into this market segment. The key will be the availability of 1Gb DRAM within the 2007-2008 time frame. A 1Gb DRAM built on advanced process technology will have power consumption on par with a 512Mb device built on older processes. The 1Gb DRAM enables a 2GB DIMM to be built using 18 chips rather than the 36 chips required with 512Mb DRAM. Table 3 projects that in 2007, 1Gb DRAM shipments will only be 4 percent of total production, but will increase in 2008 to 13 percent. Since the server market is roughly one-fourth the size of the client market, it is possible to achieve a much higher market penetration in the server market. In 2008 the available 1Gb DRAM will be large enough to service 98 percent of the projected demand for servers. The client machines’ low power-on hours and low utilization shown in Table 2, combined with the market size estimates in Table 3, indicate a baseline power consumption 109MW in 2008. However, since the available 1Gb DRAM could only serve 24 percent of the total client machine market, the potential savings would be 13.28MW. ©2008 Micron Technology, Inc. All rights reserved 13 512Mb EQ % % % MW MW % % MW MW MW million kWh million kWh TOTAL production 1Gb as % total Client Server DRAM in Client: Power DRAM in Server: Power 1Gb supply/demand client 1Gb supply/demand server Max Client savings Max Server Savings Annual delta from putting 1Gb in servers Annual delta Power 5 year lifecycle savings 1 1 2 2 3 3 4 4 4, 5 4, 5 4 4 4 9,203 4% 54% 13.5% 72 90 8% 31% 2.80 13.93 11.13 97.5 488 13,849 13% 54% 13.5% 109 135 24% 98% 13.28 66.11 52.83 462.8 2,314 Units 2007 2008 NotesBy comparison, the available 1Gb DRAM could serve 98 percent of the total server market. Applying the same mathematical computation as before produces a power savings of 66.1MW—a difference of 52MW. Significant power savings is achieved simply by channeling a scarce DRAM resource into a market segment where utilization is the highest. These results represent a reduction of 0.463B kWh for equipment installed during 2008. If we assume this represents only one-fifth of data center servers, and if we extrapolate that to the entire installed base, we find the estimated savings would be 2.3B kWh. This estimate only assumes reduced chip count technology; adding in 1.5V DDR2 FBDIMMs would add another 2.3B KWh, which brings the total annual IT load savings to 4.6B kWh. Finally, when the overhead power consumption is added into the mix, an equal amount of overhead energy can be saved with regard to reduced cooling, supply inefficiencies, etc. In other words, another 4.6B kWh could be saved, bringing the total potential savings to more than 9B kWh annually. Currently, the effective service life of servers is five years or longer due to the depreciation schedule imposed by Internal Revenue Service. Dr. Koomey’s report indicates a server life of three to five years. Micron’s investigation revealed on a limited dataset that if a server was no longer capable of meeting customer requirements inside the 5 year schedule, it would be repurposed for a less intensive workload. Thus, most servers can be expected to run for a minimum of five years, with many running much longer. In contrast, client machines are typically expensed or depreciated on a shorter service life schedule. The power demands of data centers require memory innovations ©2008 Micron Technology, Inc. All rights reserved 14The power demands of data centers require memory innovations Footnotes: 1. Energy Information Administration: Official energy statistics from the U.S. Government: www.eia.doe.gov/cneaf/electricity/epm/table5_3.html 2. Enterprise Server and Data Center Energy Efficiency Initiatives: www.energystar.gov/index.cfm?c=products.pr_servers_datacenters 3. http://clerk.house.gov/evs/2006/roll369.xml 4. http://enterprise.amd.com/Downloads/svrpwrusecompletefinal.pdf 5. University of Washington Television Webcast: www.uwtv.org/programs/displayevent.aspx?rID=2879 : Urs Holzle presenting. 6. http://enterprise.amd.com/Downloads/svrpwrusecompletefinal.pdf 7. Ibid. 8. Memory power consumption in a fully loaded server is estimated in the range of 25% to 66%. This analysis assumes 20% on the basis that we do not have a clear understanding of memory content per system; www.energystar.gov/index.cfm?c=products.pr_esads_conf_media The presenter is Gregg Papadopoulos, CTO of Sun Microsystems. 9. http://enterprise.amd.com/Downloads/svrpwrusecompletefinal.pdf. Note (7) of this document states that total electricity consumption (including cooling and auxiliary equipment) is twice that of the direct server power consumption, based on typical industry practice ©2008 Micron Technology, Inc. All rights reserved 15About Micron Micron Technology, Inc., one of the world’s most efficient and innovative semiconductor companies, manufactures and markets a full line of DRAM components and modules, NAND Flash memory, CMOS image sensors, and other semiconductors. Our broad product line includes both legacy and leading-edge solutions, offered in multiple generations, densities, configurations, and packages to meet the diverse needs of our customers. With operations in 18 countries, customers can count on us to deliver the expert design, manufacturing, sales, and technical support—and ultimately, the high-performance, advanced semiconductor solutions—that go into successful product designs. Products and specifications discussed herein are subject to change by Micron without notice. Products are warranted only to meet Micron’s production data sheet specifications. All information discussed herein is provided “AS IS” and without warranties of any kind. Micron, the Micron logo, Crucial, and the Crucial logo are trademarks of Micron Technology, Inc. All other trademarks are the property of their respective owners. The power demands of data centers require memory innovations ©2008 Micron Technology, Inc. All rights reserved 16 EZ Gig IV User’s Guide Cloning Software with Data SelectTABLE OF CONTENTS EZ Gig - Getting Started 4 Cloning as Easy as 1-2-3 4 Compatibility 4 System Requirements 5 Connecting Your Hard Drive 6 EZ Gig Start Up Options 6 Creating a Bootable EZ Gig CD 7 Cloning your hard drive with EZ Gig 8 Selecting the Source Drive 9 Selecting the Destination Drive 10 Speed Test 10 Drive Verification 11 Data Select 12 Using the Data Select feature 13 Analyzing files 14 Selecting Folders to Omit 15 Advanced Options 16 Verify Copy 16 Copy Free Areas 16 SmartCopy 16 Media Direct (Dell) 16 More Advanced Options 17 FastCopy 17 SafeRescue 17 CachedMemory 17 SharedMemory 17 Animation 17 HotCopy / LiveImage 18 Avoid exclusive read access 18 Partitions 19 Resizing your partitions manually 20Start Clone 21 Interupting the Cloning Process 22 Aborting the Cloning Process 22 Interupting the Verification process 22 Congratulations your Clone is Complete 23 FAQs 24 Load errors 24 Error #5002 and ‘Disk error’ 24 Keyboard and mouse 24 General problems 25 Slowed down system 25 Read, write and verification errors 25 IDE/ATA/SATA 25 Hard disk not recognized 25 IDE controller not found 26 Source & Destination Size Differences 26 Equal Size 26 Small to large 26 Large to small 26 Automatic troubleshooting 27 Intensive reading/writing 27 Read errors 27 Write errors 27 Verification errors 27 Contacting Technical Support 29 RMA Policy 29 Warranty Conditions 304 www.apricorn.com Cloning as Easy as 1-2-3 Upgrading your notebook hard drive is one the easiest ways to increase performance and capacity. EZ Gig makes this process simple by copying all of your data, OS, email and settings to your new drive in just three simple steps. EZ Gig - Getting Started Compatibility EZ Gig is compatible with the latest Apricorn Upgrade products, including DriveWire, SATA Wire, Velocity Solo and EZ Upgrade. Before commencing, please ensure that your new hard drive is connected to your computer using one of the below products. NOTE: Before starting the cloning process EZ Gig automatically verifies which Apricorn upgrade product is being used. If used without one of the products below, EZ Gig will not work. EZ Upgrade DriveWire SATA Wire SATA Wire 3.0 Velocity Solowww.apricorn.com 5 System Requirements Hardware: 1 GHz Intel® Pentium® or Atom™ processor or equivalent 256MB RAM Available USB port CD ROM or CD-RW drive Keyboard: standard, PS/2 or USB Mouse: serial, PS/2 or USB (optionally, can be operated with keyboard only) Operating systems: Microsoft: Windows® 7, XP or Vista™ NOTE: When used with Windows 2000 you must boot to the EZ Gig III CD to clone your drive Supported Media: IDE/ATA hard disks, CompactFlash via IDE SATA hard disks (internal & external) SCSI hard disks (internal & external) USB hard disks (internal & external) Hub Devices - USB devices may also be connected via a USB Hub, however for achieving the highest possible data transfer rate it is recommended that you connect them directly to your computer Supported controllers: PCI IDE controller Bus master IDE controller SATA controller with IDE interface SATA-II controller with AHCI interface USB UHCI & OHCI controller (USB 1.1) USB EHCI controller (USB 2.0) USB 3.0 x HCI (USB 3.0)6 www.apricorn.com Connecting Your Hard Drive Before starting the EZ Gig software, please ensure that your new hard drive is connected to your notebook’s USB port via one of Apricorn’s Upgrade products listed on the previous page. EZ Gig Start Up Options Depending on how you received EZ Gig, you have two options. 1. If you have EZ Gig on a CD, please choose the Start option (proceed to page 7 of this manual to continue). 2. If you downloaded EZ Gig from Apricorn’s website, you can either choose the Start option (go to page 7) or create a bootable EZ Gig CD to use in the future (go to page 8 for instructions).www.apricorn.com 7 Creating a Bootable EZ Gig CD If you downloaded EZ Gig from Apricorn’s website, you have the option of creating a bootable EZ Gig CD, floppy disk or thumb drive to use in the future. To create a bootable media disk follow the appropriate directions below: • If you want to create a bootable floppy disk, choose the desired drive at ‘Floppy drive’ and click “Create floppy”. • To create a bootable CD/DVD, choose the desired drive at ‘CD/ DVD writer’ and click “Create CD/DVD”. • To create a bootable USB key, choose the desired drive at ‘USB medium’ and click “Make bootable”. Follow the instructions and wait until the installation program reports successful creation of the bootable medium. Once you have created you bootable media device, click “Exit” and then choose “Start EZ Gig”.8 www.apricorn.com Cloning your hard drive with EZ Gig 1. Click the “Let’s Get Started” button to proceed. 2. EZ Gig will then scan for connected drives. This may take a few moments.www.apricorn.com 9 Selecting the Source Drive Once EZ Gig has scanned for connected drives, you will be asked to select your Source Drive. This is the drive you would like to copy from and in most cases is the internal drive in your notebook. NOTE: Your computer’s internal drive will usually be denoted by the prefix AHCI or IDE. Select the appropriate drive from the menu and click “Next” to continue. 10 www.apricorn.com Selecting the Destination Drive Once you have selected your Source Drive, EZ Gig will ask you to select your Destination Drive. This is the drive you would like to copy to and in most cases is the external drive connected to your notebook’s USB port. NOTE: Your external drive will be denoted by the prefix USB Select the appropriate drive from the menu and click “Next” to continue. Click the Speed Test icon on either the Source or Destination drive for an estimate of the drive’s read speed. From this estimate, a rough estimate of the clone time may be gauged Speed Testwww.apricorn.com 11 Drive Verification You are almost ready to start your clone, but before you do, EZ Gig asks that you verify that the choosen drives are correct. If they are you have one of two options. Either click “Next” to continue (go to page 21) or to deselect files from the cloning process, press the “Data Select” button (go to page 12). If you need to change your drive selection, click the “Back” button At this point you can also modify the default options for your clone using the “Advanced Options” button. Only select this option if you would like to change your options from the default (go to page 16 for more info on Advanced Options).12 www.apricorn.com Data Select EZ Gig’s Data Select feature provides a simple method to deselect data folders from the cloning process which is helpful when migrating from a large HDD to a smaller SSD and perfect for creating a Boot Disk. This gives you the option to run your OS and applications from a fast, smaller SSD boot drive, while keeping your documents and media files on your original hard drive. There are two ways to get to the Data Select feature: 1. If the Destination drive is smaller than the Source drive, EZ Gig will direct you to the below screen. To deselect files from the clone click the “Data Select” button, this will open the Data Select feature. 2. On the “You are almost ready to Clone” screen, you may press the “Data Select” button to open the Data Select feature.www.apricorn.com 13 Using the Data Select feature The Data Select feature shows the capacity of the: • Destination Drive • Source Drive • Available Capacity If the Source drive is smaller than the Destination drive, the available capacity will be highlighted in orange and shown as a negative value. EZ Gig will only proceed with a clone if the available capacity is positive (i.e. the Destination capacity is larger than the Source capacity.) In order to decrease the size of the clone (i.e. the Source image), EZ Gig enables you to deselect files from the cloning process to save space. The files you may deselect from the cloning process are from the folders: 1. Documents 2. My Videos 3. My Music 4. My Pictures14 www.apricorn.com Analyzing files To analyze the amount of space used by each of the folders, select the checkbox to the left, under the “Select Folders to Analyze” column. EZ Gig will then analyze the space used in the ajoining “Space Used” column. To analyze the amount of space used by each folder, select the appropriate checkbox. EZ Gig will then display the space used in the ajoining columnwww.apricorn.com 15 Selecting Folders to Omit To select folders to omit, select the checkboxes to the right, under the “Select Folders to Omit” column. Any selection from this column will automatically be reflected in an updated amount for the “Available Capacity” value. Once the “Available Capacity” value is positive, you will have the option to “Apply” the changes. Once you hit the “Apply” button, you will be directed to the “You are almost ready to Clone” screen. The Data Select button will have a check mark to the left, indicating that you have choosen to omit files from the clone. To continue with the clone, click the “Next” button (go to page 21).16 www.apricorn.com Advanced Options Compares the data of source and target after copying. If verify copy is chosen, the free areas between partitions will also be copied. This option has no influence on the copying performance itself, but offers the possibility to synchronize the data of the source and target after the copying process. However, the whole process of copying and verifying then normally takes approximately the double amount of time. Choose this option according to your needs of copying and your time available. Verify Copy SmartCopy enables you to clone your file systems in a fraction of time usually required - this option is chosen by default SmartCopy This option is off when doing a default clone, but when selected allows you to copy free space between partitions from your internal drive to your external drive. Copy Free Areas Used to deactivate MediaDirect software on the Destination drive. Check your Dell notebook specs to see if you have Media Direct on your system. Media Direct (Dell)www.apricorn.com 17 To access additional advanced options, click on the Apricorn logo in the bottom right corner of the “Advanced Options” window More Advanced Options FastCopy Special copy algorithm. Can increase the regular copy speed up to double. SafeRescue Special algorithm for data recovery. Tries to recover as large areas on the drive as possible. Can also stay turned on for normal copies. CachedMemory Use fast intermediate memory. SharedMemory Use fast data transfers. Animation Switch off copy animation, may lead to a slight speed increase.18 www.apricorn.com HotCopy / LiveImage Allows or denies EZ Gig access to the Windows shadow copy mechanism. If this option is deselected, EZ Gig is not able to create copies or file images of the system volume or of volumes, which are used by other programs at the same time. Avoid exclusive read access Usually, EZ Gig when running on Windows, at first tries to reserve the source drive for exclusive access. This is the most reliable way for creating an identical copy, but it may interfere with other programs running at the same time. If this option is selected, EZ Gig tries to create a HotCopy or a LiveImage at first.www.apricorn.com 19 Partitions When used in the Default mode, EZ Gig will automatically resize your partitions according to the new hard drive space. However, EZ Gig also gives the option of keeping your partition sizes the same or allows you to resize your partition sizes manually.20 www.apricorn.com Resizing your partitions manually To resize your partition manually: 1. Choose the “Manually” radio button on the “Advanced Options” window. 2. Once this radio button is selected, click the “Apply Changes” button. The “Adjust Partitions” window (shown left) will pop up. Positions and sizes of the partitions to be copied to the Destination drive are displayed graphically in a bar. The original size of the partition is displayed in dark green, while the additionally assigned space is displayed in light green. The size of partitions displayed in black cannot be altered. Free space not yet assigned to any partition is displayed in white. 3. To resize, click the desired partition’s extended space (light green portion) and drag with your mouse. You can also use the [+] and [-] cursor keys to the same effect. 4. Once you have resized the partitions to the desired size, choose “Apply Adjustment” which will then close the window. 5. Once the “Adjust Partition” window is closed, close the “Advanced Options” window by clicking the “Close Window” button.www.apricorn.com 21 Start Clone Now you’re ready! Press the “Start Clone” button to start the cloning process. EZ Gig will keep you up-to-date with the status of the clone throughout the entire process with a progress bar and percentage completed. Depending on your system size a clone can take anywhere from several minutes to a couple of hours.22 www.apricorn.com Aborting the Cloning Process Interupting the Verification process If you chose the “Verify Copy” option before starting the clone, EZ Gig will automatically compare the information on the “Source” and “Destination” drives once the clone is complete. If this process is interupted or stopped at anytime, the aborted verification run will have no influence on the copied data. The copy itself is already finished at that point of time. When the final report is read, EZ Gig will report that the clone is only partially verified. Interupting the Cloning Process If the cloning process aborted, a new clone must be commenced. The cloning process can be stopped at anytime using the “Stop” button. Continue cloning by clicking “Continue copying”. To stop the clone completely, select “Abort copying.”www.apricorn.com 23 Congratulations your Clone is Complete Once your clone is complete, EZ Gig will let you know with a pop up window. To get a report of the cloning process, click the “Details” button. The final report will outline the number of sector copied, read errors, write errors and if verified, will also report verification errors. Once you have finished your clone, click “Quit EZ Gig”. You will then be prompted to turn your computer off and disconnect the attached hard drive.24 www.apricorn.com FAQs Load errors During the start of the program, before EZ Gig is loaded itself, a message and a progress bar will appear on the boot screen. In case of an error, one of the following error codes will be indicated here. Error #5002 and ‘Disk error’ This error will be displayed if the boot medium is not readable when booting the program. The error is reported by the BIOS of the computer and points to a defective data carrier or a problem with the used boot drive. In many cases, in particular when booting from a floppy disk, an incompatibility between drive and data carrier is the cause. Principally this problem can be fixed. Please try the following steps, at best in the indicated order: • Try again to boot the program, perhaps with/without cold start. • Create once again a bootable disk (page 7). • Floppy disk: format the floppy disk (no quick format) before creating a new one. • Floppy disk: use another floppy disk. • Use (if possible) another boot drive. NOTE: If you didn’t receive EZ Gig as an installation package but on a bootable disk and if a disk shows this problems also after multiple trials on different devices, please contact Support. Keyboard and mouse EZ Gig supports keyboards and mice with PS/2 standard or USB connector. This also includes many wireless mice, given they are connected as a true USB device. Input devices connected with Bluetooth are currently not supported. In this case, please connect a separate USB device. If keyboard or mouse (or both) do not function with EZ Gig, this is usually due to a wrong legacy emulation setting in BIOS setup. On most computers, you can fix this problem by changing (activating or deactivating, depending on the current setting) the emulation for PS/2 devices in BIOS setup. Please consult your computer manual on how to change this setting since it may be named differently according to the respective BIOS. In most of the cases, you can find it under the name USB Legacy Support or USB Keyboard Support (often under Integrated Peripherals or Advanced Options).www.apricorn.com 25 NOTE: In some of the cases, problems with the PS/2 keyboard and/or mouse occurred with an activated emulation for PS/2 devices. If you do not use any USB input de-vices, please switch off the PS/2 emulation in the BIOS setup. General problems Slowed down system If you think the speed of the total system or the copying speed – also with IDE and SCSI devices – is too slow, a USB controller can be the cause, even if it is not used. Read, write and verification errors If EZ Gig reports errors, these are usually defective areas on the respective medium. However, general problems with the hardware can possibly also cause (putative) read and write errors. This is mostly noticeable by a very high number of displayed errors. First of all, try to fix the problem via the help instructions for the respective hardware types (IDE, SCSI, USB) because the causes are usually found there. If the problems cannot be fixed this way either, deactivate step by step the following options, at best in the indicated order: • CachedMemory • Read cache and write cache • FastCopy • DMA • SharedMemory If the problem does not occur any more after having deactivated a certain option, the previously deactivated options can be reactivated as a test. IDE/ATA/SATA Hard disk not recognized If EZ Gig does not recognize a hard disk, there can be several reasons. Perhaps the controller which the disk is connected to has not been found (See next section: IDE controller not found). A further possible reason can be a non-standardly connected hard disk. This is for example the case if a hard disk is configured as slave and if a CD/DVD drive or no drive at all is connected at the same IDE channel as master. Normally, EZ Gig can handle that, too.26 www.apricorn.com NOTE: If an SATA hard disk is not recognized, this can also be due to the used SATA controller. IDE controller not found There are the following three reasons why EZ Gig has not automatically recognized an IDE controller: • The IDE controller/channel is deactivated, e.g. on an onboard IDE controller. Activate the IDE controller/channel via the BIOS setup. • Standard IDE controllers (ISA) are not taken into account if PCI IDE controllers are available. Connect the respective hard disk to a PCI IDE controller in this case or deactivate the PCI IDE controller or controllers. • The used controller does not correspond to the PCI IDE standard. Although most controllers support this standardized programming interface, there are some controllers which have only a proprietary programming interface. Connect the corresponding drives to another controller (PCI IDE controller). Source & Destination Size Differences Equal Size If source and target are of the same size, EZ Gig creates an absolutely identical copy(clone). On this clone, all sectors on source and target, from the first to the last sector, are 100% identical, provided that the process was error-free. Small to large If the source is smaller than the target, EZ Gig copies only the data that is available on the source. This data is copied from the beginning of the source onto the beginning of the target medium. The area at the end of the target medium, which is larger than the source, remains unaffected. Apart from that the unaffected area remains possibly unused during a later usage, such a copy is usually comparable to a real clone as far as the capacity of use is concerned because the target contains entirely all data of the source Large to small If the source is bigger than the target, EZ Gig will direct you to the Data Select feature. EZ Gig’s Data Select provides a simple method to deselect data folders from the cloning process. EZ Gig will only allow to proceed with the clone, once the available capacity on the target drive is a positive value.www.apricorn.com 27 Automatic troubleshooting In case of occurring errors, EZ Gig tries to troubleshoot them the best possible. If this is not possible, the errors will be mentioned in a corresponding error statistic in the detailed report after the clone is complete. Intensive reading/writing In case of read or write errors, EZ Gig uses different strategies in order to still be able to read or write this data, if possible. The time used for defective areas depends to a large extent on the respective medium. According to the medium and its state, several seconds up to minutes can be needed for the recovery trials. Therefore, it is recommended to always activate the option SafeRescue because then handling defective sectors takes place after the copying of all intact areas has been finished. The process can then be aborted if it takes too long without losing the data of the intact areas. Read errors During the copying process, read errors can only occur on the source medium. EZ Gig then tries to read the defective areas immediately after the termination of the copying process (with the option SafeRescue) with the help of special data recovery strategies within a single troubleshooting run. During the troubleshooting run, the number of the indicated read errors can reduce according to the areas on the source medium, which could be recovered. NOTE: Read errors, that occur during the verification run, are not counted as read errors but as verification errors. Write errors Write errors can only occur during the copying process and only on the target medium. EZ Gig then tries to read the defective areas immediately after the termination of the copying process (with the option SafeRescue) with the help of special data recovery strategies within a proper troubleshooting run. During the troubleshooting run, the number of the indicated write errors can decrease according to the areas on the target medium, which could be recovered. Verification errors When the option Verifying is activated, EZ Gig executes a verification run after the copying process. A verification error is counted if the data of two sectors on source and target do not correspond. Furthermore, read errors, 28 www.apricorn.com which occur during the verification run in one or both of the areas to be compared, are also counted as verification errors. Therefore, the number of verification errors gives you absolute information on how exactly source and target correspond to each other after the copying process. In case of an error-free copying process, EZ Gig should not report any verification errors and signalize a 100% conformity of source and target.30 www.apricorn.com Warranty Conditions Warranty: Apricorn offers a 1 to 3 year warranty on its upgrade products against defects in materials and workmanship under normal use. The warranty period is effective from the date of purchase (validated by your original receipt) either directly from Apricorn or an authorized reseller. Disclaimer and terms of the warranties: The warranty becomes effective on the date of purchase and must be verified with your sales receipt or invoice displaying the date of product purchase. Apricorn will, at no additional charge, repair or replace defective parts with new parts or serviceable used parts that are equivalent to new in performance. All exchanged parts and products replaced under this warranty will become the property of Apricorn. This warranty does not extend to any product not purchased directly from Apricorn or an authorize reseller or to any product that has been damaged or rendered defective: 1. As a result of accident, misuse, Neglect, abuse or failure and/or inability to follow the written instructions provided in this instruction guide: 2. By the use of parts not manufactured or sold by Apricorn; 3. By modification of the product; or 4. As a result of service, alternation or repair by anyone other than Apricorn and shall be void. This warranty does not cover normal wear and tear. No other warranty, either express or implied, including any warranty or merchantability and fitness for a particular purpose, has been or will be made by or on behalf of Apricorn or by operation of law with respect to the product or its installation, use, operation, replacement or repair. Apricorn shall not be liable by virtue of this warranty, or otherwise, for any incidental, special or consequential damage including any loss of data resulting from the use or operation of the product, whether or not Apricorn was apprised of the possibility of such damages. Copyright © Apricorn, Inc. 2011. All rights reserved. Windows is a registered trademark of Microsoft Corporation. All other trademarks and copyrights referred to are the property of their respective owners. Distribution of substantively modified versions of this document is prohibited without the explicit permission of the copyright holder. Distribution of the work or derivative work in any standard (paper) book form for commercial purposes is prohibited unless prior permission is obtained from the copyright holder. DOCUMENTATION IS PROVIDED AS IS AND ALL EXPRESS OR IMPLIED CONDITIONS, REPRESENTATIONS AND WARRANTIES, INCLUDING ANY IMPLIED WARRANTY OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE OR NON-INFRINGEMENT, ARE DISCLAIMED, EXCEPT TO THE EXTENT THAT SUCH DISCLAIMERS ARE HELD TO BE LEGALLY INVALID.12191 Kirkham Road Poway, CA, U.S.A. 92064 1-858-513-2000 Hold nothing back. Designed for extreme enthusiasts, demanding gamers, and overclockers who want to squeeze every ounce of performance out of their systems, Crucial Ballistix Elite modules are designed to dominate. Built for unmatched gaming performance, Elite modules include thermal sensors that work in tandem with our Ballistix M.O.D. utility to provide real-time temperature monitoring when overclocking. Elite modules also employ a finned heat spreader for improved heat dissipation, an XMP profile for easy configuration, and an extruded metal design. With some of the fastest speeds and timings available, it’s tough to lose when you’re equipped with Ballistix Elite memory. Unleash your memory. Control the temperature. Ballistix Elite modules utilize integrated heat spreaders to showcase one of the best DRAM features available – the Ballistix M.O.D. utility for real time temperature monitoring. Designed exclusively to support Ballistix high-end modules, the Ballistix M.O.D. utility (Memory Overview Display), allows you to load up your system while also keeping internal temperatures in check. With our real-time temperature monitoring technology, keep tabs on your Elite modules and push your system to the top of its game. Outlast the competition. To ensure reliability, we test every single Elite memory module in our Systems Compatibility Group to make certain that it meets our exacting specifications. If it doesn’t meet or exceed the advanced performance levels that we advertise, then it doesn’t leave our doors. That’s reliability. Elite performance memory is backed by a limited lifetime warranty and manufactured from premium-quality DRAM. Available in DDR3 modules for the latest cutting-edge platforms. Crucial – quality you can depend on. Crucial is a trusted name when it comes to DRAM, and that’s no coincidence. As a brand of Micron, one of the largest manufacturers of DRAM in the world, we work with our engineers to design, refine, test, manufacture, and support our extensive line of memory modules. For more than fifteen years we’ve kept gamers, PC enthusiasts, and overclockers happy with premium-quality memory and outstanding customer service. Don’t settle for anything less. Crucial® Ballistix® Elite Series Memory revision: 10/22/12 1 Performance DRAM PRODUCT HIGHLIGHTS: • Performance memory for extreme enthusiasts, demanding gamers, and overclockers • Thermal sensors and custom M.O.D. utility monitor temperatures in real time for easier overclocking • Finned extruded metal heat spreader delivers superior heat dissipation • XMP profiles for advanced speeds and timings • Premium-quality DRAM • Limited lifetime warrantyCrucial Ballistix Elite Part Number Density Speed Latency Voltage Bandwidth UPC BLE2G3D1608DE1TX0 2GB DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755575 BLE2G3D1869DE1TX0 2GB DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528755681 BLE2G3D1608CE1TX0 2GB DDR3-1600 CL8 (8-8-8-24) 1.65V PC3-12800 (12.8 GB/s) 649528754790 BLE2G3D1869CE1TX0 2GB DDR3-1866 CL9 (9-9-9-24) 1.65V PC3-14900 (14.9 GB/s) 649528755322 BLE2G3D2139CE1TX0 2GB DDR3-2133 CL9 (9-10-9-24) 1.65V PC3-17000 (17.0 GB/s) 649528754936 BLE4G3D1608DE1TX0 4GB DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755636 BLE4G3D1869DE1TX0 4GB DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528755537 BLE8G3D1869DE1TX0 8GB DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528757821 Crucial Ballistix Elite Dual Channel Kits Part Number Density Speed Latency Voltage Bandwidth UPC BLE2KIT2G3D1608DE1TX0 4GB Kit (2x2GB) DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755582 BLE2KIT2G3D1869DE1TX0 4GB Kit (2x2GB) DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528755698 BLE2KIT4G3D1608DE1TX0 8GB Kit (2x4GB) DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755643 BLE2KIT4G3D1869DE1TX0 8GB Kit (2x4GB) DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528755544 BLE2KIT8G3D1869DE1TX0 16GB Kit (2x8GB) DDR3-1866 CL9 (9-9-9-27) 1.5V PC3-14900 (14.9 GB/s) 649528757838 Crucial Ballistix Elite Three Channel Kits Part Number Density Speed Latency Voltage Bandwidth UPC BLE3KIT2G3D1608DE1TX0 6GB Kit (3x2GB) DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755599 BLE3KIT4G3D1608DE1TX0 12GB Kit (3x4GB) DDR3-1600 CL8 (8-8-8-24) 1.5V PC3-12800 (12.8 GB/s) 649528755650 revision: 10/22/12 2 ©2012 Micron Technology, Inc. All rights reserved. Information is subject to change without notice. All trademarks and service marks are property of their respective owners. Performance DRAM Guide!pratique!de!mise!à!jour!du!firmware!d'un!SSD Guide!de!mise!à!jour!du!firmware!du!SSD!Crucial®!m4!2,5"!vers!la!version!070H!@ à!partir!d'un!CD/d'une!clé!USB (mise à!jour!depuis!les!versions!0001,!0002,!0009,!0309,!000F,!010G,!040H!vers!la!version!070H) Introduction Ce! document! détaille! la! procédure! de! mise! à! jour! du! firmware du! SSD! Crucial! m4! via! une! clé! USB! ou! un! CD! et! une! image! ISO! de! démarrage.! L'image! ISO! contient! la! mise! à! jour! 070H! du! firmware! et! un! code! de! démarrage!DOS. Cette! procédure! est! destinée! à! la! mise! à! jour! du! firmware! depuis! les! versions!0001,!0002,!0009,!0309,!000F,!010G!et!040H!vers!la!version!070H. REMARQUE : Cette!mise!à!jour!du! firmware!ne!s'applique!pas à! tous!les! SSD!Micron!acquis!seuls!ou!en!tant!que!matériel!de!première!monte!d'un! ordinateur.! Les!mises!à!jour! de! firmware! de! ces! disques@là! seront,!le! cas! échéant,!fournies!par!le!fabricant!de!l'ordinateur!ou!seront!disponibles!sur! www.micron.com.! Cette! mise! à! jour! du! firmware! ne! concerne! pas! n'importe! quel! disque!Micron! RealSSD! C300.! De! même,! elle! ne! doit! pas! être! utilisée! pour! un! SED! (Self! Encrypting! Drive) Micron! RealSSD! C400.! Cette!mise!à!jour! s'applique! uniquement!aux! disques!m4! 2,5"!et! ne! doit! pas!être!utilisée!pour!mettre!à!jour!des!disques!m4 mSATA. AVERTISSEMENT : Comme! pour! toutes! mises! à! jour,! il! est! fortement! recommandé! de! sauvegarder! ou! de! copier! tous! vos! fichiers! importants! auparavant.! Cette! procédure! de!mise! à! jour! du! firmware! s'effectue! sous! votre! seule! responsabilité.! Si! elle! est! exécutée! correctement,! il! n'y! aura! aucune!perte!de!données! système!ou!utilisateur!présentes! sur!le!disque.! Toutefois,! une! interruption! de! la! mise! à! jour,! quelle! qu'en! soit! l'origine,! peut!entraîner!le!dysfonctionnement!de!votre!SSD.!Si!cette!mise!à!jour!est! appliquée!sur!un!ordinateur!portable,!il!est!fortement!recommandé!de!le! brancher!en!secteur!pendant!la!procédure. Instructions!générales Procédez!aux!opérations!suivantes!avant!de!démarrer!la!procédure!de! mise!à!jour!du!firmware : 1.!Sauvegarde!du!contenu!du!SSD Il!est! fortement!recommandé!de!procéder!à!une!sauvegarde!complète! du! système! avant! de! démarrer! cette! mise! à! jour! du! firmware.! Si! la! procédure! de!mise!à!jour!est!interrompue! (coupure! d'alimentation!ou! défaillance! matérielle! de! toute! nature),! il! est! possible que! le! SSD! ne! fonctionne!pas!correctement. 2.!Utiliser!une!alimentation!CA Veillez!à!ce!que!votre!ordinateur!portable!ou!de!bureau!soit!relié!à!une! alimentation! CA! pendant! la!mise!à!jour.!Il!est! déconseillé! de! n'utiliser! que! la! batterie! pendant! la! procédure.! Ne! débranchez! l'alimentation! à! aucun! moment! de! la! procédure! de! mise! à! jour! du! firmware! car! cela! pourrait!aboutir!à!un!déroulement!incomplet!de!celle@ci!et!donc,!rendre! le!SSD!inutilisable. 3.!Éditer!les!paramètres!du!BIOS Pour! exécuter! les! opérations! suivantes,! vous! devrez! peut@être! éditer! les! paramètres! de! BIOS! de! votre! ordinateur.! Veuillez! consulter! le! manuel! utilisateur! de! votre! ordinateur! pour! savoir! comment!procéder. a)!Désactivez/supprimez!les!mots!de!passe!associés!au!disque Entrez! dans! le! BIOS! (généralement! en! appuyant! sur! les! touches! « Suppr »,! « F2 »! ou! « F12 »! au! démarrage! de! l'ordinateur)! et! désactivez!tous!les!mots!de!passe!éventuellement!associés!au!SSD.! Une!protection!par!mots!de!passe!peut!bloquer!les!mises!à!jour!du! firmware. b)!Vérifiez!l'ordre!de!démarrage Si!votre!système!ne!démarre!pas!à!partir!du!CD!ou!de!la!clé!USB,! vous!devrez!accéder!aux!paramètres!de!votre!BIOS.!Dans!l'éditeur! du!BIOS,!vérifiez!l'ordre!de!démarrage.!Par!défaut,!la!plupart!des! systèmes!démarre!à!partir!du!lecteur!de!CD@ROM!avant!le!lecteur! système.! D'un! fabricant! de! BIOS! à! l'autre,! vous! trouverez! une! option! dénommée! « Priorités! de! démarrage! des! périphériques »! (Boot$Device$ Priority),! « Priorités! de! chargement! au! démarrage »! (Boot$ Load$ Order)! ou! « Caractéristiques! avancées! du! BIOS »! (Advanced$BIOS$Features).!Veillez!à!ce!que!le!système!démarre!sur! le!CD!ou!la!clé!USB!de!démarrage!avant!le!disque!contenant!le!SE. Téléchargez!la!mise!à!jour!du!firmware 1. Avant! de! commencer! le! téléchargement! du! firmware,! fermez! tous!les!autres!programmes,!sauf!votre!navigateur!internet. 2. Recherchez! l'utilitaire! Windows! de! mise! à! jour! vers! le! firmware 070H! associé! à! votre! SSD! Crucial! à! l'adresse : http://www.crucial.com/support/firmware.aspx 3. Cliquez! sur! le! lien! correspondant! et! vous! serez! invité! à! Ouvrir,! Enregistrer! ou!Annuler.!Cliquez! sur!Enregistrer! pour! télécharger! l'image!ISO!et!la!sauvegarder!dans!votre!système.! 4. Copiez! ce! fichier! sur! le! bureau! ou! dans! un! autre! dossier! facilement! accessible! ultérieurement! et! fermez! le! fenêtre! de! téléchargement!à!la!fin!de!celui@ci. Créer!un!support!de!démarrage!avec!fichier!ISO Option!1 :!Graver!un!CD!de!démarrage Remarque : Windows 7!dispose!d'un!logiciel!de!gravure!optique!de! disques. 1. Utilisez! le! logiciel! de! gravure! de! votre! choix! pour! graver! l'image!ISO!du!firmware!sur!un!CD.Option!2 :!Créer!une!clé!USB!de!démarrage Remarque : pour!utiliser!cette!option,!votre!système!doit!prendre! en!charge!le!démarrage!à!partir!d'une!clé!USB. 1. Munissez@vous! d'une! clé! USB! préalablement! formatée! (256 Mo,! ou!plus). 2.!!Ouvrez!un!installeur!USB.!Si!vous!n'en!disposez!pas,!vous!pouvez,! par!exemple,! télécharger!gratuitement!l'installeur!USB!universel! (disponible! sur! www.pendrivelinux.com/universal@usb@installer@ easy@as@1@2@3/). 3. Une! fenêtre! de! sécurité!et/ou!le! contrat! de!licence!apparaîtront! peut@être. 4.!!Si!vous!utilisez!l'installeur!USB!universel : • À!l'étape 1,!atteignez!le!bas!de!la!liste!déroulante!et!sélectionnez! la!dernière!option :!Try$Unlisted$Linux$ISO. • Passez! à! l'étape 2! et! recherchez! l'ISO! du! firmware! téléchargée! précédemment. • À! l'étape! 3,! sélectionnez! la! clé! USB! sur! laquelle! vous! souhaitez! installer!l'ISO.! • Cliquez! sur! le! bouton! Create (Créer)! et! sur! Format$ E:\Drive (Formater,! efface! le! contenu).! Répondez! Yes (Oui)! à! l'avertissement!indiquant!la!réécriture!de!votre!clé!USB.! • Après! l'apparition/la! disparition! d'une! série! d'écrans,! la! clé!USB! est!chargée. Lancez!la!mise!à!jour!du!firmware! 1. Insérez!le!CD!ou!la!clé!USB!de!démarrage!contenant!l'image!ISO! dans!votre!ordinateur. 2. Démarrez! l'ordinateur! à! partir! du! support! de! démarrage.! Cela! lance!automatiquement!la!mise!à!jour!du!firmware.! 3. Après! le! chargement! complet! de! l'utilitaire! de! mise! à! jour,! ces! éléments!apparaîtront!à!l'écran : La! mise! à! jour! étant! possible! depuis! n'importe! quelle! version! précédente,! 0001,! 0002,! 0009,! 0309,! 000F,! 010G!ou! 040H,!l'une!ou! l'autre!de!ces!révisions!peut!donc!apparaître!sur!l'écran!ci@dessus.!Si! votre!disque!m4!est!absent!de!la!liste!affichée!sur!l'écran!ci@dessus,! veuillez!vous!reporter!au!paragraphe!« Astuces!de!dépannage »!à!la! page!suivante. 4. Avant!la!demande!de!mise!à!jour!du! firmware,!il!se!peut!que!la! mention! Waiting! for! DRQ! s'affiche.! Ce! type! de! message! est! normal.!Tapez!yes!(oui)!en!minuscules!lorsqu'il!vous!est!demandé! si! vous! souhaitez! mettre! à! jour! le! firmware.! L'écran! suivant! apparaîtra : 5. Sur!la!plupart!des!systèmes,!cette!procédure!durera!entre!30!et! 60!secondes.!Dans!certains!cas,!cela!peut!être!plus!long. 6. À!la!fin!de!la!procédure,!le!message!suivant!apparaîtra : 7. IMPORTANT !! Le! numéro! de! version! sera! indiqué.! Si! la! version! s'affichant! n'est! PAS! la! 070H,! recommencez! la! procédure! à! l'étape 1! du! paragraphe! précédent! « Lancez! la! mise! à! jour! du! firmware ».! Vous! pouvez! reprendre! la! procédure! en! tapant! « AUTOEXEC.BAT »!à!l'invite!de!commande!A:\>. 8. Si! vous! doutez! de! la! version! de! votre! firmware! ou! si! vous! souhaitez!en!avoir!la!confirmation,!vous!pouvez!taper : dosmcli!``verbose!`d! à!l'invite!de!commande!A:\>.!La!version!du!firmware!est!indiquée! sur! la! dernière! ligne.! Si la! version! s'affichant! n'est! PAS! la!070H,! recommencez!la!procédure!à!l'étape 1!du!paragraphe!précédent! « Lancez! la! mise! à! jour! du! firmware ».! REMARQUE :! Cette! commande!fera!apparaître!sous!forme!de!liste,!non!seulement!le! SSD!Crucial,!mais!plus!généralement,!tous!les!disques!ATA. 9. Retirez! le! support! de! démarrage!et! arrêtez! votre! ordinateur!en! appuyant!longuement!sur!le!bouton!Power.! 10. Rallumez!l'ordinateur.!Au!redémarrage,!vous!pouvez!rétablir!les! réglages! d'origine! de! tout! paramètre! du! BIOS! éventuellement! modifié. 11. La!procédure!est!terminée. Astuces!de!dépannage • Bien! que! tout!ait!été!mis!en!œuvre! pour! tester!la!compatibilité! de! ce!logiciel!avec! différentes! configurations! de! systèmes!et! de! jeux! de! composants,! il! est! impossible! de! procéder! à! des! essais! sur! tous! les! systèmes! existants.! Par! conséquent,! certains! systèmes! (anciens! par! exemple)! peuvent! se! heurter! des! problèmes!de!compatibilité. • Si! votre! disque! m4! n'est! pas! reconnu! lors! de! l'étape! 3! du! paragraphe!« Lancez!la!mise!à!jour!du!firmware », il!peut!s'avérer! nécessaire!d'exécuter!cette!mise!à!jour!en!mode!IDE!et!non!AHCI,! sur!certains!systèmes!anciens.!Pour!cela,!procédez!ainsi : • Sur!un! ordinateur! de! bureau,! assurez@vous! que! votre! disque! connecté! à! l'un! des! 4! ports! présents! sur! le! bus! SATA! et! habituellement! numérotés! de! 0! à! 3.! Certaines! cartes! mères! ne! prenant! pas! en! charge! la! connexion! à! chaud! de! périphériques!SATA,!il!est! recommandé! d'arrêter l'ordinateur! avant!de!changer!les!branchements!aux!ports. • Dans!le!BIOS,!passez!du!mode!SATA!au!mode!IDE,!hérité!(Legacy)! ou!compatibilité!(compatibility).!Recherchez!le!paramètre!« SATA! Configuration »! (configuration$ SATA)! ou! « Integrated! Peripherals »!(Périphériques$intégrés). • Sauvegardez!vos!réglages!et!sortez!du!BIOS. • Exécutez! les! instructions à! partir! de! l'étape 1! du! paragraphe! précédent!« Lancez!la!mise!à!jour!du!firmware ».• La!plupart!des!systèmes!empêchent!les!mises!à!jour!de!firmware! en!mode!RAID.!Dans!ce!cas,!le!basculement!en!mode!AHCI!ou!IDE! peut! aider! à! terminer! la! mise! à! jour.! Toutes! les! configurations! RAID! devraient!être! conservées! après! la!mise! à! jour,! lorsque! le! système! rebascule! en! mode! RAID! mais! vérifiez! ceci! dans! le! manuel! utilisateur! de! votre! système! avant! de! démarrer! la! procédure. • Les! cartes! RAID! périphériques! ne! transmettront! pas! les! commandes!nécessaires!aux!mises!à!jour!du!firmware. Il!se!peut! que! vous! deviez! déplacer! le! disque! cible! sur! un! adaptateur! de! bus! hôte! SATA! ou! un! connecteur! SATA! de! la! carte! mère! qui! facilite!ces!commandes. • Cet!utilitaire!de!mise!à!jour!du!firmware!peut!ne!pas!fonctionner! sur! des! ordinateurs! fixes,! portables! ou! des! tablettes! disposant! d'une! interface! UEFI.! Nous! mettrons! à! disposition! un! outil! de! mise! à! jour! séparé! qui! prendra! en! charge! les! mises! à! jour! du! firmware!sous!UEFI!(Unified$Extensible$Firmware$Interface). Notes!de!version!du!firmware Le!firmware!du!SSD!m4!a!été!mis!à!jour!de!la!version!040H!à!070H. Le! firmware 070H!est! recommandé!pour! tous!les!disques!disposant! de!la!version! 040H,! ou! précédentes. Il! comporte! des!améliorations! et! corrections! cumulatives! par! rapport! à! ces! versions,! susceptibles! d'améliorer!l'expérience!utilisateur!globale. À!l'instar!des!récentes!versions!du!firmware,!la!version!070H!contient! des!améliorations!par!rapport!à!la!version!000F,!notamment!pour!les! systèmes! sous!Windows 8! et! les! nouveaux!UltraBook,!même! si! des! améliorations! peuvent! également! être! constatées! sur! les! systèmes! sous!Windows 7!et!autres!systèmes!d'exploitation. Toute!version!du! firmware!du!m4!fonctionnera!normalement!sous!Windows 8,!même! sans!ces!améliorations!de!fonctionnement. Voici!un!résumé!des!différences!entre!la!version!040H!et!070H,! quel!que!soit!le!système!d'exploitation : • Résolution! d'un! problème! de! synchronisation! à! la! mise! sous! tension,!susceptible!d'entraîner!un!blocage!du!disque!et!de!ce!fait,! une! impossibilité! de! communiquer! avec! l'ordinateur! hôte. En! général,! le! blocage! se! produit! à! la!mise! sous! tension! ou bien! au! retour!du!mode!Veille!ou!Veille!prolongée. La!plupart!du! temps,! un! redémarrage! élimine! le! blocage! et! le! fonctionnement! normal! peut! reprendre.! Cette! défaillance! n'a!été! observée! que! lors! d'un! essai!en!usine!et!nous!pensons!que!ce!processus!de!défaillance!ne! s'est!pas!déroulé!en!dehors!de!l'usine.!! Par!mesure!de!précaution,! cette! correction! est! désormais! intégrée! à! toutes! les! nouvelles! versions,!quel!que!soit!le!format. Les!utilisateurs!qui!le!souhaitent! peuvent! appliquer! la! correction! pour! éviter que! cet! échec! se! produise! à! la!mise! sous! tension. À! ce! jour,! ce! problème! n'a! pas! été!identifié!comme!étant!à!l'origine!de!retours!de!produits. Une! réinitialisation! du! système! devrait! normalement! résoudre! une! défaillance!de!cette!nature. Versions!précédentes Rév.!A…………………….....................……………………………………!2!avril!2013 •!Version!initiale ©2013!Micron!Technology,!Inc.!Tous!droits!réservés.!Ces!informations!peuvent!être!modifiées!sans!avis!préalable.!Crucial!et!le!logo!Crucial!sont!des marques!commerciales!et!marques!de!service!de!Micron! Technology,!Inc.!Toutes!les!autres!marques!commerciales!et!marques!de!service sont!la!propriété!de!leurs!détenteurs!respectifs.!Révision!02/04/13!070H Crucial® DDR4 Memory Technology 2002 2004 2007 2014 20% DECREASE from DDR3 300% INCREASE from DDR3 100% INCREASE from DDR3 16.6% DECREASE from DDR2 300% INCREASE from DDR2 166.5% INCREASE from DDR2 28% DECREASE from DDR 100% INCREASE from DDR 50.3% INCREASE from DDR Technological advancements by the numbers, starting with DDR Next-gen memory. Next-gen performance. MORE DENSITY 2x Density ©2013 Micron Technology, Inc. All rights reserved. Information is subject to change without notice. Crucial and the Crucial logo are trademarks of Micron Technology, Inc. All other trademarks and service marks are property of their respective owners. NOTE: This infographic contains forward-looking statements regarding the production of DDR4. Actual events or results may dier materially from those contained in the forward-looking statements. Please refer to the documents Micron files on a consolidated basis from time to time with the Securities and Exchange Commission, specifically Micron's most recent Form 10-K and Form 10-Q. These documents contain and identify important factors that could cause the actual results for Micron on a consolidated basis to dier materially from those contained in our forward-looking statements (see Certain Factors). Although we believe that the expectations reflected in the forward-looking statements are reasonable, we cannot guarantee future results, levels of activity, performance or achievements. MORE SPEED 2x Faster Why Speed Matters Faster application load times. Increased responsiveness. Increased ability to handle the data-intensive programs of tomorrow. Speeds to power the systems of tomorrow. MORE EFFICIENT Up to 20% less power Energy Ecient Reduced System Temps Less heat generated per module makes it easy to keep your system cool. DDR3 (1.5V) DDR4 (1.2V) Lower Energy Costs Less voltage means big savings for data centers and large-scale applications. $$$ Longer Battery Life Less voltage allows for longer battery life. Smaller dies allow more gigabits per component. Gigabit Why Density Matters DDR4 allows you to get more out of a single memory module. More capacity per component allows for higher density modules. 8Gb DDR4 Component 4Gb DDR3 Component Higher density modules allow for greater RAM capacity, which will pave the way for next-gen performance. Up to 16GB DDR4 UDIMMs 2.5 VOLTS SPEED 266 MT/s DENSITY 128Mb 1.8 VOLTS SPEED 400 MT/s DENSITY 256Mb 1.5 VOLTS SPEED 1066 MT/s DENSITY 1Gb 1.2 VOLTS SPEED 2133 MT/s DENSITY 4Gb 2133+ MT/s DDR4 DDR3 1066 MT/s DDR2 400 MT/s DDR 266 MT/s DDR4 2133 MT/s Technologie de mémoire DDR4 Crucial® 2002 2004 2007 2014 20% DE BAISSE par rapport à DDR3 300% D’AUGMENTATION par rapport à DDR3 100% D’AUGMENTATION par rapport à DDR3 16.6% DE BAISSE par rapport à DDR2 300% D’AUGMENTATION par rapport à DDR2 166.5% D’AUGMENTATION par rapport à DDR2 28% DE BAISSE par rapport à DDR 100% D’AUGMENTATION par rapport à DDR 50.3% D’AUGMENTATION par rapport à DDR Avancées technologiques en fonction des chires, en commençant par DDR Mémoire nouvelle génération. Performance nouvelle génération. DENSITÉ SUPÉRIEURE 2x plus dense ©2013 Micron Technology, Inc. Tous droits réservés. Informations pouvant être modifiées sans préavis. Crucial et le logo Crucial sont des marques de commerce de Micron Technology, Inc. Toutes les autres marques de commerce et de service sont la propriété de leurs propriétaires respectifs. NOTA : cet infographique contient des déclarations prospectives concernant la production du DDR4. Les événements ou résultats réels peuvent être substantiellement diérents de ceux qui sont contenus dans les déclarations prospectives. Veuillez vous référer aux fichiers de documents de Micron déposés sur une base consolidée à intervalles réguliers auprès de la Securities and Exchange Commission, plus précisément le Formulaire 10-K et le Formulaire 10-Q les plus récents de Micron. Ces documents contiennent et identifient les facteurs importants qui pourraient causer des diérences substantielles entre les résultats réels de Micron sur une base consolidée et ceux qui sont indiqués dans nos déclarations prospectives (voir Certains facteurs). Bien que nous pensions que les attentes reflétées dans les déclarations prospectives soient raisonnables, nous ne pouvons pas garantir des résultats, des niveaux d’activité, des performances ou des accomplissements futurs. PLUS RAPIDE 2x plus rapide Pourquoi la vitesse compte Chargement plus rapide des applications. Réactivité améliorée. Capacité accrue de traiter les programmes à grand volume de données de l’aveznir. Des vitesses capables d'alimenter les systèmes du futur. PLUS EFFICACE Jusqu’à 20 % en moins en consommation Haut rendement énergétique Moins de surchaue Moins de chaleur par module = votre système a moins tendance à surchauer. DDR3 (1,5 V) DDR4 (1,2 V) Coût énergétique inférieur Moins de consommation = économies importantes pour les centres de données et les applications de grande envergure. $$$ Durée de vie de la batterie plus longue Moins de consommation pour une durée de vie de la batterie plus accrue. La taille inférieure des puces permet plus de gigabits par composant. Gigabit Pourquoi la densité compte La DDR4 vous permet de bénéficier de bien plus qu'un simple module de mémoire. La capacité supérieure par composant permet des modules de densité plus élevée. Composant DDR4 de 8 Gbit Composant DDR3 de 4 Gbit Les modules de densité plus élevée permettent une capacité de RAM supérieure, ce qui ouvrira la voie pour une performance nouvelle génération. Des DDR4 UDIMM de jusqu’à 16 Go 2,5 VOLTS VITESSE 266 MT/s 1,2 VOLTS VITESSE 2133 MT/s DENSITÉ 4 Gbit DENSITÉ 1 Gbit DENSITÉ 128 Mbit 1,8 VOLTS VITESSE 400 MT/s DENSITÉ 256 Mbit 1,5 VOLTS VITESSE 1066 MT/s 2133+ MT/s DDR4 DDR3 1066 MT/s DDR2 400 MT/s DDR 266 MT/s DDR4 2133 MT/s Ti400, Ti300 and Ti200 Thermal Imagers with LaserSharp® Auto Focus Get accurate readings and consistently in-focus images Fluke Thermal Imagers Experience. Performance. Confidence. Quickly capture an in-focus image with the pull of a trigger and wirelessly share measurements with your team anytime, anywhere with the Fluke ConnectTM ShareLiveTM video call. • Quickly get accurate readings and in-focus images with LaserSharp® Auto Focus • Save Reporting Time. Make better decisions faster than before. Organize your measurements by asset in one location with EquipmentLogTM history. • Brilliantly detailed quality images. Pixel for pixel the best spatial resolution available. • Precisely blended visual and infrared images with crucial details to assist in identifying potential problems—IR-Fusion® technology with AutoBlendTM mode • Standard and radiometric video recording and video streaming* • Text and voice recording/annotation allows you to save additional details to image files • Extensive memory options—Removable micro SD memory card, on-board flash memory, save-to-USB capability, direct download via USB-to-PC connection * Firmware updates for these features are not available yet in all countries. Users notified via SmartView Technical Data Three-phase Full Visible Three-phase Full Infrared Three-phase AutoBlend Mode Superior Image Quality Spatial Resolution Ti400 1.31 mRad Ti300 1.75 mRad Ti200 2.09 mRad Resolution Ti400 320x240 (76,800 pixels) Ti300 240X180 (43,200 pixels) Ti200 200X150 (30,000 pixels) Field of View Ti400, Ti300, Ti200 24 °H x 17 °V Built with Now compatible with Fluke Connect™ Mobile App IR-Fusion® Technology with AutoBlendTM Mode Precisely blended visual and infrared images with crucial details to assist in identifying potential problems.2 Fluke Corporation Ti400, Ti300 and Ti200 Thermal Imagers with LaserSharp® Auto Focus Detailed specifications Ti400 Ti300 Ti200 Key features IFOV with standard lens (spatial resolution) 1.31 mRad 1.75 mRad 2.09 mRad Resolution 320x240 (76,800 pixels) 240X180 (43,200 pixels) 200X150 (30,000 pixels) Field of view 24 °H x 17 °V Minimum focus distance 15 cm (approx. 6 in) IFOV with optional telephoto lens 0.65 mRad 0.87 mRad 1.05 mRad Field of view 12 °H x 9 °V Minimum focus distance 45 cm (approx. 18 in) IFOV with optional wide-angle lens 2.62 mRad 3.49 mRad 4.19 mRad Field of view 46 °H x 34 °V Minimum focus distance 15 cm (approx. 6 in) LaserSharp® Auto Focus Yes, for consistently in-focus images. Every. Single. Time. Advanced manual focus Yes Wireless connectivity Yes, to PC, iPhone® and iPad® (iOS 4s and later), Android™ 4.3 and up, and WiFi to LAN* Fluke ConnectTM App compatible* Yes* (where available) CNXTM Wireless System* Yes* (where available) IR-Fusion® technology Yes AutoBlendTM mode Yes Picture-In-Picture (PIP) Yes Ruggedized touchscreen display (Capacitive) 8.9 cm (3.5 in) diagonal landscape color VGA (640 x 480) LCD with backlight Rugged, ergonomic design for one-handed use Yes Thermal sensitivity (NETD) ≤ 0.05 °C at 30 °C target temp (50 mK) ≤ 0.075 °C at 30 °C target temp (75 mK) Temperature measurement range (not calibrated below -10 °C) -20 °C to +1200 °C (-4 °F to +2192 °F) -20 °C to +650 °C (-4 °F to +1202 °F) Level and span Smooth auto and manual scaling Fast auto toggle between manual and auto modes Yes Fast auto-rescale in manual mode Yes Minimum span (in manual mode) 2.0 °C (3.6 °F) Minimum span (in auto mode) 3.0 °C (5.4 °F) Built-in digital camera (visible light) 5 megapixel industrial performance Frame rate 9 Hz Laser pointer Yes Torch Yes Data storage and image capture Extensive memory options Removable micro SD memory card, on-board flash memory, save-to-USB capability, direct download via USB-to-PC connection Image capture, review, save mechanism One-handed image capture, review, and save capability File formats Non-radiometric (.bmp) or (.jpeg) or fully-radiometric (.is2); No analysis software required for non-radiometric (.bmp, .jpg and .avi*) files Memory review Thumbnail view navigation and review selection Software SmartView® software, Fluke ConnectTM, and SmartView® Mobile App—full analysis and reporting software Export file formats with SmartView® software BMP, DIB, GIF, JPE, JFIF, JPEG, JPG, PNG, TIF, and TIFF Voice annotation 60 seconds maximum recording time per image; reviewable playback on camera IR-PhotoNotesTM Yes Text annotation* Yes Video recording* Standard and Radiometric Streaming video Via USB to PC and HDMI to HDMI compatible screen File formats video* Non-radiometric (MPEG - encoded .AVI) and fully-radiometric (.IS3)* Auto capture (temperature and interval)* Yes*3 Fluke Corporation Ti400, Ti300 and Ti200 Thermal Imagers with LaserSharp® Auto Focus Detailed specifications Remote control and operation (for special and advanced applications) Yes — Ti400 Ti300 Ti200 Battery Batteries (field-replaceable, rechargeable) Two lithium ion smart battery packs with five-segment LED display to show charge level Battery life Four+ hours continuous use per battery pack (assumes 50 % brightness of LCD and average usage) Battery charge time 2.5 hours to full charge AC battery charging system Two-bay AC battery charger (110 V AC to 220 V AC, 50/60 Hz) (included), or in-imager charging. AC mains adapters included in 9 Hz versions. Optional 12 V automotive charging adapter. AC operation AC operation with included power supply (110 V AC to 220 V AC, 50/60 Hz). AC mains adapters included. Power saving User selectable sleep and power off modes Temperature measurement Accuracy ± 2 °C or 2 % (at 25 °C nominal, whichever is greater) On-screen emissivity correction Yes (both number and table) On-screen reflected background temperature compensation Yes On-screen transmission correction Yes Color Palettes Standard Palettes 8: Ironbow, Blue-Red, High Contrast, Amber, Amber Inverted, Hot Metal, Grayscale, Grayscale Inverted Ultra ContrastTM Palettes 8: Ironbow Ultra, Blue-Red Ultra, High Contrast Ultra, Amber Ultra, Amber Inverted Ultra, Hot Metal Ultra, Grayscale Ultra, Grayscale Inverted Ultra General specifications Color alarms (temperature alarms) High-temperature , low-temperature, and isotherm Infrared spectral band 7.5 μm to 14 μm (long wave) Operating temperature -10 °C to +50 °C (14 °F to 122 °F) Storage temperature -20 °C to +50 °C (-4 °F to 122 °F) without batteries Relative humidity 10 % to 95 % non-condensing Center-point temperature measurement Yes Spot markers User selectable hot spot and cold spot markers, 3 user definable spot markers on camera and in Smartview® Center box (MIN-MAX-AVG) Expandable-contractable measurement box with MIN-MAX-AVG temp Safety standards UL 61010-1:2012 CAN/CSA-C22.2 No.61010-1-12 IEC 61010-1 3rd Edition (2010) Electromagnetic compatibility EN 61326-1:2006 IEC 61326-1:2005 C Tick IEC/EN 61326-1 US FCC CFR 47, Part 15 Subpart B Class B Vibration 0.03 g2/Hz (3.8 grms), 2.5g IEC 68-2-6 Shock 25 g, IEC 68-2-29 Drop Engineered to withstand 2 meter (6.5 feet) drop with standard lens Size (H x W x L) 27.7 cm x 12.2 cm x 16.7 cm (10.9 in x 4.8 in x 6.5 in) Weight (battery included) 1.04 Kg (2.3 lb) Enclosure rating IP54 (protected against dust, limited ingress; protection against water spray from all directions) Warranty Two-years (standard), extended warranties are available. Recommended calibration cycle Two-years (assumes normal operation and normal aging) Supported languages Czech, Dutch, English, Finnish, French, German, Hungarian, Italian, Japanese, Korean, Polish, Portuguese, Russian, Simplified Chinese, Spanish, Swedish, Traditional Chinese, and Turkish * Firmware updates for these features are not available yet in all countries. Users notified via SmartView® software when available. 4 Fluke Corporation Ti400, Ti300 and Ti200 Thermal Imagers with LaserSharp® Auto Focus Ordering information FLK-Ti400 9Hz Thermal Imager, 9 Hz FLK-Ti300 9Hz Thermal Imager, 9 Hz FLK-Ti200 9Hz Thermal Imager, 9 Hz Included Thermal imager with standard infrared lens; ac power supply and battery pack charger (including main adapters); two, rugged lithium ion smart battery packs; USB cable; HDMI video cable; SmartView® software available via free download; rugged, hard carrying case; soft transport bag; adjustable hand strap; warranty registration card. Optional accessories FLK-LENS/TELE2 Infrared Telephoto Lens (2X magnification) FLK-LENS/WIDE2 Infrared Wide Angle Lens TI-CAR-CHARGER Car Charger FLK-TI-VISOR3 Sun Visor BOOK-ITP Introduction to Thermography Principles Book TI-TRIPOD3 Tripod Mounting Accessory FLK-Ti-SBP3 Additional Smart Battery FLK-TI-SBC3 Additional Smart Battery Charger Visit the Fluke website to get complete details on these products or ask your local Fluke sales representative. RF connection time (binding time) may take up to 1 minute. Built with Fluke Connect with ShareLiveTM is the only wireless measurement system that lets you stay in contact with your entire team without leaving the field. The Fluke Connect mobile app is available for AndroidTM (4.3 and up) and iOS (4s and later) and works with over 20 different Fluke products—the largest system of connected test tools in the world. And more are on the way. Go to the Fluke website to find out more. See it. Save it. Share it. All the facts, right in the field. Smart phone not included with purchase. All trademarks are the property of their respective owners. Smart phone, wireless service, and data plan not included with purchase. The first 5GB of storage is free. Compatible with Android™ (4.3 and up) and iOS (4s and later). Apple and the Apple logo are trademarks of Apple Inc., registered in the U.S. and other countries. App Store is a service mark of Apple Inc. Google Play is a trademark of Google Inc. Fluke Europe B.V. P.O. Box 1186 5602 BD Eindhoven The Netherlands Web: www.fluke.co.uk For more information call: In Europe/M-East/Africa +31 (0)40 267 5100 or Fax +31 (0)40 267 5222 Fluke. Keeping your world up and running.® Fluke (UK) Ltd. 52 Hurricane Way Norwich, Norfolk NR6 6JB United Kingdom Tel.: +44 (0) 20 7942 0700 Fax: +44 (0) 20 7942 0701 E-mail: industrial@uk.fluke.nl Web: www.fluke.co.uk ©2014 Fluke Corporation. Specifications subject to change without notice. 5/2014 Pub_ID: 13036-eng Modification of this document is not permitted without written permission from Fluke Corporation. Download the app at: Crucial Ballistix Sport XT Memory Performance memory for gamers and enthusiasts XMP profile for advanced speeds and timings Tall, aggressive heat spreader Premium-quality DRAM Easy to install Limited lifetime warranty Get ready to play. Engineered to deliver fast and reliable performance memory for enthusiasts and mainstream users alike, the Crucial Ballistix Sport series is a great place to start. Touting all the usual benefits of a memory upgrade — faster load times, better system responsiveness, and increased ability to handle data-intensive games — Ballistix Sport modules also feature an array of additional features. With an eye-catching design, premium-quality DRAM, and a stylish integrated heat spreader for thermal performance, Ballistix Sport makes it easy to take your game to the next level. Since Ballistix Sport performance memory is budget-friendly and compatible with nearly every type of system, you’ll be hard pressed to find a better win. Ballistix Sport XT modules: aggressive performance. Ballistix Sport XT memory offers faster and more aggressive performance. Designed for gamers who are comfortable changing BIOS settings to unleash their memory’s full potential, Sport XT modules offer blazing-fast DDR3 speeds and are available in higher densities. With an expanded heat spreader that offers more surface area for heat dissipation, Sport XT modules enable better thermal performance. Coupled with an aggressive design and XMP profiles for easy configuration in Intel®-supported systems, Sport XT modules deliver no-hassle performance so you can own your opponents. 1/231 PRELIMINARY DATA January 2005 This is preliminary information on a new product now in development or undergoing evaluation. Details are subject to change without notice. uPSD33xx Turbo Series Fast 8032 MCU with Programmable Logic FEATURES SUMMARY ■ FAST 8-BIT TURBO 8032 MCU, 40MHz – Advanced core, 4-clocks per instruction – 10 MIPs peak performance at 40MHz (5V) – JTAG Debug and In-System Programming – Branch Cache & 6 instruction Prefetch Queue – Dual XDATA pointers with auto incr & decr – Compatible with 3rd party 8051 tools ■ DUAL FLASH MEMORIES WITH MEMORY MANAGEMENT – Place either memory into 8032 program address space or data address space – READ-while-WRITE operation for InApplication Programming and EEPROM emulation – Single voltage program and erase – 100K guaranteed erase cycles, 15-year retention ■ CLOCK, RESET, AND SUPPLY MANAGEMENT – SRAM is Battery Backup capable – Flexible 8-level CPU clock divider register – Normal, Idle, and Power Down Modes – Power-on and Low Voltage reset supervisor – Programmable Watchdog Timer ■ PROGRAMMABLE LOGIC, GENERAL PURPOSE – 16 macrocells – Create shifters, state machines, chipselects, glue-logic to keypads, panels, LCDs, others ■ COMMUNICATION INTERFACES – I2C Master/Slave controller, 833KHz – SPI Master controller, 10MHz – Two UARTs with independent baud rate – IrDA protocol support up to 115K baud – Up to 46 I/O, 5V tolerant on 3.3V uPSD33xxV Figure 1. Packages ■ A/D CONVERTER – Eight Channels, 10-bit resolution, 6µs ■ TIMERS AND INTERRUPTS – Three 8032 standard 16-bit timers – Programmable Counter Array (PCA), six 16-bit modules for PWM, CAPCOM, and timers – 8/10/16-bit PWM operation – 11 Interrupt sources with two external interrupt pins ■ OPERATING VOLTAGE SOURCE (±10%) – 5V devices use both 5.0V and 3.3V sources – 3.3V devices use only 3.3V sourceuPSD33xx 2/231 Table 1. Device Summary Part Number 1st Flash (bytes) 2nd Flash (bytes) SRAM (bytes) GPIO 8032 Bus VCC VDD Pkg. Temp. uPSD3312D-40T6 64K 16K 2K 37 No 3.3V 5.0V TQFP52 –40°C to 85°C uPSD3312DV-40T6 64K 16K 2K 37 No 3.3V 3.3V TQFP52 –40°C to 85°C uPSD3333D-40T6 128K 32K 8K 37 No 3.3V 5.0V TQFP52 –40°C to 85°C uPSD3333DV-40T6 128K 32K 8K 37 No 3.3V 3.3V TQFP52 –40°C to 85°C uPSD3333D-40U6 128K 32K 8K 46 Yes 3.3V 5.0V TQFP80 –40°C to 85°C uPSD3333DV-40U6 128K 32K 8K 46 Yes 3.3V 3.3V TQFP80 –40°C to 85°C uPSD3334D-40U6 256K 32K 8K 46 Yes 3.3V 5.0V TQFP80 –40°C to 85°C uPSD3334DV-40U6 256K 32K 8K 46 Yes 3.3V 3.3V TQFP80 –40°C to 85°C uPSD3354D-40T6 256K 32K 32K 37 No 3.3V 5.0V TQFP52 –40°C to 85°C uPSD3354DV-40T6 256K 32K 32K 37 No 3.3V 3.3V TQFP52 –40°C to 85°C uPSD3354D-40U6 256K 32K 32K 46 Yes 3.3V 5.0V TQFP80 –40°C to 85°C uPSD3354DV-40U6 256K 32K 32K 46 Yes 3.3V 3.3V TQFP80 –40°C to 85°C3/231 uPSD33xx TABLE OF CONTENTS FEATURES SUMMARY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 SUMMARY DESCRIPTION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 PIN DESCRIPTIONS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 uPSD33xx HARDWARE DESCRIPTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 MEMORY ORGANIZATION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Internal Memory (MCU Module, Standard 8032 Memory: DATA, IDATA, SFR) . . . . . . . . . . . . 16 External Memory (PSD Module: Program memory, Data memory). . . . . . . . . . . . . . . . . . . . . . 16 8032 MCU CORE PERFORMANCE ENHANCEMENTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Pre-Fetch Queue (PFQ) and Branch Cache (BC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 PFQ Example, Multi-cycle Instructions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Aggregate Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 MCU MODULE DISCRIPTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 8032 MCU REGISTERS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Stack Pointer (SP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Data Pointer (DPTR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Program Counter (PC). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Accumulator (ACC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 B Register (B). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 General Purpose Registers (R0 - R7). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Program Status Word (PSW) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 SPECIAL FUNCTION REGISTERS (SFR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 8032 ADDRESSING MODES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Register Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Direct Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Register Indirect Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Immediate Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 External Direct Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 External Indirect Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Indexed Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Relative Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Absolute Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Long Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Bit Addressing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 uPSD33xx INSTRUCTION SET SUMMARY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32uPSD33xx 4/231 DUAL DATA POINTERS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Data Pointer Control Register, DPTC (85h). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Data Pointer Mode Register, DPTM (86h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 DEBUG UNIT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 INTERRUPT SYSTEM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Individual Interrupt Sources. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 MCU CLOCK GENERATION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 MCU_CLK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 PERIPH_CLK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 POWER SAVING MODES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Idle Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Power-down Mode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Reduced Frequency Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 OSCILLATOR AND EXTERNAL COMPONENTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 I/O PORTS of MCU MODULE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 MCU Port Operating Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 MCU BUS INTERFACE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Bus Read Cycles (PSEN or RD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Bus Write Cycles (WR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Controlling the PFQ and BC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 SUPERVISORY FUNCTIONS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 External Reset Input Pin, RESET_IN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Low VCC Voltage Detect, LVD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Power-up Reset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 JTAG Debug Reset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Watchdog Timer, WDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 STANDARD 8032 TIMER/COUNTERS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Standard Timer SFRs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Clock Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 SFR, TCON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 SFR, TMOD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Timer 0 and Timer 1 Operating Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Timer 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 SERIAL UART INTERFACES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 UART Operation Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815/231 uPSD33xx Serial Port Control Registers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 UART Baud Rates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 More About UART Mode 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 More About UART Mode 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 More About UART Modes 2 and 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 IrDA INTERFACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Pulse Width Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 I 2C INTERFACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 I2C Interface Main Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Communication Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Operating Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Bus Arbitration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Clock Synchronization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 General Call Address . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Serial I/O Engine (SIOE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 I 2C Interface Control Register (S1CON) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 I 2C Interface Status Register (S1STA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 I2C Data Shift Register (S1DAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 I 2C Address Register (S1ADR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 I 2C START Sample Setting (S1SETUP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 I 2C Operating Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 SPI (SYNCHRONOUS PERIPHERAL INTERFACE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 SPI Bus Features and Communication Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Full-Duplex Operation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Bus-Level Activity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 SPI SFR Registers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 SPI Configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Dynamic Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 ANALOG-TO-DIGITAL CONVERTOR (ADC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Port 1 ADC Channel Selects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 PROGRAMMABLE COUNTER ARRAY (PCA) WITH PWM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 PCA Block . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 PCA Clock Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Operation of TCM Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Capture Mode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Timer Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Toggle Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 PWM Mode - (X8), Fixed Frequency. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 PWM Mode - (X8), Programmable Frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 PWM Mode - Fixed Frequency, 16-bit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129uPSD33xx 6/231 PWM Mode - Fixed Frequency, 10-bit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Writing to Capture/Compare Registers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Control Register Bit Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 TCM Interrupts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 PSD MODULE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 PSD Module Functional Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Memory Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Runtime Control Register Definitions (csiop). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 PSD Module Detailed Operation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 PSD Module Reset Conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 AC/DC PARAMETERS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 MAXIMUM RATING. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 DC AND AC PARAMETERS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 PACKAGE MECHANICAL INFORMATION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 PART NUMBERING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 REVISION HISTORY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2307/231 uPSD33xx SUMMARY DESCRIPTION The Turbo uPSD33xx Series combines a powerful 8051-based microcontroller with a flexible memory structure, programmable logic, and a rich peripheral mix to form an ideal embedded controller. At its core is a fast 4-cycle 8032 MCU with a 6-byte instruction prefetch queue (PFQ) and a 4-entry fully associative branching cache (BC) to maximize MCU performance, enabling loops of code in smaller localities to execute extremely fast. Code development is easily managed without a hardware In-Circuit Emulator by using the serial JTAG debug interface. JTAG is also used for InSystem Programming (ISP) in as little as 10 seconds, perfect for manufacturing and lab development. The 8032 core is coupled to Programmable System Device (PSD) architecture to optimize the 8032 memory structure, offering two independent banks of Flash memory that can be placed at virtually any address within 8032 program or data address space, and easily paged beyond 64K bytes using on-chip programmable decode logic. Dual Flash memory banks provide a robust solution for remote product updates in the field through In-Application Programming (IAP). Dual Flash banks also support EEPROM emulation, eliminating the need for external EEPROM chips. General purpose programmable logic (PLD) is included to build an endless variety of glue-logic, saving external logic devices. The PLD is configured using the software development tool, PSDsoft Express, available from the web at www.st.com/psm, at no charge. The uPSD33xx also includes supervisor functions such as a programmable watchdog timer and low-voltage reset. Figure 2. Block Diagram PA0:7 PB0:7 PD1:2 PC0:7 MCU Bus P4.0:7 P1.0:7 P3.0:7 uPSD33xx SYSTEM BUS Dedicated Pins Supervisor: Watchdog and Low-Voltage Reset 1st Flash Memory: 64K, 128K, or 256K Bytes 2nd Flash Memory: 16K or 32K Bytes SRAM: 2K, 8K, or 32K Bytes Programmable Decode and Page Logic General Purpose Programmable Logic, 16 Macrocells (8) GPIO, Port A (80-pin only) (8) GPIO, Port B (4) GPIO, Port C (2) GPIO, Port D JTAG ICE and ISP 8032 Address/Data/Control Bus (80-pin device only) VCC, VDD, GND, Reset, Crystal In Turbo 8032 Core PFQ & BC (3) 16-bit Timer/ Counters (2) External Interrupts I 2 C SPI (8) 10-bit ADC UART0 (8) GPIO, Port 1 (8) GPIO, Port 3 (8) GPIO, Port 4 UART1 Optional IrDA Encoder/Decoder 16-bit PCA (6) PWM, CAPCOM, TIMER AI08875uPSD33xx 8/231 PIN DESCRIPTIONS Figure 3. TQFP52 Connections Note: 1. For 5V applications, VDD must be connected to a 5.0V source. For 3.3V applications, VDD must be connected to a 3.3V source. 2. These signals can be used on one of two different ports (Port 1 or Port 4) for flexibility. Default is Port1. 3. VREF and 3.3V AVCC are shared in the 52-pin package only. ADC channels must use AVCC as VREF for the 52-pin package. 39 P1.5/SPIRXD(2)/ADC5 38 P1.4/SPICLK(2)/ADC4 37 P1.3/TXD1(IrDA)(2)/ADC3 36 P1.2/RXD1(IrDA)(2)/ADC2 35 P1.1/T2X(2)/ADC1 34 P1.0/T2(2)/ADC0 33 VDD(1) 32 XTAL2 31 XTAL1 30 P3.7/SCL 29 P3.6/SDA 28 P3.5/C1 27 P3.4/C0 PD1/CLKIN PC7 JTAG TDO JTAG TDI DEBUG 3.3V VCC PC4/TERR VDD(1) GND PC3/TSTAT PC2/VSTBY JTAG TCK JTAG TMS 1 2 3 4 5 6 7 8 9 10 11 12 13 52 51 50 49 48 47 46 45 44 43 42 41 40 PB0 PB1 PB2 PB3 PB4 AVCC/VREF(3) PB5 GND RESET_IN PB6 PB7 P1.7/SPISEL(2)/ADC7 P1.6/SPITXD(2)/ADC6 14 15 16 17 18 19 20 21 22 23 24 25 26 SPISEL(2)/PCACLK1/P4.7 SPITXD(2)/TCM5/P4.6 SPIRXD(2)/TCM4/P4.5 SPICLK(2)/TCM3/P4.4 TXD1(IrDA)(2)/PCACLK0/P4.3 GND RXD1(IrDA)(2)/TCM2/P4.2 T2X(2)/TCM1/P4.1 T2(2)/TCM0/P4.0 RXD0/P3.0 TXD0/P3.1 EXTINT0/TG0/P3.2 EXTINT1/TG1/P3.3 AI078229/231 uPSD33xx Figure 4. TQFP80 Connections Note: NC = Not Connected Note: 1. For 5V applications, VDD must be connected to a 5.0V source. For 3.3V applications, VDD must be connected to a 3.3V source. 2. These signals can be used on one of two different ports (Port 1 or Port 4) for flexibility. Default is Port1. 60 P1.5/SPIRXD(2)/ADC5 59 P1.4/SPICLK(2)/ADC4 58 P1.3/TXD1(IrDA)(2)/ADC3 57 MCU A11 56 P1.2/RXD1(IrDA)(2)/ADC2 55 MCU A10 54 P1.1/T2X(2)/ADC1 53 MCU A9 52 P1.0/T2(2)/ADC0 51 MCU A8 50 VDD(1) 49 XTAL2 48 XTAL1 47 MCU AD7 46 P3.7/SCL 45 MCU AD6 44 P3.6/SDA 43 MCU AD5 42 P3.5/C1 41 MCU AD4 PD2/CSI P3.3/TG1/EXINT1 PD1/CLKIN ALE PC7 JTAG TDO JTAG TDI DEBUG PC4/TERR 3.3V VCC NC VDD(1) GND PC3/TSTAT PC2/VSTBY JTAG TCK NC SPISEL(2)/PCACLK1/P4.7 SPITXD(2)/TCM5/P4.6 JTAG TMS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 PB0 P3.2/EXINT0/TG0 PB1 P3.1/TXD0 PB2 P3.0/RXD0 PB3 PB4 AVCC PB5 VREF GND RESET_IN PB6 PB7 RD P1.7/SPISEL(2)/ADC7 PSEN WR P1.6/SPITXD(2)/ADC6 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 PA7 PA6 SPIRXD(2)/TCM4/P4.5 PA5 SPICLK(2)/TCM3/P4.4 PA4 TXD1(IrDA)(2)/PCACLK0/P4.3 PA3 GND RXD1(IrDA)(2)/TCM2/P4.2 T2X(2)/TCM1/P4.1 PA2 T2(2)/TCM0/P4.0 PA1 PA0 MCU AD0 MCU AD1 MCU AD2 MCU AD3 P3.4/C0 AI07823uPSD33xx 10/231 Table 2. Pin Definitions Port Pin Signal Name 80-Pin No. 52-Pin No.(1) In/Out Function Basic Alternate 1 Alternate 2 MCUAD0 AD0 36 N/A I/O External Bus Multiplexed Address/ Data bus A0/D0 MCUAD1 AD1 37 N/A I/O Multiplexed Address/ Data bus A1/D1 MCUAD2 AD2 38 N/A I/O Multiplexed Address/ Data bus A2/D2 MCUAD3 AD3 39 N/A I/O Multiplexed Address/ Data bus A3/D3 MCUAD4 AD4 41 N/A I/O Multiplexed Address/ Data bus A4/D4 MCUAD5 AD5 43 N/A I/O Multiplexed Address/ Data bus A5/D5 MCUAD6 AD6 45 N/A I/O Multiplexed Address/ Data bus A6/D6 MCUAD7 AD7 47 N/A I/O Multiplexed Address/ Data bus A7/D7 MCUA8 A8 51 N/A O External Bus, Addr A8 MCUA9 A9 53 N/A O External Bus, Addr A9 MCUA10 A10 55 N/A O External Bus, Addr A10 MCUA11 A11 57 N/A O External Bus, Addr A11 P1.0 T2 ADC0 52 34 I/O General I/O port pin Timer 2 Count input (T2) ADC Channel 0 input (ADC0) P1.1 T2X ADC1 54 35 I/O General I/O port pin Timer 2 Trigger input (T2X) ADC Channel 1 input (ADC1) P1.2 RxD1 ADC2 56 36 I/O General I/O port pin UART1 or IrDA Receive (RxD1) ADC Channel 2 input (ADC2) P1.3 TXD1 ADC3 58 37 I/O General I/O port pin UART or IrDA Transmit (TxD1) ADC Channel 3 input (ADC3) P1.4 SPICLK ADC4 59 38 I/O General I/O port pin SPI Clock Out (SPICLK) ADC Channel 4 input (ADC4) P1.5 SPIRxD ADC6 60 39 I/O General I/O port pin SPI Receive (SPIRxD) ADC Channel 5 input (ADC5) P1.6 SPITXD ADC6 61 40 I/O General I/O port pin SPI Transmit (SPITxD) ADC Channel 6 input (ADC6) P1.7 SPISEL ADC7 64 41 I/O General I/O port pin SPI Slave Select (SPISEL) ADC Channel 7 input (ADC7) P3.0 RxD0 75 23 I/O General I/O port pin UART0 Receive (RxD0) P3.1 TXD0 77 24 I/O General I/O port pin UART0 Transmit (TxD0) P3.2 EXINT0 TGO 79 25 I/O General I/O port pin Interrupt 0 input (EXTINT0)/Timer 0 gate control (TG0) P3.3 INT1 2 26 I/O General I/O port pin Interrupt 1 input (EXTINT1)/Timer 1 gate control (TG1) P3.4 C0 40 27 I/O General I/O port pin Counter 0 input (C0)11/231 uPSD33xx P3.5 C1 42 28 I/O General I/O port pin Counter 1 input (C1) P3.6 SDA 44 29 I/O General I/O port pin I 2C Bus serial data (I2CSDA) P3.7 SCL 46 30 I/O General I/O port pin I 2C Bus clock (I2CSCL) P4.0 T2 TCM0 33 22 I/O General I/O port pin Program Counter Array0 PCA0-TCM0 Timer 2 Count input (T2) P4.1 T2X TCM1 31 21 I/O General I/O port pin PCA0-TCM1 Timer 2 Trigger input (T2X) P4.2 RXD1 TCM2 30 20 I/O General I/O port pin PCA0-TCM2 UART1 or IrDA Receive (RxD1) P4.3 TXD1 PCACLK0 27 18 I/O General I/O port pin PCACLK0 UART1 or IrDA Transmit (TxD1) P4.4 SPICLK TCM3 25 17 I/O General I/O port pin Program Counter Array1 PCA1-TCM3 SPI Clock Out (SPICLK) P4.5 SPIRXD TCM4 23 16 I/O General I/O port pin PCA1-TCM4 SPI Receive (SPIRxD) P4.6 SPITXD 19 15 I/O General I/O port pin PCA1-TCM5 SPI Transmit (SPITxD) P4.7 SPISEL PCACLK1 18 14 I/O General I/O port pin PCACLK1 SPI Slave Select (SPISEL) VREF 70 N/A I Reference Voltage input for ADC RD 65 N/A O READ Signal, external bus WR 62 N/A O WRITE Signal, external bus PSEN 63 N/A O PSEN Signal, external bus ALE 4 N/A O Address Latch signal, external bus RESET_IN 68 44 I Active low reset input XTAL1 48 31 I Oscillator input pin for system clock XTAL2 49 32 O Oscillator output pin for system clock DEBUG 8 5 I/O I/O to the MCU Debug Unit PA0 35 N/A I/O General I/O port pin All Port A pins support: 1. PLD Macro-cell outputs, or 2. PLD inputs, or 3. Latched Address Out (A0-A7), or 4. Peripheral I/O Mode PA1 34 N/A I/O General I/O port pin PA2 32 N/A I/O General I/O port pin PA3 28 N/A I/O General I/O port pin PA4 26 N/A I/O General I/O port pin PA5 24 N/A I/O General I/O port pin PA6 22 N/A I/O General I/O port pin PA7 21 N/A I/O General I/O port pin Port Pin Signal Name 80-Pin No. 52-Pin No.(1) In/Out Function Basic Alternate 1 Alternate 2uPSD33xx 12/231 Note: 1. N/A = Signal Not Available on 52-pin package. PB0 80 52 I/O General I/O port pin All Port B pins support: 1. PLD Macro-cell outputs, or 2. PLD inputs, or 3. Latched Address Out (A0-A7) PB1 78 51 I/O General I/O port pin PB2 76 50 I/O General I/O port pin PB3 74 49 I/O General I/O port pin PB4 73 48 I/O General I/O port pin PB5 71 46 I/O General I/O port pin PB6 67 43 I/O General I/O port pin PB7 66 42 I/O General I/O port pin JTAGTMS TMS 20 13 I JTAG pin (TMS) JTAGTCK TCK 16 12 I JTAG pin (TCK) PC2 VSTBY 15 11 I/O General I/O port pin SRAM Standby voltage input (VSTBY) PLD Macrocell output, or PLD input PC3 TSTAT 14 10 I/O General I/O port pin Optional JTAG Status (TSTAT) PLD, Macrocell output, or PLD input PC4 TERR 9 7 I/O General I/O port pin Optional JTAG Status (TERR) PLD, Macrocell output, or PLD input JTAGTDI TDI 7 4 I JTAG pin (TDI) JTAGTDO TDO 6 3 O JTAG pin (TDO) PC7 5 2 I/O General I/O port pin PLD, Macrocell output, or PLD input PD1 CLKIN 3 1 I/O General I/O port pin 1. PLD I/O 2. Clock input to PLD and APD PD2 CSI 1 N/A I/O General I/O port pin 1. PLD I/O 2. Chip select ot PSD Module 3.3V-VCC 10 6 VCC - MCU Module AVCC 72 47 Analog VCC Input VDD 3.3V or 5V 12 8 VDD - PSD Module VDD - 3.3V for 3V VDD - 5V for 5V VDD 3.3V or 5V 50 33 VDD - PSD Module VDD - 3.3V for 3V VDD - 5V for 5V GND 13 9 GND 29 19 GND 69 45 NC 11 N/A NC 17 N/A Port Pin Signal Name 80-Pin No. 52-Pin No.(1) In/Out Function Basic Alternate 1 Alternate 213/231 uPSD33xx uPSD33xx HARDWARE DESCRIPTION The uPSD33xx has a modular architecture built from a stacked die process. There are two die, one is designated “MCU Module” in this document, and the other is designated “PSD Module” (see Figure 5., page 14). In all cases, the MCU Module die operates at 3.3V with 5V tolerant I/O. The PSD Module is either a 3.3V die or a 5V die, depending on the uPSD33xx device as described below. The MCU Module consists of a fast 8032 core, that operates with 4 clocks per instruction cycle, and has many peripheral and system supervisor functions. The PSD Module provides the 8032 with multiple memories (two Flash and one SRAM) for program and data, programmable logic for address decoding and for general-purpose logic, and additional I/O. The MCU Module communicates with the PSD Module through internal address and data busses (A8 – A15, AD0 – AD7) and control signals (RD, WR, PSEN, ALE, RESET). There are slightly different I/O characteristics for each module. I/Os for the MCU module are designated as Ports 1, 3, and 4. I/Os for the PSD Module are designated as Ports A, B, C, and D. For all 5V uPSD33xx devices, a 3.3V MCU Module is stacked with a 5V PSD Module. In this case, a 5V uPSD33xx device must be supplied with 3.3VCC for the MCU Module and 5.0VDD for the PSD Module. Ports 3 and 4 of the MCU Module are 3.3V ports with tolerance to 5V devices (they can be directly driven by external 5V devices and they can directly drive external 5V devices while producing a VOH of 2.4V min and VCC max). Ports A, B, C, and D of the PSD Module are true 5V ports. For all 3.3V uPSD33xxV devices, a 3.3V MCU Module is stacked with a 3.3V PSD Module. In this case, a 3.3V uPSD33xx device needs to be supplied with a single 3.3V voltage source at both VCC and VDD. I/O pins on Ports 3 and 4 are 5V tolerant and can be connected to external 5V peripherals devices if desired. Ports A, B, C, and D of the PSD Module are 3.3V ports, which are not tolerant to external 5V devices. Refer to Table 3 for port type and voltage source requirements. 80-pin uPSD33xx devices provide access to 8032 address, data, and control signals on external pins to connect external peripheral and memory devices. 52-pin uPSD33xx devices do not provide access to the 8032 system bus. All non-volatile memory and configuration portions of the uPSD33xx device are programmed through the JTAG interface and no special programming voltage is needed. This same JTAG port is also used for debugging of the 8032 core at runtime providing breakpoint, single-step, display, and trace features. A non-volatile security bit may be programmed to block all access via JTAG interface for security. The security bit is defeated only by erasing the entire device, leaving the device blank and ready to use again. Table 3. Port Type and Voltage Source Combinations Device Type VCC for MCU Module VDD for PSD Module Ports 3 and 4 on MCU Module Ports A, B, C, and D on PSD Module 5V: uPSD33xx 3.3V 5.0V 3.3V but 5V tolerant 5V 3.3V: uPSD33xxV 3.3V 3.3V 3.3V but 5V tolerant 3.3V. NOT 5V tolerantuPSD33xx 14/231 Figure 5. uPSD33xx Functional Modules 10-bit ADC Dedicated Memory Interface Prefetch, Branch Cache Enhanced MCU Interface Decode PLD PSD Page Register SRAM JTAG ISP CPLD - 16 MACROCELLS Reset Logic WDT Internal Reset Port 3 Port 1 Dual UARTs Interrupt 3 Timer / Counters 256 Byte SRAM Turbo 8032 Core PSD Internal Bus 8032 Internal Bus PSD Reset LVD I 2 C Unit Port D GPIO Port C JTAG and GPIO Secondary Flash Reset Input uPSD33XX JTAG DEBUG 8-Bit Die-to-Die Bus Main Flash PCA PWM Counters Reset Pin Ext. Bus SPI VCC Pins 3.3V VDD Pins 3.3V or 5V MCU Module PSD Module Port 3 - UART0, Intr, Timers Port 1 - Timer, ADC, SPI Port 4 - PCA, PWM, UART1 Port 3 I 2 C XTAL Clock Unit Port A,B,C PLD I/O and GPIO AI0784215/231 uPSD33xx MEMORY ORGANIZATION The 8032 MCU core views memory on the MCU module as “internal” memory and it views memory on the PSD module as “external” memory, see Figure 6. Internal memory on the MCU Module consists of DATA, IDATA, and SFRs. These standard 8032 memories reside in 384 bytes of SRAM located at a fixed address space starting at address 0x0000. External memory on the PSD Module consists of four types: main Flash (64K, 128K, or 256K bytes), a smaller secondary Flash (16K, or 32K), SRAM (2K, 8K, or 32K bytes), and a block of PSD Module control registers called CSIOP (256 bytes). These external memories reside at programmable address ranges, specified using the software tool PSDsoft Express. See the PSD Module section of this document for more details on these memories. External memory is accessed by the 8032 in two separate 64K byte address spaces. One address space is for program memory and the other address space is for data memory. Program memory is accessed using the 8032 signal, PSEN. Data memory is accessed using the 8032 signals, RD and WR. If the 8032 needs to access more than 64K bytes of external program or data memory, it must use paging (or banking) techniques provided by the Page Register in the PSD Module. Note: When referencing program and data memory spaces, it has nothing to do with 8032 internal SRAM areas of DATA, IDATA, and SFR on the MCU Module. Program and data memory spaces only relate to the external memories on the PSD Module. External memory on the PSD Module can overlap the internal SRAM memory on the MCU Module in the same physical address range (starting at 0x0000) without interference because the 8032 core does not assert the RD or WR signals when accessing internal SRAM. Figure 6. uPSD33xx Memories • External memories may be placed at virtually any address using software tool PSDsoft Express. • The SRAM and Flash memories may be placed in 8032 Program Space or Data Space using PSDsoft Express. • Any memory in 8032 Data Space is XDATA. 64KB, 128KB, or 256KB 16KB or 32KB Main Flash Internal SRAM on MCU Module External Memory on PSD Module IDATA SFR DATA Secondary Flash 2KB, 8KB, or 32KB SRAM 256 Bytes CSIOP 384 Bytes SRAM Direct or Indirect Addressing FF 80 7F 128 Bytes 128 Bytes 128 Bytes 0 Indirect Addressing Fixed Addresses Direct Addressing AI07843uPSD33xx 16/231 Internal Memory (MCU Module, Standard 8032 Memory: DATA, IDATA, SFR) DATA Memory. The first 128 bytes of internal SRAM ranging from address 0x0000 to 0x007F are called DATA, which can be accessed using 8032 direct or indirect addressing schemes and are typically used to store variables and stack. Four register banks, each with 8 registers (R0 – R7), occupy addresses 0x0000 to 0x001F. Only one of these four banks may be enabled at a time. The next 16 locations at 0x0020 to 0x002F contain 128 directly addressable bit locations that can be used as software flags. SRAM locations 0x0030 and above may be used for variables and stack. IDATA Memory. The next 128 bytes of internal SRAM are named IDATA and range from address 0x0080 to 0x00FF. IDATA can be accessed only through 8032 indirect addressing and is typically used to hold the MCU stack as well as data variables. The stack can reside in both DATA and IDATA memories and reach a size limited only by the available space in the combined 256 bytes of these two memories (since stack accesses are always done using indirect addressing, the boundary between DATA and IDATA does not exist with regard to the stack). SFR Memory. Special Function Registers (Table 5., page 24) occupy a separate physical memory, but they logically overlap the same 128 bytes as IDATA, ranging from address 0x0080 to 0x00FF. SFRs are accessed only using direct addressing. There 86 active registers used for many functions: changing the operating mode of the 8032 MCU core, controlling 8032 peripherals, controlling I/O, and managing interrupt functions. The remaining unused SFRs are reserved and should not be accessed. 16 of the SFRs are both byte- and bit-addressable. Bit-addressable SFRs are those whose address ends in “0” or “8” hex. External Memory (PSD Module: Program memory, Data memory) The PSD Module has four memories: main Flash, secondary Flash, SRAM, and CSIOP. See the PSD MODULE section for more detailed information on these memories. Memory mapping in the PSD Module is implemented with the Decode PLD (DPLD) and optionally the Page Register. The user specifies decode equations for individual segments of each of the memories using the software tool PSDsoft Express. This is a very easy point-and-click process allowing total flexibility in mapping memories. Additionally, each of the memories may be placed in various combinations of 8032 program address space or 8032 data address space by using the software tool PSDsoft Express. Program Memory. External program memory is addressed by the 8032 using its 16-bit Program Counter (PC) and is accessed with the 8032 signal, PSEN. Program memory can be present at any address in program space between 0x0000 and 0xFFFF. After a power-up or reset, the 8032 begins program execution from location 0x0000 where the reset vector is stored, causing a jump to an initialization routine in firmware. At address 0x0003, just following the reset vector are the interrupt service locations. Each interrupt is assigned a fixed interrupt service location in program memory. An interrupt causes the 8032 to jump to that service location, where it commences execution of the service routine. External Interrupt 0 (EXINT0), for example, is assigned to service location 0x0003. If EXINT0 is going to be used, its service routine must begin at location 0x0003. Interrupt service locations are spaced at 8-byte intervals: 0x0003 for EXINT0, 0x000B for Timer 0, 0x0013 for EXINT1, and so forth. If an interrupt service routine is short enough, it can reside entirely within the 8-byte interval. Longer service routines can use a jump instruction to somewhere else in program memory. Data Memory. External data is referred to as XDATA and is addressed by the 8032 using Indirect Addressing via its 16-bit Data Pointer Register (DPTR) and is accessed by the 8032 signals, RD and WR. XDATA can be present at any address in data space between 0x0000 and 0xFFFF. Note: the uPSD33xx has dual data pointers (source and destination) making XDATA transfers much more efficient. Memory Placement. PSD Module architecture allows the placement of its external memories into different combinations of program memory and data memory spaces. This means the main Flash, the secondary Flash, and the SRAM can be viewed by the 8032 MCU in various combinations of program memory or data memory as defined by PSDsoft Express. As an example of this flexibility, for applications that require a great deal of Flash memory in data space (large lookup tables or extended data recording), the larger main Flash memory can be placed in data space and the smaller secondary Flash memory can be placed in program space. The opposite can be realized for a different application if more Flash memory is needed for code and less Flash memory for data.17/231 uPSD33xx By default, the SRAM and CSIOP memories on the PSD Module must always reside in data memory space and they are treated by the 8032 as XDATA. However, the SRAM may optionally reside in program space in addition to data space if it is desired to execute code from SRAM. The main Flash and secondary Flash memories may reside in program space, data space, or both. These memory placement choices specified by PSDsoft Express are programmed into non-volatile sections of the uPSD33xx, and are active at power-up and after reset. It is possible to override these initial settings during runtime for In-Application Programming (IAP). Standard 8032 MCU architecture cannot write to its own program memory space to prevent accidental corruption of firmware. However, this becomes an obstacle in typical 8032 systems when a remote update to firmware in Flash memory is required using IAP. The PSD module provides a solution for remote updates by allowing 8032 firmware to temporarily “reclassify” Flash memory to reside in data space during a remote update, then returning Flash memory back to program space when finished. See the VM Register (Table 78., page 143) in the PSD Module section of this document for more details. 8032 MCU CORE PERFORMANCE ENHANCEMENTS Before describing performance features of the uPSD33xx, let us first look at standard 8032 architecture. The clock source for the 8032 MCU creates a basic unit of timing called a machine-cycle, which is a period of 12 clocks for standard 8032 MCUs. The instruction set for traditional 8032 MCUs consists of 1, 2, and 3 byte instructions that execute in different combinations of 1, 2, or 4 machine-cycles. For example, there are one-byte instructions that execute in one machine-cycle (12 clocks), one-byte instructions that execute in four machine-cycles (48 clocks), two-byte, two-cycle instructions (24 clocks), and so on. In addition, standard 8032 architecture will fetch two bytes from program memory on almost every machinecycle, regardless if it needs them or not (dummy fetch). This means for one-byte, one-cycle instructions, the second byte is ignored. These one-byte, one-cycle instructions account for half of the 8032's instructions (126 out of 255 opcodes). There are inefficiencies due to wasted bus cycles and idle bus times that can be eliminated. The uPSD33xx 8032 MCU core offers increased performance in a number of ways, while keeping the exact same instruction set as the standard 8032 (all opcodes, the number of bytes per instruction, and the native number a machine-cycles per instruction are identical to the original 8032). The first way performance is boosted is by reducing the machine-cycle period to just 4 MCU clocks as compared to 12 MCU clocks in a standard 8032. This shortened machine-cycle improves the instruction rate for one-byte, one-cycle instructions by a factor of three (Figure 7., page 18) compared to standard 8051 architectures, and significantly improves performance of multiple-cycle instruction types. The example in Figure 7 shows a continuous execution stream of one-byte, one-cycle instructions. The 5V uPSD33xx will yield 10 MIPS peak performance in this case while operating at 40MHz clock rate. In a typical application however, the effective performance will be lower since programs do not use only one-cycle instructions, but special techniques are implemented in the uPSD33xx to keep the effective MIPS rate as close as possible to the peak MIPS rate at all times. This is accomplished with an instruction Pre-Fetch Queue (PFQ) and a Branch Cache (BC) as shown in Figure 8., page 18.uPSD33xx 18/231 Figure 7. Comparison of uPSD33xx with Standard 8032 Performance Figure 8. Instruction Pre-Fetch Queue and Branch Cache MCU Clock Standard 8032 Fetch Byte for Instruction A Execute Instruction A and Fetch a Second Dummy Byte Turbo uPSD33XX Execute Instruction and Pre-Fetch Next Instruction 4 clocks (one machine cycle) 12 clocks (one machine cycle) 1-byte, 1-Cycle Instructions Dummy Byte is Ignored (wasted bus access) Execute Instruction and Pre-Fetch Next Instruction Execute Instruction and Pre-Fetch Next Instruction Instruction A Instruction B Instruction C Instruction A Turbo uPSD33XX executes instructions A, B, and C in the same amount of time that a standard 8032 executes only instruction A. one machine cycle one machine cycle AI08808 Branch 4 Code Branch 4 Code Branch 4 Code Branch 4 Code Branch 4 Code Branch 4 Code Previous Branch 4 8032 Program MCU Memory on PSD Module Instruction Pre-Fetch Queue (PFQ) 6 Bytes of Instruction Instruction Byte Wait Stall 8 Instruction Byte 8 Current Branch Address Compare Branch Cache (BC) 16 AI08809 Address 16 Address Load on Branch Address Match Branch 3 Code Branch 3 Code Branch 3 Code Branch 3 Code Branch 3 Code Branch 3 Code Previous Branch 3 Branch 2 Code Branch 2 Code Branch 2 Code Branch 2 Code Branch 2 Code Branch 2 Code Previous Branch 2 Branch 1 Code Branch 1 Code Branch 1 Code Branch 1 Code Branch 1 Code Branch 1 Code Previous Branch 1 Address19/231 uPSD33xx Pre-Fetch Queue (PFQ) and Branch Cache (BC) The PFQ is always working to minimize the idle bus time inherent to 8032 MCU architecture, to eliminate wasted memory fetches, and to maximize memory bandwidth to the MCU. The PFQ does this by running asynchronously in relation to the MCU, looking ahead to pre-fetch code from program memory during any idle bus periods. Only necessary bytes will be fetched (no dummy fetches like standard 8032). The PFQ will queue up to six code bytes in advance of execution, which significantly optimizes sequential program performance. However, when program execution becomes non-sequential (program branch), a typical pre-fetch queue will empty itself and reload new code, causing the MCU to stall. The Turbo uPSD33xx diminishes this problem by using a Branch Cache with the PFQ. The BC is a four-way, fully associative cache, meaning that when a program branch occurs, it's branch destination address is compared simultaneously with four recent previous branch destinations stored in the BC. Each of the four cache entries contain up to six bytes of code related to a branch. If there is a hit (a match), then all six code bytes of the matching program branch are transferred immediately and simultaneously from the BC to the PFQ, and execution on that branch continues with minimal delay. This greatly reduces the chance that the MCU will stall from an empty PFQ, and improves performance in embedded control systems where it is quite common to branch and loop in relatively small code localities. By default, the PFQ and BC are enabled after power-up or reset. The 8032 can disable the PFQ and BC at runtime if desired by writing to a specific SFR (BUSCON). The memory in the PSD module operates with variable wait states depending on the value specified in the SFR named BUSCON. For example, a 5V uPSD33xx device operating at a 40MHz crystal frequency requires four memory wait states (equal to four MCU clocks). In this example, once the PFQ has one or more bytes of code, the wait states become transparent and a full 10 MIPS is achieved when the program stream consists of sequential one-byte, one machine-cycle instructions as shown in Figure 7., page 18 (transparent because a machine-cycle is four MCU clocks which equals the memory pre-fetch wait time that is also four MCU clocks). But it is also important to understand PFQ operation on multi-cycle instructions. PFQ Example, Multi-cycle Instructions Let us look at a string of two-byte, two-cycle instructions in Figure 9., page 20. There are three instructions executed sequentially in this example, instructions A, B, and C. Each of the time divisions in the figure is one machine-cycle of four clocks, and there are six phases to reference in this discussion. Each instruction is pre-fetched into the PFQ in advance of execution by the MCU. Prior to Phase 1, the PFQ has pre-fetched the two instruction bytes (A1 and A2) of instruction A. During Phase one, both bytes are loaded into the MCU execution unit. Also in Phase 1, the PFQ is prefetching the first byte (B1) of instruction B from program memory. In Phase 2, the MCU is processing Instruction A internally while the PFQ is pre-fetching the second byte (B2) of Instruction B. In Phase 3, both bytes of instruction B are loaded into the MCU execution unit and the PFQ begins to pre-fetch bytes for the third instruction C. In Phase 4 Instruction B is processed and the prefetching continues, eliminating idle bus cycles and feeding a continuous flow of operands and opcodes to the MCU execution unit. The uPSD33xx MCU instructions are an exact 1/3 scale of all standard 8032 instructions with regard to number of cycles per instruction. Figure 10., page 20 shows the equivalent instruction sequence from the example above on a standard 8032 for comparison. Aggregate Performance The stream of two-byte, two-cycle instructions in Figure 9., page 20, running on a 40MHz, 5V, uPSD33xx will yield 5 MIPs. And we saw the stream of one-byte, one-cycle instructions in Figure 7., page 18, on the same MCU yield 10 MIPs. Effective performance will depend on a number of things: the MCU clock frequency; the mixture of instructions types (bytes and cycles) in the application; the amount of time an empty PFQ stalls the MCU (mix of instruction types and misses on Branch Cache); and the operating voltage. A 5V uPSD33xx device operates with four memory wait states, but a 3.3V device operates with five memory wait states yielding 8 MIPS peak compared to 10 MIPs peak for 5V device. The same number of wait states will apply to both program fetches and to data READ/WRITEs unless otherwise specified in the SFR named BUSCON. In general, a 3X aggregate performance increase is expected over any standard 8032 application running at the same clock frequency.uPSD33xx 20/231 Figure 9. PFQ Operation on Multi-cycle Instructions Figure 10. uPSD33xx Multi-cycle Instructions Compared to Standard 8032 Inst A, Byte 1 Three 2-byte, 2-cycle Instructions on uPSD33XX PFQ MCU Execution Inst A, Byte 2 Inst B, Byte 1 Inst B, Byte 2 Inst C, Byte 1 Inst C, Byte 2 Previous Instruction A1 A2 Process A B1 B2 Process B C1 C2 AI08810 Process C Continue to Pre-Fetch Next Inst 4-clock Macine Cycle Instruction A Instruction B Instruction C Pre-Fetch Inst A Pre-Fetch Inst B Pre-Fetch Inst C Phase 1 Phase 2 Phase 3 Phase 4 Phase 6 Phase 5 A1 A2 Inst A B1 B2 Inst B C1 C2 Inst C Three 2-byte, 2-cycle Instructions, uPSD33XX vs. Standard 8032 uPSD33XX Std 8032 72 Clocks (12 clocks per cycle) 24 Clocks Total (4 clocks per cycle) Byte 1 Byte 2 Process Inst A Byte 1 Byte 2 Process Inst B Byte 1 Byte 2 Process Inst C AI08811 1 Cycle 1 Cycle21/231 uPSD33xx MCU MODULE DISCRIPTION This section provides a detail description of the MCU Module system functions and peripherals, including: ■ 8032 MCU Registers ■ Special Function Registers ■ 8032 Addressing Modes ■ uPSD33xx Instruction Set Summary ■ Dual Data Pointers ■ Debug Unit ■ Interrupt System ■ MCU Clock Generation ■ Power Saving Modes ■ Oscillator and External Components ■ I/O Ports ■ MCU Bus Interface ■ Supervisory Functions ■ Standard 8032 Timer/Counters ■ Serial UART Interfaces ■ IrDA Interface ■ I 2C Interface ■ SPI Interface ■ Analog to Digital Converter ■ Programmable Counter Array (PCA) Note: A full description of the 8032 instruction set may be found in the uPSD33xx Programmers Guide. 8032 MCU REGISTERS The uPSD33xx has the following 8032 MCU core registers, also shown in Figure 11. Figure 11. 8032 MCU Registers Stack Pointer (SP) The SP is an 8-bit register which holds the current location of the top of the stack. It is incremented before a value is pushed onto the stack, and decremented after a value is popped off the stack. The SP is initialized to 07h after reset. This causes the stack to begin at location 08h (top of stack). To avoid overlapping conflicts, the user must initialize the top of the stack to 20h if all four banks of registers R0 - R7 are used, and the user must initialize the top of stack to 30h if all of the 8032 bit memory locations are used. Data Pointer (DPTR) DPTR is a 16-bit register consisting of two 8-bit registers, DPL and DPH. The DPTR Register is used as a base register to create an address for indirect jumps, table look-up operations, and for external data transfers (XDATA). When not used for addressing, the DPTR Register can be used as a general purpose 16-bit data register. Very frequently, the DPTR Register is used to access XDATA using the External Direct addressing mode. The uPSD33xx has a special set of SFR registers (DPTC, DPTM) to control a secondary DPTR Register to speed memory-to-memory XDATA transfers. Having dual DPTR Registers allows rapid switching between source and destination addresses (see details in DUAL DATA POINTERS, page 37). Program Counter (PC) The PC is a 16-bit register consisting of two 8-bit registers, PCL and PCH. This counter indicates the address of the next instruction in program memory to be fetched and executed. A reset forces the PC to location 0000h, which is where the reset jump vector is stored. Accumulator (ACC) This is an 8-bit general purpose register which holds a source operand and receives the result of arithmetic operations. The ACC Register can also be the source or destination of logic and data movement operations. For MUL and DIV instructions, ACC is combined with the B Register to hold 16-bit operands. The ACC is referred to as “A” in the MCU instruction set. B Register (B) The B Register is a general purpose 8-bit register for temporary data storage and also used as a 16- bit register when concatenated with the ACC Register for use with MUL and DIV instructions. AI06636 Accumulator B Register Stack Pointer Program Counter Program Status Word General Purpose Register (Bank0-3) Data Pointer Register PCH DPTR(DPH) A B SP PCL PSW R0-R7 DPTR(DPL)uPSD33xx 22/231 General Purpose Registers (R0 - R7) There are four banks of eight general purpose 8- bit registers (R0 - R7), but only one bank of eight registers is active at any given time depending on the setting in the PSW word (described next). R0 - R7 are generally used to assist in manipulating values and moving data from one memory location to another. These register banks physically reside in the first 32 locations of 8032 internal DATA23/231 uPSD33xx SPECIAL FUNCTION REGISTERS (SFR) A group of registers designated as Special Function Register (SFR) is shown in Table 5., page 24. SFRs control the operating modes of the MCU core and also control the peripheral interfaces and I/O pins on the MCU Module. The SFRs can be accessed only by using the Direct Addressing method within the address range from 80h to FFh of internal 8032 SRAM. Sixteen addresses in SFR address space are both byte- and bit-addressable. The bit-addressable SFRs are noted in Table 5. 86 of a possible 128 SFR addresses are occupied. The remaining unoccupied SFR addresses (designated as “RESERVED” in Table 5) should not be written. Reading unoccupied locations will return an undefined value. Note: There is a separate set of control registers for the PSD Module, designated as csiop, and they are described in the PSD MODULE, page 133. The I/O pins, PLD, and other functions on the PSD Module are NOT controlled by SFRs. SFRs are categorized as follows: ■ MCU core registers: IP, A, B, PSW, SP, DPTL, DPTH, DPTC, DPTM ■ MCU Module I/O Port registers: P1, P3, P4, P1SFS0, P1SFS1, P3SFS, P4SFS0, P4SFS1 ■ Standard 8032 Timer registers TCON, TMOD, T2CON, TH0, TH1, TH2, TL0, TL1, TL2, RCAP2L, RCAP2H ■ Standard Serial Interfaces (UART) SCON0, SBUF0, SCON1, SBUF1 ■ Power, clock, and bus timing registers PCON, CCON0, BUSCON ■ Hardware watchdog timer registers WDKEY, WDRST ■ Interrupt system registers IP, IPA, IE, IEA ■ Prog. Counter Array (PCA) control registers PCACL0, PCACH0, PCACON0, PCASTA, PCACL1, PCACH1, PCACON1, CCON2, CCON3 ■ PCA capture/compare and PWM registers CAPCOML0, CAPCOMH0, TCMMODE0, CAPCOML1, CAPCOMH1, TCMMODE2, CAPCOML2, CAPCOMH2, TCMMODE2, CAPCOML3, CAPCOMH3, TCMMODE3, CAPCOML4, CAPCOMH4, TCMMODE4, CAPCOML5, CAPCOMH5, TCMMODE5, PWMF0, PMWF1 ■ SPI interface registers SPICLKD, SPISTAT, SPITDR, SPIRDR, SPICON0, SPICON1 ■ I 2C interface registers S1SETUP, S1CON, S1STA, S1DAT, S1ADR ■ Analog to Digital Converter registers ACON, ADCPS, ADAT0, ADAT1 ■ IrDA interface register IRDACONuPSD33xx 24/231 Table 5. SFR Memory Map with Direct Address and Reset Value SFR Addr (hex) SFR Name Bit Name and Reset Value (hex) Reg. Descr. 7 6 5 4 3 2 10 with Link 80 RESERVED 81 SP SP[7:0] 07 Stack Pointer (SP), page 21 82 DPL DPL[7:0] 00 Data Pointer (DPTR), p age 21 83 DPH DPH[7:0] 00 84 RESERVED 85 DPTC – AT – – – DPSEL[2:0] 00 Table 13., page 37 86 DPTM – – – – MD1[1:0] MD0[1:0] 00 Table 14., page 38 87 PCON SMOD0 SMOD1 – POR RCLK1 TCLK1 PD IDLE 00 Table 24., page 50 88(1) TCON TF1 <8Fh> TR1 <8Eh> TF0 <8Dh> TR0 <8Ch> IE1 <8Bh> IT1 <8Ah> IE0 <89h> IT0 <88h> 00 Table 39., page 70 89 TMOD GATE C/T M1 M0 GATE C/T M1 M0 00 Table 40., page 72 8A TL0 TL0[7:0] 00 Standard Timer SFRs, pag e 69 8B TL1 TL1[7:0] 00 8C TH0 TH0[7:0] 00 8D TH1 TH1[7:0] 00 8E P1SFS0 P1SFS0[7:0] 00 Table 29., page 60 8F P1SFS1 P1SFS1[7:0] 00 Table 30., page 60 90(1) P1 P1.7 <97h> P1.6 <96h> P1.5 <95h> P1.4 <94h> P1.3 <93h> P1.2 <92h> P1.1 <91h> P1.0 <90h> FF Table 25., page 57 91 P3SFS P3SFS[7:0] 00 Table 28., page 60 92 P4SFS0 P4SFS0[7:0] 00 Table 32., page 61 93 P4SFS1 P4SFS1[7:0] 00 Table 33., page 6125/231 uPSD33xx 94 ADCPS – – – – ADCCE ADCPS[2:0] 00 Table 64., page 122 95 ADAT0 ADATA[7:0] 00 Table 65., page 122 96 ADAT1 – – – – – – ADATA[9:8] 00 Table 66., page 122 97 ACON AINTF AINTEN ADEN ADS[2:0] ADST ADSF 00 Table 63., page 121 98(1) SCON0 SM0 <9Fh> SM1 <9Eh> SM2 <9Dh> REN <9Ch> TB8 <9Bh> RB8 <9Ah> TI <99h> RI <9h8> 00 Table 45., page 82 99 SBUF0 SBUF0[7:0] 00 Figure 25., page 79 9A RESERVED 9B RESERVED 9C RESERVED 9D BUSCON EPFQ EBC WRW1 WRW0 RDW1 RDW0 CW1 CW0 EB Table 35., page 63 9E RESERVED 9F RESERVED A0 RESERVED A1 RESERVED A2 PCACL0 PCACL0[7:0] 00 Table 67., page 124 A3 PCACH0 PCACH0[7:0] 00 Table 67., page 124 A4 PCACON0 EN_ALL EN_PCA EOVF1 PCA_IDL – – CLK_SEL[1:0] 00 Table 70., page 129 A5 PCASTA OVF1 INTF5 INTF4 INTF3 OVF0 INTF2 INTF1 INTF0 00 Table 72., page 131 A6 WDTRST WDTRST[7:0] 00 Table 38., page 68 A7 IEA EADC ESPI EPCA ES1 – – EI2C – 00 Table 18., page 44 SFR Addr (hex) SFR Name Bit Name and Reset Value (hex) Reg. Descr. 7 6 5 4 3 2 10 with LinkuPSD33xx 26/231 A8(1) IE EA – ET2 ES0 ET1 EX1 ET0 EX0 00 Table 17., page 43 A9 TCMMODE 0 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 Table 73., page 132 AA TCMMODE 1 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 AB TCMMODE 2 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 AC CAPCOML 0 CAPCOML0[7:0] 00 Table 67., page 124 AD CAPCOMH 0 CAPCOMH0[7:0] 00 AE WDTKEY WDTKEY[7:0] 55 Table 37., page 68 AF CAPCOML 1 CAPCOML1[7:0] 00 Table 67., page 124 B0(1) P3 P3.7 P3.6 P3.5 P3.4 P3.3 P3.2 P3.1 P3.0 FF Table 26., page 58 B1 CAPCOMH 1 CAPCOMH1[7:0] 00 Table 67., page 124 B2 CAPCOML 2 CAPCOML2[7:0] 00 B3 CAPCOMH 2 CAPCOMH2[7:0] 00 B4 PWMF0 PWMF0[7:0] 00 B5 RESERVED B6 RESERVED B7 IPA PADC PSPI PPCA PS1 – – PI2C – 00 Table 20., page 45 B8(1) IP – – PT2 PS0 PT1 PX1 PT0 PX0 00 Table 19., page 44 B9 RESERVED BA PCACL1 PCACL1[7:0] 00 Table 67., page BB PCACH1 PCACH1[7:0] 00 124 BC Table 2671 page 12027/231 uPSD33xx BD TCMMODE 3 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 Table 73., page 132 BE TCMMODE 4 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 BF TCMMODE 5 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] 00 C0(1) P4 P4.7 P4.6 P4.5 P4.4 P4.3 P4.2 P4.1 P4.0 FF Table 27., page 58 C1 CAPCOML 3 CAPCOML3[7:0] 00 Table 67., page 124 C2 CAPCOMH 3 CAPCOMH3[7:0] 00 C3 CAPCOML 4 CAPCOML4[7:0] 00 C4 CAPCOMH 4 CAPCOMH4[7:0] 00 C5 CAPCOML 5 CAPCOML5[7:0] 00 C6 CAPCOMH 5 CAPCOMH5[7:0] 00 C7 PWMF1 PWMF1[7:0] 00 C8(1) T2CON TF2 EXF2 RCLK TCLK EXEN2 TR2 C/T2 CP/ RL2 00 Table 41., page 75 C9 RESERVED CA RCAP2L RCAP2L[7:0] 00 Standard Timer SFRs, pag e 69 CB RCAP2H RCAP2H[7:0] 00 CC TL2 TL2[7:0] 00 CD TH2 TH2[7:0] 00 CE IRDACON – IRDA_EN BIT_PULS CDIV4 CDIV3 CDIV2 CDIV1 CDIV0 0F Table 48., page 93 D0(1) PSW CY AC F0 RS[1:0] OV – P 00 Program Status Word (PSW), pa ge 22 D1 RESERVED D2 SPICLKD SPICLKD[5:0] – – 04 Table 61., page 118 D3 SPISTAT – – – BUSY TEISF RORISF TISF RISF 02 Table 62., page 119 SFR Addr (hex) SFR Name Bit Name and Reset Value (hex) Reg. Descr. 7 6 5 4 3 2 10 with LinkuPSD33xx 28/231 D4 SPITDR SPITDR[7:0] 00 Table 62., page D5 SPIRDR SPIRDR[7:0] 00 119 D6 SPICON0 – TE RE SPIEN SSEL FLSB SPO – 00 Table 59., page 117 D7 SPICON1 – – – – TEIE RORIE TIE RIE 00 Table 60., page 118 D8(1) SCON1 SM0 SM2

REN TB8 RB8 TI RI 00 Table 46., page 83 D9 SBUF1 SBUF1[7:0] 00 Figure 25., page 79 DA RESERVED DB S1SETUP SS_EN SMPL_SET[6:0] 00 Table 55., page 105 DC S1CON CR2 EN1 STA STO ADDR AA CR1 CR0 00 Table 50., page 100 DD S1STA GC STOP INTR TX_MD B_BUSY B_LOST ACK_R SLV 00 Table 52., page 103 DE S1DAT S1DAT[7:0] 00 Table 53., page 104 DF S1ADR S1ADR[7:0] 00 Table 54., page 104 E0(1) A A[7:0] 00 Accumulat or (ACC), pa ge 21 E1 to EF RESERVED F0(1) B B[7:0] 00 B Register (B), page 21 F1 RESERVED F2 RESERVED F3 RESERVED F4 RESERVED F5 RESERVED F6 RESERVED SFR Addr (hex) SFR Name Bit Name and Reset Value (hex) Reg. Descr. 7 6 5 4 3 2 10 with Link29/231 uPSD33xx Note: 1. This SFR can be addressed by individual bits (Bit Address mode) or addressed by the entire byte (Direct Address mode). F7 RESERVED F8 RESERVED F9 CCON0 – – – DBGCE CPU_AR CPUPS[2:0] 10 Table 21., page 47 FA RESERVED FB CCON2 – – – PCA0CE PCA0PS[3:0] 10 Table 68., page 125 FC CCON3 – – – PCA1CE PCA1PS[3:0] 10 Table 69., page 125 FD RESERVED FE RESERVED FF RESERVED SFR Addr (hex) SFR Name Bit Name and Reset Value (hex) Reg. Descr. 7 6 5 4 3 2 10 with LinkuPSD33xx 30/231 8032 ADDRESSING MODES The 8032 MCU uses 11 different addressing modes listed below: ■ Register ■ Direct ■ Register Indirect ■ Immediate ■ External Direct ■ External Indirect ■ Indexed ■ Relative ■ Absolute ■ Long ■ Bit Register Addressing This mode uses the contents of one of the registers R0 - R7 (selected by the last three bits in the instruction opcode) as the operand source or destination. This mode is very efficient since an additional instruction byte is not needed to identify the operand. For example: Direct Addressing This mode uses an 8-bit address, which is contained in the second byte of the instruction, to directly address an operand which resides in either 8032 DATA SRAM (internal address range 00h- 07Fh) or resides in 8032 SFR (internal address range 80h-FFh). This mode is quite fast since the range limit is 256 bytes of internal 8032 SRAM. For example: Register Indirect Addressing This mode uses an 8-bit address contained in either Register R0 or R1 to indirectly address an operand which resides in 8032 IDATA SRAM (internal address range 80h-FFh). Although 8032 SFR registers also occupy the same physical address range as IDATA, SFRs will not be accessed by Register Indirect mode. SFRs may only be accesses using Direct address mode. For example: Immediate Addressing This mode uses 8-bits of data (a constant) contained in the second byte of the instruction, and stores it into the memory location or register indicated by the first byte of the instruction. Thus, the data is immediately available within the instruction. This mode is commonly used to initialize registers and SFRs or to perform mask operations. There is also a 16-bit version of this mode for loading the DPTR Register. In this case, the two bytes following the instruction byte contain the 16-bit value. For example: External Direct Addressing This mode will access external memory (XDATA) by using the 16-bit address stored in the DPTR Register. There are only two instructions using this mode and both use the accumulator to either receive a byte from external memory addressed by DPTR or to send a byte from the accumulator to the address in DPTR. The uPSD33xx has a special feature to alternate the contents (source and destination) of DPTR rapidly to implement very efficient memory-to-memory transfers. For example: Note: See details in DUAL DATA POINTERS, page 37. External Indirect Addressing This mode will access external memory (XDATA) by using the 8-bit address stored in either Register R0 or R1. This is the fastest way to access XDATA (least bus cycles), but because only 8-bits are available for address, this mode limits XDATA to a size of only 256 bytes (the traditional Port 2 of the 8032 MCU is not available in the uPSD33xx, so it is not possible to write the upper address byte). This mode is not supported by uPSD33xx. For example: MOV A, R7 ; Move contents of R7 to accumulator MOV A, 40h ; Move contents of DATA SRAM ; at location 40h into the accumulator MOV A, @R0 ; Move into the accumulator the ; contents of IDATA SRAM that is ; pointed to by the address ; contained in R0. MOV A, 40# ; Move the constant, 40h, into ; the accumulator MOV DPTR, 1234# ; Move the constant, 1234h, into ; DPTR MOVX A, @DPTR ; Move contents of accumulator to ; XDATA at address contained in ; DPTR MOVX @DPTR, A ; Move XDATA to accumulator MOVX @R0,A ; Move into the accumulator the ; XDATA that is pointed to by ; the address contained in R0.31/231 uPSD33xx Indexed Addressing This mode is used for the MOVC instruction which allows the 8032 to read a constant from program memory (not data memory). MOVC is often used to read look-up tables that are embedded in program memory. The final address produced by this mode is the result of adding either the 16-bit PC or DPTR value to the contents of the accumulator. The value in the accumulator is referred to as an index. The data fetched from the final location in program memory is stored into the accumulator, overwriting the index value that was previously stored there. For example: Relative Addressing This mode will add the two’s-compliment number stored in the second byte of the instruction to the program counter for short jumps within +128 or – 127 addresses relative to the program counter. This is commonly used for looping and is very efficient since no additional bus cycle is needed to fetch the jump destination address. For example: Absolute Addressing This mode will append the 5 high-order bits of the address of the next instruction to the 11 low-order bits of an ACALL or AJUMP instruction to produce a 16-bit jump address. The jump will be within the same 2K byte page of program memory as the first byte of the following instruction. For example: Long Addressing This mode will use the 16-bits contained in the two bytes following the instruction byte as a jump destination address for LCALL and LJMP instructions. For example: Bit Addressing This mode allows setting or clearing an individual bit without disturbing the other bits within an 8-bit value of internal SRAM. Bit Addressing is only available for certain locations in 8032 DATA and SFR memory. Valid locations are DATA addresses 20h - 2Fh and for SFR addresses whose base address ends with 0h or 8h. (Example: The SFR, IE, has a base address of A8h, so each of the eight bits in IE can be addressed individually at address A8h, A9h, ...up to AFh.) For example: MOVC A, @A+DPTR; Move code byte relative to ; DPTR into accumulator MOVC A, @A+PC ; Move code byte relative to PC ; into accumulator SJMP 34h ; Jump 34h bytes ahead (in program ; memory) of the address at which ; the SJMP instruction is stored. If ; SJMP is at 1000h, program ; execution jumps to 1034h. AJMP 0500h ; If next instruction is located at ; address 4000h, the resulting jump ; will be made to 4500h. LJMP 0500h ; Unconditionally jump to address ; 0500h in program memory SETB AFh ; Set the individual EA bit (Enable All ; Interrupts) inside the SFR Register, ; IE. uPSD33xx 32/231 uPSD33xx INSTRUCTION SET SUMMARY Tables 6 through 11 list all of the instructions supported by the uPSD33xx, including the number of bytes and number of machine cycles required to implement each instruction. This is the standard 8051 instruction set. The meaning of “machine cycles” is how many 8032 MCU core machine cycles are required to execute the instruction. The “native” duration of all machine cycles is set by the memory wait state settings in the SFR, BUSCON, and the MCU clock divider selections in the SFR, CCON0 (i.e. a machine cycle is typically set to 4 MCU clocks for a 5V uPSD33xx). However, an individual machine cycle may grow in duration when either of two things happen: 1. a stall is imposed while loading the 8032 PreFetch Queue (PFQ); or 2. the occurrence of a cache miss in the Branch Cache (BC) during a branch in program execution flow. See 8032 MCU CORE PERFORMANCE ENHANCEMENTS, page 17 or more details. But generally speaking, during typical program execution, the PFQ is not empty and the BC has no misses, producing very good performance without extending the duration of any machine cycles. The uPSD33xx Programmers Guide describes each instruction operation in detail. Table 6. Arithmetic Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Mnemonic(1) and Use Description Length/Cycles ADD A, Rn Add register to ACC 1 byte/1 cycle ADD A, Direct Add direct byte to ACC 2 byte/1 cycle ADD A, @Ri Add indirect SRAM to ACC 1 byte/1 cycle ADD A, #data Add immediate data to ACC 2 byte/1 cycle ADDC A, Rn Add register to ACC with carry 1 byte/1 cycle ADDC A, direct Add direct byte to ACC with carry 2 byte/1 cycle ADDC A, @Ri Add indirect SRAM to ACC with carry 1 byte/1 cycle ADDC A, #data Add immediate data to ACC with carry 2 byte/1 cycle SUBB A, Rn Subtract register from ACC with borrow 1 byte/1 cycle SUBB A, direct Subtract direct byte from ACC with borrow 2 byte/1 cycle SUBB A, @Ri Subtract indirect SRAM from ACC with borrow 1 byte/1 cycle SUBB A, #data Subtract immediate data from ACC with borrow 2 byte/1 cycle INC A Increment A 1 byte/1 cycle INC Rn Increment register 1 byte/1 cycle INC direct Increment direct byte 2 byte/1 cycle INC @Ri Increment indirect SRAM 1 byte/1 cycle DEC A Decrement ACC 1 byte/1 cycle DEC Rn Decrement register 1 byte/1 cycle DEC direct Decrement direct byte 2 byte/1 cycle DEC @Ri Decrement indirect SRAM 1 byte/1 cycle INC DPTR Increment Data Pointer 1 byte/2 cycle MUL AB Multiply ACC and B 1 byte/4 cycle DIV AB Divide ACC by B 1 byte/4 cycle DA A Decimal adjust ACC 1 byte/1 cycle33/231 uPSD33xx Table 7. Logical Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Mnemonic(1) and Use Description Length/Cycles ANL A, Rn AND register to ACC 1 byte/1 cycle ANL A, direct AND direct byte to ACC 2 byte/1 cycle ANL A, @Ri AND indirect SRAM to ACC 1 byte/1 cycle ANL A, #data AND immediate data to ACC 2 byte/1 cycle ANL direct, A AND ACC to direct byte 2 byte/1 cycle ANL direct, #data AND immediate data to direct byte 3 byte/2 cycle ORL A, Rn OR register to ACC 1 byte/1 cycle ORL A, direct OR direct byte to ACC 2 byte/1 cycle ORL A, @Ri OR indirect SRAM to ACC 1 byte/1 cycle ORL A, #data OR immediate data to ACC 2 byte/1 cycle ORL direct, A OR ACC to direct byte 2 byte/1 cycle ORL direct, #data OR immediate data to direct byte 3 byte/2 cycle SWAP A Swap nibbles within the ACC 1 byte/1 cycle XRL A, Rn Exclusive-OR register to ACC 1 byte/1 cycle XRL A, direct Exclusive-OR direct byte to ACC 2 byte/1 cycle XRL A, @Ri Exclusive-OR indirect SRAM to ACC 1 byte/1 cycle XRL A, #data Exclusive-OR immediate data to ACC 2 byte/1 cycle XRL direct, A Exclusive-OR ACC to direct byte 2 byte/1 cycle XRL direct, #data Exclusive-OR immediate data to direct byte 3 byte/2 cycle CLR A Clear ACC 1 byte/1 cycle CPL A Compliment ACC 1 byte/1 cycle RL A Rotate ACC left 1 byte/1 cycle RLC A Rotate ACC left through the carry 1 byte/1 cycle RR A Rotate ACC right 1 byte/1 cycle RRC A Rotate ACC right through the carry 1 byte/1 cycleuPSD33xx 34/231 Table 8. Data Transfer Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Mnemonic(1) and Use Description Length/Cycles MOV A, Rn Move register to ACC 1 byte/1 cycle MOV A, direct Move direct byte to ACC 2 byte/1 cycle MOV A, @Ri Move indirect SRAM to ACC 1 byte/1 cycle MOV A, #data Move immediate data to ACC 2 byte/1 cycle MOV Rn, A Move ACC to register 1 byte/1 cycle MOV Rn, direct Move direct byte to register 2 byte/2 cycle MOV Rn, #data Move immediate data to register 2 byte/1 cycle MOV direct, A Move ACC to direct byte 2 byte/1 cycle MOV direct, Rn Move register to direct byte 2 byte/2 cycle MOV direct, direct Move direct byte to direct 3 byte/2 cycle MOV direct, @Ri Move indirect SRAM to direct byte 2 byte/2 cycle MOV direct, #data Move immediate data to direct byte 3 byte/2 cycle MOV @Ri, A Move ACC to indirect SRAM 1 byte/1 cycle MOV @Ri, direct Move direct byte to indirect SRAM 2 byte/2 cycle MOV @Ri, #data Move immediate data to indirect SRAM 2 byte/1 cycle MOV DPTR, #data16 Load Data Pointer with 16-bit constant 3 byte/2 cycle MOVC A, @A+DPTR Move code byte relative to DPTR to ACC 1 byte/2 cycle MOVC A, @A+PC Move code byte relative to PC to ACC 1 byte/2 cycle MOVX A, @Ri Move XDATA (8-bit addr) to ACC 1 byte/2 cycle MOVX A, @DPTR Move XDATA (16-bit addr) to ACC 1 byte/2 cycle MOVX @Ri, A Move ACC to XDATA (8-bit addr) 1 byte/2 cycle MOVX @DPTR, A Move ACC to XDATA (16-bit addr) 1 byte/2 cycle PUSH direct Push direct byte onto stack 2 byte/2 cycle POP direct Pop direct byte from stack 2 byte/2 cycle XCH A, Rn Exchange register with ACC 1 byte/1 cycle XCH A, direct Exchange direct byte with ACC 2 byte/1 cycle XCH A, @Ri Exchange indirect SRAM with ACC 1 byte/1 cycle XCHD A, @Ri Exchange low-order digit indirect SRAM with ACC 1 byte/1 cycle35/231 uPSD33xx Table 9. Boolean Variable Manipulation Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Mnemonic(1) and Use Description Length/Cycles CLR C Clear carry 1 byte/1 cycle CLR bit Clear direct bit 2 byte/1 cycle SETB C Set carry 1 byte/1 cycle SETB bit Set direct bit 2 byte/1 cycle CPL C Compliment carry 1 byte/1 cycle CPL bit Compliment direct bit 2 byte/1 cycle ANL C, bit AND direct bit to carry 2 byte/2 cycle ANL C, /bit AND compliment of direct bit to carry 2 byte/2 cycle ORL C, bit OR direct bit to carry 2 byte/2 cycle ORL C, /bit OR compliment of direct bit to carry 2 byte/2 cycle MOV C, bit Move direct bit to carry 2 byte/1 cycle MOV bit, C Move carry to direct bit 2 byte/2 cycle JC rel Jump if carry is set 2 byte/2 cycle JNC rel Jump if carry is not set 2 byte/2 cycle JB rel Jump if direct bit is set 3 byte/2 cycle JNB rel Jump if direct bit is not set 3 byte/2 cycle JBC bit, rel Jump if direct bit is set and clear bit 3 byte/2 cycleuPSD33xx 36/231 Table 10. Program Branching Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Table 11. Miscellaneous Instruction Set Note: 1. All mnemonics copyrighted ©Intel Corporation 1980. Table 12. Notes on Instruction Set and Addressing Modes Mnemonic(1) and Use Description Length/Cycles ACALL addr11 Absolute subroutine call 2 byte/2 cycle LCALL addr16 Long subroutine call 3 byte/2 cycle RET Return from subroutine 1 byte/2 cycle RETI Return from interrupt 1 byte/2 cycle AJMP addr11 Absolute jump 2 byte/2 cycle LJMP addr16 Long jump 3 byte/2 cycle SJMP rel Short jump (relative addr) 2 byte/2 cycle JMP @A+DPTR Jump indirect relative to the DPTR 1 byte/2 cycle JZ rel Jump if ACC is zero 2 byte/2 cycle JNZ rel Jump if ACC is not zero 2 byte/2 cycle CJNE A, direct, rel Compare direct byte to ACC, jump if not equal 3 byte/2 cycle CJNE A, #data, rel Compare immediate to ACC, jump if not equal 3 byte/2 cycle CJNE Rn, #data, rel Compare immediate to register, jump if not equal 3 byte/2 cycle CJNE @Ri, #data, rel Compare immediate to indirect, jump if not equal 3 byte/2 cycle DJNZ Rn, rel Decrement register and jump if not zero 2 byte/2 cycle DJNZ direct, rel Decrement direct byte and jump if not zero 3 byte/2 cycle Mnemonic(1) and Use Description Length/Cycles NOP No Operation 1 byte/1 cycle Rn Register R0 - R7 of the currently selected register bank. direct 8-bit address for internal 8032 DATA SRAM (locations 00h - 7Fh) or SFR registers (locations 80h - FFh). @Ri 8-bit internal 8032 SRAM (locations 00h - FFh) addressed indirectly through contents of R0 or R1. #data 8-bit constant included within the instruction. #data16 16-bit constant included within the instruction. addr16 16-bit destination address used by LCALL and LJMP. addr11 11-bit destination address used by ACALL and AJMP. rel Signed (two-s compliment) 8-bit offset byte. bit Direct addressed bit in internal 8032 DATA SRAM (locations 20h to 2Fh) or in SFR registers (88h, 90h, 98h, A8h, B0, B8h, C0h, C8h, D0h, D8h, E0h, F0h).37/231 uPSD33xx DUAL DATA POINTERS XDATA is accessed by the External Direct addressing mode, which uses a 16-bit address stored in the DPTR Register. Traditional 8032 architecture has only one DPTR Register. This is a burden when transferring data between two XDATA locations because it requires heavy use of the working registers to manipulate the source and destination pointers. However, the uPSD33xx has two data pointers, one for storing a source address and the other for storing a destination address. These pointers can be configured to automatically increment or decrement after each data transfer, further reducing the burden on the 8032 and making this kind of data movement very efficient. Data Pointer Control Register, DPTC (85h) By default, the DPTR Register of the uPSD33xx will behave no different than in a standard 8032 MCU. The DPSEL0 Bit of SFR register DPTC shown in Table 13, selects which one of the two “background” data pointer registers (DPTR0 or DPTR1) will function as the traditional DPTR Register at any given time. After reset, the DPSEL0 Bit is cleared, enabling DPTR0 to function as the DPTR, and firmware may access DPTR0 by reading or writing the traditional DPTR Register at SFR addresses 82h and 83h. When the DPSEL0 bit is set, then the DPTR1 Register functions as DPTR, and firmware may now access DPTR1 through SFR registers at 82h and 83h. The pointer which is not selected by the DPSEL0 bit remains in the background and is not accessible by the 8032. If the DPSEL0 bit is never set, then the uPSD33xx will behave like a traditional 8032 having only one DPTR Register. To further speed XDATA to XDATA transfers, the SFR bit, AT, may be set to automatically toggle the two data pointers, DPTR0 and DPTR1, each time the standard DPTR Register is accessed by a MOVX instruction. This eliminates the need for firmware to manually manipulate the DPSEL0 bit between each data transfer. Detailed description for the SFR register DPTC is shown in Table 13. Table 13. DPTC: Data Pointer Control Register (SFR 85h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – AT – – – – – DPSEL0 Details Bit Symbol R/W Definition 7 – – Reserved 6 AT R,W 0 = Manually Select Data Pointer 1 = Auto Toggle between DPTR0 and DPTR1 5-1 – – Reserved 0 DPSE0 R,W 0 = DPTR0 Selected for use as DPTR 1 = DPTR1 Selected for use as DPTRuPSD33xx 38/231 Data Pointer Mode Register, DPTM (86h) The two “background” data pointers, DPTR0 and DPTR1, can be configured to automatically increment, decrement, or stay the same after a MOVX instruction accesses the DPTR Register. Only the currently selected pointer will be affected by the increment or decrement. This feature is controlled by the DPTM Register defined in Table 14. The automatic increment or decrement function is effective only for the MOVX instruction, and not MOVC or any other instruction that uses the DTPR Register. Firmware Example. The 8051 assembly code illustrated in Table 15 shows how to transfer a block of data bytes from one XDATA address region to another XDATA address region. Auto-address incrementing and auto-pointer toggling will be used. Table 14. DPTM: Data Pointer Mode Register (SFR 86h, reset value 00h) Table 15. 8051 Assembly Code Example Note: 1. The code loop where the data transfer takes place is only 3 lines of code. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – – MD11 MD10 MD01 MD00 Details Bit Symbol R/W Definition 7-4 – – Reserved 3-2 MD[11:10] R,W DPTR1 Mode Bits 00: DPTR1 No Change 01: Reserved 10: Auto Increment 11: Auto Decrement 1-0 MD[01:00] R,W DPTR0 Mode Bits 00: DPTR0 No Change 01: Reserved 10: Auto Increment 11: Auto Decrement MOV R7, #COUNT ; initialize size of data block to transfer MOV DPTR, #SOURCE_ADDR ; load XDATA source address base into DPTR0 MOV 85h, #01h ; load DPTC to access DPTR1 pointer MOV DPTR, #DEST_ADDR ; load XDATA destination address base into DPTR1 MOV 85h, #40h ; load DPTC to access DPTR0 pointer and auto toggle MOV 86h, #0Ah ; load DPTM to auto-increment both pointers LOOP: MOVX(1) A, @DPTR ; load XDATA byte from source into ACC. ; after load completes, DPTR0 increments and DPTR ; switches DPTR1 MOVX(1) @DPTR, A ; store XDATA byte from ACC to destination. ; after store completes, DPTR1 increments and DPTR ; switches to DPTR0 DJNZ(1) R7, LOOP ; continue until done MOV 86h, #00 ; disable auto-increment MOV 85h, #00 ; disable auto-toggle, now back to single DPTR mode39/231 uPSD33xx DEBUG UNIT The 8032 MCU Module supports run-time debugging through the JTAG interface. This same JTAG interface is also used for In-System Programming (ISP) and the physical connections are described in the PSD Module section, JTAG ISP and JTAG Debug, page 195. Debugging with a serial interface such as JTAG is a non-intrusive way to gain access to the internal state of the 8032 MCU core and various memories. A traditional external hardware emulator cannot be completely effective on the uPSD33xx because of the Pre-Fetch Queue and Branch Cache. The nature of the PFQ and BC hide the visibility of actual program flow through traditional external bus connections, thus requiring on-chip serial debugging instead. Debugging is supported by Windows PC based software tools used for 8051 code development from 3rd party vendors listed at www.st.com/psm. Debug capabilities include: ■ Halt or Start MCU execution ■ Reset the MCU ■ Single Step ■ 3 Match Breakpoints ■ 1 Range Breakpoint (inside or outside range) ■ Program Tracing ■ Read or Modify MCU core registers, DATA, IDATA, SFR, XDATA, and Code ■ External Debug Event Pin, Input or Output Some key points regarding use of the JTAG Debugger. – The JTAG Debugger can access MCU registers, data memory, and code memory while the MCU is executing at full speed by cycle-stealing. This means “watch windows” may be displayed and periodically updated on the PC during full speed operation. Registers and data content may also be modified during full speed operation. – There is no on-chip storage for Program Trace data, but instead this data is scanned from the uPSD33xx through the JTAG channel at runtime to the PC host for proccessing. As such, full speed program tracing is possible only when the 8032 MCU is operating below approximately one MIPS of performance. Above one MIPS, the program will not run real-time while tracing. One MIPS performance is determined by the combination of choice for MCU clock frequency, and the bit settings in SFR registers BUSCON and CCON0. – Breakpoints can optionally halt the MCU, and/ or assert the external Debug Event pin. – Breakpoint definitions may be qualified with read or write operations, and may also be qualified with an address of code, SFR, DATA, IDATA, or XDATA memories. – Three breakpoints will compare an address, but the fourth breakpoint can compare an address and also data content. Additionally, the fouth breakpoint can be logically combined (AND/OR) with any of the other three breakpoints. – The Debug Event pin can be configured by the PC host to generate an output pulse for external triggering when a break condition is met. The pin can also be configured as an event input to the breakpoint logic, causing a break on the falling-edge of an external event signal. If not used, the Debug Event pin should be pulled up to VCC as described in the section, Debugging the 8032 MCU Module., page 201. – The duration of a pulse, generated when the Event pin configured as an output, is one MCU clock cycle. This is an active-low signal, so the first edge when an event occurs is high-to-low. – The clock to the Watchdog Timer, ADC, and I 2C interface are not stopped by a breakpoint halt. – The Watchdog Timer should be disabled while debugging with JTAG, else a reset will be generated upon a watchdog time-out.uPSD33xx 40/231 INTERRUPT SYSTEM The uPSD33xx has an 11-source, two priority level interrupt structure summarized in Table 16. Firmware may assign each interrupt source either high or low priority by writing to bits in the SFRs named, IP and IPA, shown in Table 16. An interrupt will be serviced as long as an interrupt of equal or higher priority is not already being serviced. If an interrupt of equal or higher priority is being serviced, the new interrupt will wait until it is finished before being serviced. If a lower priority interrupt is being serviced, it will be stopped and the new interrupt is serviced. When the new interrupt is finished, the lower priority interrupt that was stopped will be completed. If new interrupt requests are of the same priority level and are received simultaneously, an internal polling sequence determines which request is selected for service. Thus, within each of the two priority levels, there is a second priority structure determined by the polling sequence. Firmware may individually enable or disable interrupt sources by writing to bits in the SFRs named, IE and IEA, shown in Table 16., page 41. The SFR named IE contains a global disable bit (EA), which can be cleared to disable all 11 interrupts at once, as shown in Table 17., page 43. Figure 13., page 42 illustrates the interrupt priority, polling, and enabling process. Each interrupt source has at least one interrupt flag that indicates whether or not an interrupt is pending. These flags reside in bits of various SFRs shown in Table 16., page 41. All of the interrupt flags are latched into the interrupt control system at the beginning of each MCU machine cycle, and they are polled at the beginning of the following machine cycle. If polling determines one of the flags was set, the interrupt control system automatically generates an LCALL to the user’s Interrupt Service Routine (ISR) firmware stored in program memory at the appropriate vector address. The specific vector address for each of the interrupt sources are listed in Table 16., page 41. However, this LCALL jump may be blocked by any of the following conditions: – An interrupt of equal or higher priority is already in progress – The current machine cycle is not the final cycle in the execution of the instruction in progress – The current instruction involves a write to any of the SFRs: IE, IEA, IP, or IPA – The current instruction is an RETI Note: Interrupt flags are polled based on a sample taken in the previous MCU machine cycle. If an interrupt flag is active in one cycle but is denied serviced due to the conditions above, and then later it is not active when the conditions above are finally satisfied, the previously denied interrupt will not be serviced. This means that active interrupts are not remembered. Every poling cycle is new. Assuming all of the listed conditions are satisfied, the MCU executes the hardware generated LCALL to the appropriate ISR. This LCALL pushes the contents of the PC onto the stack (but it does not save the PSW) and loads the PC with the appropriate interrupt vector address. Program execution then jumps to the ISR at the vector address. Execution precedes in the ISR. It may be necessary for the ISR firmware to clear the pending interrupt flag for some interrupt sources, because not all interrupt flags are automatically cleared by hardware when the ISR is called, as shown in Table 16., page 41. If an interrupt flag is not cleared after servicing the interrupt, an unwanted interrupt will occur upon exiting the ISR. After the interrupt is serviced, the last instruction executed by the ISR is RETI. The RETI informs the MCU that the ISR is no longer in progress and the MCU pops the top two bytes from the stack and loads them into the PC. Execution of the interrupted program continues where it left off. Note: An ISR must end with a RETI instruction, not a RET. An RET will not inform the interrupt control system that the ISR is complete, leaving the MCU to think the ISR is still in progress, making future interrupts impossible.41/231 uPSD33xx Table 16. Interrupt Summary Interrupt Source Polling Priority Vector Addr Flag Bit Name (SFR.bit position) 1 = Intr Pending 0 = No Interrupt Flag Bit AutoCleared by Hardware? Enable Bit Name (SFR.bit position) 1 = Intr Enabled 0 = Intr Disabled Priority Bit Name (SFR.bit position) 1= High Priority 0 = Low Priority Reserved 0 (high) 0063h – – – – External Interrupt INT0 1 0003h IE0 (TCON.1) Edge - Yes Level - No EX0 (IE.0) PX0 (IP.0) Timer 0 Overflow 2 000Bh TF0 (TCON.5) Yes ET0 (IE.1) PT0 (IP.1) External Interrupt INT1 3 0013h IE1 (TCON.3 Edge - Yes Level - No EX1 (IE.2) PX1 (IP.2) Timer 1 Overflow 4 001Bh TF1 (TCON.7) Yes ET1 (IE.3) PT1 (IP.3) UART0 5 0023h RI (SCON0.0) TI (SCON0.1) No ES0 (IE.4) PS0 (IP.4) Timer 2 Overflow or TX2 Pin 6 002Bh TF2 (T2CON.7) EXF2 (T2CON.6) No ET2 (IE.5) PT2 (IP.5) SPI 7 0053h TEISF, RORISF, TISF, RISF (SPISTAT[3:0]) Yes ESPI (IEA.6) PSPI (IPA.6) Reserved 8 0033h – – – – I 2C 9 0043h INTR (S1STA.5) Yes EI2C (IEA.1) PI2C (IPA.1) ADC 10 003Bh AINTF (ACON.7) No EADC (IEA.7) PADC (IPA.7) PCA 11 005Bh OFVx, INTFx (PCASTA[0:7]) No EPCA (IEA.5) PPCA (IPA.5) UART1 12 (low) 004Bh RI (SCON1.0) TI (SCON1.1) No ES1 (IEA.4) PS1 (IPA.4)uPSD33xx 42/231 Figure 13. Enabling and Polling Interrupts Reserved Ext INT0 Ext INT1 Timer 0 UART0 Timer 1 SPI USB Timer 2 High LowInterrupt Polling Sequence Interrupt Sources IE/IEA IP/IPA Priority Global Enable ADC PCA I 2 C UART1 AI0784443/231 uPSD33xx Individual Interrupt Sources External Interrupts Int0 and Int1. External interrupt inputs on pins EXTINT0 and EXTINT1 (pins 3.2 and 3.3) are either edge-triggered or level-triggered, depending on bits IT0 and IT1 in the SFR named TCON. When an external interrupt is generated from an edge-triggered (falling-edge) source, the appropriate flag bit (IE0 or IE1) is automatically cleared by hardware upon entering the ISR. When an external interrupt is generated from a level-triggered (low-level) source, the appropriate flag bit (IE0 or IE1) is NOT automatically cleared by hardware. Timer 0 and 1 Overflow Interrupt. Timer 0 and Timer 1 interrupts are generated by the flag bits TF0 and TF1 when there is an overflow condition in the respective Timer/Counter register (except for Timer 0 in Mode 3). Timer 2 Overflow Interrupt. This interrupt is generated to the MCU by a logical OR of flag bits, TF2 and EXE2. The ISR must read the flag bits to determine the cause of the interrupt. – TF2 is set by an overflow of Timer 2. – EXE2 is generated by the falling edge of a signal on the external pin, T2X (pin P1.1). UART0 and UART1 Interrupt. Each of the UARTs have identical interrupt structure. For each UART, a single interrupt is generated to the MCU by the logical OR of the flag bits, RI (byte received) and TI (byte transmitted). The ISR must read flag bits in the SFR named SCON0 for UART0, or SCON1 for UART1 to determine the cause of the interrupt. SPI Interrupt. The SPI interrupt has four interrupt sources, which are logically ORed together when interrupting the MCU. The ISR must read the flag bits to determine the cause of the interrupt. A flag bit is set for: end of data transmit (TEISF); data receive overrun (RORISF); transmit buffer empty (TISF); or receive buffer full (RISF). I 2C Interrupt. The flag bit INTR is set by a variety of conditions occurring on the I2C interface: received own slave address (ADDR flag); received general call address (GC flag); received STOP condition (STOP flag); or successful transmission or reception of a data byte.The ISR must read the flag bits to determine the cause of the interrupt. ADC Interrupt. The flag bit AINTF is set when an A-to-D conversion has completed. PCA Interrupt. The PCA has eight interrupt sources, which are logically ORed together when interrupting the MCU.The ISR must read the flag bits to determine the cause of the interrupt. – Each of the six TCMs can generate a "match or capture" interrupt on flag bits OFV5..0 respectively. – Each of the two 16-bit counters can generate an overflow interrupt on flag bits INTF1 and INTF0 respectively. Tables 17 through Table 20., page 45 have detailed bit definitions of the interrupt system SFRs. Table 17. IE: Interrupt Enable Register (SFR A8h, reset value 00h) Note: 1. 1 = Enable Interrupt, 0 = Disable Interrupt Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EA – ET2 ES0 ET1 EX1 ET0 EX0 Details Bit Symbol R/W Function 7 EA R,W Global disable bit. 0 = All interrupts are disabled. 1 = Each interrupt source can be individually enabled or disabled by setting or clearing its enable bit. 6 – R,W Do not modify this bit. It is used by the JTAG debugger for instruction tracing. Always read the bit and write back the same bit value when writing this SFR. 5(1) ET2 R,W Enable Timer 2 Interrupt 4(1) ES0 R,W Enable UART0 Interrupt 3(1) ET1 R,W Enable Timer 1 Interrupt 2(1) EX1 R,W Enable External Interrupt INT1 1(1) ET0 R,W Enable Timer 0 Interrupt 0(1) EX0 R,W Enable External Interrupt INT0uPSD33xx 44/231 Table 18. IEA: Interrupt Enable Addition Register (SFR A7h, reset value 00h) Note: 1. 1 = Enable Interrupt, 0 = Disable Interrupt Table 19. IP: Interrupt Priority Register (SFR B8h, reset value 00h) Note: 1. 1 = Assigns high priority level, 0 = Assigns low priority level Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EADC ESPI EPCA ES1 – – EI2C – Details Bit Symbol R/W Function 7(1) EADC R,W Enable ADC Interrupt 6(1) ESPI R,W Enable SPI Interrupt 5(1) EPCA R,W Enable Programmable Counter Array Interrupt 4(1) ES1 R,W Enable UART1 Interrupt 3 – – Reserved, do not set to logic '1.' 2 – – Reserved, do not set to logic '1.' 1(1) EI2C R,W Enable I2C Interrupt 0 – – Reserved, do not set to logic '1.' Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – PT2 PS0 PT1 PX1 PT0 PX0 Details Bit Symbol R/W Function 7 – – Reserved 6 – – Reserved 5(1) PT2 R,W Timer 2 Interrupt priority level 4(1) PS0 R,W UART0 Interrupt priority level 3(1) PT1 R,W Timer 1 Interrupt priority level 2(1) PX1 R,W External Interrupt INT1 priority level 1(1) PT0 R,W Timer 0 Interrupt priority level 0(1) PX0 R,W External Interrupt INT0 priority level45/231 uPSD33xx Table 20. IPA: Interrupt Priority Addition register (SFR B7h, reset value 00h) Note: 1. 1 = Assigns high priority level, 0 = Assigns low priority level Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 PADC PSPI PPCA PS1 – – PI2C – Details Bit Symbol R/W Function 7(1) PADC R,W ADC Interrupt priority level 6(1) PSPI R,W SPI Interrupt priority level 5(1) PPCA R,W PCA Interrupt level 4(1) PS1 R,W UART1 Interrupt priority level 3 – – Reserved 2 – – Reserved 1(1) PI2C R,W I 2C Interrupt priority level 0 – – ReserveduPSD33xx 46/231 MCU CLOCK GENERATION Internal system clocks generated by the clock generation unit are derived from the signal, XTAL1, shown in Figure 14. XTAL1 has a frequency fOSC, which comes directly from the external crystal or oscillator device. The SFR named CCON0 (Table 21., page 47) controls the clock generation unit. There are two clock signals produced by the clock generation unit: ■ MCU_CLK ■ PERIPH_CLK MCU_CLK This clock drives the 8032 MCU core and the Watchdog Timer (WDT). The frequency of MCU_CLK is equal to fOSC by default, but it can be divided by as much as 2048, shown in Figure 14. The bits CPUPS[2:0] select one of eight different divisors, ranging from 2 to 2048. The new frequency is available immediately after the CPUPS[2:0] bits are written. The final frequency of MCU_CLK is fMCU. MCU_CLK is blocked by either bit, PD or IDL, in the SFR named PCON during MCU Power-down Mode or Idle Mode respectively. MCU_CLK clock can be further divided as required for use in the WDT. See details of the WDT in SUPERVISORY FUNCTIONS, page 65. PERIPH_CLK This clock drives all the uPSD33xx peripherals except the WDT. The Frequency of PERIPH_CLK is always fOSC. Each of the peripherals can independently divide PERIPH_CLK to scale it appropriately for use. PERIPH_CLK runs at all times except when blocked by the PD bit in the SFR named PCON during MCU Power-down Mode. JTAG Interface Clock. The JTAG interface for ISP and for Debugging uses the externally supplied JTAG clock, coming in on pin TCK. This means the JTAG ISP interface is always available, and the JTAG Debug interface is available when enabled, even during MCU Idle mode and Powerdown Mode. However, since the MCU participates in the JTAG debug process, and MCU_CLK is halted during Idle and Power-down Modes, the majority of debug functions are not available during these low power modes. But the JTAG debug interface is capable of executing a reset command while in these low power modes, which will exit back to normal operating mode where all debug commands are available again. The CCON0 SFR contains a bit, DBGCE, which enables the breakpoint comparators inside the JTAG Debug Unit when set. DBGCE is set by default after reset, and firmware may clear this bit at run-time. Disabling these comparators will reduce current consumption on the MCU Module, and it’s recommended to do so if the Debug Unit will not be used (such as in the production version of an end-product). Figure 14. Clock Generation Logic XTAL1 /2 XTAL1 /4 XTAL1 /2048 Q Q Q M U X XTAL1 (default) XTAL1 /8 XTAL1 /16 Q Q XTAL1 /32 XTAL1 /1024 Q Q 0 1 2 3 4 5 6 7 XTAL1 (fOSC) PCON[1]: PD, Power-Down Mode PCON[2:0]: CPUPS[2:0], Clock Pre-Scaler Select PCON[0]: IDL, Idle Mode Clock Divider MCU_CLK (fMCU) (to: 8032, WDT) PERIPH_CLK (fOSC) (to: TIMER0/1/2, UART0/1, PCA0/1, SPI, I2C, ADC) 3 AI0919747/231 uPSD33xx Table 21. CCON0: Clock Control Register (SFR F9h, reset value 10h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – DBGCE CPUAR CPUPS[2:0] Details Bit Symbol R/W Definition 7 – – Reserved 6 – – Reserved 5 – – Reserved 4 DBGCE R,W Debug Unit Breakpoint Comparator Enable 0 = JTAG Debug Unit comparators are disabled 1 = JTAG Debug Unit comparators are enabled (Default condition after reset) 3 CPUAR R,W Automatic MCU Clock Recovery 0 = There is no change of CPUPS[2:0] when an interrupt occurs. 1 = Contents of CPUPS[2:0] automatically become 000b whenever any interrupt occurs. 2:0 CPUPS R,W MCUCLK Pre-Scaler 000b: fMCU = fOSC (Default after reset) 001b: fMCU = fOSC/2 010b: fMCU = fOSC/4 011b: fMCU = fOSC/8 100b: fMCU = fOSC/16 101b: fMCU = fOSC/32 110b: fMCU = fOSC/1024 111b: fMCU = fOSC/2048uPSD33xx 48/231 POWER SAVING MODES The uPSD33xx is a combination of two die, or modules, each module having it’s own current consumption characteristics. This section describes reduced power modes for the MCU Module. See the section, Power Management, page 137 for reduced power modes of the PSD Module. Total current consumption for the combined modules is determined in the DC specifications at the end of this document. The MCU Module has three software-selectable modes of reduced power operation. ■ Idle Mode ■ Power-down Mode ■ Reduced Frequency Mode Idle Mode Idle Mode will halt the 8032 MCU core while leaving the MCU peripherals active (Idle Mode blocks MCU_CLK only). For lowest current consumption in this mode, it is recommended to disable all unused peripherals, before entering Idle mode (such as the ADC and the Debug Unit breakpoint comparators). The following functions remain fully active during Idle Mode (except if disabled by SFR settings). ■ External Interrupts INT0 and INT1 ■ Timer 0, Timer 1 and Timer 2 ■ Supervisor reset from: LVD, JTAG Debug, External RESET_IN_, but not the WTD ■ ADC ■ I 2C Interface ■ UART0 and UART1 Interfaces ■ SPI Interface ■ Programmable Counter Array An interrupt generated by any of these peripherals, or a reset generated from the supervisor, will cause Idle Mode to exit and the 8032 MCU will resume normal operation. The output state on I/O pins of MCU ports 1, 3, and 4 remain unchanged during Idle Mode. To enter Idle Mode, the 8032 MCU executes an instruction to set the IDL bit in the SFR named PCON, shown in Table 24., page 50. This is the last instruction executed in normal operating mode before Idle Mode is activated. Once in Idle Mode, the MCU status is entirely preserved, and there are no changes to: SP, PSW, PC, ACC, SFRs, DATA, IDATA, or XDATA. The following are factors related to Idle Mode exit: – Activation of any enabled interrupt will cause the IDL bit to be cleared by hardware, terminating Idle Mode. The interrupt is serviced, and following the Return from Interrupt instruction (RETI), the next instruction to be executed will be the one which follows the instruction that set the IDL bit in the PCON SFR. – After a reset from the supervisor, the IDL bit is cleared, Idle Mode is terminated, and the MCU restarts after three MCU machine cycles. Power-down Mode Power-down Mode will halt the 8032 core and all MCU peripherals (Power-down Mode blocks MCU_CLK and PERIPH_CLK). This is the lowest power state for the MCU Module. When the PSD Module is also placed in Power-down mode, the lowest total current consumption for the combined die is achieved for the uPSD33xx. See Power Management, page 137 in the PSD Module section for details on how to also place the PSD Module in Power-down mode. The sequence of 8032 instructions is important when placing both modules into Power-down Mode. The instruction that sets the PD Bit in the SFR named PCON (Table 24., page 50) is the last instruction executed prior to the MCU Module going into Power-down Mode. Once in Power-down Mode, the on-chip oscillator circuitry and all clocks are stopped. The SFRs, DATA, IDATA, and XDATA are preserved. Power-down Mode is terminated only by a reset from the supervisor, originating from the RESET_IN_ pin, the Low-Voltage Detect circuit (LVD), or a JTAG Debug reset command. Since the clock to the WTD is not active during Powerdown mode, it is not possible for the supervisor to generate a WDT reset. Table 22., page 49 summarizes the status of I/O pins and peripherals during Idle and Power-down Modes on the MCU Module. Table 23., page 49 shows the state of 8032 MCU address, data, and control signals during these modes. Reduced Frequency Mode The 8032 MCU consumes less current when operating at a lower clock frequency. The MCU can reduce it’s own clock frequency at run-time by writing to three bits, CPUPS[2:0], in the SFR named CCON0 described in Table 21., page 47. These bits effectively divide the clock frequency (fOSC) coming in from the external crystal or oscillator device. The clock division range is from 1/2 to 1/2048, and the resulting frequency is fMCU. This MCU clock division does not affect any of the peripherals, except for the WTD. The clock driving the WTD is the same clock driving the 8032 MCU core as shown in Figure 14., page 46.49/231 uPSD33xx MCU firmware may reduce the MCU clock frequency at run-time to consume less current when performing tasks that are not time critical, and then restore full clock frequency as required to perform urgent tasks. Returning to full clock frequency is done automatically upon an MCU interrupt, if the CPUAR Bit in the SFR named CCON0 is set (the interrupt will force CPUPS[2:0] = 000). This is an excellent way to conserve power using a low frequency clock until an event occurs that requires full performance. See Table 21., page 47 for details on CPUAR. See the DC Specifications at the end of this document to estimate current consumption based on the MCU clock frequency. Note: Some of the bits in the PCON SFR shown in Table 24., page 50 are not related to power control. Table 22. MCU Module Port and Peripheral Status during Reduced Power Modes Note: 1. The Watchdog Timer is not active during Idle Mode. Other supervisor functions are active: LVD, external reset, JTAG Debug reset Table 23. State of 8032 MCU Bus Signals during Power-down and Idle Modes Mode Ports 1, 3, 4 PCA SPI I 2C ADC SUPERVISOR UART0, UART1 TIMER 0,1,2 EXT INT0, 1 Idle Maintain Data Active Active Active Active Active(1) Active Active Active Power-down Maintain Data Disabled Disabled Disabled Disabled Disabled Disabled Disabled Disabled Mode ALE PSEN_ RD_ WR_ AD0-7 A8-15 Idle 0 1 1 1 FFh FFh Power-down 0 1 1 1 FFh FFhuPSD33xx 50/231 Table 24. PCON: Power Control Register (SFR 87h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 SMOD0 SMOD1 – POR RCLK1 TCLK1 PD IDL Details Bit Symbol R/W Function 7 SMOD0 R,W Baud Rate Double Bit (UART0) 0 = No Doubling 1 = Doubling (See UART Baud Rates, page 84 for details.) 6 SMOD1 R,W Baud Rate Double Bit for 2nd UART (UART1) 0 = No Doubling 1 = Doubling (See UART Baud Rates, page 84 for details.) 5 – – Reserved 4 POR R,W Only a power-on reset sets this bit (cold reset). Warm reset will not set this bit. '0,' Cleared to zero with firmware '1,' Is set only by a power-on reset generated by Supervisory circuit (see Power-up Reset, page 66 for details). 3 RCLK1 R,W Received Clock Flag (UART1) (See Table 41., page 75 for flag description.) 2 TCLK1 R,W Transmit Clock Flag (UART1) (See Table 41., page 75 for flag description) 1 PD R,W Activate Power-down Mode 0 = Not in Power-down Mode 1 = Enter Power-down Mode 0 IDL R,W Activate Idle Mode 0 = Not in Idle Mode 1 = Enter Idle Mode51/231 uPSD33xx OSCILLATOR AND EXTERNAL COMPONENTS The oscillator circuit of uPSD33xx devices is a single stage, inverting amplifier in a Pierce oscillator configuration. The internal circuitry between pins XTAL1 and XTAL2 is basically an inverter biased to the transfer point. Either an external quartz crystal or ceramic resonator can be used as the feedback element to complete the oscillator circuit. Both are operated in parallel resonance. Ceramic resonators are lower cost, but typically have a wider frequency tolerance than quartz crystals. Alternatively, an external clock source from an oscillator or other active device may drive the uPSD33xx oscillator circuit input directly, instead of using a crystal or resonator. The minimum frequency of the quartz crystal, ceramic resonator, or external clock source is 1MHz if the I2C interface is not used. The minimum is 8MHz if I2C is used. The maximum is 40MHz in all cases. This frequency is fOSC, which can be divided internally as described in MCU CLOCK GENERATION, page 46. The pin XTAL1 is the high gain amplifier input, and XTAL2 is the output. To drive the uPSD33xx device externally from an oscillator or other active device, XTAL1 is driven and XTAL2 is left opencircuit. This external source should drive a logic low at the voltage level of 0.3 VCC or below, and logic high at 0.7V VCC or above, up to 5.5V VCC. The XTAL1 input is 5V tolerant. Most of the quartz crystals in the range of 25MHz to 40MHz operate in the third overtone frequency mode. An external LC tank circuit at the XTAL2 output of the oscillator circuit is needed to achieve the third overtone frequency, as shown in Figure 15., page 52. Without this LC circuit, the crystal will oscillate at a fundamental frequency mode that is about 1/3 of the desired overtone frequency. Note: In Figure 15., page 52 crystals which are specified to operate in fundamental mode (not overtone mode) do not need the LC circuit components. Since quartz crystals and ceramic resonators have their own characteristics based on their manufacturer, it is wise to also consult the manufacturer’s recommended values for external components.uPSD33xx 52/231 Figure 15. Oscillator and Clock Connections Crystal or Resonator Usage Direct Drive XTAL1 (in) XTAL1 (in) XTAL2 (out) XTAL2 (out) C1 C2 XTAL (fOSC) L1 C3 External Ocsillator or No Connect Active Clock Source XTAL (fOSC) C1 = C2 C3 L1 Ceramic Resonator 40 - 50pF None Crystal, fundamental mode (3-40MHz) 15-33pF None None None Crystal, overtone mode (25-40MHz) 20pF 10nF 2.2µH AI0919853/231 uPSD33xx I/O PORTS OF MCU MODULE The MCU Module has three 8-bit I/O ports: Port 1, Port 3, and Port 4. The PSD Module has four other I/O ports: Port A, B, C, and D. This section describes only the I/O ports on the MCU Module. I/O ports will function as bi-directional General Purpose I/O (GPIO), but the port pins can have alternate functions assigned at run-time by writing to specific SFRs. The default operating mode (during and after reset) for all three ports is GPIO input mode. Port pins that have no external connection will not float because each pin has an internal weak pull-up (~150K ohms) to VCC. I/O ports 3 and 4 are 5V tolerant, meaning they can be driven/pulled externally up to 5.5V without damage. The pins on Port 4 have a higher current capability than the pins on Ports 1 and 3. Three additional MCU ports (only on 80-pin uPSD33xx devices) are dedicated to bring out the 8032 MCU address, data, and control signals to external pins. One port, named MCUA[11:8], contains four MCU address signal outputs. Another port, named MCUAD[7:0], has eight multiplexed address/data bidirectional signals. The third port has MCU bus control outputs: read, write, program fetch, and address latch. These ports are typically used to connect external parallel peripherals and memory devices, but they may NOT be used as GPIO. Notice that only four of the eight upper address signals come out to pins on the port MCUA[11:8]. If additional high-order address signals are required on external pins (MCU addresses A[15:12]), then these address signals can be brought out as needed to PLD output pins or to the Address Out mode pins on PSD Module ports. See PSD Module section, “Latched Address Output Mode, page 177 for details. Figure 16., page 55 represents the flexibility of pin function routing controlled by the SFRs. Each of the 24 pins on three ports, P1, P3, and P4, may be individually routed on a pin-by-pin basis to a desired function. MCU Port Operating Modes MCU port pins can operate as GPIO or as alternate functions (see Figure 17., page 56 through Figure 19., page 57). Depending on the selected pin function, a particular pin operating mode will automatically be used: ■ GPIO - Quasi-bidirectional mode ■ UART0, UART1 - Quasi-bidirectional mode ■ SPI - Quasi-bidirectional mode ■ I2C - Open drain mode ■ ADC - Analog input mode ■ PCA output - Push-Pull mode ■ PCA input - Input only (Quasi-bidirectional) ■ Timer 0,1,2 - Input only (Quasi-bidirectional) GPIO Function. Ports in GPIO mode operate as quasi-bidirectional pins, consistent with standard 8051 architecture. GPIO pins are individually controlled by three SFRs: ■ SFR, P1 (Table 25., page 57) ■ SFR, P3 (Table 26., page 58) ■ SFR, P4 (Table 27., page 58) These SFRs can be accessed using the Bit Addressing mode, an efficient way to control individual port pins. GPIO Output. Simply stated, when a logic '0' is written to a bit in any of these port SFRs while in GPIO mode, the corresponding port pin will enable a low-side driver, which pulls the pin to ground, and at the same time releases the high-side driver and pull-ups, resulting in a logic'0' output. When a logic '1' is written to the SFR, the low-side driver is released, the high-side driver is enabled for just one MCU_CLK period to rapidly make the 0-to1 transition on the pin, while weak active pull-ups (total ~150K ohms) to VCC are enabled. This structure is consistent with standard 8051 architecture. The high side driver is momentarily enabled only for 0-to-1 transitions, which is implemented with the delay function at the latch output as pictured in Figure 17., page 56 through Figure 19., page 57. After the high-side driver is disabled, the two weak pull-ups remain enabled resulting in a logic '1' output at the pin, sourcing IOH uA to an external device. Optionally, an external pull-up resistor can be added if additional source current is needed while outputting a logic '1.'uPSD33xx 54/231 GPIO Input. To use a GPIO port pin as an input, the low-side driver to ground must be disabled, or else the true logic level being driven on the pin by an external device will be masked (always reads logic '0'). So to make a port pin “input ready”, the corresponding bit in the SFR must have been set to a logic '1' prior to reading that SFR bit as an input. A reset condition forces SFRs P1, P3, and P4 to FFh, thus all three ports are input ready after reset. When a pin is used as an input, the stronger pullup “A” maintains a solid logic '1' until an external device drives the input pin low. At this time, pull-up “A” is automatically disabled, and only pull-up “B” will source the external device IIH uA, consistent with standard 8051 architecture. GPIO Bi-Directional. It is possible to operate individual port pins in bi-directional mode. For an output, firmware would simply write the corresponding SFR bit to logic '1' or '0' as needed. But before using the pin as an input, firmware must first ensure that a logic '1' was the last value written to the corresponding SFR bit prior to reading that SFR bit as an input. GPIO Current Capability. A GPIO pin on Port 4 can sink twice as much current than a pin on either Port 1 or Port 3 when the low-side driver is outputting a logic '0' (IOL). See the DC specifications at the end of this document for full details. Reading Port Pin vs. Reading Port Latch. When firmware reads the GPIO ports, sometimes the actual port pin is sampled in hardware, and sometimes the port SFR latch is read and not the actual pin, depending on the type of MCU instruction used. These two data paths are shown in Figure 17., page 56 through Figure 19., page 57. SFR latches are read (and not the pins) only when the read is part of a read-modify-write instruction and the write destination is a bit or bits in a port SFR. These instructions are: ANL, ORL, XRL, JBC, CPL, INC, DEC, DJNZ, MOV, CLR, and SETB. All other types of reads to port SFRs will read the actual pin logic level and not the port latch. This is consistent with 8051 architecture.55/231 uPSD33xx Figure 16. MCU Module Port Pin Function Routing 8 P3 P1 P4 M C U A D M C U A GPIO (8) UART0 (2) TIMER0/1 (4) I 2C (2) GPIO (8) GPIO (8) TIMER2 (2) UART1 (2) SPI (4) ADC (8) PCA (8) 8032 MCU CORE Low Addr & Data[7:0] 8 Available on PSD Hi Address [15:12] Hi Address [11:8] 4 Module Pins MCU Module 4 On 80-pin Devices Only Ports C N T L RD, WR, PSEN, ALE 4 SFR 8 8 SFR SFR SFR SFR SFR AI09199uPSD33xx 56/231 Figure 17. MCU I/O Cell Block Diagram for Port 1 Figure 18. MCU I/O Cell Block Diagram for Port 3 P1.X Pin Analog_Alt_Func_En Analog_Pin_In D Q PRE SFR P1.X Latch 8032 Data Bus Bit GPIO P1.X SFR Write Latch MCU_Reset P1.X SFR Read Latch (for R-M-W instructions) P1.X SFR Read Pin Select_Alternate_Func Digital_Pin_Data_In IN 1 IN 0 MUX Y VCC VCC VCC SEL WEAK PULL-UP, B STONGER PULL-UP, A LOW SIDE HIGH SIDE DELAY, 1 MCU_CLK DELAY, 1 MCU_CLK Q Digital_Alt_Func_Data_Out AI09600 P3.X Pin Digital_Pin_Data_In D Q PRE SFR P3.X Latch 8032 Data Bus Bit GPIO P3.X SFR Write Latch MCU_Reset P3.X SFR Read Latch (for R-M-W instructions) P3.X SFR Read Pin Select_Alternate_Func Disables High-Side Driver IN 1 IN 0 MUX Y VCC VCC VCC SEL Enable_I2C WEAK PULL-UP, B STONGER PULL-UP, A LOW SIDE HIGH SIDE DELAY, 1 MCU_CLK DELAY, 1 MCU_CLK Q Digital_Alt_Func_Data_Out AI0960157/231 uPSD33xx Figure 19. MCU I/O Cell Block Diagram for Port 4 Table 25. P1: I/O Port 1 Register (SFR 90h, reset value FFh) Note: 1. Write '1' or '0' for pin output. Read for pin input, but prior to READ, this bit must have been set to '1' by firmware or by a reset event. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P1.7 P1.6 P1.5 P1.4 P1.3 P1.2 P1.1 P1.0 Details Bit Symbol R/W Function(1) 7 P1.7 R,W Port pin 1.7 6 P1.6 R,W Port pin 1.6 5 P1.5 R,W Port pin 1.5 4 P1.4 R,W Port pin 1.4 3 P1.3 R,W Port pin 1.3 2 P1.2 R,W Port pin 1.2 1 P1.1 R,W Port pin 1.1 0 P1.0 R,W Port pin 1.0 P4.X Pin Digital_Pin_Data_In D Q PRE SFR P4.X Latch 8032 Data Bus Bit GPIO P4.X SFR Write Latch MCU_Reset P4.X SFR Read Latch (for R-M-W instructions) P4.X SFR Read Pin Select_Alternate_Func For PCA Alternate Function IN 1 IN 0 MUX Y VCC VCC VCC SEL Enable_Push_Pull WEAK PULL-UP, B STONGER PULL-UP, A LOW SIDE HIGH SIDE DELAY, 1 MCU_CLK DELAY, 1 MCU_CLK Q Digital_Alt_Func_Data_Out AI09602uPSD33xx 58/231 Table 26. P3: I/O Port 3 Register (SFR B0h, reset value FFh) Note: 1. Write '1' or '0' for pin output. Read for pin input, but prior to READ, this bit must have been set to '1' by firmware or by a reset event. Table 27. P4: I/O Port 4 Register (SFR C0h, reset value FFh) Note: 1. Write '1' or '0' for pin output. Read for pin input, but prior to READ, this bit must have been set to '1' by firmware or by a reset event. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P3.7 P3.6 P3.5 P3.4 P3.3 P3.2 P3.1 P3.0 Details Bit Symbol R/W Function(1) 7 P3.7 R,W Port pin 3.7 6 P3.6 R,W Port pin 3.6 5 P3.5 R,W Port pin 3.5 4 P3.4 R,W Port pin 3.4 3 P3.3 R,W Port pin 3.3 2 P3.2 R,W Port pin 3.2 1 P3.1 R,W Port pin 3.1 0 P3.0 R,W Port pin 3.0 Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P4.7 P4.6 P4.5 P4.4 P4.3 P4.2 P4.1 P4.0 Details Bit Symbol R/W Function(1) 7 P4.7 R,W Port pin 4.7 6 P4.6 R,W Port pin 4.6 5 P4.5 R,W Port pin 4.5 4 P4.4 R,W Port pin 4.4 3 P4.3 R,W Port pin 4.3 2 P4.2 R,W Port pin 4.2 1 P4.1 R,W Port pin 4.1 0 P4.0 R,W Port pin 4.059/231 uPSD33xx Alternate Functions. There are five SFRs used to control the mapping of alternate functions onto MCU port pins, and these SFRs are depicted as switches in Figure 16., page 55. ■ Port 3 uses the SFR, P3SFS (Table 28., page 60). ■ Port 1 uses SFRs, P1SFS0 (Table 29., page 60) and P1SFS1 (Table 30., page 60). ■ Port 4 uses SFRs, P4SFS0 (Table 32., page 61) and P4SFS1 (Table 33., page 61). Since these SFRs are cleared by a reset, then by default all port pins function as GPIO (not the alternate function) until firmware initializes these SFRs. Each pin on each of the three ports can be independently assigned a different function on a pinby-pin basis. The peripheral functions Timer 2, UART1, and I2C may be split independently between Port 1 and Port 4 for additional flexibility by giving a wider choice of peripheral usage on a limited number of device pins. When the selected alternate function is UART0, UART1, or SPI, then the related pins are in quasibidirectional mode, including the use of the highside driver for rapid 0-to-1 output transitions. The high-side driver is enabled for just one MCU_CLK period on 0-to-1 transitions by the delay function at the “digital_alt_func_data_out” signal pictured in Figure 17., page 56 through Figure 19., page 57. If the alternate function is Timer 0, Timer 1, Timer 2, or PCA input, then the related pins are in quasibidirectional mode, but input only. If the alternate function is ADC, then for each pin the pull-ups, the high-side driver, and the low-side driver are disabled. The analog input is routed directly to the ADC unit. Only Port 1 supports analog functions (Figure 17., page 56). Port 1 is not 5V tolerant. If the alternate function is I2C, the related pins will be in open drain mode, which is just like quasi-bidirectional mode but the high-side driver is not enabled for one cycle when outputting a 0-to-1 transition. Only the low-side driver and the internal weak pull-ups are used. Only Port 3 supports open-drain mode (Figure 18., page 56). I2C requires the use of an external pull-up resistor on each bus signal, typically 4.7KΩ to VCC. If the alternate function is PCA output, then the related pins are in push-pull mode, meaning the pins are actively driven and held to logic '1' by the highside driver, or actively driven and held to logic '0' by the low-side driver. Only Port 4 supports pushpull mode (Figure 19., page 57). Port 4 push-pull pins can source IOH current when driving logic '1,' and sink IOL current when driving logic '0.' This current is significantly more than the capability of pins on Port 1 or Port 3 (see Table 129., page 207). For example, to assign these port functions: ■ Port 1: UART1, ADC[1:0], P1[7:4] are GPIO ■ Port 3: UART0, I2C, P3[5:2] are GPIO ■ Port 4: TCM0, SPI, P4[3:1] are GPIO The following values need to be written to the SFRs: P1SFS0 = 00001111b, or 0Fh P1SFS1 = 00000011b , or 03h P3SFS = 11000011b, or C3h P4SFS0 = 11110001b, or F1h P4SFS1 = 11110000b, or F0huPSD33xx 60/231 Table 28. P3SFS: Port 3 Special Function Select Register (SFR 91h, reset value 00h) Table 29. P1SFS0: Port 1 Special Function Select 0 Register (SFR 8Eh, reset value 00h) Table 30. P1SFS1: Port 1 Special Function Select 1 Register (SFR 8Fh, reset value 00h) Table 31. P1SFS0 and P1SFS1 Details Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P3SFS7 P3SFS6 P3SFS5 P3SFS4 P3SFS3 P3SFS2 P3SFS1 P3SFS0 Details Port 3 Pin R/W Default Port Function Alternate Port Function P3SFS[i] - 0; Port 3 Pin, i = 0..7 P3SFS[i] - 1; Port 3 Pin, i = 0..7 0 R,W GPIO UART0 Receive, RXD0 1 R,W GPIO UART0 Transmit, TXD0 2 R,W GPIO Ext Intr 0/Timer 0 Gate, EXT0INT/TG0 3 R,W GPIO Ext Intr 1/Timer 1 Gate, EXT1INT/TG1 4 R,W GPIO Counter 0 Input, C0 5 R,W GPIO Counter 0 Input, C1 6 R,W GPIO I 2C Data, I2CSDA 7 R,W GPIO I 2C Clock, I2CCL Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P1SF07 P1SF06 P1SF05 P1SF04 P1SF03 P1SF02 P1SF01 P1SF00 Details Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P1SF17 P1SF16 P1SF15 P1SF14 P1SF13 P1SF12 P1SF11 P1SF10 Port 1 Pin R/W Default Port Function Alternate 1 Port Function Alternate 2 Port Function P1SFS0[i] = 0 P1SFS1[i] = x P1SFS0[i] = 1 P1SFS1[i] = 0 P1SFS0[i] = 1 P1SFS1[i] = 1 Port 1 Pin, i = 0.. 7 Port 1 Pin, i = 0.. 7 Port 1 Pin, i = 0.. 7 0 R,W GPIO Timer 2 Count Input, T2 ADC Chn 0 Input, ADC0 1 R,W GPIO Timer 2 Trigger Input, TX2 ADC Chn 1 Input, ADC1 2 R,W GPIO UART1 Receive, RXD1 ADC Chn 2 Input, ADC2 3 R,W GPIO UART1 Transmit, TXD1 ADC Chn 3 Input, ADC3 4 R,W GPIO SPI Clock, SPICLK ADC Chn 4 Input, ADC4 5 R,W GPIO SPI Receive, SPIRXD ADC Chn 5 Input, ADC5 6 R,W GPIO SPI Transmit, SPITXD ADC Chn 6 Input, ADC6 7 R,W GPIO SPI Select, SPISEL_ ADC Chn 7 Input, ADC761/231 uPSD33xx Table 32. P4SFS0: Port 4 Special Function Select 0 Register (SFR 92h, reset value 00h) Table 33. P4SFS1: Port 4 Special Function Select 1 Register (SFR 93h, reset value 00h) Table 34. P4SFS0 and P4SFS1 Details Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P4SF07 P4SF06 P4SF05 P4SF04 P4SF03 P4SF02 P4SF01 P4SF00 Details Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 P4SF17 P4SF16 P4SF15 P4SF14 P4SF13 P4SF12 P4SF11 P4SF10 Port 4 Pin R/W Default Port Function Alternate 1 Port Function Alternate 2 Port Function P4SFS0[i] = 0 P4SFS1[i] = x P4SFS0[i] = 1 P4SFS1[i] = 0 P4SFS0[i] = 1 P4SFS1[i] = 1 Port 4 Pin, i = 0.. 7 Port 4 Pin, i = 0.. 7 Port 4 Pin, i = 0.. 7 0 R,W GPIO PCA0 Module 0, TCM0 Timer 2 Count Input, T2 1 R,W GPIO PCA0 Module 1, TCM1 Timer 2 Trigger Input, TX2 2 R,W GPIO PCA0 Module 2, TCM2 UART1 Receive, RXD1 3 R,W GPIO PCA0 Ext Clock, PCACLK0 UART1 Transmit, TXD1 4 R,W GPIO PCA1 Module 3, TCM3 SPI Clock, SPICLK 5 R,W GPIO PCA1 Module 4, TCM4 SPI Receive, SPIRXD 6 R,W GPIO PCA1 Module 5, TCM5 SPI Transmit, SPITXD 7 R,W GPIO PCA1 Ext Clock, PCACLK1 SPI Select, SPISEL_uPSD33xx 62/231 MCU BUS INTERFACE The MCU Module has a programmable bus interface. It is based on a standard 8032 bus, with eight data signals multiplexed with eight low-order address signals (AD[7:0]). It also has eight high-order non-multiplexed address signals (A[15:8]). Time multiplexing is controlled by the address latch signal, ALE. This bus connects the MCU Module to the PSD Module, and also connects to external pins only on 80-pin devices. See the AC specifications section at the end of this document for external bus timing on 80-pin devices. Four types of data transfers are supported, each transfer is to/from a memory location external to the MCU Module: – Code Fetch cycle using the PSEN signal: fetch a code byte for execution – Code Read cycle using PSEN: read a code byte using the MOVC (Move Constant) instruction – XDATA Read cycle using the RD signal: read a data byte using the MOVX (Move eXternal) instruction – XDATA Write cycle using the WR signal: write a data byte using the MOVX instruction The number of MCU_CLK periods for these transfer types can be specified at runtime by firmware writing to the SFR register named BUSCON (Table 35., page 63). Here, the number of MCU_CLK clock pulses per bus cycle are specified to maximize performance. Important: By default, the BUSCON Register is loaded with long bus cycle times (6 MCU_CLK periods) after a reset condition. It is important that the post-reset initialization firmware sets the bus cycle times appropriately to get the most performance, according to Table 36., page 64. Keep in mind that the PSD Module has a faster Turbo Mode (default) and a slower but less power consuming Non-Turbo Mode. The bus cycle times must be programmed in BUSCON to optimize for each mode as shown in Table 36., page 64. See PLD NonTurbo Mode, page 192 for more details. Bus Read Cycles (PSEN or RD) When the PSEN signal is used to fetch a byte of code, the byte is read from the PSD Module or external device and it enters the MCU Pre-Fetch Queue (PFQ). When PSEN is used during a MOVC instruction, or when the RD signal is used to read a byte of data, the byte is routed directly to the MCU, bypassing the PFQ. Bits in the BUSCON Register determine the number of MCU_CLK periods per bus cycle for each of these kinds of transfers to all address ranges. It is not possible to specify in the BUSCON Register a different number of MCU_CLK periods for various address ranges. For example, the user cannot specify 4 MCU_CLK periods for RD read cycles to one address range on the PSD Module, and 5 MCU_CLK periods for RD read cycles to a different address range on an external device. However, the user can specify one number of clock periods for PSEN read cycles and a different number of clock periods for RD read cycles. Note 1: A PSEN bus cycle in progress may be aborted before completion if the PFQ and Branch Cache (BC) determines the current code fetch cycle is not needed. Note 2: Whenever the same number of MCU_CLK periods is specified in BUSCON for both PSEN and RD cycles, the bus cycle timing is typically identical for each of these types of bus cycles. In this case, the only time PSEN read cycles are longer than RD read cycles is when the PFQ issues a stall while reloading. PFQ stalls do not affect RD read cycles. By comparison, in many traditional 8051 architectures, RD bus cycles are always longer than PSEN bus cycles. Bus Write Cycles (WR) When the WR signal is used, a byte of data is written directly to the PSD Module or external device, no PFQ or caching is involved. Bits in the BUSCON Register determine the number of MCU_CLK periods for bus write cycles to all addresses. It is not possible to specify in BUSCON a different number of MCU_CLK periods for writes to various address ranges. Controlling the PFQ and BC The BUSCON Register allows firmware to enable and disable the PFQ and BC at run-time. Sometimes it may be desired to disable the PFQ and BC to ensure deterministic execution. The dynamic action of the PFQ and BC may cause varying program execution times depending on the events that happen prior to a particular section of code of interest. For this reason, it is not recommended to implement timing loops in firmware, but instead use one of the many hardware timers in the uPSD33xx. By default, the PFQ and BC are enabled after a reset condition. Important: Disabling the PFQ or BC will seriously reduce MCU performance.63/231 uPSD33xx Table 35. BUSCON: Bus Control Register (SFR 9Dh, reset value EBh) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EPFQ EBC WRW[1:0] RDW[1:0] CW[1:0] Details Bit Symbol R/W Definition 7 EPFQ R,W Enable Pre-Fetch Queue 0 = PFQ is disabled 1 = PFQ is enabled (default) 6 EBC R,W Enable Branch Cache 0 = BC is disabled 1 = BC is enabled (default) 5:4 WRW[1:0] R,W WR Wait, number of MCU_CLK periods for WR write bus cycle during any MOVX instruction 00b: 4 clock periods 01b: 5 clock periods 10b: 6 clock periods (default) 11b: 7 clock periods 3:2 RDW[1:0] R,W RD Wait, number of MCU_CLK periods for RD read bus cycle during any MOVX instruction 00b: 4 clock periods 01b: 5 clock periods 10b: 6 clock periods (default) 11b: 7 clock periods 1:0 CW[1:0] R,W Code Wait, number of MCU_CLK periods for PSEN read bus cycle during any code byte fetch or during any MOVC code byte read instruction. Periods will increase with PFQ stall 00b: 3 clock periods - exception, for MOVC instructions this setting results 4 clock periods 01b: 4 clock periods 10b: 5 clock periods 11b: 6 clock periods (default)uPSD33xx 64/231 Table 36. Number of MCU_CLK Periods Required to Optimize Bus Transfer Rate Note: 1. VDD of the PSD Module 2. “Turbo mode PSD” means that the PSD Module is in the faster, Turbo mode (default condition). A PSD Module in Non-Turbo mode is slower, but consumes less current. See PSD Module section, titled “PLD Non-Turbo Mode” for details. MCU Clock Frequency, MCU_CLK (fMCU) CW[1:0] Clk Periods RDW[1:0] Clk Periods WRW[1:0] Clk Periods 3.3V(1) 5V(1) 3.3V(1) 5V(1) 3.3V(1) 5V(1) 40MHz, Turbo mode PSD(2) 545454 40MHz, Non-Turbo mode PSD 6 5 6 5 6 5 36MHz, Turbo mode PSD 545454 36MHz, Non-Turbo mode PSD 6 4 6 4 6 4 32MHz, Turbo mode PSD 545454 32MHz, Non-Turbo mode PSD 5 4 5 4 5 4 28MHz, Turbo mode PSD 434444 28MHz, Non-Turbo mode PSD 5 4 5 4 5 4 24MHz, Turbo mode PSD 434444 24MHz, Non-Turbo mode PSD 4 3 4 4 4 4 20MHz and below, Turbo mode PSD 334444 20MHz and below, Non-Turbo mode PSD 3 3 4 4 4 465/231 uPSD33xx SUPERVISORY FUNCTIONS Supervisory circuitry on the MCU Module will issue an internal reset signal to the MCU Module and simultaneously to the PSD Module as a result of any of the following four events: – The external RESET_IN pin is asserted – The Low Voltage Detect (LVD) circuitry has detected a voltage on VCC below a specific threshold (power-on or voltage sags) – The JTAG Debug interface has issued a reset command – The Watch Dog Timer (WDT) has timed out The resulting internal reset signal, MCU_RESET, will force the 8032 into a known reset state while asserted, and then 8032 program execution will jump to the reset vector at program address 0000h just after MCU_RESET is deasserted. The MCU Module will also assert an active low internal reset signal, RESET, to the PSD Module. If needed, the signal RESET can be driven out to external system components through any PLD output pin on the PSD Module. When driving this “RESET_OUT” signal from a PLD output, the user can choose to make it either active-high or activelow logic, depending on the PLD equation. External Reset Input Pin, RESET_IN The RESET_IN pin can be connected directly to a mechanical reset switch or other device which pulls the signal to ground to invoke a reset. RESET_IN is pulled up internally and enters a Schmitt trigger input buffer with a voltage hysteresis of VRST_HYS for immunity to the effects of slow signal rise and fall times, as shown in Figure 20. RESET_IN is also filtered to reject a voltage spike less than a duration of tRST_FIL. The RESET_IN signal must be maintained at a logic '0' for at least a duration of tRST_LO_IN while the oscillator is running. The resulting MCU_RESET signal will last only as long as the RESET_IN signal is active (it is not stretched). Refer to the Supervisor AC specifications in Table 150., page 221 at the end of this document for these parameter values. Figure 20. Supervisor Reset Generation S Q MCU Clock Sync Noise Filter VCC PIN PULL-UP DELAY, tRST_ACTV R AI09603 RESET_IN RESET to PSD Module MCU_RESET to MCU and Peripherals LVD JTAG Debug WDTuPSD33xx 66/231 Low VCC Voltage Detect, LVD An internal reset is generated by the LVD circuit when VCC drops below the reset threshold, VLV_THRESH. After VCC returns to the reset threshold, the MCU_RESET signal will remain asserted for tRST_ACTV before it is released. The LVD circuit is always enabled (cannot be disabled by SFR), even in Idle Mode and Power-down Mode. The LVD input has a voltage hysteresis of VRST_HYS and will reject voltage spikes less than a duration of tRST_FIL. Important: The LVD voltage threshold is VLV_THRESH, suitable for monitoring both the 3.3V VCC supply on the MCU Module and the 3.3V VDD supply on the PSD Module for 3.3V uPSD33xxV devices, since these supplies are one in the same on the circuit board. However, for 5V uPSD33xx devices, VLV_THRESH is not suitable for monitoring the 5V VDD voltage supply (VLV_THRESH is too low), but good for monitoring the 3.3V VCC supply. In the case of 5V uPSD33xx devices, an external means is required to monitor the separate 5V VDD supply, if desired. Power-up Reset At power up, the internal reset generated by the LVD circuit is latched as a logic '1' in the POR bit of the SFR named PCON (Table 24., page 50). Software can read this bit to determine whether the last MCU reset was the result of a power up (cold reset) or a reset from some other condition (warm reset). This bit must be cleared with software. JTAG Debug Reset The JTAG Debug Unit can generate a reset for debugging purposes. This reset source is also available when the MCU is in Idle Mode and PowerDown Mode (the JTAG debugger can be used to exit these modes). Watchdog Timer, WDT When enabled, the WDT will generate a reset whenever it overflows. Firmware that is behaving correctly will periodically clear the WDT before it overflows. Run-away firmware will not be able to clear the WDT, and a reset will be generated. By default, the WDT is disabled after each reset. Note: The WDT is not active during Idle mode or Power-down Mode. There are two SFRs that control the WDT, they are WDKEY (Table 37., page 68) and WDRST (Table 38., page 68). If WDKEY contains 55h, the WDT is disabled. Any value other than 55h in WDKEY will enable the WDT. By default, after any reset condition, WDKEY is automatically loaded with 55h, disabling the WDT. It is the responsibility of initialization firmware to write some value other than 55h to WDKEY after each reset if the WDT is to be used. The WDT consists of a 24-bit up-counter (Figure 21), whose initial count is 000000h by default after every reset. The most significant byte of this counter is controlled by the SFR, WDRST. After being enabled by WDKEY, the 24-bit count is increased by 1 for each MCU machine cycle. When the count overflows beyond FFFFFh (224 MCU machine cycles), a reset is issued and the WDT is automatically disabled (WDKEY = 55h again). To prevent the WDT from timing out and generating a reset, firmware must repeatedly write some value to WDRST before the count reaches FFFFFh. Whenever WDRST is written, the upper 8 bits of the 24-bit counter are loaded with the written value, and the lower 16 bits of the counter are cleared to 0000h. The WDT time-out period can be adjusted by writing a value other that 00h to WDRST. For example, if WDRST is written with 04h, then the WDT will start counting 040000h, 040001h, 040002h, and so on for each MCU machine cycle. In this example, the WDT time-out period is shorter than if WDRST was written with 00h, because the WDT is an up-counter. A value for WDRST should never be written that results in a WDT time-out period shorter than the time required to complete the longest code task in the application, else unwanted WDT overflows will occur. Figure 21. Watchdog Counter 23 15 7 0 8-bits 8-bits 8-bits SFR, WDRST AI0960467/231 uPSD33xx The formula to determine WDT time-out period is: WDTPERIOD = tMACH_CYC x NOVERFLOW NOVERFLOW is the number of WDT up-counts required to reach FFFFFFh. This is determined by the value written to the SFR, WDRST. tMACH_CYC is the average duration of one MCU machine cycle. By default, an MCU machine cycle is always 4 MCU_CLK periods for uPSD33xx, but the following factors can sometimes add more MCU_CLK periods per machine cycle: – The number of MCU_CLK periods assigned to MCU memory bus cycles as determined in the SFR, BUSCON. If this setting is greater than 4, then machine cycles have additional MCU_CLK periods during memory transfers. – Whether or not the PFQ/BC circuitry issues a stall during a particular MCU machine cycle. A stall adds more MCU_CLK periods to a machine cycle until the stall is removed. tMACH_CYC is also affected by the absolute time of a single MCU_CLK period. This number is fixed by the following factors: – Frequency of the external crystal, resonator, or oscillator: (fOSC) – Bit settings in the SFR CCON0, which can divide fOSC and change MCU_CLK As an example, assume the following: 1. fOSC is 40MHz, thus its period is 25ns. 2. CCON0 is 10h, meaning no clock division, so the period of MCU_CLK is also 25ns. 3. BUSCON is C1h, meaning the PFQ and BC are enabled, and each MCU memory bus cycle is 4 MCU_CLK periods, adding no additional MCU_CLK periods to MCU machine cycles during memory transfers. 4. Assume there are no stalls from the PFQ/BC. In reality, there are occational stalls but their occurance has minimal impact on WDT timeout period. 5. WDRST contains 00h, meaning a full 224 upcounts are required to reach FFFFFh and generate a reset. In this example, tMACH_CYC = 100ns (4 MCU_CLK periods x 25ns) NOVERFLOW = 224 = 16777216 up-counts WDTPERIOD = 100ns X 16777216 = 1.67 seconds The actual value will be slightly longer due to PFQ/ BC. Firmware Example: The following 8051 assembly code illustrates how to operate the WDT. A simple statement in the reset initialization firmware enables the WDT, and then a periodic write to clear the WDT in the main firmware is required to keep the WDT from overflowing. This firmware is based on the example above (40MHz fOSC, CCON0 = 10h, BUSCON = C1h). For example, in the reset initialization firmware (the function that executes after a jump to the reset vector): Somewhere in the flow of the main program, this statement will execute periodically to reset the WDT before it’s time-out period of 1.67 seconds. For example: MOV AE, #AA ; enable WDT by writing value to ; WDKEY other than 55h MOV A6, #00 ; reset WDT, loading 000000h. ; Counting will automatically ; resume as long as 55h in not in ; WDKEYuPSD33xx 68/231 Table 37. WDKEY: Watchdog Timer Key Register (SFR AEh, reset value 55h) Table 38. WDRST: Watchdog Timer Reset Counter Register (SFR A6h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 WDKEY[7:0] Details Bit Symbol R/W Definition [7:0] WDKEY W 55h disables the WDT from counting. 55h is automatically loaded in this SFR after any reset condition, leaving the WDT disabled by default. Any value other than 55h written to this SFR will enable the WDT, and counting begins. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 WDRST[7:0] Details Bit Symbol R/W Definition [7:0] WDRST W This SFR is the upper byte of the 24-bit WDT up-counter. Writing this SFR sets the upper byte of the counter to the written value, and clears the lower two bytes of the counter to 0000h. Counting begins when WDKEY does not contain 55h.69/231 uPSD33xx STANDARD 8032 TIMER/COUNTERS There are three 8032-style 16-bit Timer/Counter registers (Timer 0, Timer 1, Timer 2) that can be configured to operate as timers or event counters. There are two additional 16-bit Timer/Counters in the Programmable Counter Array (PCA), seePCA Block, page 123 for details. Standard Timer SFRs Timer 0 and Timer 1 have very similar functions, and they share two SFRs for control: ■ TCON (Table 39., page 70) ■ TMOD (Table 40., page 72). Timer 0 has two SFRs that form the 16-bit counter, or that can hold reload values, or that can scale the clock depending on the timer/counter mode: ■ TH0 is the high byte, address 8Ch ■ TL0 is the low byte, address 8Ah Timer 1 has two similar SFRs: ■ TH1 is the high byte, address 8Dh ■ TL1 is the low byte, address 8Bh Timer 2 has one control SFR: ■ T2CON (Table 41., page 75) Timer 2 has two SFRs that form the 16-bit counter, and perform other functions: ■ TH2 is the high byte, address CDh ■ TL2 is the low byte, address CCh Timer 2 has two SFRs for capture and reload: ■ RCAP2H is the high byte, address CBh ■ RCAP2L is the low byte, address CAh Clock Sources When enabled in the “Timer” function, the Registers THx and TLx are incremented every 1/12 of the oscillator frequency (fOSC). This timer clock source is not effected by MCU clock dividers in the CCON0, stalls from PFQ/BC, or bus transfer cycles. Timers are always clocked at 1/12 of fOSC. When enabled in the “Counter” function, the Registers THx and TLx are incremented in response to a 1-to-0 transition sampled at their corresponding external input pin: pin C0 for Timer 0; pin C1 for Timer 1; or pin T2 for Timer 2. In this function, the external clock input pin is sampled by the counter at a rate of 1/12 of fOSC. When a logic '1' is determined in one sample, and a logic '0' in the next sample period, the count is incremented at the very next sample period (period1: sample=1, period2: sample=0, period3: increment count while continuing to sample). This means the maximum count rate is 1/24 of the fOSC. There are no restrictions on the duty cycle of the external input signal, but to ensure that a given level is sampled at least once before it changes, it should be active for at least one full sample period (12 / fOSC, seconds). However, if MCU_CLK is divided by the SFR CCON0, then the sample period must be calculated based on the resultant, longer, MCU_CLK frequency. In this case, an external clock signal on pins C0, C1, or T2 should have a duration longer than one MCU machine cycle, tMACH_CYC. The section, Watchdog Timer, WDT, page 66 explains how to estimate tMACH_CYC.uPSD33xx 70/231 Table 39. TCON: Timer Control Register (SFR 88h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 TF1 TR1 TF0 TR0 IE1 IT1 IE0 IT0 Details Bit Symbol R/W Definition 7 TF1 R Timer 1 overflow interrupt flag. Set by hardware upon overflow. Automatically cleared by hardware after firmware services the interrupt for Timer 1. 6 TR1 R,W Timer 1 run control. 1 = Timer/Counter 1 is on, 0 = Timer/Counter 1 is off. 5 TF0 R Timer 0 overflow interrupt flag. Set by hardware upon overflow. Automatically cleared by hardware after firmware services the interrupt for Timer 0. 4 TR0 R,W Timer 0 run control. 1 = Timer/Counter 0 is on, 0 = Timer/Counter 0 is off. 3 IE1 R Interrupt flag for external interrupt pin, EXTINT1. Set by hardware when edge is detected on pin. Automatically cleared by hardware after firmware services EXTINT1 interrupt. 2 IT1 R,W Trigger type for external interrupt pin EXTINT1. 1 = falling edge, 0 = lowlevel 1 IE0 R Interrupt flag for external interrupt pin, EXTINT0. Set by hardware when edge is detected on pin. Automatically cleared by hardware after firmware services EXTINT0 interrupt. 0 IT0 R,W Trigger type for external interrupt pin EXTINT0. 1 = falling edge, 0 = lowlevel71/231 uPSD33xx SFR, TCON Timer 0 and Timer 1 share the SFR, TCON, that controls these timers and provides information about them. See Table 39., page 70. Bits IE0 and IE1 are not related to Timer/Counter functions, but they are set by hardware when a signal is active on one of the two external interrupt pins, EXTINT0 and EXTINT1. For system information on all of these interrupts, see Table 16., page 41, Interrupt Summary. Bits IT0 and IT1 are not related to Timer/Counter functions, but they control whether or not the two external interrupt input pins, EXTINT0 and EXTINT1 are edge or level triggered. SFR, TMOD Timer 0 and Timer 1 have four modes of operation controlled by the SFR named TMOD (Table 40). Timer 0 and Timer 1 Operating Modes The “Timer” or “Counter” function is selected by the C/T control bits in TMOD. The four operating modes are selected by bit-pairs M[1:0] in TMOD. Modes 0, 1, and 2 are the same for both Timer/ Counters. Mode 3 is different. Mode 0. Putting either Timer/Counter into Mode 0 makes it an 8-bit Counter with a divide-by-32 prescaler. Figure 22 shows Mode 0 operation as it applies to Timer 1 (same applies to Timer 0). In this mode, the Timer Register is configured as a 13-bit register. As the count rolls over from all '1s' to all '0s,' it sets the Timer Interrupt flag TF1. The counted input is enabled to the Timer when TR1 = 1 and either GATE = 0 or EXTINT1 = 1. (Setting GATE = 1 allows the Timer to be controlled by external input pin, EXTINT1, to facilitate pulse width measurements). TR1 is a control bit in the SFR, TCON. GATE is a bit in the SFR, TMOD. The 13-bit register consists of all 8 bits of TH1 and the lower 5 bits of TL1. The upper 3 bits of TL1 are indeterminate and should be ignored. Setting the run flag, TR1, does not clear the registers. Mode 0 operation is the same for the Timer 0 as for Timer 1. Substitute TR0, TF0, C0, TL0, TH0, and EXTINT0 for the corresponding Timer 1 signals in Figure 22. There are two different GATE Bits, one for Timer 1 and one for Timer 0. Mode 1. Mode 1 is the same as Mode 0, except that the Timer Register is being run with all 16 bits. Mode 2. Mode 2 configures the Timer Register as an 8-bit Counter (TL1) with automatic reload, as shown in Figure 23., page 73. Overflow from TL1 not only sets TF1, but also reloads TL1 with the contents of TH1, which is preset with firmware. The reload leaves TH1 unchanged. Mode 2 operation is the same for Timer/Counter 0. Mode 3. Timer 1 in Mode 3 simply holds its count. The effect is the same as setting TR1 = 0. Timer 0 in Mode 3 establishes TL0 and TH0 as two separate counters. The logic for Mode 3 on Timer 0 is shown in Figure 24., page 73. TL0 uses the Timer 0 control Bits: C/T, GATE, TR0, and TF0, as well as the pin EXTINT0. TH0 is locked into a timer function (counting at a rate of 1/12 fOSC) and takes over the use of TR1 and TF1 from Timer 1. Thus, TH0 now controls the “Timer 1“ interrupt flag. Mode 3 is provided for applications requiring an extra 8-bit timer on the counter (see Figure 24., page 73). With Timer 0 in Mode 3, a uPSD33xx device can look like it has three Timer/ Counters (not including the PCA). When Timer 0 is in Mode 3, Timer 1 can be turned on and off by switching it out of and into its own Mode 3, or can still be used by the serial port as a baud rate generator, or in fact, in any application not requiring an interrupt.uPSD33xx 72/231 Table 40. TMOD: Timer Mode Register (SFR 89h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 GATE C/T M[1:0] GATE C/T M[1:0] Details Bit Symbol R/W Timer Definition (T/C is abbreviation for Timer/Counter) 7 GATE R,W Timer 1 Gate control. When GATE = 1, T/C is enabled only while pin EXTINT1 is '1' and the flag TR1 is '1.' When GATE = 0, T/C is enabled whenever the flag TR1 is '1.' 6 C/T R,W Counter or Timer function select. When C/T = 0, function is timer, clocked by internal clock. C/T = 1, function is counter, clocked by signal sampled on external pin, C1. [5:4] M[1:0] R,W Mode Select. 00b = 13-bit T/C. 8 bits in TH1 with TL1 as 5-bit prescaler. 01b = 16-bit T/C. TH1 and TL1 are cascaded. No prescaler. 10b = 8-bit auto-reload T/C. TH1 holds a constant and loads into TL1 upon overflow. 11b = Timer Counter 1 is stopped. 3 GATE R,W Timer 0 Gate control. When GATE = 1, T/C is enabled only while pin EXTINT0 is '1' and the flag TR0 is '1.' When GATE = 0, T/C is enabled whenever the flag TR0 is '1.' 2 C/T R,W Counter or Timer function select. When C/T = 0, function is timer, clocked by internal clock. C/T = 1, function is counter, clocked by signal sampled on external pin, C0. [1:0] M[1:0] R,W Mode Select. 00b = 13-bit T/C. 8 bits in TH0 with TL0 as 5-bit prescaler. 01b = 16-bit T/C. TH0 and TL0 are cascaded. No prescaler. 10b = 8-bit auto-reload T/C. TH0 holds a constant and loads into TL0 upon overflow. 11b = TL0 is 8-bit T/C controlled by standard Timer 0 control bits. TH0 is a separate 8-bit timer that uses Timer 1 control bits.73/231 uPSD33xx Figure 22. Timer/Counter Mode 0: 13-bit Counter Figure 23. Timer/Counter Mode 2: 8-bit Auto-reload Figure 24. Timer/Counter Mode 3: Two 8-bit Counters AI06622 f OSC TF1 Interrupt Gate TR1 EXTINT1 pin C1 pin Control TL1 (5 bits) TH1 (8 bits) C/T = 0 C/T = 1 ÷ 12 AI06623 f OSC TF1 Interrupt Gate TR1 EXTINT1 pin C1 pin Control TL1 (8 bits) TH1 (8 bits) C/T = 0 C/T = 1 ÷ 12 AI06624 f OSC TF0 Interrupt Gate TR0 EXTINT0 pin C0 pin Control TL0 (8 bits) C/T = 0 C/T = 1 ÷ 12 f OSC TF1 Interrupt Control TH0 (8 bits) ÷ 12 TR1uPSD33xx 74/231 Timer 2 Timer 2 can operate as either an event timer or as an event counter. This is selected by the bit C/T2 in the SFR named, T2CON (Table 41., page 75). Timer 2 has three operating modes selected by bits in T2CON, according to Table 42., page 76. The three modes are: ■ Capture mode ■ Auto re-load mode ■ Baud rate generator mode Capture Mode. In Capture Mode there are two options which are selected by the bit EXEN2 in T2CON. Figure 25., page 79 illustrates Capture mode. If EXEN2 = 0, then Timer 2 is a 16-bit timer if C/T2 = 0, or it’s a 16-bit counter if C/T2 = 1, either of which sets the interrupt flag bit TF2 upon overflow. If EXEN2 = 1, then Timer 2 still does the above, but with the added feature that a 1-to-0 transition at external input pin T2X causes the current value in the Timer 2 registers, TL2 and TH2, to be captured into Registers RCAP2L and RCAP2H, respectively. In addition, the transition at T2X causes interrupt flag bit EXF2 in T2CON to be set. Either flag TF2 or EXF2 will generate an interrupt and the MCU must read both flags to determine the cause. Flags TF2 and EXF2 are not automatically cleared by hardware, so the firmware servicing the interrupt must clear the flag(s) upon exit of the interrupt service routine. Auto-reload Mode. In the Auto-reload Mode, there are again two options, which are selected by the bit EXEN2 in T2CON. Figure 26., page 79 shows Auto-reload mode. If EXEN2 = 0, then when Timer 2 counts up and rolls over from FFFFh it not only sets the interrupt flag TF2, but also causes the Timer 2 registers to be reloaded with the 16-bit value contained in Registers RCAP2L and RCAP2H, which are preset with firmware. If EXEN2 = 1, then Timer 2 still does the above, but with the added feature that a 1-to-0 transition at external input T2X will also trigger the 16-bit reload and set the interrupt flag EXF2. Again, firmware servicing the interrupt must read both TF2 and EXF2 to determine the cause, and clear the flag(s) upon exit. Note: The uPSD33xx does not support selectable up/down counting in Auto-reload mode (this feature was an extension to the original 8032 architecture).75/231 uPSD33xx Table 41. T2CON: Timer 2 Control Register (SFR C8h, reset value 00h) Note: 1. The RCLK1 and TCLK1 Bits in the SFR named PCON control UART1, and have the exact same function as RCLK and TCLK. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 TF2 EXF2 RCLK TCLK EXEN2 TR2 C/T2 CP/RL2 Details Bit Symbol R/W Definition 7 TF2 R,W Timer 2 flag, causes interrupt if enabled. TF2 is set by hardware upon overflow. Must be cleared by firmware. TF2 will not be set when either RCLK or TCLK =1. 6 EXF2 R,W Timer 2 flag, causes interrupt if enabled. EXF2 is set when a capture or reload is caused by a negative transition on T2X pin and EXEN2 = 1. EXF2 must be cleared by firmware. 5 RCLK(1) R,W UART0 Receive Clock control. When RCLK = 1, UART0 uses Timer 2 overflow pulses for its receive clock in Modes 1 and 3. RCLK=0, Timer 1 overflow is used for its receive clock 4 TCLK(1) R,W UART0 Transmit Clock control. When TCLK = 1, UART0 uses Timer 2 overflow pulses for its transmit clock in Modes 1 and 3. TCLK=0, Timer 1 overflow is used for transmit clock 3 EXEN2 R,W Timer 2 External Enable. When EXEN2 = 1, capture or reload results when negative edge on pin T2X occurs. EXEN2 = 0 causes Timer 2 to ignore events at pin T2X. 2 TR2 R,W Timer 2 run control. 1 = Timer/Counter 2 is on, 0 = Timer Counter 2 is off. 1 C/T2 R,W Counter or Timer function select. When C/T2 = 0, function is timer, clocked by internal clock. When C/T2 = 1, function is counter, clocked by signal sampled on external pin, T2. 0 CP/RL2 R,W Capture/Reload. When CP/RL2 = 1, capture occurs on negative transition at pin T2X if EXEN2 = 1. When CP/RL2 = 0, auto-reload occurs when Timer 2 overflows, or on negative transition at pin T2X when EXEN2=1. When RCLK = 1 or TCLK = 1, CP/RL2 is ignored, and Timer 2 is forced to autoreload upon Timer 2 overflowuPSD33xx 76/231 Table 42. Timer/Counter 2 Operating Modes Note: ↓ = falling edge Mode Bits in T2CON SFR Pin T2X Remarks Input Clock RCLK or TCLK CP/ RL2 TR2 EXEN2 Timer, Internal Counter, External (Pin T2, P1.0) 16-bit Autoreload 001 0 x reload [RCAP2H, RCAP2L] to [TH2, TL2] upon overflow (up counting) fOSC/12 MAX fOSC/24 001 1 ↓ reload [RCAP2H, RCAP2L] to [TH2, TL2] at falling edge on pin T2X 16-bit Capture 0 1 1 0 x 16-bit Timer/Counter (up counting) fOSC/12 MAX fOSC/24 011 1 ↓ Capture [TH2, TL2] and store to [RCAP2H, RCAP2L] at falling edge on pin T2X Baud Rate Generator 1 x 1 0 x No overflow interrupt request (TF2) fOSC/2 – 1x1 1 ↓ Extra Interrupt on pin T2X, sets TF2 Off x x 0 x x Timer 2 stops – –77/231 uPSD33xx Baud Rate Generator Mode. The RCLK and/or TCLK Bits in the SFR T2CON allow the transmit and receive baud rates on serial port UART0 to be derived from either Timer 1 or Timer 2. Figure 27., page 80 illustrates Baud Rate Generator Mode. When TCLK = 0, Timer 1 is used as UART0’s transmit baud generator. When TCLK = 1, Timer 2 will be the transmit baud generator. RCLK has the same effect for UART0’s receive baud rate. With these two bits, UART0 can have different receive and transmit baud rates - one generated by Timer 1, the other by Timer 2. Note: Bits RCLK1 and TCLK1 in the SFR named PCON (see PCON: Power Control Register (SFR 87h, reset value 00h), page 50) have identical functions as RCLK and TCLK but they apply to UART1 instead. For simplicity in the following discussions about baud rate generation, no suffix will be used when referring to SFR registers and bits related to UART0 or UART1, since each UART interface has identical operation. Example, TCLK or TCLK1 will be referred to as just TCLK. The Baud Rate Generator Mode is similar to the Auto-reload Mode, in that a roll over in TH2 causes the Timer 2 registers, TH2 and TL2, to be reloaded with the 16-bit value in Registers RCAP2H and RCAP2L, which are preset with firmware. The baud rates in UART Modes 1 and 3 are determined by Timer 2’s overflow rate as follows: UART Mode 1,3 Baud Rate = Timer 2 Overflow Rate / 16 The timer can be configured for either “timer” or “counter” operation. In the most typical applications, it is configured for “timer” operation (C/T2 = 0). “Timer” operation is a little different for Timer 2 when it's being used as a baud rate generator. In this case, the baud rate is given by the formula: UART Mode 1,3 Baud Rate = fOSC/(32 x [65536 – [RCAP2H, RCAP2L])) where [RCAP2H, RCAP2L] is the content of the SFRs RCAP2H and RCAP2L taken as a 16-bit unsigned integer. A roll-over in TH2 does not set TF2, and will not generate an interrupt. Therefore, the Timer Interrupt does not have to be disabled when Timer 2 is in the Baud Rate Generator Mode. If EXEN2 is set, a 1-to-0 transition on pin T2X will set the Timer 2 interrupt flag EXF2, but will not cause a reload from RCAP2H and RCAP2L to TH2 and TL2. Thus when Timer 2 is in use as a baud rate generator, the pin T2X can be used as an extra external interrupt, if desired. When Timer 2 is running (TR2 = 1) in a “timer” function in the Baud Rate Generator Mode, firmware should not read or write TH2 or TL2. Under these conditions the results of a read or write may not be accurate. However, SFRs RCAP2H and RCAP2L may be read, but should not be written, because a write might overlap a reload and cause write and/or reload errors. Timer 2 should be turned off (clear TR2) before accessing Timer 2 or Registers RCAP2H and RCAP2L, in this case. Table 43., page 78 shows commonly used baud rates and how they can be obtained from Timer 2, with T2CON = 34h.uPSD33xx 78/231 Table 43. Commonly Used Baud Rates Generated from Timer2 (T2CON = 34h) fOSC MHz Desired Baud Rate Timer 2 SFRs Resulting Baud Rate Baud Rate Deviation RCAP2H (hex) RCAP2L(hex) 40.0 115200 FF F5 113636 -1.36% 40.0 57600 FF EA 56818 -1.36% 40.0 28800 FF D5 29070 0.94% 40.0 19200 FF BF 19231 0.16% 40.0 9600 FF 7E 9615 0.16% 36.864 115200 FF F6 115200 0 36.864 57600 FF EC 57600 0 36.864 28800 FF D8 28800 0 36.864 19200 FF C4 19200 0 36.864 9600 FF 88 9600 0 36.0 28800 FF D9 28846 0.16% 36.0 19200 FF C5 19067 -0.69% 36.0 9600 FF 8B 9615 0.16% 24.0 57600 FF F3 57692 0.16% 24.0 28800 FF E6 28846 0.16% 24.0 19200 FF D9 19231 0.16% 24.0 9600 FF B2 9615 0.16% 12.0 28800 FF F3 28846 0.16% 12.0 9600 FF D9 9615 0.16% 11.0592 115200 FF FD 115200 0 11.0592 57600 FF FA 57600 0 11.0592 28800 FF F4 28800 0 11.0592 19200 FF EE 19200 0 11.0592 9600 FF DC 9600 0 3.6864 115200 FF FF 115200 0 3.6864 57600 FF FE 57600 0 3.6864 28800 FF FC 28800 0 3.6864 19200 FF FA 19200 0 3.6864 9600 FF F4 9600 0 1.8432 19200 FF FD 19200 0 1.8432 9600 FF FA 9600 079/231 uPSD33xx Figure 25. Timer 2 in Capture Mode Figure 26. Timer 2 in Auto-Reload Mode AI06625 f OSC TF2 Capture TR2 T2 pin Control TL2 (8 bits) TH2 (8 bits) C/T2 = 0 C/T2 = 1 ÷ 12 EXP2 Control EXEN2 RCAP2L RCAP2H T2X pin Timer 2 Interrupt Transition Detector AI06626 f OSC TF2 Reload TR2 T2 pin Control TL2 (8 bits) TH2 (8 bits) C/T2 = 0 C/T2 = 1 ÷ 12 EXP2 Control EXEN2 RCAP2L RCAP2H T2X pin Timer 2 Interrupt Transition DetectoruPSD33xx 80/231 Figure 27. Timer 2 in Baud Rate Generator Mode AI09605 f OSC Reload TR2 T2 pin Control Note: Oscillator frequency is divided by 2, not 12 like in other timer modes. Note: Availability of additional external interrupt. TL2 (8 bits) TH2 (8 bits) C/T2 = 0 C/T2 = 1 ÷ 12 ÷ 2 ÷ 16 ÷ 16 EXF2 Control EXEN2 RCAP2L RCAP2H T2X pin Timer 2 Interrupt TX CLK RX CLK Timer 1 Overflow SMOD RCLK '1' '0' '0' '1' '1' '0' TCLK Transition Detector81/231 uPSD33xx SERIAL UART INTERFACES uPSD33xx devices provide two standard 8032 UART serial ports. – The first port, UART0, is connected to pins RxD0 (P3.0) and TxD0 (P3.1) – The second port, UART1 is connected to pins RxD1 (P1.2) and TxD1 (P1.3). UART1 can optionally be routed to pins P4.2 and P4.3 as described in Alternate Functions, page 59. The operation of the two serial ports are the same and are controlled by two SFRs: ■ SCON0 (Table 45., page 82) for UART0 ■ SCON1 (Table 46., page 83) for UART1 Each UART has its own data buffer accessed through an SFR listed below: ■ SBUF0 for UART0, address 99h ■ SBUF1 for UART1, address D9h When writing SBU0 or SBUF1, the data automatically loads into the associated UART transmit data register. When reading this SFR, data comes from a different physical register, which is the receive register of the associated UART. Note: For simplicity in the remaining UART discussions, the suffix “0” or “1” will be dropped when referring to SFR registers and bits related to UART0 or UART1, since each UART interface has identical operation. Example, SBUF0 and SBUF1 will be referred to as just SBUF. Each UART serial port can be full-duplex, meaning it can transmit and receive simultaneously. Each UART is also receive-buffered, meaning it can commence reception of a second byte before a previously received byte has been read from the SBUF Register. However, if the first byte still has not been read by the time reception of the second byte is complete, one of the bytes will be lost. UART Operation Modes Each UART can operate in one of four modes, one mode is synchronous, and the others are asynchronous as shown in Table 44. Mode 0. Mode 0 provides asynchronous, half-duplex operation. Serial data is both transmitted, and received on the RxD pin. The TxD pin outputs a shift clock for both transmit and receive directions, thus the MCU must be the master. Eight bits are transmitted/received LSB first. The baud rate is fixed at 1/12 of fOSC. Mode 1. Mode 1 provides standard asynchronous, full-duplex communication using a total of 10 bits per data byte. Data is transmitted through TxD and received through RxD with: a Start Bit (logic '0'), eight data bits (LSB first), and a Stop Bit (logic '1'). Upon receive, the eight data bits go into the SFR SBUF, and the Stop Bit goes into bit RB8 of the SFR SCON. The baud rate is variable and derived from overflows of Timer 1 or Timer 2. Mode 2. Mode 2 provides asynchronous, full-duplex communication using a total of 11 bits per data byte. Data is transmitted through TxD and received through RxD with: a Start Bit (logic '0'); eight data bits (LSB first); a programmable 9th data bit; and a Stop Bit (logic '1'). Upon Transmit, the 9th data bit (from bit TB8 in SCON) can be assigned the value of '0' or '1.' Or, for example, the Parity Bit (P, in the PSW) could be moved into TB8. Upon receive, the 9th data bit goes into RB8 in SCON, while the Stop Bit is ignored. The baud rate is programmable to either 1/32 or 1/64 of fOSC. Mode 3. Mode 3 is the same as Mode 2 in all respects except the baud rate is variable like it is in Mode 1. In all four modes, transmission is initiated by any instruction that uses SBUF as a destination register. Reception is initiated in Mode 0 by the condition RI = 0 and REN = 1. Reception is initiated in the other modes by the incoming Start Bit if REN = 1. Table 44. UART Operating Modes Mode Synchronization Bits of SFR, SCON Baud Clock Data Bits Start/Stop Bits See Figure SM0 SM1 0 Synchronous 0 0 fOSC/12 8 None Figure 28., page 86 1 Asynchronous 0 1 Timer 1 or Timer 2 Overflow 8 1 Start, 1 Stop Figure 30., page 88 2 Asynchronous 1 0 fOSC/32 or fOSC/64 9 1 Start, 1 Stop Figure 32., page 90 3 Asynchronous 1 1 Timer 1 or Timer 2 Overflow 9 1 Start, 1 Stop Figure 34., page 91uPSD33xx 82/231 Multiprocessor Communications. Modes 2 and 3 have a special provision for multiprocessor communications. In these modes, 9 data bits are received. The 9th one goes into bit RB8, then comes a stop bit. The port can be programmed such that when the stop bit is received, the UART interrupt will be activated only if bit RB8 = 1. This feature is enabled by setting bit SM2 in SCON. A way to use this feature in multi-processor systems is as follows: When the master processor wants to transmit a block of data to one of several slaves, it first sends out an address byte which identifies the target slave. An address byte differs from a data byte in that the 9th bit is 1 in an address byte and 0 in a data byte. With SM2 = 1, no slave will be interrupted by a data byte. An address byte, however, will interrupt all slaves, so that each slave can examine the received byte and see if it is being addressed. The addressed slave will clear its SM2 bit and prepare to receive the data bytes that will be coming. The slaves that were not being addressed leave their SM2 bits set and go on about their business, ignoring the coming data bytes. SM2 has no effect in Mode 0, and in Mode 1, SM2 can be used to check the validity of the stop bit. In a Mode 1 reception, if SM2 = 1, the receive interrupt will not be activated unless a valid stop bit is received. Serial Port Control Registers The SFR SCON0 controls UART0, and SCON1 controls UART1, shown in Table 45 and Table 46. These registers contain not only the mode selection bits, but also the 9th data bit for transmit and receive (bits TB8 and RB8), and the UART Interrupt flags, TI and RI. Table 45. SCON0: Serial Port UART0 Control Register (SFR 98h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 SM0 SM1 SM2 REN TB8 RB8 TI RI Details Bit Symbol R/W Definition 7 SM0 R,W Serial Mode Select, See Table 44., page 81. Important, notice bit order of SM0 and SM1. [SM0:SM1] = 00b, Mode 0 [SM0:SM1] = 01b, Mode 1 [SM0:SM1] = 10b, Mode 2 [SM0:SM1] = 11b, Mode 3 6 SM1 R,W 5 SM2 R,W Serial Multiprocessor Communication Enable. Mode 0: SM2 has no effect but should remain 0. Mode 1: If SM2 = 0 then stop bit ignored. SM2 =1 then RI active if stop bit = 1. Mode 2 and 3: Multiprocessor Comm Enable. If SM2=0, 9th bit is ignored. If SM2=1, RI active when 9th bit = 1. 4 REN R,W Receive Enable. If REN=0, UART reception disabled. If REN=1, reception is enabled 3 TB8 R,W TB8 is assigned to the 9th transmission bit in Mode 2 and 3. Not used in Mode 0 and 1. 2 RB8 R,W Mode 0: RB8 is not used. Mode 1: If SM2 = 0, the RB8 is the level of the received stop bit. Mode 2 and 3: RB8 is the 9th data bit that was received in Mode 2 and 3. 1 TI R,W Transmit Interrupt flag. Causes interrupt at end of 8th bit time when transmitting in Mode 0, or at beginning of stop bit transmission in other modes. Must clear flag with firmware. 0 RI R,W Receive Interrupt flag. Causes interrupt at end of 8th bit time when receiving in Mode 0, or halfway through stop bit reception in other modes (see SM2 for exception). Must clear this flag with firmware.83/231 uPSD33xx Table 46. SCON1: Serial Port UART1 Control Register (SFR D8h, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 SM0 SM1 SM2 REN TB8 RB8 TI RI Details Bit Symbol R/W Definition 7 SM0 R,W Serial Mode Select, See Table 44., page 81. Important, notice bit order of SM0 and SM1. [SM0:SM1] = 00b, Mode 0 [SM0:SM1] = 01b, Mode 1 [SM0:SM1] = 10b, Mode 2 [SM0:SM1] = 11b, Mode 3 6 SM1 R,W 5 SM2 R,W Serial Multiprocessor Communication Enable. Mode 0: SM2 has no effect but should remain 0. Mode 1: If SM2 = 0 then stop bit ignored. SM2 =1 then RI active if stop bit = 1. Mode 2 and 3: Multiprocessor Comm Enable. If SM2=0, 9th bit is ignored. If SM2=1, RI active when 9th bit = 1. 4 REN R,W Receive Enable. If REN=0, UART reception disabled. If REN=1, reception is enabled 3 TB8 R,W TB8 is assigned to the 9th transmission bit in Mode 2 and 3. Not used in Mode 0 and 1. 2 RB8 R,W Mode 0: RB8 is not used. Mode 1: If SM2 = 0, the RB8 is the level of the received stop bit. Mode 2 and 3: RB8 is the 9th data bit that was received in Mode 2 and 3. 1 TI R,W Transmit Interrupt flag. Causes interrupt at end of 8th bit time when transmitting in Mode 0, or at beginning of stop bit transmission in other modes. Must clear flag with firmware. 0 RI R,W Receive Interrupt flag. Causes interrupt at end of 8th bit time when receiving in Mode 0, or halfway through stop bit reception in other modes (see SM2 for exception). Must clear this flag with firmware.uPSD33xx 84/231 UART Baud Rates The baud rate in Mode 0 is fixed: Mode 0 Baud Rate = fOSC / 12 The baud rate in Mode 2 depends on the value of the bit SMOD in the SFR named PCON. If SMOD = 0 (default value), the baud rate is 1/64 the oscillator frequency, fOSC. If SMOD = 1, the baud rate is 1/32 the oscillator frequency. Mode 2 Baud Rate = (2SMOD / 64) x fOSC Baud rates in Modes 1 and 3 are determined by the Timer 1 or Timer 2 overflow rate. Using Timer 1 to Generate Baud Rates. When Timer 1 is used as the baud rate generator (bits RCLK = 0, TCLK = 0), the baud rates in Modes 1 and 3 are determined by the Timer 1 overflow rate and the value of SMOD as follows: Mode 1,3 Baud Rate = (2SMOD / 32) x (Timer 1 overflow rate) The Timer 1 Interrupt should be disabled in this application. The Timer itself can be configured for either “timer” or “counter” operation, and in any of its 3 running modes. In the most typical applications, it is configured for “timer” operation, in the Auto-reload Mode (high nibble of the SFR TMOD = 0010B). In that case the baud rate is given by the formula: Mode 1,3 Baud Rate = (2SMOD / 32) x (fOSC / (12 x [256 – (TH1)])) Table 47 lists various commonly used baud rates and how they can be obtained from Timer 1. Using Timer/Counter 2 to Generate Baud Rates. See Baud Rate Generator Mode, page 77. Table 47. Commonly Used Baud Rates Generated from Timer 1 UART Mode fOSC MHz Desired Baud Rate Resultant Baud Rate Baud Rate Deviation SMOD bit in PCON Timer 1 C/T Bit in TMOD Timer Mode in TMOD TH1 Reload value (hex) Mode 0 Max 40.0 3.33MHz 3.33MHz 0 X X X X Mode 2 Max 40.0 1250 k 1250 k 0 1 X X X Mode 2 Max 40.0 625 k 625 k 0 0 X X X Modes 1 or 3 40.0 19200 18939 -1.36% 1 0 2 F5 Modes 1 or 3 40.0 9600 9470 -1.36% 1 0 2 EA Modes 1 or 3 36.0 19200 18570 -2.34% 1 0 2 F6 Modes 1 or 3 33.333 57600 57870 0.47% 1 0 2 FD Modes 1 or 3 33.333 28800 28934 0.47% 1 0 2 FA Modes 1 or 3 33.333 19200 19290 0.47% 1 0 2 F7 Modes 1 or 3 33.333 9600 9645 0.47% 1 0 2 EE Modes 1 or 3 24.0 9600 9615 0.16% 1 0 2 F3 Modes 1 or 3 12.0 4800 4808 0.16% 1 0 2 F3 Modes 1 or 3 11.0592 57600 57600 0 1 0 2 FF Modes 1 or 3 11.0592 28800 28800 0 1 0 2 FE Modes 1 or 3 11.0592 19200 19200 0 1 0 2 FD Modes 1 or 3 11.0592 9600 9600 0 1 0 2 FA Modes 1 or 3 3.6864 19200 19200 0 1 0 2 FF Modes 1 or 3 3.6864 9600 9600 0 1 0 2 FE Modes 1 or 3 1.8432 9600 9600 0 1 0 2 FF Modes 1 or 3 1.8432 4800 4800 0 1 0 2 FE85/231 uPSD33xx More About UART Mode 0 Refer to the block diagram in Figure 28., page 86, and timing diagram in Figure 29., page 86. Transmission is initiated by any instruction which writes to the SFR named SBUF. At the end of a write operation to SBUF, a 1 is loaded into the 9th position of the transmit shift register and tells the TX Control unit to begin a transmission. Transmission begins on the following MCU machine cycle, when the “SEND” signal is active in Figure 29. SEND enables the output of the shift register to the alternate function on the port containing pin RxD, and also enables the SHIFT CLOCK signal to the alternate function on the port containing the pin, TxD. At the end of each SHIFT CLOCK in which SEND is active, the contents of the transmit shift register are shifted to the right one position. As data bits shift out to the right, zeros come in from the left. When the MSB of the data byte is at the output position of the shift register, then the '1' that was initially loaded into the 9th position, is just to the left of the MSB, and all positions to the left of that contain zeros. This condition flags the TX Control unit to do one last shift, then deactivate SEND, and then set the interrupt flag TI. Both of these actions occur at S1P1. Reception is initiated by the condition REN = 1 and RI = 0. At the end of the next MCU machine cycle, the RX Control unit writes the bits 11111110 to the receive shift register, and in the next clock phase activates RECEIVE. RECEIVE enables the SHIFT CLOCK signal to the alternate function on the port containing the pin, TxD. Each pulse of SHIFT CLOCK moves the contents of the receive shift register one position to the left while RECEIVE is active. The value that comes in from the right is the value that was sampled at the RxD pin. As data bits come in from the right, 1s shift out to the left. When the 0 that was initially loaded into the rightmost position arrives at the left-most position in the shift register, it flags the RX Control unit to do one last shift, and then it loads SBUF. After this, RECEIVE is cleared, and the receive interrupt flag RI is set.uPSD33xx 86/231 Figure 28. UART Mode 0, Block Diagram Figure 29. UART Mode 0, Timing Diagram AI06824 Zero Detector Internal Bus Tx Control Rx Control Internal Bus SBUF Write to SBUF Read SBUF Load SBUF SBUF Input Shift Register Shift Shift Clock Serial Port Interrupt f OSC/12 REN R1 Rx Clock Start Tx Clock Start Shift Shift Send Receive T R CL D S Q 7 6 5 4 3 2 1 0 RxD P3.0 Alt Input Function RxD Pin TxD Pin AI06825 Write to SBUF Send Shift RxD (Data Out) TxD (Shift Clock) TI Write to SCON RI Receive Shift RxD (Data In) TxD (Shift Clock) Clear RI Receive Transmit D0 D1 D2 D3 D4 D5 D6 D7 D0 D1 D2 D3 D4 D5 D6 D787/231 uPSD33xx More About UART Mode 1 Refer to the block diagram in Figure 30., page 88, and timing diagram in Figure 31., page 88. Transmission is initiated by any instruction which writes to SBUF. At the end of a write operation to SBUF, a '1' is loaded into the 9th position of the transmit shift register and flags the TX Control unit that a transmission is requested. Transmission actually starts at the end of the MCU the machine cycle following the next rollover in the divide-by-16 counter. Thus, the bit times are synchronized to the divide-by-16 counter, not to the writing of SBUF. Transmission begins with activation of SEND which puts the start bit at pin TxD. One bit time later, DATA is activated, which enables the output bit of the transmit shift register to pin TxD. The first shift pulse occurs one bit time after that. As data bits shift out to the right, zeros are clocked in from the left. When the MSB of the data byte is at the output position of the shift register, then the 1 that was initially loaded into the 9th position is just to the left of the MSB, and all positions to the left of that contain zeros. This condition flags the TX Control unit to do one last shift and then deactivates SEND, and sets the interrupt flag, TI. This occurs at the 10th divide-by-16 rollover after a write to SBUF. Reception is initiated by a detected 1-to-0 transition at the pin RxD. For this purpose RxD is sampled at a rate of 16 times whatever baud rate has been established. When a transition is detected, the divide-by-16 counter is immediately reset, and 1FFH is written into the input shift register. Resetting the divide-by-16 counter aligns its rollovers with the boundaries of the incoming bit times. The 16 states of the counter divide each bit time into 16ths. At the 7th, 8th, and 9th counter states of each bit time, the bit detector samples the value of RxD. The value accepted is the value that was seen in at least 2 of the 3 samples. This is done for noise rejection. If the value accepted during the first bit time is not '0,' the receive circuits are reset and the unit goes back to looking for another '1'-to- '0' transition. This is to provide rejection of false start bits. If the start bit proves valid, it is shifted into the input shift register, and reception of the reset of the rest of the frame will proceed. As data bits come in from the right, '1s' shift out to the left. When the start bit arrives at the left-most position in the shift register (which in mode 1 is a 9-bit register), it flags the RX Control unit to do one last shift, load SBUF and RB8, and set the receive interrupt flag RI. The signal to load SBUF and RB8, and to set RI, will be generated if, and only if, the following conditions are met at the time the final shift pulse is generated: 1. RI = 0, and 2. Either SM2 = 0, or the received stop bit = 1. If either of these two conditions are not met, the received frame is irretrievably lost. If both conditions are met, the stop bit goes into RB8, the 8 data bits go into SBUF, and RI is activated. At this time, whether the above conditions are met or not, the unit goes back to looking for a '1'-to-'0' transition on pin RxD.uPSD33xx 88/231 Figure 30. UART Mode 1, Block Diagram Figure 31. UART Mode 1, Timing Diagram AI06826 Zero Detector Internal Bus Tx Control Rx Control Internal Bus SBUF Write to SBUF Read SBUF Load SBUF SBUF Input Shift Register Shift Serial Port Interrupt Rx Clock Start Tx Clock Start Shift Shift Send Load SBUF TI RI CL D S Q 1FFh TxD Pin Data Rx Detector RxD Pin 1-to-0 Transition Detector ÷16 Sample ÷16 ÷2 TB8 Timer1 Overflow Timer2 Overflow 0 0 1 1 0 1 TCLK RCLK SMOD AI06843 Write to SBUF Data Shift TxD TI Rx Clock RxD Bit Detector Sample Times Shift RI Receive Transmit D0 D1 D2 D3 D4 D5 D6 D7 Send Tx Clock Start Bit Stop Bit D0 D1 D2 D3 D4 D5 D6 D7 Start Bit Stop Bit89/231 uPSD33xx More About UART Modes 2 and 3 For Mode 2, refer to the block diagram in Figure 32., page 90, and timing diagram in Figure 33., page 90. For Mode 3, refer to the block diagram in Figure 34., page 91, and timing diagram in Figure 35., page 91. Keep in mind that the baud rate is programmable to either 1/32 or 1/64 of fOSC in Mode 2, but Mode 3 uses a variable baud rate generated from Timer 1 or Timer 2 rollovers. The receive portion is exactly the same as in Mode 1. The transmit portion differs from Mode 1 only in the 9th bit of the transmit shift register. Transmission is initiated by any instruction which writes to SBUF. At the end of a write operation to SBUF, the TB8 Bit is loaded into the 9th position of the transmit shift register and flags the TX Control unit that a transmission is requested. Transmission actually starts at the end of the MCU the machine cycle following the next rollover in the divideby-16 counter. Thus, the bit times are synchronized to the divide-by-16 counter, not to the writing of SBUF. Transmission begins with activation of SEND which puts the start bit at pin TxD. One bit time later, DATA is activated, which enables the output bit of the transmit shift register to pin TxD. The first shift pulse occurs one bit time after that. The first shift clocks a '1' (the stop bit) into the 9th bit position of the shift register. There-after, only zeros are clocked in. Thus, as data bits shift out to the right, zeros are clocked in from the left. When bit TB8 is at the output position of the shift register, then the stop bit is just to the left of TB8, and all positions to the left of that contain zeros. This condition flags the TX Control unit to do one last shift and then deactivate SEND, and set the interrupt flag, TI. This occurs at the 11th divide-by 16 rollover after writing to SBUF. Reception is initiated by a detected 1-to-0 transition at pin RxD. For this purpose RxD is sampled at a rate of 16 times whatever baud rate has been established. When a transition is detected, the divide-by-16 counter is immediately reset, and 1FFH is written to the input shift register. At the 7th, 8th, and 9th counter states of each bit time, the bit detector samples the value of RxD. The value accepted is the value that was seen in at least 2 of the 3 samples. If the value accepted during the first bit time is not '0,' the receive circuits are reset and the unit goes back to looking for another '1'-to- '0' transition. If the start bit proves valid, it is shifted into the input shift register, and reception of the rest of the frame will proceed. As data bits come in from the right, '1s' shift out to the left. When the start bit arrives at the left-most position in the shift register (which in Modes 2 and 3 is a 9-bit register), it flags the RX Control unit to do one last shift, load SBUF and RB8, and set the interrupt flag RI. The signal to load SBUF and RB8, and to set RI, will be generated if, and only if, the following conditions are met at the time the final shift pulse is generated: 1. RI = 0, and 2. Either SM2 = 0, or the received 9th data bit = 1. If either of these conditions is not met, the received frame is irretrievably lost, and RI is not set. If both conditions are met, the received 9th data bit goes into RB8, and the first 8 data bits go into SBUF. One bit time later, whether the above conditions were met or not, the unit goes back to looking for a '1'-to-'0' transition on pin RxD.uPSD33xx 90/231 Figure 32. UART Mode 2, Block Diagram Figure 33. UART Mode 2, Timing Diagram AI06844 Zero Detector Internal Bus Tx Control Rx Control Internal Bus SBUF Write to SBUF Read SBUF Load SBUF SBUF Input Shift Register Shift Serial Port Interrupt Rx Clock Start Tx Clock Start Shift Shift Send Load SBUF TI RI CL D S Q 1FFh TxD Pin Data Rx Detector RxD Pin 1-to-0 Transition Detector ÷16 Sample ÷16 ÷2 TB8 f OSC/32 0 1 SMOD AI06845 Write to SBUF Data Shift TxD TI Rx Clock RxD Bit Detector Sample Times Shift RI Receive Transmit D0 D1 D2 D3 D4 D5 D6 D7 Send Tx Clock Start Bit TB8 Stop Bit D0 D1 D2 D3 D4 D5 D6 D7 Start Bit RB8 Stop Bit Stop Bit Generator91/231 uPSD33xx Figure 34. UART Mode 3, Block Diagram Figure 35. UART Mode 3, Timing Diagram AI06846 Zero Detector Internal Bus Tx Control Rx Control Internal Bus SBUF Write to SBUF Read SBUF Load SBUF SBUF Input Shift Register Shift Serial Port Interrupt Rx Clock Start Tx Clock Start Shift Shift Send Load SBUF TI RI CL D S Q 1FFh TxD Pin Data Rx Detector RxD Pin 1-to-0 Transition Detector ÷16 Sample ÷16 ÷2 TB8 Timer1 Overflow Timer2 Overflow 0 0 1 1 0 1 TCLK RCLK SMOD AI06847 Write to SBUF Data Shift TxD TI Rx Clock RxD Bit Detector Sample Times Shift RI Receive Transmit D0 D1 D2 D3 D4 D5 D6 D7 Send Tx Clock Start Bit TB8 Stop Bit D0 D1 D2 D3 D4 D5 D6 D7 Start Bit RB8 Stop Bit Stop Bit GeneratoruPSD33xx 92/231 IrDA INTERFACE uPSD33xx devices provide an internal IrDA interface that will allow the connection of the UART1 serial interface directly to an external infrared transceiver device. The IrDA interface does this by automatically shortening the pulses transmitted on UART1’s TxD1 pin, and stretching the incoming pulses received on the RxD1 pin. Reference Figures 36 and 37. When the IrDA interface is enabled, the output signal from UART1’s transmitter logic on pin TxD1 is compliant with the IrDA Physical Layer Link Specification v1.4 (www.irda.org) operating from 1.2k bps up to 115.2k bps. The pulses received on the RxD1 pin are stretched by the IrDA interface to be recognized by UART1’s receiver logic, also adhering to the IrDA specification up to 115.2k bps. Note: In Figure 37 a logic '0' in the serial data stream of a UART Frame corresponds to a logic high pulse in an IR Frame. A logic '1' in a UART Frame corresponds to no pulse in an IR Frame. Figure 36. IrDA Interface Figure 37. Pulse Shaping by the IrDA Interface UART1 IrDA Interface TxD RxD uPSD33XX IrDA Transceiver TxD1-IrDA RxD1-IrDA SIRClk AI07851 Start Bit 0101 11 1 00 0 Stop Bit UART Frame Data Bits Bit Time Pulse Width = 3/16 Bit Time Start Bit 0101 11 1 00 0 Stop Bit UART Frame IR Frame IR Frame Data Bits AI0962493/231 uPSD33xx The UART1 serial channel can operate in one of four different modes as shown in Table 44., page 81 in the section, SERIAL UART INTERFACES, page 81. However, when UART1 is used for IrDA communication, UART1 must operate in Mode 1 only, to be compatible with IrDA protocol up to 115.2k bps. The IrDA interface will support baud rates generated from Timer 1 or Timer 2, just like standard UART serial communication, but with one restriction. The transmit baud rate and receive baud rate must be the same (cannot be different rates as is allowed by standard UART communications). The IrDA Interface is disabled after a reset and is enabled by setting the IRDAEN Bit in the SFR named IRDACON (Table 48., page 93). When IrDA is disabled, the UART1's RxD and TxD signals will bypass the internal IrDA logic and instead they are routed directly to the pins RxD1 and TxD1 respectively. When IrDA is enabled, the IrDA pulse shaping logic is active and resides between UART1 and the pins RxD1 and TxD1 as shown in Figure 36., page 92. Table 48. IRDACON Register Bit Definition (SFR CEh, Reset Value 0Fh) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – IRDAEN PULSE CDIV4 CDIV3 CDIV2 CDIV1 CDIV0 Details Bit Symbol R/W Definition 7 – – Reserved 6 IRDAEN RW IrDA Enable 0 = IrDA Interface is disabled 1 = IrDA is enabled, UART1 outputs are disconnected from Port 1 (or Port 4) 5 PULSE RW IrDA Pulse Modulation Select 0 = 1.627µs 1 = 3/16 bit time pulses 4-0 CDIV[4:0] RW Specify Clock Divider (see Table 49., page 94)uPSD33xx 94/231 Pulse Width Selection The IrDA interface has two ways to modulate the standard UART1 serial stream: 1. An IrDA data pulse will have a constant pulse width for any bit time, regardless of the selected baud rate. 2. An IrDA data pulse will have a pulse width that is proportional to the the bit time of the selected baud rate. In this case, an IrDA data pulse width is 3/16 of its bit time, as shown in Figure 37., page 92. The PULSE bit in the SFR named IRDACON determines which method above will be used. According to the IrDA physical layer specification, for all baud rates at 115.2k bps and below, the minimum data pulse width is 1.41µs. For a baud rate of 115.2k bps, the maximum pulse width 2.23µs. If a constant pulse width is to be used for all baud rates (PULSE bit = 0), the ideal general pulse width is 1.63µs, derived from the bit time of the fastest baud rate (8.68µs bit time for 115.2k bps rate), multiplied by the proportion, 3/16. To produce this fixed data pulse width when the PULSE bit = 0, a prescaler is needed to generate an internal reference clock, SIRClk, shown in Figure 36., page 92. SIRClk is derived by dividing the oscillator clock frequency, fOSC, using the five bits CDIV[4:0] in the SFR named IRDACON. A divisor must be chosen to produce a frequency for SIRClk that lies between 1.34 MHz and 2.13 MHz, but it is best to choose a divisor value that produces SIRClk frequency as close to 1.83MHz as possible, because SIRClk at 1.83MHz will produce an fixed IrDA data pulse width of 1.63µs. Table 49 provides recommended values for CDIV[4:0] based on several different values of fOSC. For reference, SIRClk of 2.13MHz will generate a fixed IrDA data pulse width of 1.41µs, and SIRClk of 1.34MHz will generate a fixed data pulse width of 2.23µs. Table 49. Recommended CDIV[4:0] Values to Generate SIRClk (default CDIV[4:0] = 0Fh, 15 decimal) Note: 1. When PULSE bit = 0 (fixed data pulse width), this is minimum recommended fOSC because CDIV[4:0] must be 4 or greater. fOSC (MHz) Value in CDIV[4:0] Resulting fSIRCLK (MHz) 40.00 16h, 22 decimal 1.82 36.864, or 36.00 14h, 20 decimal 1.84, or 1.80 24.00 0Dh, 13 decimal 1.84 11.059, or 12.00 06h, 6 decimal 1.84, or 2.00 7.3728(1) 04h, 4 decimal 1.8495/231 uPSD33xx I 2C INTERFACE uPSD33xx devices support one serial I2C interface. This is a two-wire communication channel, having a bi-directional data signal (SDA, pin P3.6) and a clock signal (SCL, pin P3.7) based on opendrain line drivers, requiring external pull-up resistors, RP, each with a typical value of 4.7kΩ (see Figure 38). I 2C Interface Main Features Byte-wide data is transferred, MSB first, between a Master device and a Slave device on two wires. More than one bus Master is allowed, but only one Master may control the bus at any given time. Data is not lost when another Master requests the use of a busy bus because I2C supports collision detection and arbitration. The bus Master initiates all data movement and generates the clock that permits the transfer. Once a transfer is initiated by the Master, any device addressed is considered a Slave. Automatic clock synchronization allows I2C devices with different bit rates to communicate on the same physical bus. A single device can play the role of Master or Slave, or a single device can be a Slave only. Each Slave device on the bus has a unique address, and a general broadcast address is also available. A Master or Slave device has the ability to suspend data transfers if the device needs more time to transmit or receive data. This I2C interface has the following features: – Serial I/O Engine (SIOE): serial/parallel conversion; bus arbitration; clock generation and synchronization; and handshaking are all performed in hardware – Interrupt or Polled operation – Multi-master capability – 7-bit Addressing – Supports standard speed I2C (SCL up to 100kHz), fast mode I2C (101KHz to 400kHz), and high-speed mode I2C (401KHz to 833kHz) Figure 38. Typical I2C Bus Configuration Note: 1. For 3.3V system, connect RP to 3.3V VCC. For 5.0V system, connect RP to 5.0V VDD. I 2C BUS SDA SCL RP RP VCC or VDD(1) Device with I2C Interface Device with I2C Interface SDA/P3.6 SCL/P3.7 uPSD33XX(V) Device with I2C Interface AI09623uPSD33xx 96/231 Communication Flow I 2C data flow control is based on the fact that all I 2C compatible devices will drive the bus lines with open-drain (or open-collector) line drivers pulled up with external resistors, creating a wired-AND situation. This means that either bus line (SDA or SCL) will be at a logic '1' level only when no I2C device is actively driving the line to logic '0.' The logic for handshaking, arbitration, synchronization, and collision detection is implemented by each I2C device having: 1. The ability to hold a line low against the will of the other devices who are trying to assert the line high. 2. The ability of a device to detect that another device is driving the line low against its will. Assert high means the driver releases the line and external pull-ups passively raise the signal to logic '1.' Holding low means the open-drain driver is actively pulling the signal to ground for a logic '0.' For example, if a Slave device cannot transmit or receive a byte because it is distracted by and interrupt or it has to wait for some process to complete, it can hold the SCL clock line low. Even though the Master device is generating the SCL clock, the Master will sense that the Slave is holding the SCL line low against the will of the Master, indicating that the Master must wait until the Slave releases SCL before proceeding with the transfer. Another example is when two Master devices try to put information on the bus simultaneously, the first one to release the SDA data line looses arbitration while the winner continues to hold SDA low. Two types of data transfers are possible with I2C depending on the R/W bit, see Figure 39., page 97. 1. Data transfer from Master Transmitter to Slave Receiver (R/W = 0). In this case, the Master generates a START condition on the bus and it generates a clock signal on the SCL line. Then the Master transmits the first byte on the SDA line containing the 7-bit Slave address plus the R/W bit. The Slave who owns that address will respond with an acknowledge bit on SDA, and all other Slave devices will not respond. Next, the Master will transmit a data byte (or bytes) that the addressed Slave must receive. The Slave will return an acknowledge bit after each data byte it successfully receives. After the final byte is transmitted by the Master, the Master will generate a STOP condition on the bus, or it will generate a RESTART conditon and begin the next transfer. There is no limit to the number of bytes that can be transmitted during a transfer session. 2. Data transfer from Slave Transmitter to Master Receiver (R/W = 1). In this case, the Master generates a START condition on the bus and it generates a clock signal on the SCL line. Then the Master transmits the first byte on the SDA line containing the 7-bit Slave address plus the R/W bit. The Slave who owns that address will respond with an acknowledge bit on SDA, and all other Slave devices will not respond. Next, the addressed Slave will transmit a data byte (or bytes) to the Master. The Master will return an acknowledge bit after each data byte it successfully receives, unless it is the last byte the Master desires. If so, the Master will not acknowledge the last byte and from this, the Slave knows to stop transmitting data bytes to the Master. The Master will then generate a STOP condition on the bus, or it will generate a RE-START conditon and begin the next transfer. There is no limit to the number of bytes that can be transmitted during a transfer session. A few things to know related to these transfers: – Either the Master or Slave device can hold the SCL clock line low to indicate it needs more time to handle a byte transfer. An indefinite holding period is possible. – A START condition is generated by a Master and recognized by a Slave when SDA has a 1- to-0 transition while SCL is high (Figure 39., page 97). – A STOP condition is generated by a Master and recognized by a Slave when SDA has a 0- to1 transition while SCL is high (Figure 39., page 97). – A RE-START (repeated START) condition generated by a Master can have the same function as a STOP condition when starting another data transfer immediately following the previous data transfer (Figure 39., page 97). – When transferring data, the logic level on the SDA line must remain stable while SCL is high, and SDA can change only while SCL is low. However, when not transferring data, SDA may change state while SCL is high, which creates the START and STOP bus conditions.97/231 uPSD33xx – An Acknowlegde bit is generated from a Master or a Slave by driving SDA low during the “ninth” bit time, just following each 8-bit byte that is transfered on the bus (Figure 39., page 97). A Non-Acknowledge occurs when SDA is asserted high during the ninth bit time. All byte transfers on the I2C bus include a 9th bit time reserved for an Acknowlege (ACK) or Non-Acknowledge (NACK). – An additional Master device that desires to control the bus should wait until the bus is not busy before generating a START condition so that a possible Slave operation is not interrupted. – If two Master devices both try to generate a START condition simultaneously, the Master who looses arbitration will switch immediately to Slave mode so it can recoginize it’s own Slave address should it appear on the bus. Figure 39. Data Transfer on an I2C Bus MSB 7-bit Slave Address READ/WRITE Indicator Acknowledge bits from receiver Start Condition Clock can be held low to stall transfer. Repeated if more data bytes are transferred. Repeated Start Condition Stop Condition 12 789 3-6 1 2 9 3-8 ACK MSB ACK NACK R/W AI09625uPSD33xx 98/231 Operating Modes The I2C interface supports four operating modes: ■ Master-Transmitter ■ Master-Receiver ■ Slave-Transmitter ■ Slave-Receiver The interface may operate as either a Master or a Slave within a given application, controlled by firmware writing to SFRs. By default after a reset, the I2C interface is in Master Receiver mode, and the SDA/P3.6 and SCL/ P3.7 pins default to GPIO input mode, high impedance, so there is no I2C bus interference. Before using the I2C interface, it must be initialized by firmware, and the pins must be configured. This is discussed in I 2C Operating Sequences, page 108. Bus Arbitration A Master device always samples the I2C bus to ensure a bus line is high whenever that Master is asserting a logic 1. If the line is low at that time, the Master recognizes another device is overriding it’s own transmission. A Master may start a transfer only if the I2C bus is not busy. However, it’s possible that two or more Masters may generate a START condition simultaneously. In this case, arbitration takes place on the SDA line each time SCL is high. The Master that first senses that its bus sample does not correspond to what it is driving (SDA line is low while it’s asserting a high) will immediately change from Master-Transmitter to Slave-Receiver mode. The arbitration process can carry on for many bit times if both Masters are addressing the same Slave device, and will continue into the data bits if both Masters are trying to be Master-Transmitter. It is also possible for arbitration to carry on into the acknowledge bits if both Masters are trying to be Master-Receiver. Because address and data information on the bus is determined by the winning Master, no information is lost during the arbitration process. Clock Synchronization Clock synchronization is used to synchronize arbitrating Masters, or used as a handshake by a devices to slow down the data transfer. Clock Sync During Arbitration. During bus arbitration between competing Masters, Master_X, with the longest low period on SCL, will force Master_Y to wait until Master_X finishes its low period before Master_Y proceeds to assert its high period on SCL. At this point, both Masters begin asserting their high period on SCL simultaneously, and the Master with the shortest high period will be the first to drive SCL for the next low period. In this scheme, the Master with the longest low SCL period paces low times, and the Master with the shortest high SCL period paces the high times, making synchronized arbitration possible. Clock Sync During Handshaking. This allows receivers in different devices to handle various transfer rates, either at the byte-level, or bit-level. At the byte-level, a device may pause the transfer between bytes by holding SCL low to have time to store the latest received byte or fetch the next byte to transmit. At the bit-level, a Slave device may extend the low period of SCL by holding it low. Thus the speed of any Master device will adapt to the internal operation of the Slave. General Call Address A General Call (GC) occurs when a Master-Transmitter initiates a transfer containing a Slave address of 0000000b, and the R/W bit is logic 0. All Slave devices capable of responding to this broadcast message will acknowledge the GC simultaneously and then behave as a Slave-Receiver. The next byte transmitted by the Master will be accepted and acknowledged by all Slaves capable of handling the special data bytes. A Slave that cannot handle one of these data bytes must ignore it by not acknowledging it. The I2C specification lists the possible meanings of the special bytes that follow the first GC address byte, and the actions to be taken by the Slave device(s) upon receiving them. A common use of the GC by a Master is to dynamically assign device addresses to Slave devices on the bus capable of a programmable device address. The uPSD33xx can generate a GC as a MasterTransmitter, and it can receive a GC as a Slave. When receiving a GC address (00h), an interrupt will be generated so firmware may respond to the special GC data bytes if desired.99/231 uPSD33xx Serial I/O Engine (SIOE) At the heart of the I2C interface is the hardware SIOE, shown in Figure 40. The SIOE automatically handles low-level I2C bus protocol (data shifting, handshaking, arbitration, clock generation and synchronization) and it is controlled and monitored by five SFRs. The five SFRs shown in Figure 40 are: ■ S1CON - Interface Control (Table 50., page 100) ■ S1STA - Interface Status (Table 52., page 103) ■ S1DAT - Data Shift Register (Table 53., page 104) ■ S1ADR - Device Address (Table 54., page 104) ■ S1SETUP - Sampling Rate (Table 55., page 105) Figure 40. I2C Interface SIOE Block Diagram OpenDrain Output Input OpenDrain Output Input Comparator S1SETUP - Sample Rate Control (START Condition) S1STA - Interface Status S1CON - Interface Control ACK Bit SCL / P3.7 Timing and Control Clock Generation Arbitration and Sync Periph Clock (fOSC) SDA / P3.6 8032 MCU Bus INTR to 8032 S1DAT - Shift Register Serial DATA IN Serial DATA OUT Shift Direction 8 8 8 8 8 7 7 b7 b0 S1ADR - Device Address b7 b0 AI09626uPSD33xx 100/231 I 2C Interface Control Register (S1CON) Table 50. Serial Control Register S1CON (SFR DCh, Reset Value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 CR2 ENI1 STA STO ADDR AA CR[1:0] Details Bit Symbol R/W Function 7 CR2 R,W This bit, along with bits CR1 and CR0, determine the SCL clock frequency (fSCL) when SIOE is in Master mode. These bits create a clock divisor for fOSC. See Table 51. 6 ENI1 R,W I 2C Interface Enable 0 = SIOE disabled, 1 = SIOE enabled. When disabled, both SDA and SCL signals are in high impedance state. 5 STA R,W START flag. When set, Master mode is entered and SIOE generates a START condition only if the I2C bus is not busy. When a START condition is detected on the bus, the STA flag is cleared by hardware. When the STA bit is set during an interrupt service, the START condition will be generated after the interrupt service. 4 STO R,W STOP flag When STO is set in Master mode, the SIOE generates a STOP condition. When a STOP condition is detected, the STO flag is cleared by hardware. When the STO bit is set during an interrupt service, the STOP condition will be generated after the interrupt service. 3 ADDR R,W This bit is set when an address byte received in Slave mode matches the device address programmed into the S1ADR register. The ADDR bit must be cleared with firmware. 2 AA R,W Assert Acknowledge enable If AA = 1, an acknowledge signal (low on SDA) is automatically returned during the acknowledge bit-time on the SCL line when any of the following three events occur: 1. SIOE in Slave mode receives an address that matches contents of S1ADR register 2. A data byte has been received while SIOE is in Master Receiver mode 3. A data byte has been received while SIOE is a selected Slave Receiver When AA = 0, no acknowledge is returned (high on SDA during acknowledge bit-time). 1, 0 CR1, CR0 R,W These bits, along with bit CR2, determine the SCL clock frequency (fSCL) when SIOE is in Master mode. These bits create a clock divisor for fOSC. See Table 51 for values.101/231 uPSD33xx Table 51. Selection of the SCL Frequency in Master Mode based on fOSC Examples Note: 1. These values are beyond the bit rate supported by uPSD33xx. CR2 CR1 CR0 fOSC Divided by: Bit Rate (kHz) @ fOSC 12MHz fOSC 24MHz fOSC 36MHz fOSC 40MHz fOSC 0 0 0 32 375 750 X(1) X(1) 0 0 1 48 250 500 750 833 0 1 0 60 200 400 600 666 0 1 1 120 100 200 300 333 1 0 0 240 50 100 150 166 1 0 1 480 25 50 75 83 1 1 0 960 12.5 25 37.5 41 1 1 1 1920 6.25 12.5 18.75 20uPSD33xx 102/231 I 2C Interface Status Register (S1STA) The S1STA register provides status regarding immediate activity and the current state of operation on the I2C bus. All bits in this register are read-only except bit 5, INTR, which is the interrupt flag. Interrupt Conditions. If the I2C interrupt is enabled (EI2C = 1 in SFR named IEA, and EA =1 in SFR named IE), and the SIOE is initialized, then an interrupt is automatically generated when any one of the following five events occur: – When the SIOE receives an address that matches the contents of the SFR, S1ADR. Requirements: SIOE is in Slave Mode, and bit AA = 1 in the SFR S1CON. – When the SIOE receives General Call address. Requirments: SIOE is in Slave Mode, bit AA = 1 in the SFR S1CON – When a complete data byte has been received or transmitted by the SIOE while in Master mode. The interrupt will occur even if the Master looses arbitration. – When a complete data byte has been received or transmitted by the SIOE while in selected Slave mode. – A STOP condition on the bus has been recognized by the SIOE while in selected Slave mode. Selected Slave mode means the device address sent by the Master device at the beginning of the current data transfer matched the address stored in the S1ADR register. If the I2C interrupt is not enabled, the MCU may poll the INTR flag in S1STA.103/231 uPSD33xx Table 52. S1STA: I2C Interface Status Register (SFR DDh, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 GC STOP INTR TX_MODE BBUSY BLOST ACK_RESP SLV Details Bit Symbol R/W Function 7 GC R General Call flag GC = 1 if the General Call address of 00h was received when SIOE is in Slave mode, and GC is cleared by a START or STOP condition on the bus. If the SIOE is in Master mode when GC = 1, the Bus Lost condition exists, and BLOST = 1. 6 STOP R STOP flag STOP = 1 while SIOE detects a STOP condition on the bus when in Master or Slave mode. 5 INTR R,W Interrupt flag INTR is set to 1 by any of the five I2C interrupt conditions listed above. INTR must be cleared by firmware. 4 TX_MODE R Transmission Mode flag TX_MODE = 1 whenever the SIOE is in Master-Transmitter or SlaveTransmitter mode. TX_MODE = 0 when SIOE is in any receiver mode. 3 BBUSY R Bus Busy flag BBUSY = 1 when the I2C bus is in use. BBUSY is set by the SIOE when a START condition exists on the bus and BBUSY is cleared by a STOP condition. 2 BLOST R Bus Lost flag BLOST is set when the SIOE is in Master mode and it looses the arbitration process to another Master device on the bus. 1 ACK_RESP R Not Acknowledge Response flag While SIOE is in Transmitter mode: – After SIOE sends a byte, ACK_RESP = 1 whenever the external I2C device receives the byte, but that device does NOT assert an ackowledge signal (external device asserted a high on SDA during the acknowledge bit-time). – After SIOE sends a byte, ACK_RESP = 0 whenever the external I2C device receives the byte, and that device DOES assert an ackowledge signal (external device drove a low on SDA during the acknowledge bit-time) Note: If SIOE is in Master-Transmitter mode, and ACK_RESP = 1 due to a Slave-Transmitter not sending an Acknowledge, a STOP condition will not automatically be generated by the SIOE. The STOP condition must be generated with S1CON.STO = 1. 0 SLV R Slave Mode flag SLV = 1 when the SIOE is in Slave mode. SLV = 0 when the SIOE is in Master mode (default).uPSD33xx 104/231 I 2C Data Shift Register (S1DAT) The S1ADR register (Table 53) holds a byte of serial data to be transmitted or it holds a serial byte that has just been received. The MCU may access S1DAT while the SIOE is not in the process of shifting a byte (the INTR flag indicates shifting is complete). While transmitting, bytes are shifted out MSB first, and when receiving, bytes are shifted in MSB first, through the Acknowledge Bit register as shown in Figure 40., page 99. Bus Wait Condition. After the SIOE finishes receiving a byte in Receive mode, or transmitting a byte in Transmit mode, the INTR flag (in S1STA) is set and automatically a wait condition is imposed on the I2C bus (SCL held low by SIOE). In Transmit mode, this wait condition is released as soon as the MCU writes any byte to S1DAT. In Receive mode, the wait condition is released as soon as the MCU reads the S1DAT register. This method allows the user to handle transmit and receive operations within an interrupt service routine. The SIOE will automatically stall the I2C bus at the appropriate time, giving the MCU time to get the next byte ready to transmit or time to read the byte that was just received. Table 53. S1DAT: I2C Data Shift register (SFR DEh, reset value 00h) I 2C Address Register (S1ADR) The S1ADR register (Table 54) holds the 7-bit device address used when the SIOE is operating as a Slave. When the SIOE receives an address from a Master, it will compare this address to the contents of S1ADR, as shown in Figure 40., page 99. If the 7 bits match, the INTR Interrupt flag (in S1STA) is set, and the ADDR Bit (in S1CON) is set. The SIOE cannot modify the contents S1ADR, and S1ADR is not used during Master mode. Table 54. S1ADR: I2C Address register (SFR DFh, reset value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 S1DAT[7:0] Details Bit Symbol R/W Function 7:0 S1DAT[7:0] R/W Holds the data byte to be transmitted in Transmit mode, or it holds the data byte received in Receiver mode. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 SLA6 SLA5 SLA4 SLA3 SLA2 SLA1 SLA0 – Details Bit Symbol R/W Function 7:1 SLA[6:0] R/W Stores desired 7-bit device address, used when SIOE is in Slave mode. 0 – – Not used105/231 uPSD33xx I 2C START Sample Setting (S1SETUP) The S1SETUP register (Table 55) determines how many times an I2C bus START condition will be sampled before the SIOE validates the START condition, giving the SIOE the ability to reject noise or illegal transmissions. Because the minimum duration of an START condition varies with I2C bus speed (fSCL), and also because the uPSD33xx may be operated with a wide variety of frequencies (fOSC), it is necessary to scale the number of samples per START condition based on fOSC and fSCL. In Slave mode, the SIOE recognizes the beginning of a START condition when it detects a '1'-to-'0' transition on the SDA bus line while the SCL line is high (see Figure 39., page 97). The SIOE must then validate the START condition by sampling the bus lines to ensure SDA remains low and SCL remains high for a minimum amount of hold time, tHLDSTA. Once validated, the SIOE begins receiving the address byte that follows the START condition. If the EN_SS Bit (in the S1SETUP Register) is not set, then the SIOE will sample only once after detecting the '1'-to-'0' transition on SDA. This single sample is taken 1/fOSC seconds after the initial 1- to-0 transition was detected. However, more samples should be taken to ensure there is a valid START condition. To take more samples, the SIOE should be initialized such that the EN_SS Bit is set, and a value is written to the SMPL_SET[6:0] field of the S1SETUP Register to specify how many samples to take. The goal is to take a good number of samples during the minimum START condition hold time, tHLDSTA, but no so many samples that the bus will be sampled after tHLDSTA expires. Table 56., page 106 describes the relationship between the contents of S1SETUP and the resulting number of I2C bus samples that SIOE will take after detecting the 1-to-0 transition on SDA of a START condition. Important: Keep in mind that the time between samples is always 1/fOSC. The minimum START condition hold time, tHLDSTA, is different for the three common I2C speed categories per Table 57., page 106. Table 55. S1SETUP: I2C START Condition Sample Setup register (SFR DBh, reset value 00h) Note: 1. Sampling SCL and SDA lines begins after '1'-to-'0' transition on SDA occurred while SCL is high. Time between samples is 1/fOSC. Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EN_SS SMPL_SET[6:0] Details Bit Symbol R/W Function 7 EN_SS R/W Enable Sample Setup EN_SS = 1 will force the SIOE to sample(1) a START condition on the bus the number of times specified in SMPL_SET[6:0]. EN_SS = 0 means the SIOE will sample(1) a START condition only one time, regardless of the contents of SMPL_SET[6:0]. 6:0 SMPL_SET [6:0] – Sample Setting Specifies the number of bus samples(1) taken during a START condition. See Table 56 for values.uPSD33xx 106/231 Table 56. Number of I2C Bus Samples Taken after 1-to-0 Transition on SDA (START Condition) Table 57. Start Condition Hold Time Note: 1. 833KHz is maximum for uPSD33xx devices. Contents of S1SETUP Resulting value for S1SETUP Resulting Number of Samples Taken After 1-to-0 on SDA Line SS_EN bit SMPL_SET[6:0] 0 XXXXXXXb 00h (default) 1 1 0000000b 80h 1 1 0000001b 81h 2 1 0000010b 82h 3 ... ... ... ... 1 0001011b 8Bh 12 1 0010111b 97h 24 ... ... ... ... 1 1111111b FFh 128 I 2C Bus Speed Range of I2C Clock Speed (fSCL) Minimum START Condition Hold Time (tHLDSTA) Standard Up to 100KHz 4000ns Fast 101KHz to 400KHz 600ns High 401KHz to 833KHz(1) 160ns107/231 uPSD33xx Table 58 provides recommended settings for S1SETUP based on various combinations of fOSC and fSCL. Note that the “Total Sample Period” times in Table 57., page 106 are typically slightly less than the minimum START condition hold time, tHLDSTA for a given I2C bus speed. Important: The SCL bit rate fSCL must first be determined by bits CR[2:0] in the SFR S1CON before a value is chosen for SMPL_SET[6:0] in the SFR S1SETUP. Table 58. S1SETUP Examples for Various I2C Bus Speeds and Oscillator Frequencies Note: 1. Not compatible with High Speed I2C. I 2C Bus Speed, fSCL Parameter Oscillator Frequency, fOSC 6 MHz 12 MHz 24 MHz 33 MHz 40 MHz Standard Recommended S1SETUP Value 93h A7h CFh EEh FFh Number of Samples 20 40 80 111 128 Time Between Samples 166.6ns 83.3ns 41.6ns 30ns 25ns Total Sampled Period 3332ns 3332ns 3332ns 3333ns 3200ns Fast Recommended S1SETUP Value 82h 85h 8Bh 90h 93h Number of Samples 3 6 12 17 20 Time Between Samples 166.6ns 83.3ns 41.6ns 30ns 25ns Total Sampled Period 500ns 500ns 500ns 510ns 500ns High Recommended S1SETUP Value (Note 1) 80 82 83 84 Number of Samples - 1 3 4 5 Time Between Samples - 83.3ns 41.6ns 30ns 25ns Total Sampled Period - 83.3 125ns 120ns 125nsuPSD33xx 108/231 I 2C Operating Sequences The following pseudo-code explains hardware control for these I2C functions on the uPSD33xx: – Initialize the Interface – Function as Master-Transmitter – Function as Master-Receiver – Function as Slave-Transmitter – Function as Slave-Receiver – Interrupt Service Routine Full C code drivers for the uPSD33xx I2C interface, and other interfaces are available from the web at www.st.com\psm. Initialization after a uPSD33xx reset Ensure pins P3.6 and P3.7 are GPIO inputs – SFR P3.7 = 1 and SFR P3.6 = 1 Configure pins P3.6 and P3.7 as I2C – SFR P3SFS.6 = 1 and P3SFS.7 = 1 Set I2C clock prescaler to determine fSCL – SFR S1CON.CR[2:0] = desired SCL freq. Set bus START condition sampling – SFR S1SETUP[7:0] = number of samples Enable individual I2C interrupt and set priority – SFR IEA.I2C = 1 – SFR IPA.I2C = 1 if high priority is desired Set the Device address for Slave mode – SFR S1ADR = XXh, desired address Enable SIOE (as Slave) to return an ACK signal – SFR S1CON.AA = 1 Master-Transmitter Disable all interrupts – SFR IE.EA = 0 Set pointer to global data xmit buffer, set count – *xmit_buf = *pointer to data – buf_length = number of bytes to xmit Set global variables to indicate Master-Xmitter – I2C_master = 1, I2C_xmitter = 1 Disable Master from returning an ACK – SFR S1CON.AA = 0 Enable I2C SIOE – SFR S1CON.INI1 = 1 Transmit Address and R/W bit = 0 to Slave – Is bus not busy? (SFR S1STA.BBUSY = 0?) – SFR S1DAT[7:0] = Load Slave Address & FEh – SFR S1CON.STA = 1, send START on bus Enable All Interrupts and go do something else – SFR IE.EA = 1 Master-Receiver Disable all interrupts – SFR IE.EA = 0 Set pointer to global data recv buffer, set count – *recv_buf = *pointer to data – buf_length = number of bytes to recv Set global variables to indicate Master-Xmitter – I2C_master = 1, I2C_xmitter = 0 Disable Master from returning an ACK – SFR S1CON.AA = 0 Enable I2C SIOE – SFR S1CON.INI1 = 1 Transmit Address and R/W bit = 1 to Slave – Is bus not busy? (SFR S1STA.BBUSY = 0?) – SFR S1DAT[7:0] = Load Slave Address # 01h – SFR S1CON.STA = 1, send START on bus Enable All Interrupts and go do something else – SFR IE.EA = 1109/231 uPSD33xx Slave-Transmitter Disable all interrupts – SFR IE.EA = 0 Set pointer to global data xmit buffer, set count – *xmit_buf = *pointer to data – buf_length = number of bytes to xmit Set global variables to indicate Master-Xmitter – I2C_master = 0, I2C_xmitter = 1 Enable SIOE – SFR S1CON.INI1 = 1 Prepare to Xmit first data byte – SFR S1DAT[7:0] = xmit_buf[0] Enable All Interrupts and go do something else – SFR IE.EA = 1 Slave-Receiver Disable all interrupts – SFR IE.EA = 0 Set pointer to global data recv buffer, set count – *recv_buf = *pointer to data – buf_length = number of bytes to recv Set global variables to indicate Master-Xmitter – I2C_master = 0, I2C_xmitter = 0 Enable SIOE – SFR S1CON.INI1 = 1 Enable All Interrupts and go do something else – SFR IE.EA = 1 Interrupt Service Routine (ISR). A typical I2C interrupt service routine would handle a interrupt for any of the four combinations of Master/Slave and Transmitter/Receiver. In the example routines above, the firmware sets global variables, I2C_master and I2C_xmitter, before enabling interrupts. These flags tell the ISR which one of the four cases to process. Following is pseudo-code for high-level steps in the I2C ISR: Begin I2C ISR : Clear I2C interrupt flag: – S1STA.INTR = 0 Read status of SIOE, put in to variable, status – status = S1STA Read global variables that determine the mode – mode <= (I2C_master, I2C_slave) If mode is Master-Transmitter Bus Arbitration lost? (status.BLOST=1?) If Yes, Arbitration was lost: – S1DAT = dummy, write to release bus – Exit ISR, SIOE will switch to Slave Recv mode If No, Arbitration was not lost, continue: ACK recvd from Slave? (status.ACK_RESP=0?) If No, an ACK was not received: – S1CON.STO = 1, set STOP bus condition – – S1DAT = dummy, write to release bus – Exit ISR If Yes, ACK was received, then continue: – S1DAT = xmit_buf[buffer_index], transmit byte Was that the last byte of data to transmit? If No, it was not the last byte, then: – Exit ISR, transmit next byte on next interrupt If Yes, it was the last byte, then: – S1CON.STO = 1, set STOP bus condition – S1DAT = dummy, write to release bus – Exit ISRuPSD33xx 110/231 Else If mode is Master-Receiver: Bus Arbitration lost? (status.BLOST=1?) If Yes, Arbitration was lost: – S1DAT = dummy, write to release bus – Exit ISR, SIOE will switch to Slave Recv mode If No, Aribitration was not lost, continue: Is this Interrupt from sending an address to Slave, or is it from receiving a data byte from Slave? If its from sending Slave address, goto A: If its from receiving Slave data, goto B: A: (Interrupt is from Master sending addr to Slave) ACK recvd from Slave? (status.ACK_RESP=0?) If No, an ACK was not received: – S1CON.STO = 1, set STOP condition – dummy = S1DAT, read to release bus – Exit ISR If Yes, ACK was received, then continue: – dummy = S1DAT, read to release bus Does Master want to receive just one data byte? If Yes, do not allow Master to ACK on next interrupt: – Exit ISR, now ready to recv one byte from Slv If No, Master can ACK next byte from Slv – S1CON.AA = 1, allow Master to send ACK – Exit ISR, now ready to recv data from Slave B: (Interrupt is from Master recving data from Slv) – recv_buf[buffer_index] = S1DAT, read byte Is this the last data byte to receive from Slave? If Yes, tell Slave to stop transmitting: – S1CON.STO = 1, set STOP bus condition – Exit ISR, finished receiving data from Slave If No, continue: Is this the next to last byte to receive from Slave? If this is the next to last byte, do not allow Master to ACK on next interrupt. – S1CON.AA = 0, don’t let Master return ACK – Exit ISR, now ready to recv last byte from Slv If this is not next to last byte, let Master send ACK to Slave – Exit ISR, ready to recv more bytes from Slave Else If mode is Slave-Transmitter: Is this Intr from SIOE detecting a STOP on bus? If Yes, a STOP was detected: – S1DAT = dummy, write to release bus – Exit ISR, Master needs no more data bytes If No, a STOP was not detected, continue: ACK recvd from Master? (status.ACK_RESP=0?) If No, an ACK was not received: – S1DAT = dummy, write to release bus – Exit ISR, Master needs no more data bytes If Yes, ACK was received, then continue: – S1DAT = xmit_buf[buffer_index], transmit byte – Exit ISR, transmit next byte on next interrupt111/231 uPSD33xx Else If mode is Slave-Receiver: Is this Intr from SIOE detecting a STOP on bus? If Yes, a STOP was detected: – recv_buf[buffer_index] = S1DAT, get last byte – Exit ISR, Master has sent last byte If No, a STOP was not detected, continue: Determine if this Interrupt is from receiving an address or a data byte from a Master. Is (S1CON.ADDR = 1 and S1CON.AA =1)? If No, intr is from receiving data, goto C: If Yes, intr is from an address, continue: – slave_is_adressed = 1, local variable set true – S1CON.ADDR = 0, clear address match flag Determine if R/W bit indicates transmit or receive. Does status.TX_MODE = 1? If Yes, Master wants transmit mode – Exit ISR, indicate Master wants Slv-Xmit mode If No, Master wants Slave-Recv mode – dummy = S1DAT, read taran se bueuPSD33xx 112/231 SPI (SYNCHRONOUS PERIPHERAL INTERFACE) uPSD33xx devices support one serial SPI interface in Master Mode only. This is a three- or fourwire synchronous communication channel, capable of full-duplex operation on 8-bit serial data transfers. The four SPI bus signals are: ■ SPIRxD Pin P1.5 or P4.5 receives data from the Slave SPI device to the uPSD33xx ■ SPITxD Pin P1.6 or P4.6 transmits data from the uPSD33xx to the Slave SPI device ■ SPICLK Pin P1.4 or P4.4 clock is generated from the uPSD33xx to the SPI Slave device ■ SPISEL Pin P1.7 or P4.7 selects the signal from the uPSD33xx to an individual Slave SPI device This SPI interface supports single-Master/multiple-Slave connections. Multiple-Master connections are not directly supported by the uPSD33xx (no internal logic for collision detection). If more than one Slave device is required, the SPISEL signal may be generated from uPSD33xx GPIO outputs (one for each Slave) or from the PLD outputs of the PSD Module. Figure 41. illustrates three examples of SPI device connections using the uPSD33xx: ■ Single-Master/Single-Slave with SPISEL ■ Single-Master/Single-Slave without SPISEL ■ Single-Master/Multiple-Slave without SPISEL Figure 41. SPI Device Connection Examples SPI Bus SPI Bus SPI Bus SPITxD SPIRxD uPSD33xx SPI Master SPI Slave SPICLK Device SPISEL AI07853b MOSI MISO SCLK Single-Master/Single-Slave, with SPISEL Single-Master/Single-Slave, without SPISEL Single-Master/Multiple-Slave, without SPISEL SS SPI Slave Device MOSI MISO SCLK SS SPI Slave Device MOSI MISO SCLK SS SS SPITxD SPIRxD uPSD33xx SPI Master SPI Slave SPICLK Device SPITxD SPIRxD uPSD33xx SPI Master SPICLK GPIO or PLD GPIO or PLD MOSI MISO SCLK113/231 uPSD33xx SPI Bus Features and Communication Flow The SPICLK signal is a gated clock generated from the uPSD33xx (Master) and regulates the flow of data bits. The Master may transmit at a variety of baud rates, and the SPICLK signal will clock one period for each bit of transmitted data. Data is shifted on one edge of SPICLK and sampled on the opposite edge. The SPITxD signal is generated by the Master and received by the Slave device. The SPIRxD signal is generated by the Slave device and received by the Master. There may be no more than one Slave device transmitting data on SPIRxD at any given time in a multi-Slave configuration. Slave selection is accomplished when a Slave’s “Slave Select” (SS) input is permanently grounded or asserted active-low by a Master device. Slave devices that are not selected do not interfere with SPI activities. Slave devices ignore SPICLK and keep their MISO output pins in high-impedance state when not selected. The SPI specification allows a selection of clock polarity and clock phase with respect to data. The uPSD33xx supports the choice of clock polarity, but it does not support the choice of clock phase (phase is fixed at what is typically known as CPHA = 1). See Figure 43. and Figure 44., page 114 for SPI data and clock relationships. Referring to these figures (43 and 44), when the phase mode is defined as such (fixed at CPHA =1), in a new SPI data frame, the Master device begins driving the first data bit on SPITxD at the very first edge of the first clock period of SPICLK. The Slave device will use this first clock edge as a transmission start indicator, and therefore the Slave’s Slave Select input signal may remain grounded in a single-Master/single-Slave configuration (which means the user does not have to use the SPISEL signal from uPSD33xx in this case). The SPI specification does not specify high-level protocol for data exchange, only low-level bit-serial transfers are defined. Full-Duplex Operation When an SPI transfer occurs, 8 bits of data are shifted out on one pin while a different 8 bits of data are simultaneously shifted in on a second pin. Another way to view this transfer is that an 8-bit shift register in the Master and another 8-bit shift register in the Slave are connected as a circular 16-bit shift register. When a transfer occurs, this distributed shift register is shifted 8 bit positions; thus, the data in the Master and Slave devices are effectively exchanged (see Figure 42.). Bus-Level Activity Figure 43. details an SPI receive operation (with respect to bus Master) and Figure 44. details an SPI transmit operation. Also shown are internal flags available to firmware to manage data flow. These flags are accessed through a number of SFRs. Note: The uPSD33xx SPI interface SFRs allow the choice of transmitting the most significant bit (MSB) of a byte first, or the least significant bit (LSB) first. The same bit-order applies to data reception. Figures 43 and 44 illustrate shifting the LSB first. Figure 42. SPI Full-Duplex Data Exchange SPI Bus Master Device Slave Device AI10485 SS SPITxD SPIRxD Baud Rate Generator 8-Bit Shift Register 8-Bit Shift Register SPICLK MOSI MISO SCLKuPSD33xx 114/231 Figure 43. SPI Receive Operation Example Figure 44. SPI Transmit Operation Example Bit7 SPICLK (SPO=0) SPICLK (SPO=1) SPIRXD Bit0 Bit1 Bit7 Bit0 Bit1 Bit7 1 frame RISF RORIS BUSY SPIINTR SPIRDR Full interrupt requested Interrupt handler read data in SPIRDR SPIRDR Full interrupt requested Transmit End interrupt requested AI07855 Bit0 SPICLK (SPO=0) SPICLK (SPO=1) SPITXD Bit1 Bit7 Bit0 Bit1 Bit7 1 frame TISF TEISF BUSY SPIINTR SPITDR Empty interrupt requested Interrupt handler write data in TDR SPITDR Empty interrupt requested Transmit End interrupt requested SPISEL AI07854115/231 uPSD33xx SPI SFR Registers Six SFR registers control the SPI interface: ■ SPICON0 (Table 59., page 117) for interface control ■ SPICON1 (Table 60., page 118) for interrupt control ■ SPITDR (SFR D4h, Write only) holds byte to transmit ■ SPIRDR (SFR D5h, Read only) holds byte received ■ SPICLKD (Table 61., page 118) for clock divider ■ SPISTAT (Table 62., page 119) holds interface status The SPI interface functional block diagram (Figure 45.) shows these six SFRs. Both the transmit and receive data paths are double-buffered, meaning that continuous transmitting or receiving (back-toback transfer) is possible by reading from SPIRDR or writing data to SPITDR while shifting is taking place. There are a number of flags in the SPISTAT register that indicate when it is full or empty to assist the 8032 MCU in data flow management. When enabled, these status flags will cause an interrupt to the MCU. Figure 45. SPI Interface, Master Mode Only SPITDR - TRANSMIT REGISTER SPITxD / P1.6 or P4.6 TIMING AND CONTROL (fOSC) INTR to 8032 SPIRDR - RECEIVE REGISTER 8-bit SHIFT REGISTER 8 8 8 8 SPIRxD / P1.5 or P4.5 SPICON0, SPICON1 - CONTROL REGISTERS 8 SPISTAT - STATUS REGISTER 8 8032 MCU DATA BUS CLOCK GENERATE SPISEL / P1.7 or P4.7 CLOCK SPICLK / P1.4 or P4.4 DIVIDE ÷1 ÷4 ÷8 ÷16 ÷32 ÷64 ÷128 SPICLKD - DIVIDE SELECT 8 PERIPH_CLK AI10486uPSD33xx 116/231 SPI Configuration The SPI interface is reset by the MCU reset, and firmware needs to initialize the SFRs SPICON0, SPICON1, and SPICLKD to define several operation parameters. The SPO Bit in SPICON0 determines the clock polarity. When SPO is set to '0,' a data bit is transmitted on SPITxD from one rising edge of SPICLK to the next and is guaranteed to be valid during the falling edge of SPICLK. When SPO is set to '1,' a data bit is transmitted on SPITxD from one falling edge of SPICLK to the next and is guaranteed to be valid during the rising edge of SPICLK. The uPSD33xx will sample received data on the appropriate edge of SPICLK as determined by SPO. The effect of the SPO Bit can be seen in Figure 43. and Figure 44., page 114. The FLSB Bit in SPICON0 determines the bit order while transmitting and receiving the 8-bit data. When FLSB is '0,' the 8-bit data is transferred in order from MSB (first) to LSB (last). When FLSB Bit is set to '1,' the data is transferred in order from LSB (first) to MSB (last). The clock signal generated on SPICLK is derived from the internal PERIPH_CLK signal. PERIPH_CLK always operates at the frequency, fOSC, and runs constantly except when stopped in MCU Power Down mode. SPICLK is a result of dividing PERIPH_CLK by a sum of different divisors selected by the value contained in the SPICLKD register. The default value in SPICLKD after a reset divides PERIPH_CLK by a factor of 4. The bits in SPICLKD can be set to provide resulting divisor values in of sums of multiples of 4, such as 4, 8, 12, 16, 20, all the way up to 252. For example, if SPICLKD contains 0x24, SPICLK has the frequency of PERIH_CLK divided by 36 decimal. The SPICLK frequency must be set low enough to allow the MCU time to read received data bytes without loosing data. This is dependent upon many things, including the crystal frequency of the MCU and the efficiency of the SPI firmware. Dynamic Control At runtime, bits in registers SPICON0, SPICON1, and SPISTAT are managed by firmware for dynamic control over the SPI interface. The bits Transmitter Enable (TE) and Receiver Enable (RE) when set will allow transmitting and receiving respectively. If TE is disabled, both transmitting and receiving are disabled because SPICLK is driven to constant output logic ‘0’ (when SPO = 0) or logic '1' (when SPO = 1). When the SSEL Bit is set, the SPISEL pin will drive to logic '0' (active) to select a connected slave device at the appropriate time before the first data bit of a byte is transmitted, and SPISEL will automatically return to logic '1' (inactive) after transmitting the eight bit of data, as shown in Figure 44., page 114. SPISEL will continue to automatically toggle this way for each byte data transmission while the SSEL bit is set by firmware. When the SSEL Bit is cleared, the SPISEL pin will drive to constant logic '1' and stay that way (after a transmission in progress completes). The Interrupt Enable Bits (TEIE, RORIE,TIE, and RIE) when set, will allow an SPI interrupt to be generated to the MCU upon the occurrence of the condition enabled by these bits. Firmware must read the four corresponding flags in the SPISTAT register to determine the specific cause of interrupt. These flags are automatically cleared when firmware reads the SPISTAT register.117/231 uPSD33xx Table 59. SPICON0: Control Register 0 (SFR D6h, Reset Value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – TE RE SPIEN SSEL FLSB SBO – Details Bit Symbol R/W Definition 7 – – Reserved 6 TE RW Transmitter Enable 0 = Transmitter is disabled 1 = Transmitter is enabled 5 RE RW Receiver Enable 0 = Receiver is disabled 1 = Receiver is enabled 4 SPIEN RW SPI Enable 0 = Entire SPI Interface is disabled 1 = Entire SPI Interface is enabled 3 SSEL RW Slave Selection 0 = SPISEL output pin is constant logic '1' (slave device not selected) 1 = SPISEL output pin is logic '0' (slave device is selected) during data transfers 2 FLSB RW First LSB 0 = Transfer the most significant bit (MSB) first 1 = Transfer the least significant bit (LSB) first 1 SPO – Sampling Polarity 0 = Sample transfer data at the falling edge of clock (SPICLK is '0' when idle) 1 = Sample transfer data at the rising edge of clock (SPICLK is '1' when idle) 0 – – ReserveduPSD33xx 118/231 Table 60. SPICON1: SPI Interface Control Register 1 (SFR D7h, Reset Value 00h) Table 61. SPICLKD: SPI Prescaler (Clock Divider) Register (SFR D2h, Reset Value 04h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – – TEIE RORIE TIE RIE Details Bit Symbol R/W Definition 7-4 – – Reserved 3 TEIE RW Transmission End Interrupt Enable 0 = Disable Interrupt for Transmission End 1 = Enable Interrupt for Transmission End 2 RORIE RW Receive Overrun Interrupt Enable 0 = Disable Interrupt for Receive Overrun 1 = Enable Interrupt for Receive Overrun 1 TIE RW Transmission Interrupt Enable 0 = Disable Interrupt for SPITDR empty 1 = Enable Interrupt for SPITDR empty 0 RIE RW Reception Interrupt Enable 0 = Disable Interrupt for SPIRDR full 1 = Enable Interrupt for SPIRDR full Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 DIV128 DIV64 DIV32 DIV16 DIV8 DIV4 – – Details Bit Symbol R/W Definition 7 DIV128 RW 0 = No division 1 = Divide fOSC clock by 128 6 DIV64 RW 0 = No division 1 = Divide fOSC clock by 64 5 DIV32 RW 0 = No division 1 = Divide fOSC clock by 32 4 DIV16 RW 0 = No division 1 = Divide fOSC clock by 16 3 DIV8 RW 0 = No division 1 = Divide fOSC clock by 8 2 DIV4 RW 0 = No division 1 = Divide fOSC clock by 4 1-0 Not Used –119/231 uPSD33xx Table 62. SPISTAT: SPI Interface Status Register (SFR D3h, Reset Value 02h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – BUSY TEISF RORISF TISF RISF Details Bit Symbol R/W Definition 7-5 – – Reserved 4 BUSY R SPI Busy 0 = Transmit or Receive is completed 1 = Transmit or Receive is in process 3 TEISF R Transmission End Interrupt Source flag 0 = Automatically resets to '0' when firmware reads this register 1 = Automatically sets to '1' when transmission end occurs 2 RORISF R Receive Overrun Interrupt Source flag 0 = Automatically resets to '0' when firmware reads this register 1 = Automatically sets to '1' when receive overrun occurs 1 TISF R Transfer Interrupt Source flag 0 = Automatically resets to '0' when SPITDR is full (just after the SPITDR is written) 1 = Automatically sets to '1' when SPITDR is empty (just after byte loads from SPITDR into SPI shift register) 0 RISF R Receive Interrupt Source flag 0 = Automatically resets to '0' when SPIRDR is empty (after the SPIRDR is read) 1 = Automatically sets to '1' when SPIRDR is fulluPSD33xx 120/231 ANALOG-TO-DIGITAL CONVERTOR (ADC) The ADC unit in the uPSD33xx is a SAR type ADC with an SAR register, an auto-zero comparator and three internal DACs. The unit has 8 input channels with 10-bit resolution. The A/D converter has its own VREF input (80-pin package only), which specifies the voltage reference for the A/D operations. The analog to digital converter (A/D) allows conversion of an analog input to a corresponding 10-bit digital value. The A/D module has eight analog inputs (P1.0 through P1.7) to an 8x1 multiplexor. One ADC channel is selected by the bits in the configuration register. The converter generates a 10-bits result via successive approximation. The analog supply voltage is connected to the VREF input, which powers the resistance ladder in the A/D module. The A/D module has 3 registers, the control register ACON, the A/D result register ADAT0, and the second A/D result register ADAT1. The ADAT0 Register stores Bits 0.. 7 of the converter output, Bits 8.. 9 are stored in Bits 0..1 of the ADAT1 Register. The ACON Register controls the operation of the A/D converter module. Three of the bits in the ACON Register select the analog channel inputs, and the remaining bits control the converter operation. ADC channel pin input is enabled by setting the corresponding bit in the P1SFS0 and P1SFS1 Registers to '1' and the channel select bits in the ACON Register. The ADC reference clock (ADCCLK) is generated from fOSC divided by the divider in the ADCPS Register. The ADC operates within a range of 2 to 16MHz, with typical ADCCLK frequency at 8MHz. The conversion time is 4µs typical at 8MHz. The processing of conversion starts when the Start Bit ADST is set to '1.' After one cycle, it is cleared by hardware. The ADC is monotonic with no missing codes. Measurement is by continuous conversion of the analog input. The ADAT Register contains the results of the A/D conversion. When conversion is complete, the result is loaded into the ADAT. The A/D Conversion Status Bit ADSF is set to '1.' The block diagram of the A/D module is shown in Figure 46. The A/D status bit ADSF is set automatically when A/D conversion is completed and cleared when A/D conversion is in process. In addition, the ADC unit sets the interrupt flag in the ACON Register after a conversion is complete (if AINTEN is set to '1'). The ADC interrupts the CPU when the enable bit AINTEN is set. Port 1 ADC Channel Selects The P1SFS0 and P1SFS1 Registers control the selection of the Port 1 pin functions. When the P1SFS0 Bit is '0,' the pin functions as a GPIO. When bits are set to '1,' the pins are configured as alternate functions. A new P1SFS1 Register selects which of the alternate functions is enabled. The ADC channel is enabled when the bit in P1SFS1 is set to '1.' Note: In the 52-pin package, there is no individual VREF pin because VREF is combined with AVCC pin. Figure 46. 10-Bit ADC ANALOG MUX SELECT ADC OUT - 10 BITS ACON REG ADAT 0 REG CONTROL 10-BIT SAR ADC ADAT1 REG ADC0 ADC1 ADC2 ADC3 ADC4 ADC5 ADC6 ADC7 AVREF P1.0 P1.1 P1.2 P1.3 P1.4 P1.5 P1.6 P1.7 AVREF AI07856121/231 uPSD33xx Table 63. ACON Register (SFR 97h, Reset Value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 AINTF AINTEN ADEN ADS2 ADS1 ADS0 ADST ADSF Details Bit Symbol Function 7 AINTF ADC Interrupt flag. This bit must be cleared with software. 0 = No interrupt request 1 = The AINTF flag is set when ADSF goes from '0' to '1.' Interrupts CPU when both AINTF and AINTEN are set to '1.' 6 AINTEN ADC Interrupt Enable 0 = ADC interrupt is disabled 1 = ADC interrupt is enabled 5 ADEN ADC Enable Bit 0 = ADC shut off and consumes no operating current 1 = Enable ADC. After ADC is enabled, 16ms of calibration is needed before ADST Bit is set. 4.. 2 ADS2.. 0 Analog channel Select 000 Select channel 0 (P1.0) 001 Select channel 0 (P1.1) 010 Select channel 0 (P1.2) 011 Select channel 0 (P1.3) 101 Select channel 0 (P1.5) 110 Select channel 0 (P1.6) 111 Select channel 0 (P1.7) 1 ADST ADC Start Bit 0 = Force to zero 1 = Start ADC, then after one cycle, the bit is cleared to '0.' 0 ADSF ADC Status Bit 0 = ADC conversion is not completed 1 = ADC conversion is completed. The bit can also be cleared with software.uPSD33xx 122/231 Table 64. ADCPS Register Details (SFR 94h, Reset Value 00h) Table 65. ADAT0 Register (SFR 95H, Reset Value 00h) Table 66. ADAT1 Register (SFR 96h, Reset Value 00h) Bit Symbol Function 7:4 – Reserved 3 ADCCE ADC Conversion Reference Clock Enable 0 = ADC reference clock is disabled (default) 1 = ADC reference clock is enabled 2:0 ADCPS[2:0] ADC Reference Clock PreScaler Only three Prescaler values are allowed: ADCPS[2:0] = 0, for fOSC frequency 16MHz or less. Resulting ADC clock is fOSC. ADCPS[2:0] = 1, for fOSC frequency 32MHz or less. Resulting ADC clock is fOSC/2. ADCPS[2:0] = 2, for fOSC frequency 32MHz > 40MHz. Resulting ADC clock is fOSC/4. Bit Symbol Function 7:0 – Store ADC output, Bit 7 - 0 Bit Symbol Function 7:2 – Reserved 1.. 0 – Store ADC output, Bit 9, 8123/231 uPSD33xx PROGRAMMABLE COUNTER ARRAY (PCA) WITH PWM There are two Programmable Counter Array blocks (PCA0 and PCA1) in the uPSD33xx. A PCA block consists of a 16-bit up-counter, which is shared by three TCM (Timer Counter Module). A TCM can be programmed to perform one of the following four functions: 1. Capture Mode: capture counter values by external input signals 2. Timer Mode 3. Toggle Output Mode 4. PWM Mode: fixed frequency (8-bit or 16-bit), programmable frequency (8-bit only) PCA Block The 16-bit Up-Counter in the PCA block is a freerunning counter (except in PWM Mode with programmable frequency). The Counter has a choice of clock input: from an external pin, Timer 0 Overflow, or PCA Clock. A PCA block has 3 Timer Counter Modules (TCM) which share the 16-bit Counter output. The TCM can be configured to capture or compare counter value, generate a toggling output, or PWM functions. Except for the PWM function, the other TCM functions can generate an interrupt when an event occurs. Every TCM is connected to a port pin in Port 4; the TCM pin can be configured as an event input, a PWMs, a Toggle Output, or as External Clock Input. The pins are general I/O pins when not assigned to the TCM. The TCM operation is configured by Control registers and Capture/Compare registers. Table 67., page 124 lists the SFR registers in the PCA blocks. Figure 47. PCA0 Block Diagram TIMER0 OVERFLOW P4.3/ECI PCACH0 8-bit PCACL0 8-bit CLKSEL1 IDLE MODE (From CPU) OVF0 INT EOVFI TCM0 TCM1 TCM2 PWM FREQ COMPARE P4.0/CEX0 P4.1/CEX1 P4.2/CEX2 16-bit up Timer/Counter CLKSEL0 PCAIDLE PCA0CLK CLEAR COUNTER EN_PCA EN_ALL AI07857uPSD33xx 124/231 Table 67. PCA0 and PCA1 Registers SFR Address Register Name RW Register Function PCA0 PCA1 PCA0 PCA1 A2 BA PCACL0 PCACL1 RW The low 8 bits of PCA 16-bit counter. A3 BB PCACH0 PCACH1 RW The high 8 bits of PCA 16-bit counter. A4 BC PCACON0 PCACON1 RW Control Register – Enable PCA, Timer Overflow flag , PCA Idle Mode, and Select clock source. A5 A5 PCASTA N/A RW Status Register, Interrupt Status flags – Common for both PCA Block 0 and 1. A9, AA, AB BD, BE, BF TCMMODE0 TCMMODE1 TCMMODE2 TCMMODE3 TCMMODE4 TCMMODE5 RW TCM Mode – Capture, Compare, and Toggle Enable Interrupts – PWM Mode Select. AC AD C1 C2 CAPCOML0 CAPCOMH0 CAPCOML3 CAPCOMH3 RW Capture/Compare registers of TCM0 AF B1 C3 C4 CAPCOML1 CAPCOMH1 CAPCOML4 CAPCOMH4 RW Capture/Compare registers of TCM1 B2 B3 C5 C6 CAPCOML2 CAPCOMH2 CAPCOML5 CAPCOMH5 RW Capture/Compare registers of TCM2 B4 C7 PWMF0 PWMF1 RW The 8-bit register to program the PWM frequency. This register is used for programmable, 8-bit PWM Mode only. FB FC CCON2 CCON3 RW Specify the pre-scaler value of PCA0 or PCA1 clock input125/231 uPSD33xx PCA Clock Selection The clock input to the 16-bit up counter in the PCA block is user-programmable. The three clock sources are: – PCA Prescaler Clock (PCA0CLK, PCA1CLK) – Timer 0 Overflow – External Clock, Pin P4.3 or P4.7 The clock source is selected in the configuration register PCACON. The Prescaler output clock PCACLK is the fOSC divided by the divisor which is specified in the CCON2 or CCON3 Register. When External Clock is selected, the maximum clock frequency should not exceed fOSC/4. Table 68. CCON2 Register Bit Definition (SFR 0FBh, Reset Value 10h) Table 69. CCON3 Register Bit Definition (SFR 0FCh, Reset Value 10h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – PCA0CE PCA0PS3 PCA0PS2 PCA0PS1 PCA0PS0 Details Bit Symbol R/W Definition 4 PCA0CE R/W PCA0 Clock Enable 0 = PCA0CLK is disabled 1 = PCA0CLK is enabled (default) 3:0 PCA0PS [3:0] R/W PCA0 Prescaler fPCA0CLK = fOSC / (2 ^ PCA0PS[3:0]) Divisor range: 1, 2, 4, 8, 16... 16384, 32768 Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – – – PCA1CE PCA1PS3 PCA1PS2 PCA1PS1 PCA1PS0 Details Bit Symbol R/W Definition 4 PCA1CE R/W PCA1 Clock Enable 0 = PCA1CLK is disabled 1 = PCA1CLK is enabled (default) 3:0 PCA1PS [3:0] R/W PCA1 Prescaler fPCA1CLK = fOSC / (2 ^ PCA1PS[3:0]) Divisor range: 1, 2, 4, 8, 16... 16384, 32768uPSD33xx 126/231 Operation of TCM Modes Each of the TCM in a PCA block supports four modes of operation. However, an exception is when the TCM is configured in PWM Mode with programmable frequency. In this mode, all TCM in a PCA block must be configured in the same mode or left to be not used. Capture Mode The CAPCOM registers in the TCM are loaded with the counter values when an external pin input changes state. The user can configure the counter value to be loaded by positive edge, negative edge or any transition of the input signal. At loading, the TCM can generate an interrupt if it is enabled. Timer Mode The TCM modules can be configured as software timers by enable the comparator. The user writes a value to the CAPCOM registers, which is then compared with the 16-bit counter. If there is a match, an interrupt can be generated to CPU. Toggle Mode In this mode, the user writes a value to the TCM's CAPCOM registers and enables the comparator. When there is a match with the Counter output, the output of the TCM pin toggles. This mode is a simple extension of the Timer Mode. PWM Mode - (X8), Fixed Frequency In this mode, one or all the TCM's can be configured to have a fixed frequency PWM output on the port pins. The PWM frequency depends on when the low byte of the Counter overflows (modulo 256). The duty cycle of each TCM module can be specified in the CAPCOMHn Register. When the PCA_Counter_L value is equal to or greater than the value in CAPCOMHn, the PWM output is switched to a high state. When the PCA_Counter_L Register overflows, the content in CAPCOMHn is loaded to CAPCOMLn and a new PWM pulse starts. Figure 48. Timer Mode Note: m = 0: n = 0, 1, or 2 m = 1: n = 3, 4, or 5 MATCH_TIMER INTR 0 0 0 TCMMODEn ENABLE 8 8 MATCH PCASTA CAPCOMLn PCACHm PCACLm 16-bit COMPARATOR CAPCOMHn INTFn 0 0 16-bit up Timer/Counter 8 8 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM1 PWM0 RESET WRITE to CAPCOMHn WRITE to CAPCOMLn 1 0 EN_FLAG C D AI07858127/231 uPSD33xx Figure 49. PWM Mode - (X8), Fixed Frequency Note: m = 0: n = 0, 1, or 2 m = 1: n = 3, 4, or 5 CAPCOMHn OVERFLOW ENABLE 8 PCACLm 8 CAPCOMLn 8-bit COMPARATORn CEXn MATCH S R Q Q SET CLR 0 0 TCMMODEn 0 0 0 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM1 PWM0 AI07859uPSD33xx 128/231 PWM Mode - (X8), Programmable Frequency In this mode, the PWM frequency is not determined by the overflow of the low byte of the Counter. Instead, the frequency is determined by the PWMFm Register. The user can load a value in the PWMFm Register, which is then compared to the low byte of the Counter. If there is a match, the Counter is cleared and the Load registers (PWMFm, CAPCOMHn) are re-loaded for the next PWM pulse. There is only one PWMFm Register which serves all 3 TCM in a PCA block. If one of the TCM modules is operating in this mode, the other modules in the PCA must be configured to the same mode or left not to be used. The duty cycle of the PWM can be specified in the CAPCOMHn Register as in the PWM with fixed frequency mode. Different TCM modules can have their own duty cycle. Note: The value in the Frequency Register (PWMFm) must be larger than the duty cycle register (CAPCOM). Figure 50. PWM Mode - (X8) Programmable Frequency Note: m = 0: n = 0, 1, or 2 m = 1: n = 3, 4, or 5 CLR PCACHm PWM FREQ COMPARE PWMFm = PCACLm PCACLm CAPCOMHn ENABLE ENABLE CEXn 8 8 PWMFm 8-bit COMPARATORm 8-bit COMPARATORn CAPCOMLn MATCH S R Q Q SET CLR 8 0 0 TCMMODEn 0 0 0 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM1 PWM0 AI07860129/231 uPSD33xx PWM Mode - Fixed Frequency, 16-bit The operation of the 16-bit PWM is the same as the 8-bit PWM with fixed frequency. In this mode, one or all the TCM can be configured to have a fixed frequency PWM output on the port pins. The PWM frequency is depending on the clock input frequency to the 16-bit Counter. The duty cycle of each TCM module can be specified in the CAPCOMHn and CAPCOMLn Registers. When the 16- bit PCA_Counter is equal or greater than the values in registers CAPCOMHn and CAPCOMLn, the PWM output is switched to a high state. When the PCA_Counter overflows, CEXn is asserted low. PWM Mode - Fixed Frequency, 10-bit The 10-bit PWM logic requires that all 3 TCMs in PCA0 or PCA1 operate in the same 10-bit PWM mode. The 10-bit PWM operates in a similar manner as the 16-bit PWM, except the PCACHm and PCACLm counters are reconfigured as 10-bit counters. The CAPCOMHn and CAPCOMLn Registers become 10-bit registers. PWM duty cycle of each TCM module can be specified in the 10-bit CAPCOMHn and CAPCOMLn Registers. When the 10-bit PCA counter is equal or greater than the values in the 10-bit registers CAPCOMHn and CAPCOMLn, the PWM output switches to a high state. When the 10-bit PCA counter overflows, the PWM pin is switched to a logic low and starts the next PWM pulse. The most-significant 6 bits in the PCACHm counter and CAPCOMH Register are “Don’t cares” and have no effect on the PWM generation. Writing to Capture/Compare Registers When writing a 16-bit value to the PCA Capture/ Compare registers, the low byte should always be written first. Writing to CAPCOMLn clears the E_COMP Bit to '0'; writing to CAPCOMHn sets E_COMP to '1' the largest duty cycle is 100% (CAPCOMHn CAPCOMLn = 0x0000), and the smallest duty cycle is 0.0015% (CAPCOMHn CAPCOMLn = 0xFFFF). A 0% duty cycle may be generated by clearing the E_COMP Bit to ‘0’. Control Register Bit Definition Each PCA has its own PCA_CONFIGn, and each module within the PCA block has its own TCM_Mode Register which defines the operation of that module (see Table 70., page 129 through Table 71., page 130). There is one PCA_STATUS Register that covers both PCA0 and PCA1 (see Table 72., page 131). Table 70. PCA0 Control Register PCACON0 (SFR 0A4h, Reset Value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EN-ALL EN_PCA EOVFI PCAIDLE – – CLK_SEL[1:0] Details Bit Symbol Function 7 EN-ALL 0 = No impact on TCM modules 1 = Enable both PCA counters simultaneously (override the EN_PCA Bits) This bit is to start the two 16-bit counters in the PCA. For customers who want 5 PWM, for example, this bit can start all of the PWM outputs. 6 EN_PCA 0 = PCA counter is disabled 1 = PCA counter is enabled EN_PCA Counter Run Control Bit. Set with software to turn the PCA counter on. Must be cleared with software to turn the PCA counter off. 5 EOVFI 1 = Enable Counter Overflow Interrupt if overflow flag (OVF) is set 4 PCAIDLE 0 = PCA operates when CPU is in Idle Mode 1 = PCA stops running when CPU is in Idle Mode 3 – Reserved 2 10B_PWM 0 = Select 16-bit PWM 1 = Select 10-bit PWM 1-0 CLK_SEL [1:0] 00 Select Prescaler clock as Counter clock 01 Select Timer 0 Overflow 10 Select External Clock pin (P4.3 for PCA0) (MAX clock rate = fOSC/4)uPSD33xx 130/231 Table 71. PCA1 Control Register PCACON1 (SFR 0BCh, Reset Value 00h) Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 – EN_PCA EOVFI PCAIDLE – – CLK_SEL[1:0] Details Bit Symbol Function 6 EN_PCA 0 = PCA counter is disabled 1 = PCA counter is enabled EN_PCA Counter Run Control Bit. Set with software to turn the PCA counter on. Must be cleared with software to turn the PCA counter off. 5 EOVFI 1 = Enable Counter Overflow Interrupt if overflow flag (OVF) is set 4 PCAIDLE 0 = PCA operates when CPU is in Idle Mode 1 = PCA stops running when CPU is in Idle Mode 3 – Reserved 2 10B_PWM 0 = Select 16-bit PWM 1 = Select 10-bit PWM 1-0 CLK_SEL [1:0] 00 Select Prescaler clock as Counter clock 01 Select Timer 0 Overflow 10 Select External Clock pin (P4.7 for PCA1) (MAX clock rate = fOSC/4)131/231 uPSD33xx Table 72. PCA Status Register PCASTA (SFR 0A5h, Reset Value 00h)uPSD33xx 132/231 TCM Interrupts There are 8 TCM interrupts: 6 match or capture interrupts and two counter overflow interrupts. The 8 interrupts are “ORed” as one PCA interrupt to the CPU. By the nature of PCA application, it is unlikely that many of the interrupts occur simultaneously. If they do, the CPU has to read the interrupt flags and determine which one to serve. The software has to clear the interrupt flag in the Status Register after serving the interrupt. Table 73. TCMMODE0 - TCMMODE5 (6 Registers, Reset Value 00h) Table 74. TCMMODE Register Configurations Note: 1. 10-bit PWM mode requires the 10B_PWM Bit in the PCACON Register set to '1.' Bit 7 Bit 6 Bit 5 Bit 4 Bit 3 Bit 2 Bit 1 Bit 0 EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM[1:0] Details Bit Symbol Function 7 EINTF 1 - Enable the interrupt flags (INTF) in the Status Register to generate an interrupt. 6 E_COMP 1 - Enable the comparator when set 5 CAP_PE 1 - Enable Capture Mode, a positive edge on the CEXn pin. 4 CAP_NE 1 - Enable Capture Mode, a negative edge on the CEXn pin. 3 MATCH 1 - A match from the comparator sets the INTF bits in the Status Register. 2 TOGGLE 1 - A match on the comparator results in a toggling output on CEXn pin. 1-0 PWM[1:0] 01 Enable PWM Mode (x8), fixed frequency. Enable the CEXn pin as a PWM output. 10 Enable PWM Mode (x8) with programmable frequency. Enable the CEXn pin as a PWM output. 11 Enable PWM Mode (x10 or x16), fixed frequency. Enable the CEXn pin as a PWM output. EINTF E_COMP CAP_PE CAP_NE MATCH TOGGLE PWM1 PWM0 TCM FUNCTION 0 0 0 0 0 0 0 0 No operation (reset value) 0 1 0 0 0 0 0 1 8-bit PWM, fixed frequency 0 1 0 0 0 0 10 8-bit PWM, programmable frequency 0 1 0 0 0 0 11 10-bit or 16-bit PMW, fixed frequency(1) X 1 0 0 1 1 0 0 16-bit toggle X 1 0 0 1 0 0 0 16-bit Software Timer X X 0 1 0 0 0 0 16-bit capture, negative trigger X X 1 0 0 0 0 0 16-bit capture, positive trigger X X 1 1 0 0 0 0 16-bit capture, transition trigger133/231 uPSD33xx PSD MODULE The PSD Module is stacked with the MCU Module to form the uPSD33xx, see uPSD33xx HARDWARE DESCRIPTION, page 13. Details of the PSD Module are shown in Figure 51. The two separate modules interface with each other at the 8032 Address, Data, and Control interface blocks in Figure 51. Figure 51. PSD Module Block Diagram PD1 PD2 PORT D PA0 PA1 PA2 PA3 PA4 PA5 PA6 PA7 PORT B PB0 PB1 PB2 PB3 PB4 PB5 PB6 PB7 GENERAL PLD 20 INPUT MACROCELLS A B 16 OUTPUT MACROCELLS A B A B A B A B A B A B A B B C B C B C B C B C B C B C B C SECURITY LOCK PLD INPUT BUS PIN FEEDBACK NODE FEEDBACK PSD Module: uPSD33XX DECODE PLD AND-OR ARRAY FS0-7 AAAAAAAA BBBBBBBB C C C C TO PLD INPUT BUS PORT C PC0 PC1 PC2 PC3 PC4 PC5 PC6 PC7 JTAG-ISP TO ALL AREAS OF PSD MODULE ADDR, DATA, CONTROL BUS LINKED TO 8032 MCU RUNTIME CONTROL, 256 REGs GPIO, VM, PAGE POWER MNGMT CSIOP PLD CSBOOT0-3 EXTERNAL CHIPSELECTS MAIN FLASH MEMORY Up to 8 SEGMENTS FS0 Up to 256 KBytes TOTAL FS7 2nd FLASH MEMORY Up to 4 SEGMENTS Up to 32 KBytes TOTAL CSBOOT0 CSBOOT3 DATA ADDRESS LATCH LOW ADDR HIGH ADDR 8032 MUX ADDR/DATA AD0 AD1 AD2 AD3 AD4 AD5 AD6 AD7 8032 HI ADDR A8 A9 A10 A11 A12 A13 A14 A15 8032 CNTL RD WR PSEN ALE RST 8032 MCU Module PORT A (80-pin only) TO JTAG DEBUG ON MCU GPIO PLD GPIO GPIO GPIO 8 PIN INPUTS MCU READ or WRITE MCU READ PLD OUT PLD OUT PLD OUT PLD OUT PLD OUT JTAG CNTL 8 PIN INPUTS 4 PIN INPUTS MCU READ or WRITE RS0 Up to 32 KBytes SRAM PAGE REG JTAG OMC ALLOCATOR AND-OR ARRAY 69 INPUTS 69 INPUTS AI07872B PLD INPUT BUSuPSD33xx 134/231 PSD Module Functional Description Major functional blocks are shown in Figure 51., page 133. The next sections describe each major block. 8032 Address/Data/Control Interface. These signals attach directly to the MCU Module to implement a typical multiplexed 8051-style bus between the two stacked die. The MCU instruction prefetch and branch cache logic resides on the MCU Module, leaving a standard 8051-style memory interface on the PSD Module. The active-low reset signal originating from the MCU Module goes to the PSD Module reset input (RST). This reset signal can then be routed as an external output from the uPSD33xx to the system PC board, if needed, through any one of the PLD output pins as active-high or active-low logic by specifying logic equations in PSDsoft Express. The 8032 address and data busses are routed throughout the PSD Module as shown in Figure 51 connecting many elements on the PSD Module to the 8032 MCU. The 8032 bus is not only connected to the memories, but also to the General PLD, making it possible for the 8032 to directly read and write individual logic macrocells inside the General PLD. Dual Flash Memories and IAP. uPSD33xx devices contain two independent Flash memory arrays. This means that the 8032 can read instructions from one Flash memory array while erasing or writing the other Flash memory array. Concurrent operation like this enables robust remote updates of firmware, also known as In-Application Programming (IAP). IAP can occur using any uPSD33xx interface (e.g., UART, I2C, SPI). Concurrent memory operation also enables the designer to emulate EEPROM memory within either of the two Flash memory arrays for small data sets that have frequent updates. The 8032 can erase Flash memories by individual sectors or it can erase an entire Flash memory array at one time. Each sector in either Flash memory may be individually write protected, blocking any WRITEs from the 8032 (good for boot and start-up code protection). The Flash memories automatically go to standby between 8032 READ or WRITE accesses to conserve power. Minimum erase cycles is 100K and minimum data retention is 15 years. Flash memory, as well as the entire PSD Module may be programmed with the JTAG In-System Programming (ISP) interface with no 8032 involvement, good for manufacturing and lab development. Main Flash Memory. The Main Flash memory is divided into equal sized sectors that are individually selectable by the Decode PLD output signals, named FSx, one signal for each Main Flash memory sector. Each Flash sector can be located at any address within 8032 program address space (accessed with PSEN) or data address space, also known as 8032 XDATA space (accessed with RD or WR), as defined with the software development tool, PSDsoft Express. The user only has to specify an address range for each segment and specify if Main Flash memory will reside in 8032 data or program address space, and then PSEN, RD, or WR are automatically activated for the specified range. 8032 firmware is easily programmed into Main Flash memory using PSDsoft Express or other software tools. See Table 75., page 135 for Main Flash sector sizes on the various uPSD33xx devices. Secondary Flash Memory. The smaller Secondary Flash memory is also divided into equal sized sectors that are individually selectable by the Decode PLD signals, named CSBOOTx, one signal for each Secondary Flash memory sector. Each sector can be located at any address within 8032 program address space (accessed with PSEN) or XDATA space (accessed with RD or WR) as defined with PSDsoft Express. The user only has to specify an address range for each segment, and specify if Secondary Flash memory will reside in 8032 data or program address space, and then PSEN, RD, or WR are automatically activated for the specified range. 8032 firmware is easily programmed into Secondary Flash memory using PSDsoft Express and others. See Table 75., page 135 for Secondary Flash sector sizes. SRAM. The SRAM is selected by a single signal, named RS0, from the Decode PLD. SRAM may be located at any address within 8032 XDATA space (accessed with RD or WR), or optionally within 8032 program address space (accessed with PSEN) to execute code from SRAM. The default setting places SRAM in XDATA space only. These choices are specified using PSDSoft Express, where the user specifies an SRAM address range. The user would also specify (at run-time) if SRAM will additionally reside in 8032 program address space, and then PSEN, RD, or WR are automatically activated for the specified range. See Table 75., page 135 for SRAM sizes. The SRAM may optionally be backed up by an external battery (or other DC source) to make its contents non-volatile (see SRAM Standby Mode (battery backup), page 193).135/231 uPSD33xx Table 75. uPSD33xx Memory Configuration Runtime Control Registers, CSIOP. A block of 256 bytes is decoded inside the PSD Module for module control and status (see Table 79., page 145). The base address of these 256 locations is referred to in this data sheet as csiop (Chip Select I/O Port), and is selected by the Decode PLD output signal, CSIOP. The csiop registers are always viewed by the 8032 as XDATA, and are accessed with RD and WR signals. The address range of CSIOP is specified using PSDsoft Express where the user only has to specify an address range of 256 bytes, and then the RD or WR signals are automatically activated for the specified range. Individual registers within this block are accessed with an offset from the specified csiop base address. 39 registers are used out of the 256 locations to control the output state of I/ O pins, to read I/O pins, to set the memory page, to control 8032 program and data address space, to control power management, to READ/WRITE macrocells inside the General PLD, and other functions during runtime. Unused locations within csiop are reserved and should not be accessed. Memory Page Register. 8032 MCU architecture has an inherent size limit of 64K bytes in either program address space or XDATA space. Some uPSD33xx devices have much more memory that 64K, so special logic such as this page register is needed to access the extra memory. This 8-bit page register (Figure 52) can be loaded and read by the 8032 at runtime as one of the csiop registers. Page register outputs feed directly into both PLDs creating extended address signals used to “page” memory beyond the 64K byte limit (program space or XDATA). Most 8051 compilers directly support memory paging, also known as memory banking. If memory paging is not needed, or if not all eight page register bits are needed for memory paging, the remaining bits may be used in the General PLD for general logic. Page Register outputs are cleared to logic ’0’ at reset and powerup. Programmable Logic (PLDs) . The uPSD33xx contains two PLDs (Figure 63., page 157) that may optionally run in Turbo or Non-Turbo mode. PLDs operate faster (less propagation delay) while in Turbo mode but consume more power than in Non-Turbo mode. Non-Turbo mode allows the PLDs to go to standby automatically when no PLD inputs are changing to conserve power. The logic configuration (from equations) of both PLDs is stored with non-volatile Flash technology and the logic is active upon power-up. PLDs may NOT be programmed by the 8032, PLD programming only occurs through the JTAG interface. Figure 52. Memory Page Register Device