BIG DATA et DONNéES SEO Vincent Heuschling vhe@affini-tech.com @vhe74 2012 Affini-Tech - Diffusion restreinte 1
Agenda Affini-Tech SEO? Application Généralisation 2013 Affini-Tech - Diffusion restreinte 2
Société 2012 Affini-Tech - Diffusion restreinte 3
3 Piliers Méthodes projets Outils de reporting & Datavisualisation Business & Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout 2013 Affini-Tech - Diffusion restreinte 4
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Data-Viz Votre infrastructure Notre Cloud 2012 Affini-Tech - Diffusion restreinte 5
Partenaires sectoriels Mktg & Ventes Finance Métiers Production Stats Applications Apps Data-Viz Infrastructures Partenaires technologiques 2012 Affini-Tech - Diffusion restreinte 6
Opportunité Bigdata Métiers Applications Infrastructures Data-Mining Applications Data-visualisations Hybridation Infrastructures 2012 Affini-Tech - Diffusion restreinte 7
Agile Data Code Code Code POC Sprint Sprint 2012 Affini-Tech - Diffusion restreinte 8
COLLECTER STOCKER ANALYSER PARTAGER D3.j s 2013 Affini-Tech - Diffusion restreinte
SEO? 2012 Affini-Tech - Diffusion restreinte 10
Obtenir les meilleures positions dans la page de Définir quels éléments du site sont à forte valeur réponse de Google. Les promouvoir vers les moteurs de recherches (linking, etc...) Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence 2013 Affini-Tech - Diffusion restreinte 11
CRAWL et VISITES Organiser le contenu des pages (Pagerank) Faire Crawler les pages par Google Augmentation directe du trafic 2013 Affini-Tech - Diffusion restreinte 12
Cercle VERTUEUX de la DATA Mesurer Collecter Produire Analyser 2013 Affini-Tech - Diffusion restreinte 13
RésUltats 2013 Affini-Tech - Diffusion restreinte 14
Application 2012 Affini-Tech - Diffusion restreinte 15
ANNUAIRE 2000 Professions 40000 Communes 100 M de requêtes par mois Small data : SEO = env 100 Go /an 2013 Affini-Tech - Diffusion restreinte 16
Combien? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source 2013 Affini-Tech - Diffusion restreinte 17
TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M? Similarités et Classifications Recommandation & intelligence collective OpenData 2012 Affini-Tech - Diffusion restreinte 18
Professions Grandes catégories, segments et moyennes Analyse à la granularité la plus fine Communes 2013 Affini-Tech - Diffusion restreinte 19
Professions RECOMMANDATIONS Communes 2013 Affini-Tech - Diffusion restreinte 20
AUGMENTER LA DONNÉE Data + Insee + Opendata a b c a b c m n n a b c m n n x y z ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ ~~~ ~~~ ~~~ ~~~ ~~~ ~~~ ~ ~ ~ ~~~ ~~~ ~~~ ~ ~ ~ ~ ~ ~ Une information plus riche Un ciblage plus pertinent 2013 Affini-Tech - Diffusion restreinte
OUTILS Collecter Traiter Analyser Pig 2013 Affini-Tech - Diffusion restreinte 22
TYPES de REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visites 2013 Affini-Tech - Diffusion restreinte 23
Pipeline Insee Data géo-éco Logs Visites seo Similarit. Urls. Crawl seo 2013 Affini-Tech - Diffusion restreinte 24
Long TAIL Très grosses concentrations d activités sur certaines localités. Map/Reduce!! PIG Skewed joins 1: 3003 2: 399 10: 243 50: 100 100: 54 500: 4 2013 Affini-Tech - Diffusion restreinte 25
HEATMAPS Départements (96) Activités (10500) Volume de visites 2013 Affini-Tech - Diffusion restreinte 26
MEsurer : Rankings Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques. 2013 Affini-Tech - Diffusion restreinte 27
2013 Affini-Tech - Diffusion restreinte 28
OUTILS Collecter Traiter Stocker Visualiser Pig D3.js Analyser 2012 Affini-Tech - Diffusion restreinte 29
GENERALISATION 2012 Affini-Tech - Diffusion restreinte 31
Applicable à toute transaction Des données brutes Augmenter la donnée Similarités et Classifications Recommandations 2013 Affini-Tech - Diffusion restreinte 32
DAta-PIPELINE Opendata Data- Visualisation Lecture Nettoyage Agrégation Croisement Machine Learning 2013 Affini-Tech - Diffusion restreinte 33
: ETL & DW Non-Structuré Transactionnel ETL & DW DataMarts BI Applications 2013 Affini-Tech - Diffusion restreinte 34
: EDW Non-Structuré Transactionnel ETL & DW & DataMarts BI Applications 2013 Affini-Tech - Diffusion restreinte 35
Applications & Machine Learning Opendata Visualisations Tableau & JS Plateformes 2013 Affini-Tech - Diffusion restreinte 36
"With data collection, 'the sooner the better' is always the best answer" Marissa Mayer, Yahoo CEO 2013 Affini-Tech - Diffusion restreinte 37
Merci! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 2013 Affini-Tech - Diffusion restreinte 38