Revue : Big Data par Nathan Marz et James Warren

Je vais aller droit au but: vous savez comme je vois le DWH Toolkit de Kimball & Co comme LE bouquin de référence pour le décisionnel, et bien c’est très simple, voilà son équivalent côté Big Data. A mon sens c’est une lecture incontournable, d’autant plus si vous avez déjà écrit ou prononcé les mots « Lambda Architecture ».

Notez que je ne suis pas le seul à en dire du bien, c’est un ouvrage qui a été largement encensé depuis qu’il est sorti, et franchement il le mérite!

Nathan Marz (Twitter, Site) c’est un ancien de Twitter et l’un des créateurs d’Apache Storm, la techno de stream processing la plus utilisée dans la stack Hadoop. Il a fait ses preuves.

Couverture : Big Data chez Manning

Au delà du fond, vraiment passionnant, la forme est également au top. En effet on alterne des chapitres théoriques avec des exemples d’implémentation technique, sur des technologies variées, toujours dans le cadre de la mise en place d’un même système de web analytics. Ça donne un fil rouge au bouquin qui rend sa lecture vraiment digeste.

Morceaux choisis:

  • Les techniques fondamentales liées au Big Data: des systèmes (storage & compute) qui ont conscience de leur nature distribuée, des données immutables, le tout pour permettre le scaling horizontal (ajout de machines) le moins douloureux possible

  • Pour rendre un système de données résistants aux erreurs humaines : on conserve les données dans un format immutable (on ne peut qu’ajouter, ni supprimer ni mettre à jour) et des algorithmes en re-calcul complet (recomputation, à opposer aux chargements incrémentaux)

  • D’où l’architecture lambda : un master dataset immutable avec une ligne de chargement en re-calcul complet (batch + serving layers), mais ce sera lent, donc on y adjoint d’une ligne de chargement rapide (speed layer), à côté, qui gèrera les delta en attendant le prochain batch. Et pour l’utilisateur, une vision unifiée qui brasse des données issues du batch et du streaming.

Schéma de la Lambda Architecture

  • Côté Master Dataset, on utilise une techno robuste qui assure le caramel en batch write / batch read : du filesystem, en mode distribué avec HDFS. Là-dessus on emploie une modélisation particulière (fact-based model, une normalisation complète), si possible structurée via un framework de serialization genre Avro, ProtoBuf ou Thrift.

  • On prépare des batch views dans le Serving Layer, à coup de Map/Reduce en Java ou Python, à destination d’une base batch write / random read orientée requêtage ad-hoc. Ici on va indexer et dénormaliser, pour le confort des utilisateurs.

  • Sur le Speed Layer, le but va être de reproduire la même chaîne de traitement qu’en batch (un des inconvénients de la méthode), mais sur un volume bien moindre de donnée, pour s’approcher du temps réel. On parle Kafka pour gérer la queue multi-utilisateur, Storm pour le stream processing incrémental, et Cassandra pour gérer le random read / random write à exposer aux utilisateurs.

Si vous voulez avoir le pourquoi de tout ça, expliqué de façon propre et illustrée, direction le bouquin, il vaut le coup.

Je recommande plus que vivement 🙂

Dilbert du 2014-06-16

Ce qu’il vous faut maintenant c’est du Big Data! 😉

Dilbert du 2014-06-16(Dilbert.com)

Traduction approximative:

Boss: Notre consultant recommande une transformation complète de l’entreprise, nécessaire pour accroître notre compétitivité.

Dilbert: C’est une coïncidence que les consultants recommandent toujours les solutions qui leur permettent de facturer le plus?

Boss: Comment pourrais-je le savoir?

Dogbert (Consultant): Je peux vous faire une étude si vous le souhaitez.

 

J’ai suivi la formation Data Analyst avec Hadoop et Pig, Hive et Impala par Cloudera (et c’était bien!)

Avec mon camarade David nous avons eu la chance de pouvoir participer à cette formation au nom un peu long, mais définitivement dans notre nouveau périmètre Big Data.

Déjà on peut s’interroger de pourquoi faire une formation Cloudera, éditeur d’une des distributions Hadoop les plus importantes, la CDH, alors que David et moi sommes plutôt orientés Microsoft (pour faire dans l’euphémisme).

Parce que pour rappel, le partenaire officiel de Microsoft sur le Big Data n’est autre qu’Hortonworks, concurrent de Cloudera et également contributeur majeur à l’écosystème Hadoop. Les fruits de la collaboration entre Microsoft et Hortonworks étant bien entendu la distribution HDP for Windows à installer chez soi, et également HDInsight, le Big Data à la demande directement dans le cloud.

Alors oui, pourquoi une formation Cloudera ? D’abord parce que Pig et Hive, les deux langages de manipulation de données les plus utilisés sur Hadoop, sont évidemment communs à toutes les distributions. Ensuite parce que cette formation est dispensée par Xebia, la société copine de Cellenza, que leurs formateurs sont ultra réputés, et vous vous en doutez, qu’on a eu un prix 😉

Certificat pour la formation Cloudera

Du formateur on peut en parler, il s’agissait de Kris Geusebroek (twitter), consultant sénior de GoDataDriven, filiale de Xebia Hollande spécialisée sur le Big Data (oui ça reste en famille ;)). Et il a été très très bon. L’avantage d’avoir un consultant c’est évidemment qu’il nous a apporté une vraie vision terrain, avec des pratiques et méthodes qui n’apparaissent pas habituellement dans une formation éditeur et qui pourtant sont essentielles.

Le contenu quant à lui était également au top, tant sur la forme que sur le fond. Autant vous dire que ça nous a sérieusement décomplexés par rapport à ces nouvelles technos. Une fois l’architecture globale bien comprise, Hive et Impala c’est plus ou moins du SQL, Pig ça ressemble beaucoup à du M (le langage derrière Power Query), et du nettoyage de données ça reste du nettoyage de données, qu’on le fasse avec un ETL ou sur un cluster Hadoop.

Vous l’avez compris je recommande chaudement cette formation, même si le mieux pour vous serait surement d’attendre que des spécialistes de l’écosystème proposent une déclinaison du contenu pour HDInsight, et ça, ça ne devrait pas tarder… 😉

Quoi de neuf docteur ? (Mai 2014)

Ceci est un article RTV, « Raconte Ta Vie » comme disent les jeunes, n’hésitez donc pas à passer si mon autobiographie n’a que peu de valeur pour vous, je le comprends complétement 😉

Alors il paraît qu’en mai, on fait ce qu’il nous plait? Bin cette année pour moi c’est fait !

D’abord je change de job. J’abandonne, non sans un pincement au cœur, une équipe de consultants fantastiques – et un client génial d’ailleurs – ils se reconnaitront, pour monter une nouvelle équipe chez Cellenza: le pôle Data & Analytics.

I love you

Excellente fin de saison soit dit en passant!

A mes potes qui ne bossent pas dans le secteur, je leur dis juste que je vais faire la même chose en mieux payé. Mais à vous je peux en dire plus !

Cellenza est sur un modèle pur-player Microsoft, je retrouve donc des experts et des vrais développeurs, disponibles en interne pour construire des offres commerciales complètes. De l’autre côté je perds la facilitation de la veille concurrentielle venant de l’aspect cross-techno de ma précédente société (IBM Cognos, QlikView, Tableau…). On ne peut pas tout avoir !

Cellenza est spécialiste de l’Agilité et de l’ALM, et ça ça me va très bien. Il faut dire que Cellenza est la petite sœur de Xebia, qui pour ceux qui ne connaissent pas est un concurrent direct d’Octo ou Valtech, toutes œuvrant principalement dans le monde Java, et qui est une référence de l’Agilité et… du Big Data, puisqu’ils sont le partenaire exclusif de Cloudera pour le training en France.

Et c’est de là que vient le plus gros changement sur mon poste, car si j’ai considérablement réduit la voilure en termes de collaborateurs managés, c’est pour libérer de la bande passante et concentrer mes efforts sur l’adoption des nouvelles technos, que ce soit du Cloud, du Big Data ou de la Data Science, à travers des démarches Leans et Agiles.

Je commence le 2 juin, souhaitez-moi bonne chance 😉

Congratulations

Également au programme à court terme, une véritable tournée européenne (genre) avec :

  • Le 28 juin, une session présentée à Cologne en Allemagne avec Jordan (avec qui j’avais déjà fait une session aux JSS2013) au SQL Saturday Rheinland sur la BI Agile, justement. Avec nous JP et David avec une session sur SSIS vs Power Query
  • Le 19 juillet, au SQLBits en Angleterre, David et moi on ira supporter JP pour présenter un sujet sur le Data Stewardship
  • Le 13 septembre, de retour en France pour le SQL Saturday Paris 2014

Enfin, si vous avez aimez mon petit article sur Kimono + Power Query, sachez que je présente le truc en webcast la semaine prochaine via le GUSS.

Et sinon je suis en vacances, mais j’ai l’impression de bosser toute la journée. C’est normal ? 😉

 

Oyez, oyez l’appel de Redmond : Accélérez vos idées le 15 avril à 19h!

Update 2014-04-16 : Le retour c’est ici.

Version courte : Si on fait de la BI, on ajoute ce webcast à venir dans son calendrier!

Version longue :

Je vous avoue que je suis un peu déçu. En effet j’étais partie faire une traduction automatique de « Accelerate your Insights« , le titre original de l’événement dont je vais vous parler, dans l’idée d’obtenir une expression bien moche à mettre en titre de cet article. On aurait tous bien ri, ça m’aurait fait l’accroche de l’article, vous vous seriez exclamé « ce Fleid, quel mec cool et marrant ! ». Mais non. A la place j’ai eu « Accélérer vos idées », qui est finalement une bonne traduction. Je dois dire que je n’aurais jamais cru être déçu de la bonne qualité d’une traduction automatique. Tout arrive.

Satya Nadella annonce l'événement du 15 avril 2014

Pour revenir au sujet, si vous suivez ce blog pour la partie Business Intelligence, vous vous devez d’entendre l’appel de Microsoft du 15 avril à 19h. Parce que ce soit sur Twitter, Facebook, les newsletters ou les blogs MSDN, tous les 2 jours on a un rappel de la convocation. Et vu le beau monde autour de la table, ils doivent avoir quelque chose d’important à nous dire. Je vous donne : Satya Nadella, le président, Kevin Turner, le premier ministre, et Quentin Clark, le ministre de la Data (qui sort du bois en ce moment).

Ça va causer SQL Server 2014, Power BI, et certainement Azure. J’espère également des news côté Big Data avec HDInsight et PDW.

Donc direction vos calendriers : le 15 avril à 19h00, surement sur Channel 9.

Des news de Redmond : Power BI et Quentin Clark

En ce moment Microsoft communique beaucoup autour de la BI (cf. pourquoi). Alors pour éviter d’être submergé, je vous ai fait une petite sélection avec mes commentaires:

Logo Power BI

  • Power BI passe en « General Availability »
    • Alors déjà GA ça veut dire quoi ? Mais qu’on va commencer à payer tiens donc! En toute honnêteté je ne trouve pas ça très cher pour les entreprises : 20€/utilisateur/mois si vous êtes en E3/E4 (ce qui devrait être le cas). Pour les particuliers le message est moins rose : si Office 365 Famille c’est vraiment pas cher (90€/an pour 5 machines), aucune possibilité d’avoir un petit morceau de Power BI avec. La version minimale d’Office pour y accéder semble être Office 365 ProPlus à 13€HT/utilisateur/mois, et avec ça on s’ouvre l’option Power BI à 40$/utilisateur/mois en plus. Ouch. Même combat pour les étudiants, qui touchent Office à 80€ pour 4 ans (c’est donné !), mais dont la version d’Office n’est pas éligible à Power BI (paf 52$/user/mois pour l’upgrade full…). Nul.
    • Une des conséquences du passage en GA est la clarification du destin de Power Map, qui rejoint la distribution Excel par défaut (dans les versions streamées – celles qui se mettent à jour toutes seules). Fini donc d’avoir à installer l’add-in en plus, c’est plutôt cool.
    • Alors oui, ça miaule dans les chaumières parce que Microsoft fait du gros forcing sur le passage en licence par abonnement (Office 365) plutôt qu’en boite. Mais de mon côté si d’une part je trouve les prix ultra agressifs (mais ok, rien ne nous met à l’abri d’une explosion des tarifs une fois que tout le monde aura signé… euh en fait si, la concurrence), d’autre part je trouve fantastique le principe des mises à jour continues, si possible via les Updates dans les applications. Ce dernier point on l’a vu à l’œuvre dans la preview de Power Query depuis le milieu de l’année dernière, avec des grosses mises à jour livrées tous les mois, et franchement c’est juste le top (de la même manière que Chrome ou Firefox se mettent à jour tout seul). Dans l’absolu je préfère largement avoir des cycles de release mensuels, plutôt que d’attendre 3 ans pour avoir à migrer de SQL Server 2005 à 2008 (ou pas).
Passage en GA de Power BI – Annonce sur le licensing

Passage en GA de Power BI – Annonce sur le licensing

  • Le deuxième gros sujet c’est les pontes de Microsoft qui prennent le micro, et celui qui nous intéresse c’est Quentin Clark, le grand patron de l’offre Data, sur la vision de Microsoft pour sa plateforme
    • En 2 mots, son message : « Cloud First »
      • Aujourd’hui : on rouille sur de l’IT à la papa, avec des bases OLTP, des DWH relationnels et de la BI opérationnelle. Tout ça c’est basé sur une approche, de construire des « systèmes d’enregistrement », comme les ERP et tous les autres applicatifs LoB, qui sont designés spécifiquement pour enregistrer ce qu’il se passe sur un flux métier de l’entreprise (une interface pour enregistrer une vente, un échange client, un recrutement)
      • Demain on pourra construire des « systèmes d’observation », complémentaires, qui auront l’approche inverse, soit observer les événements dans tout l’écosystème (et pas seulement dans l’entreprise) pour en déduire de l’information
    • A mon sens c’est encore très flou, mais pour Microsoft l’objectif devient alors de nous construire l’outillage nécessaire à cette vision, autour des briques suivantes:
      • Modern Transaction Processing : la communication inter-applications dans le cloud, et non plus on-premise, en fait c’est la cloudification des EAI – le concept est excellent
      • Modern Business Intelligence : Self-Service, Machine Learning, Data Viz, tout ce qui concerne la modernisation du rôle et de l’usage de la BI
      • Modern Data Warehouse : tout ce qui doit se faire en back office pour permettre la Modern BI, soit pour le moment principalement le traitement des hautes volumétries via Big Data
      • Le tout en cloud et PaaS, pour la scalabilité, et effacer les problèmes d’infrastructure afin de se concentrer sur les problématiques métier
  • On entend donc bien le message « Cloud First », à tous les niveaux, qui au-delà du changement de mentalité technologique, avec ses avantages et ses inconvénients, va surtout permettre à l’éditeur de terminer la transition de son business modèle de la vente de boîtes à la location de services
    • Et là moi je suis à 100% pour, puisque vous le savez j’ai un avis assez tranché sur l’économie numérique, et autant payer pour un .exe ça me pose un problème, autant payer tous les mois pour un service, qui m’apporte de la valeur, qui s’améliore dans le temps, je suis complétement d’accord
    • Maintenant si MS a fait la preuve de sa compétence Cloud (Azure c’est juste énorme), et si ça commence à sentir bon côté Modern Data Warehouse (HDInsight c’est top, StreamInsight c’est bien, manque plus que des IDE avec des IHM dignes de ce nom), on est encore léger côté Modern BI : toujours à poil sur le Machine Learning (le nouveau nom du Data Mining), et pas complétement convaincu par les capacités de Data Viz de la plateforme (mais c’est un point d’attention de leur côté). D’ailleurs sur ce dernier point, vous noterez dans l’article que le sujet est retourné du côté des équipes Office (cf les titres des auteurs à la fin) plutôt que Data Platform (chez Quentin). Est-ce positif ? Sincérement, vu SSRS, à mon avis oui…
    • Dans tous les cas, respect à Quentin Clark de faire l’effort de nous exprimer sa vision, même si c’est un exercice qui va devenir strictement nécessaire pour établir une vraie relation de confiance avec nous, les utilisateurs de ces services.
Ça va, c’est clair ?

Ça va, c’est clair ?

N’hésitez pas à réagir dans les commentaires 😉