J’ai suivi la formation Data Analyst avec Hadoop et Pig, Hive et Impala par Cloudera (et c’était bien!)

Avec mon camarade David nous avons eu la chance de pouvoir participer à cette formation au nom un peu long, mais définitivement dans notre nouveau périmètre Big Data.

Déjà on peut s’interroger de pourquoi faire une formation Cloudera, éditeur d’une des distributions Hadoop les plus importantes, la CDH, alors que David et moi sommes plutôt orientés Microsoft (pour faire dans l’euphémisme).

Parce que pour rappel, le partenaire officiel de Microsoft sur le Big Data n’est autre qu’Hortonworks, concurrent de Cloudera et également contributeur majeur à l’écosystème Hadoop. Les fruits de la collaboration entre Microsoft et Hortonworks étant bien entendu la distribution HDP for Windows à installer chez soi, et également HDInsight, le Big Data à la demande directement dans le cloud.

Alors oui, pourquoi une formation Cloudera ? D’abord parce que Pig et Hive, les deux langages de manipulation de données les plus utilisés sur Hadoop, sont évidemment communs à toutes les distributions. Ensuite parce que cette formation est dispensée par Xebia, la société copine de Cellenza, que leurs formateurs sont ultra réputés, et vous vous en doutez, qu’on a eu un prix 😉

Certificat pour la formation Cloudera

Du formateur on peut en parler, il s’agissait de Kris Geusebroek (twitter), consultant sénior de GoDataDriven, filiale de Xebia Hollande spécialisée sur le Big Data (oui ça reste en famille ;)). Et il a été très très bon. L’avantage d’avoir un consultant c’est évidemment qu’il nous a apporté une vraie vision terrain, avec des pratiques et méthodes qui n’apparaissent pas habituellement dans une formation éditeur et qui pourtant sont essentielles.

Le contenu quant à lui était également au top, tant sur la forme que sur le fond. Autant vous dire que ça nous a sérieusement décomplexés par rapport à ces nouvelles technos. Une fois l’architecture globale bien comprise, Hive et Impala c’est plus ou moins du SQL, Pig ça ressemble beaucoup à du M (le langage derrière Power Query), et du nettoyage de données ça reste du nettoyage de données, qu’on le fasse avec un ETL ou sur un cluster Hadoop.

Vous l’avez compris je recommande chaudement cette formation, même si le mieux pour vous serait surement d’attendre que des spécialistes de l’écosystème proposent une déclinaison du contenu pour HDInsight, et ça, ça ne devrait pas tarder… 😉

Oyez, oyez l’appel de Redmond : Accélérez vos idées le 15 avril à 19h!

Update 2014-04-16 : Le retour c’est ici.

Version courte : Si on fait de la BI, on ajoute ce webcast à venir dans son calendrier!

Version longue :

Je vous avoue que je suis un peu déçu. En effet j’étais partie faire une traduction automatique de « Accelerate your Insights« , le titre original de l’événement dont je vais vous parler, dans l’idée d’obtenir une expression bien moche à mettre en titre de cet article. On aurait tous bien ri, ça m’aurait fait l’accroche de l’article, vous vous seriez exclamé « ce Fleid, quel mec cool et marrant ! ». Mais non. A la place j’ai eu « Accélérer vos idées », qui est finalement une bonne traduction. Je dois dire que je n’aurais jamais cru être déçu de la bonne qualité d’une traduction automatique. Tout arrive.

Satya Nadella annonce l'événement du 15 avril 2014

Pour revenir au sujet, si vous suivez ce blog pour la partie Business Intelligence, vous vous devez d’entendre l’appel de Microsoft du 15 avril à 19h. Parce que ce soit sur Twitter, Facebook, les newsletters ou les blogs MSDN, tous les 2 jours on a un rappel de la convocation. Et vu le beau monde autour de la table, ils doivent avoir quelque chose d’important à nous dire. Je vous donne : Satya Nadella, le président, Kevin Turner, le premier ministre, et Quentin Clark, le ministre de la Data (qui sort du bois en ce moment).

Ça va causer SQL Server 2014, Power BI, et certainement Azure. J’espère également des news côté Big Data avec HDInsight et PDW.

Donc direction vos calendriers : le 15 avril à 19h00, surement sur Channel 9.

Des news de Redmond : Power BI et Quentin Clark

En ce moment Microsoft communique beaucoup autour de la BI (cf. pourquoi). Alors pour éviter d’être submergé, je vous ai fait une petite sélection avec mes commentaires:

Logo Power BI

  • Power BI passe en « General Availability »
    • Alors déjà GA ça veut dire quoi ? Mais qu’on va commencer à payer tiens donc! En toute honnêteté je ne trouve pas ça très cher pour les entreprises : 20€/utilisateur/mois si vous êtes en E3/E4 (ce qui devrait être le cas). Pour les particuliers le message est moins rose : si Office 365 Famille c’est vraiment pas cher (90€/an pour 5 machines), aucune possibilité d’avoir un petit morceau de Power BI avec. La version minimale d’Office pour y accéder semble être Office 365 ProPlus à 13€HT/utilisateur/mois, et avec ça on s’ouvre l’option Power BI à 40$/utilisateur/mois en plus. Ouch. Même combat pour les étudiants, qui touchent Office à 80€ pour 4 ans (c’est donné !), mais dont la version d’Office n’est pas éligible à Power BI (paf 52$/user/mois pour l’upgrade full…). Nul.
    • Une des conséquences du passage en GA est la clarification du destin de Power Map, qui rejoint la distribution Excel par défaut (dans les versions streamées – celles qui se mettent à jour toutes seules). Fini donc d’avoir à installer l’add-in en plus, c’est plutôt cool.
    • Alors oui, ça miaule dans les chaumières parce que Microsoft fait du gros forcing sur le passage en licence par abonnement (Office 365) plutôt qu’en boite. Mais de mon côté si d’une part je trouve les prix ultra agressifs (mais ok, rien ne nous met à l’abri d’une explosion des tarifs une fois que tout le monde aura signé… euh en fait si, la concurrence), d’autre part je trouve fantastique le principe des mises à jour continues, si possible via les Updates dans les applications. Ce dernier point on l’a vu à l’œuvre dans la preview de Power Query depuis le milieu de l’année dernière, avec des grosses mises à jour livrées tous les mois, et franchement c’est juste le top (de la même manière que Chrome ou Firefox se mettent à jour tout seul). Dans l’absolu je préfère largement avoir des cycles de release mensuels, plutôt que d’attendre 3 ans pour avoir à migrer de SQL Server 2005 à 2008 (ou pas).
Passage en GA de Power BI – Annonce sur le licensing

Passage en GA de Power BI – Annonce sur le licensing

  • Le deuxième gros sujet c’est les pontes de Microsoft qui prennent le micro, et celui qui nous intéresse c’est Quentin Clark, le grand patron de l’offre Data, sur la vision de Microsoft pour sa plateforme
    • En 2 mots, son message : « Cloud First »
      • Aujourd’hui : on rouille sur de l’IT à la papa, avec des bases OLTP, des DWH relationnels et de la BI opérationnelle. Tout ça c’est basé sur une approche, de construire des « systèmes d’enregistrement », comme les ERP et tous les autres applicatifs LoB, qui sont designés spécifiquement pour enregistrer ce qu’il se passe sur un flux métier de l’entreprise (une interface pour enregistrer une vente, un échange client, un recrutement)
      • Demain on pourra construire des « systèmes d’observation », complémentaires, qui auront l’approche inverse, soit observer les événements dans tout l’écosystème (et pas seulement dans l’entreprise) pour en déduire de l’information
    • A mon sens c’est encore très flou, mais pour Microsoft l’objectif devient alors de nous construire l’outillage nécessaire à cette vision, autour des briques suivantes:
      • Modern Transaction Processing : la communication inter-applications dans le cloud, et non plus on-premise, en fait c’est la cloudification des EAI – le concept est excellent
      • Modern Business Intelligence : Self-Service, Machine Learning, Data Viz, tout ce qui concerne la modernisation du rôle et de l’usage de la BI
      • Modern Data Warehouse : tout ce qui doit se faire en back office pour permettre la Modern BI, soit pour le moment principalement le traitement des hautes volumétries via Big Data
      • Le tout en cloud et PaaS, pour la scalabilité, et effacer les problèmes d’infrastructure afin de se concentrer sur les problématiques métier
  • On entend donc bien le message « Cloud First », à tous les niveaux, qui au-delà du changement de mentalité technologique, avec ses avantages et ses inconvénients, va surtout permettre à l’éditeur de terminer la transition de son business modèle de la vente de boîtes à la location de services
    • Et là moi je suis à 100% pour, puisque vous le savez j’ai un avis assez tranché sur l’économie numérique, et autant payer pour un .exe ça me pose un problème, autant payer tous les mois pour un service, qui m’apporte de la valeur, qui s’améliore dans le temps, je suis complétement d’accord
    • Maintenant si MS a fait la preuve de sa compétence Cloud (Azure c’est juste énorme), et si ça commence à sentir bon côté Modern Data Warehouse (HDInsight c’est top, StreamInsight c’est bien, manque plus que des IDE avec des IHM dignes de ce nom), on est encore léger côté Modern BI : toujours à poil sur le Machine Learning (le nouveau nom du Data Mining), et pas complétement convaincu par les capacités de Data Viz de la plateforme (mais c’est un point d’attention de leur côté). D’ailleurs sur ce dernier point, vous noterez dans l’article que le sujet est retourné du côté des équipes Office (cf les titres des auteurs à la fin) plutôt que Data Platform (chez Quentin). Est-ce positif ? Sincérement, vu SSRS, à mon avis oui…
    • Dans tous les cas, respect à Quentin Clark de faire l’effort de nous exprimer sa vision, même si c’est un exercice qui va devenir strictement nécessaire pour établir une vraie relation de confiance avec nous, les utilisateurs de ces services.
Ça va, c’est clair ?

Ça va, c’est clair ?

N’hésitez pas à réagir dans les commentaires 😉

Partenaire Microsoft : plus qu’un choix, un métier!

Via Chris Webb, un article de Frans Bouma sur l’évolution de la relation partenaire/éditeur avec Microsoft. Si l’article est récent le sujet ne l’est pas, Joel Spolsky en avait déjà parlé tantôt (il y a 12 ans !), et même moi par ici.

L’article est un peu long, je vous le résume (même s’il vaut le coup d’œil) :

Microsoft développe des logiciels. Pour rester dans le business l’éditeur crée beaucoup de nouveaux produits, sur des nouveaux périmètres ou en remplaçant des softs existants (qui marchaient ou pas). Nous, partenaires (consultants ou éditeurs à notre tour), faisons le choix d’utiliser ces produits, d’investir dans ces produits, et de là découle une dépendance à la technologie de Microsoft. Et si de tout temps, via cette dépendance, Microsoft nous faisait subir ses ruptures technologiques sans que nous ayons trop le choix (cela faisait partie du deal), désormais des alternatives existent et nous pouvons/devons-nous interroger sur l’opportunité de changer complétement d’environnement lorsqu’une nouvelle rupture survient.

Un très bon exemple de ça actuellement est la BI avec SQL Server, puisque nous sommes en train de subir une rupture technologique entre l’offre traditionnelle (SSIS/SSAS/SSRS) et la nouvelle génération d’outils (Power BI/HDInsight/Azure).

En tant que consultants, nos connaissances techniques sur les « anciens » produits ne se transposent au final que très peu sur les nouveaux produits (DAX, Hive, Pig). Au moment de dégager du temps de formation, on doit donc s’interroger, quitte à repartir de 0, sur l’opportunité de passer à une autre stack technologique : QlikView, Tableau, MicroStrategy… Voire carrément un domaine connexe : Machine Learning et Big Data via la stack Hadoop, statistiques via R ou Python, etc…

Bien choisir son outil de travail c'est crucial!

Bien choisir son outil de travail c’est crucial!

Dans le deux cas (autre éditeur, autre domaine) on ventile les risques : dans le premier on ventile ses dépendances sur 2 éditeurs,  dans le second on investit sur l’open source, qui traditionnellement véhicule des écosystèmes moins tyranniques que ceux reposant sur un éditeur unique.

Si de mon côté le choix est fait, je pense que tous ceux qui prennent leur carrière au sérieux doivent se poser sérieusement la question, autant d’un point de vue personnel (quel sera le prochain livre que vous allez ouvrir) que stratégique (quelle offre de service construire pour mon pôle décisionnel).

Par contre, si ici je mentionne les risques d’un partenariat avec Microsoft, il fallait également que je mentionne les avantages énormes qui en découle: entre autres, l’ensemble des Microsofties dont le métier à temps plein c’est de nous aider (merci les gens!),  le programme MVP dont je profite, ou encore les avantages en licences via le Microsoft Partner Network. Comparé aux autres éditeurs, nous sommes choyés!

Alors oui, je vous dis que pour moi le choix est fait, mais je fais monter le suspens, on en reparle plus tard 😉

Suspens!