Y’a un truc qui m’intrigue à Redmond…

Lors de la keynote du PASS Summit 2014, le mois dernier à Seattle, nous avions eu droit à la présentation de la nouvelle organisation de l’équipe Data Platform de Microsoft, par son leadership flambant neuf:

Des visages sur des noms

Trois patrons pour trois lignes de produit, alignées comme indiqué sur ce schéma (désolé pour la qualité patate):

L'organisation MS 2014 pour la Data en image

Si on repart du fond de la stack:

  1. Capture + Manage : T.K. « Ranga » Rengarajan, patron de Data Platform, Cloud & Entreprise. A comprendre : SQL Server, Azure SQL Database, Azure HDInsight, Azure DocumentDB, Azure Search and Analytics Platform System
  2. Transform + Analyze : Joseph Sirosh, patron de l’Information Management & Machine Learning. A comprendre : Tous les services Azure Data
  3. Visualize + Decide : James Phillips, patron de Power BI, tout du moins la partie sur O365 (dashboards, Q&A, Mobile…)

Là dessus je me fais les remarques suivantes:

  • Ranga ancien SAP, Joseph ancien Amazon, James co-fondateur de Couchbase, les 3 ont moins de 2 ans d’ancienneté chez MS, ça sent l’air frais, c’est plutôt bon signe
  • Ranga et Joseph sont CVP (haut gradés), James n’est « que » General Manager, bizarre cette différence de traitement…
  • Vis à vis des périmètres de chacun:
    • Pour Ranga on a une ligne claire de produits, énoncée dans sa fiche speaker, pas de doute possible
    • Pour Joseph, il fallait être là en scéance mais ont été nommés : Azure Data Factory, Azure Stream Analytics et Azure Machine Learning. On en reparle plus bas.
    • Pour James c’est moins clair. Power BI ça veut tout et rien dire, et si on s’en réfère au slide ci-dessus on note l’absence de la partie add-ins intégrée à Excel (soit à mon sens la plus importante), qui on le sait est retombée dans l’équipe Office. Bon il en parle quand même pendant la session, mais manifestement ça n’est pas dans son scope. Notons qu’il nous a parlé également de 2/3 autres trucs mignons qui arrivent et sont eux dans son scope : les Dashboards Power BI et l’amélioration du refresh on-premise/Power BI (genre SSAS et scheduling)

On en revient à Joseph, en reprennant le slide et en essayant de matcher les produits qu’on connaît en face:

  1. Orchestration -> Azure Data Factory
  2. Information Management -> ?
  3. Complex Event Processing -> Azure Stream Analytics
  4. Modeling -> ?
  5. Machine Learning -> Azure Machine Learning

Hum… Y’a des trous! Et si on observe le pattern, ça sent les services Azure managés, pour de l’Information Management et du Modeling! Wait, what?

Je ne sais pas vous, mais moi ça m’intrigue définitivement 😉

J'ai hâte!!

Aspirer des données depuis un site web avec Excel, Power Query et Kimono

Mise  à jour 02/05/2014 : cet article existe aussi maintenant en webcast! Merci le GUSS 😉

Vous le savez surement, Power Query est l’add-in Excel publié par Microsoft via son offre Power BI, dédié à l’import de données de sources multiples. On en avait déjà parlé pour importer des fichiers identiques dans un même XLSX, une grosse galère sous Excel nature, une balade avec Power Query.

Logo Power BI

Si nous sommes nombreux à voir en Power Query un outil avec un potentiel exceptionnel, il y a un domaine où il est encore assez faible : l’import de données affichées sur une page web. Enfin ce n’est pas vraiment Power Query qui est faible, c’est plutôt qu’après 2500 lignes de JavaScript, le HTML final des sites est souvent complétement inexploitable…

Logo Kimono Labs

Et un outil fantastique pour contourner le problème c’est kimono. Avec kimono, vous allez générer de manière complétement graphique une API à partir d’un site web, directement depuis de votre navigateur.

On fait juste une pause pour bien laisser ça descendre…

Générer une API, de manière graphique, directement dans le navigateur.

On ne vit pas dans le futur avec ça franchement ? Pour moi c’est le scénario d’usage final. Et pour revenir au sujet du jour, ça les API web, Power Query il maîtrise.

Le mieux pour comprendre tout ça étant certainement de prendre un exemple, on va pratiquer en rapatriant des données depuis MetaCritic, le site web qui agrège les notes données dans la presse (papier ou web) à entre-autres les jeux vidéo.

La source : les meilleurs jeux PC de 2014

Capture d'écran de MetaCritic

On va commencer en essayant de se connecter directement à MetaCritic via Power Query, pour constater l’inutilisabilité de la chose :

1 – Je lance Excel, direction l’onglet Power Query, option importer depuis un site web, puis je renseigne l’adresse du site source :

Power Query - Connexion à un site web

2 – Hum, le navigateur de Power Query ne s’en sort pas tout seul, on va creuser (Edit) :

Power Query - Connexion à un site web

3 – Et boum, bon courage ! Si quelqu’un a trouvé une méthode pour s’y retrouver, je suis preneur, moi j’abandonne là en général

Power Query - Connexion à un site web

Alors à la place on va se connecter à kimono (on s’enregistre, on ajoute le bookmarklet à sa barre de raccourci) et créer l’API de manière graphique, c’est parti!

1 – J’ouvre mon navigateur, je vais sur le site source et j’utilise kimonify (le bookmarklet). La barre d’outils Kimono apparaît en haut de la page, et je commence par importer les noms des jeux juste en cliquant sur eux dans la page de MetaCritic. Le moteur de Kimono reconnait alors l’attribut HTML et identifie les 88 noms suivant, je renomme le champ « Nom du jeu » :

Kimono Labs : Premier paramètre
2 – J’appuie sur + dans la barre Kimono, je sélectionne la première note (92 pour DS2), la deuxième (88 pour Hearthstone), et à nouveau Kimono identifie les 88 valeurs suivantes. Je renomme le champs « Note »:

Kimono Labs : Deuxième paramètre
3 – Je répète la manip pour le Score Utilisateur, cette fois-ci le moteur de Kimono hésite un peu, il me propose plusieurs séries et à force de sélectionner d’autres scores et refuser d’autres attributs (ainsi que le label « User Score »), il m’en trouve bien 85 (en effet 3 jeux n’ont pas ce score, mais ça ne casse pas la reconnaissance):

Kimono Labs : Troisième paramètre
4 – J’ai assez d’info pour le moment, je valide (Done dans la barre Kimono), je donne un nom à mon API, et une période de rafraichissement (temps réel pour la démo, mais on peut alléger la charge sur la source en ne rafraichissant le dataset que périodiquement):

Kimono Labs : Validation de l'API
5 – Et Kimono me renvoie vers le tableau de bord de mon API:

Kimono Labs : Interface de gestion de l'API
6 – Via l’onglet « How To Use » je retrouve les éléments nécessaires pour accéder à l’API, y compris les URL (endpoints) que je vais pouvoir transmettre à Power Query en JSON, CSS ou RSS :

Kimono Labs : Interface d'appel de l'API
7 – On peut d’ailleurs tester le EndPoint CSV (ouais je suis oldschool) tout de suite :

Kimono Labs : test du endpoint CSV
8 – Mais le mieux c’est de l’appeler directement depuis Power Query (From Web toujours) :

Power Query : Appel de l'API Kimono
9 – Et après quelques petites manipulations (on retire la première ligne, on sépare les colonnes par délimiteur, on utiliser la première ligne comme nom de colonne, on nettoie le User Score, on filtre les lignes de déchet), on obtient le bon dataset. Note : si vous optez pour le JSON et que vous galérez, regardez cette vidéo, si ça ne marche pas comme ça, c’est que l’API est mal formée, le mieux est de la casser et recommencer (Kimono est encore en beta hein… Celle-là fonctionne et elle est publique).

Power Query : Résultat de l'import
10 – Pour obtenir les données attendues dans Excel :

Power Query et Kimono : résultat de l'import dans Excel

Personnellement je trouve ça juste énorme ! Et en plus tout est en live, la Query dans Excel et l’API côté Kimono, donc il suffit de rafraîchir pour que les données soient mises à jour depuis la source.

Si on rajoute la gestion des paramètres pour l’année (2014, 2013…) côté Power Query, la gestion de la pagination côté Kimono, on a les briques de base pour extraire toute la donnée dont on peut avoir besoin !

Joli non? Et sinon oui, c’est le bon moment pour prendre des actions dans Kimono Labs 😉

Oyez, oyez l’appel de Redmond : Accélérez vos idées le 15 avril à 19h!

Update 2014-04-16 : Le retour c’est ici.

Version courte : Si on fait de la BI, on ajoute ce webcast à venir dans son calendrier!

Version longue :

Je vous avoue que je suis un peu déçu. En effet j’étais partie faire une traduction automatique de « Accelerate your Insights« , le titre original de l’événement dont je vais vous parler, dans l’idée d’obtenir une expression bien moche à mettre en titre de cet article. On aurait tous bien ri, ça m’aurait fait l’accroche de l’article, vous vous seriez exclamé « ce Fleid, quel mec cool et marrant ! ». Mais non. A la place j’ai eu « Accélérer vos idées », qui est finalement une bonne traduction. Je dois dire que je n’aurais jamais cru être déçu de la bonne qualité d’une traduction automatique. Tout arrive.

Satya Nadella annonce l'événement du 15 avril 2014

Pour revenir au sujet, si vous suivez ce blog pour la partie Business Intelligence, vous vous devez d’entendre l’appel de Microsoft du 15 avril à 19h. Parce que ce soit sur Twitter, Facebook, les newsletters ou les blogs MSDN, tous les 2 jours on a un rappel de la convocation. Et vu le beau monde autour de la table, ils doivent avoir quelque chose d’important à nous dire. Je vous donne : Satya Nadella, le président, Kevin Turner, le premier ministre, et Quentin Clark, le ministre de la Data (qui sort du bois en ce moment).

Ça va causer SQL Server 2014, Power BI, et certainement Azure. J’espère également des news côté Big Data avec HDInsight et PDW.

Donc direction vos calendriers : le 15 avril à 19h00, surement sur Channel 9.

Des news de Redmond : Power BI et Quentin Clark

En ce moment Microsoft communique beaucoup autour de la BI (cf. pourquoi). Alors pour éviter d’être submergé, je vous ai fait une petite sélection avec mes commentaires:

Logo Power BI

  • Power BI passe en « General Availability »
    • Alors déjà GA ça veut dire quoi ? Mais qu’on va commencer à payer tiens donc! En toute honnêteté je ne trouve pas ça très cher pour les entreprises : 20€/utilisateur/mois si vous êtes en E3/E4 (ce qui devrait être le cas). Pour les particuliers le message est moins rose : si Office 365 Famille c’est vraiment pas cher (90€/an pour 5 machines), aucune possibilité d’avoir un petit morceau de Power BI avec. La version minimale d’Office pour y accéder semble être Office 365 ProPlus à 13€HT/utilisateur/mois, et avec ça on s’ouvre l’option Power BI à 40$/utilisateur/mois en plus. Ouch. Même combat pour les étudiants, qui touchent Office à 80€ pour 4 ans (c’est donné !), mais dont la version d’Office n’est pas éligible à Power BI (paf 52$/user/mois pour l’upgrade full…). Nul.
    • Une des conséquences du passage en GA est la clarification du destin de Power Map, qui rejoint la distribution Excel par défaut (dans les versions streamées – celles qui se mettent à jour toutes seules). Fini donc d’avoir à installer l’add-in en plus, c’est plutôt cool.
    • Alors oui, ça miaule dans les chaumières parce que Microsoft fait du gros forcing sur le passage en licence par abonnement (Office 365) plutôt qu’en boite. Mais de mon côté si d’une part je trouve les prix ultra agressifs (mais ok, rien ne nous met à l’abri d’une explosion des tarifs une fois que tout le monde aura signé… euh en fait si, la concurrence), d’autre part je trouve fantastique le principe des mises à jour continues, si possible via les Updates dans les applications. Ce dernier point on l’a vu à l’œuvre dans la preview de Power Query depuis le milieu de l’année dernière, avec des grosses mises à jour livrées tous les mois, et franchement c’est juste le top (de la même manière que Chrome ou Firefox se mettent à jour tout seul). Dans l’absolu je préfère largement avoir des cycles de release mensuels, plutôt que d’attendre 3 ans pour avoir à migrer de SQL Server 2005 à 2008 (ou pas).
Passage en GA de Power BI – Annonce sur le licensing

Passage en GA de Power BI – Annonce sur le licensing

  • Le deuxième gros sujet c’est les pontes de Microsoft qui prennent le micro, et celui qui nous intéresse c’est Quentin Clark, le grand patron de l’offre Data, sur la vision de Microsoft pour sa plateforme
    • En 2 mots, son message : « Cloud First »
      • Aujourd’hui : on rouille sur de l’IT à la papa, avec des bases OLTP, des DWH relationnels et de la BI opérationnelle. Tout ça c’est basé sur une approche, de construire des « systèmes d’enregistrement », comme les ERP et tous les autres applicatifs LoB, qui sont designés spécifiquement pour enregistrer ce qu’il se passe sur un flux métier de l’entreprise (une interface pour enregistrer une vente, un échange client, un recrutement)
      • Demain on pourra construire des « systèmes d’observation », complémentaires, qui auront l’approche inverse, soit observer les événements dans tout l’écosystème (et pas seulement dans l’entreprise) pour en déduire de l’information
    • A mon sens c’est encore très flou, mais pour Microsoft l’objectif devient alors de nous construire l’outillage nécessaire à cette vision, autour des briques suivantes:
      • Modern Transaction Processing : la communication inter-applications dans le cloud, et non plus on-premise, en fait c’est la cloudification des EAI – le concept est excellent
      • Modern Business Intelligence : Self-Service, Machine Learning, Data Viz, tout ce qui concerne la modernisation du rôle et de l’usage de la BI
      • Modern Data Warehouse : tout ce qui doit se faire en back office pour permettre la Modern BI, soit pour le moment principalement le traitement des hautes volumétries via Big Data
      • Le tout en cloud et PaaS, pour la scalabilité, et effacer les problèmes d’infrastructure afin de se concentrer sur les problématiques métier
  • On entend donc bien le message « Cloud First », à tous les niveaux, qui au-delà du changement de mentalité technologique, avec ses avantages et ses inconvénients, va surtout permettre à l’éditeur de terminer la transition de son business modèle de la vente de boîtes à la location de services
    • Et là moi je suis à 100% pour, puisque vous le savez j’ai un avis assez tranché sur l’économie numérique, et autant payer pour un .exe ça me pose un problème, autant payer tous les mois pour un service, qui m’apporte de la valeur, qui s’améliore dans le temps, je suis complétement d’accord
    • Maintenant si MS a fait la preuve de sa compétence Cloud (Azure c’est juste énorme), et si ça commence à sentir bon côté Modern Data Warehouse (HDInsight c’est top, StreamInsight c’est bien, manque plus que des IDE avec des IHM dignes de ce nom), on est encore léger côté Modern BI : toujours à poil sur le Machine Learning (le nouveau nom du Data Mining), et pas complétement convaincu par les capacités de Data Viz de la plateforme (mais c’est un point d’attention de leur côté). D’ailleurs sur ce dernier point, vous noterez dans l’article que le sujet est retourné du côté des équipes Office (cf les titres des auteurs à la fin) plutôt que Data Platform (chez Quentin). Est-ce positif ? Sincérement, vu SSRS, à mon avis oui…
    • Dans tous les cas, respect à Quentin Clark de faire l’effort de nous exprimer sa vision, même si c’est un exercice qui va devenir strictement nécessaire pour établir une vraie relation de confiance avec nous, les utilisateurs de ces services.
Ça va, c’est clair ?

Ça va, c’est clair ?

N’hésitez pas à réagir dans les commentaires 😉

Partenaire Microsoft : plus qu’un choix, un métier!

Via Chris Webb, un article de Frans Bouma sur l’évolution de la relation partenaire/éditeur avec Microsoft. Si l’article est récent le sujet ne l’est pas, Joel Spolsky en avait déjà parlé tantôt (il y a 12 ans !), et même moi par ici.

L’article est un peu long, je vous le résume (même s’il vaut le coup d’œil) :

Microsoft développe des logiciels. Pour rester dans le business l’éditeur crée beaucoup de nouveaux produits, sur des nouveaux périmètres ou en remplaçant des softs existants (qui marchaient ou pas). Nous, partenaires (consultants ou éditeurs à notre tour), faisons le choix d’utiliser ces produits, d’investir dans ces produits, et de là découle une dépendance à la technologie de Microsoft. Et si de tout temps, via cette dépendance, Microsoft nous faisait subir ses ruptures technologiques sans que nous ayons trop le choix (cela faisait partie du deal), désormais des alternatives existent et nous pouvons/devons-nous interroger sur l’opportunité de changer complétement d’environnement lorsqu’une nouvelle rupture survient.

Un très bon exemple de ça actuellement est la BI avec SQL Server, puisque nous sommes en train de subir une rupture technologique entre l’offre traditionnelle (SSIS/SSAS/SSRS) et la nouvelle génération d’outils (Power BI/HDInsight/Azure).

En tant que consultants, nos connaissances techniques sur les « anciens » produits ne se transposent au final que très peu sur les nouveaux produits (DAX, Hive, Pig). Au moment de dégager du temps de formation, on doit donc s’interroger, quitte à repartir de 0, sur l’opportunité de passer à une autre stack technologique : QlikView, Tableau, MicroStrategy… Voire carrément un domaine connexe : Machine Learning et Big Data via la stack Hadoop, statistiques via R ou Python, etc…

Bien choisir son outil de travail c'est crucial!

Bien choisir son outil de travail c’est crucial!

Dans le deux cas (autre éditeur, autre domaine) on ventile les risques : dans le premier on ventile ses dépendances sur 2 éditeurs,  dans le second on investit sur l’open source, qui traditionnellement véhicule des écosystèmes moins tyranniques que ceux reposant sur un éditeur unique.

Si de mon côté le choix est fait, je pense que tous ceux qui prennent leur carrière au sérieux doivent se poser sérieusement la question, autant d’un point de vue personnel (quel sera le prochain livre que vous allez ouvrir) que stratégique (quelle offre de service construire pour mon pôle décisionnel).

Par contre, si ici je mentionne les risques d’un partenariat avec Microsoft, il fallait également que je mentionne les avantages énormes qui en découle: entre autres, l’ensemble des Microsofties dont le métier à temps plein c’est de nous aider (merci les gens!),  le programme MVP dont je profite, ou encore les avantages en licences via le Microsoft Partner Network. Comparé aux autres éditeurs, nous sommes choyés!

Alors oui, je vous dis que pour moi le choix est fait, mais je fais monter le suspens, on en reparle plus tard 😉

Suspens!

Au revoir 2013, et bonne année 2014 ;)

Voici mon petit débriefing de l’année 2013. J’applique une pratique de l’amélioration continue en rédigeant ma rétrospective annuelle, j’en profite pour en faire un article comme en 2011 et 2010.

Si je ne l’avais pas fait l’année dernière, cette année c’est Charly qui m’a motivé à recommencer l’exercice. N’hésitez pas vous aussi à écrire votre bilan et vos objectifs, ça clarifie les choses et concrétise les volontés (vive le management visuel), et puis vu le temps dehors, autant en profiter…

Je suis obligé de mettre de la neige dans l'article parce que dehors en fait il fait grand ciel bleu...

Donc en 2013 j’ai avancé sur les fonctions suivantes :

–          Management : Animation d’une équipe d’une douzaine de consultants : à eux de dire si j’ai bien fait mon job ! De mon côté je suis super satisfait de la progression de l’équipe. Tout le monde a cravaché dur et ça se sent sur la qualité du delivery (les seuls clients mécontents sont ceux où je suis intervenu directement, c’est pour dire !). Là aussi on a fait de l’amélioration continue, tant en terme de formations/certifications que de gestion de la connaissance. Beau boulot les gens !

–          Développement Business : Toujours des avant-ventes et autres réponses aux appels d’offres, mais également la participation à la création d’une offre verticale (finance/compta) et présentation du produit en résultant à un salon pour les DAF. Aussi cette année un gros travail de rencontre avec les équipes Microsoft. Ça me fait très plaisir de mettre enfin des visages sur des noms bien connus. Et plus globalement la rencontre de nombreux acteurs de l’écosystème, que nous soyons concurrents ou complémentaires, c’est toujours positif d’échanger avec ses pairs.

–          Technologies : Pour obtenir la MCSE j’ai dû retravailler toutes les bases, y compris l’administration de SQL Server. J’avoue y être allé à reculons, et finalement je me suis amusé et j’ai beaucoup appris. Heureusement d’ailleurs, ça m’a permis d’avoir l’air moins bête dans les discussions des MVP SQL Server orientés moteur au MVP Summit… Et sinon : pas mal de Power Pivot / SSAS Tabular et Power View pour notre offre verticale, pas mal de Power Query parce que c’est vraiment un beau produit, du Azure en IaaS parce que c’est facile, et du HDInsight pour finir l’année en beauté !

–          Décisionnel : En mode passif sur la modélisation (quelques cas intéressants cette année mais rien de révolutionnaire), en mode actif sur les cas d’usage, que ce soit le big data ou le self-service. Le marketing s’essouffle enfin sur le big data et on commence à voir apparaître des solutions utilisables (pas complétement sèches non plus) pour résoudre des vrais problèmes à des prix vraiment intéressants. Côté self-service c’est toujours ce travail de recherche autour du positionnement de la BI comme outil d’une conduite du changement plus qu’une fin en soi.

–          Gestion de Projet : Du Kanban, de l’Agile, j’ai bien bossé le sujet tant en veille qu’en pratique, je suis satisfait 😉

–          Fonctionnel : Rien de vraiment neuf en 2013, dommage… Enfin si, mais rien de vraiment différent.

–          Relation Utilisateur / Communication : Pas de révolution non plus. Côté écrit j’essaye toujours d’être le plus minimaliste possible, côté oral j’ai fait 3 sessions cette année dont une table ronde (Carrières aux SQLSaturday) et ça m’éclate toujours autant. Plein de choses à venir de ce côté en 2014, toujours avec le GUSS!

Voilà pour l’année passée. Et pour l’année à venir, je vais l’extrapoler à partir des bouquins qui sont dans la pile «à lire » sur ma table de chevet :

Des livres à lire

–          Peopleware de DeMarco et Lister, après le Mythical Man-Month, l’autre incontournable de la gestion d’équipe informatique

–          Toyota Kata de Mike Rother, une des bibles du Lean

–          The Year Without Pants de Scott Berkun, un de mes blogueurs préférés, gourou de la gestion de projet, qui retourne faire le chef de projet pendant 1 an chez WordPress et raconte l’aventure

–          Naked Statistics de Charles Wheelan, un rafraichissement de ma culture sur les statistiques avant de m’y remettre pour de vrai sur le Machine Learning (via Coursera très certainement)

–          Information Dashboard Design de Stephen Few, parce que je reste convaincu que le design d’un rapport ou d’un tableau de bord contribue de manière drastique à son adoption, et que c’est un sujet trop négligé dans notre milieu

Vous l’avez compris, 2013 a été une année plutôt remplie pour moi, espérons que 2014 le soit tout autant 😉