Retour sur les Techdays 2013

Si j’avais pris l’habitude d’aller aux Techdays, les 3 jours de grand-messe de Microsoft à Paris, rapport à tous les évangélistes, en toute franchise c’était d’abord pour retrouver mes petits camarades. Tout comme pour les Journées SQL Server, l’occasion est excellente pour entretenir son réseau.

Logo des Techdays 2013

Partant de ce principe, je ne m’inscrivais aux sessions sans trop y penser, sans grand soin, et fatalement mon agenda se remplissait de toutes les sessions BI qui me tombaient sous la main. D’où mon amertume au bout de 3 jours de sessions 200 sur l’offre décisionnelle de Microsoft (oui, oui, je la connais déjà assez bien comme ça, merci).

Cette année j’avais décidé de changer les choses et de m’inscrire à des sessions qui soit portaient sur des sujets en dehors de la track BI, soit traitaient de vraies nouveautés décisionnelles, soit étaient animées par des speakers reconnus. Et puis pour ne rien rater, j’avais missionné 2 envoyés spéciaux de ma boîte, Salma et Tariq 🙂

Jour 2 Plénière Infrastructure

Voici donc le rapide débriefing des sessions qui m’ont marquées (par ordre chronologique) :

  • Plénière Jour 1 « Développeurs c’est vous le chef »: C’est « chef » comme un chef de cuisine, je n’avais pas immédiatement perçu le sous-entendu perso.
    • Une bonne introduction par Jean Ferré (Dir. DPE | Blog) qui nous annonce la couleur pour 2013 : Multi-device, Design et Importance de la data. Ça tient la route, même pour nous côté BI. Ça fait longtemps que je réfléchis à intégrer un designer à l’équipe, pour travailler en transverse sur tous les projets, j’en aurai peut-être l’occasion en 2013? Également présenté par Jean Ferré, la poursuite de l’implication de Microsoft dans le monde des start-ups avec la création du programme Spark. Très bonne initiative et j’espère que mes camarades de kskills, présents sur les Techdays cette année, sauront en profiter !
    • Excellente animation par David Catuhe (Linkedin | Twitter) et Eric Mittelette (Linkedin), fluide et rythmée. Ils ont su maintenir le fil rouge tout au long du show.
    • S’ensuivent plusieurs démonstrations de très bonne qualité par les spécialistes de Microsoft sur lesquelles je ne vais pas m’étendre. Deux choses à noter : d’abord un gros bon point pour l’implication de l’éditeur dans le monde open source, avec entre autres des mentions de github, des VM linux dans Azure et un développement en PHP, c’est beau. Deuxième point moins marrant: carton rouge sur la blague sexiste accompagnant l’arrivée de Nathalie Nguyen de Master Chef. On a assez de problème de sexisme dans le milieu pour éviter ce genre de remarques foireuses, surtout à la première plénière consacrée aux développeurs.
  • Données On-Premise ou sur le Cloud : Sébastien Pertus (nouvellement DPE MS France) qui fait le point sur SQL Server dans le cloud, en IaaS et PaaS, comment choisir, avec en bonus quelques tips pratiques sur comment accéder à son serveur sur la VM dans Azure par SSMS. C’est carré, c’est propre, ça correspond à l’étiquette, parfait !
  • SSAS 2012 : Multidimensionnel et Tabulaire au banc d’essai : Énorme session par François Jehl (Blog | Twitter) et Romuald Coutaud. Je suis un peu plus modéré que mes copains sur leur manque d’amour pour Tabular (principalement parce que moi j’adore les requêtes SQL imbriquées bien sales), mais ce retour était juste fantastique. Une petite pensée pour Aurélien Koppel (Linkedin) qui ne pouvait pas être là pour contenir les 2 autres 🙂
  • Plénière Jour 2 « Rendez agiles vos infrastructures »: Je ne rentrerai pas dans le détail, mais félicitations à toute l’équipe. Le tour d’horizon était complet et les produits sont sexy. A voir en webcast.
  • HDInsight : Hadoop en environnement Microsoft : Benjamin Guinebertière (Linkedin) et Yann Schwartz (Linkedin|Twitter) nous font une belle démo de la stack HDInsight en y incluant du datamining sur Mahout. Ils concluent avec humour : « C’est lent, le code est plutôt moche, on ne manipule que des fichiers textes, les résultats sont faux, mais c’est l’avenir ! ». On comprend le message : pour le moment c’est vraiment du bricolage manuel, bien loin d’être prêt pour de la production, mais ça bouge très vite et il faut garder le sujet à l’œil.
  • Patterns Agiles avec Visual Studio 2012 et TFS 2012 : Excellente session par Michel Perfetti (Linkedin | Twitter), Fabian Langlet (Linkedin) et Olivier Conq (Linkedin). Ils ont simulé en 1h une itération SCRUM, outillée sur TFS2012 et Visual Studio 2012. C’est la première fois que je me vois vraiment utiliser ces outils dans un projet sans que ce soit une contrainte. Pour vous dire : je suis rentré chez moi et j’ai installé TFS2012 directement ! Beau boulot messieurs 😉

Je conclue en vous disant que d’une part je suis satisfait de ma nouvelle approche des Techdays, elle a porté ses fruits. Même s’il y a encore des speakers qui n’ont rien à faire là – contenu foireux (inintéressant voir faux), descriptif de session ne correspondant pas, absence de fil rouge – j’ai réussi à en éviter la plupart…

Et d’autre part que je suis reparti gonflé à bloc sur le line-up des produits qui arrivent. J’étais déjà convaincu de SQL Server 2012 et Excel 2013, j’ai été séduit par SharePoint 2013 (fini les usines à gaz au design web 1.0), Yammer (on devrait tester ça dans mon équipe bientôt), Visual Studio 2012 + TFS 2012 (reste à porter le module BI sur VS2012…) et toute la gamme Azure dans le cloud. Bien joué Microsoft France 😉

Logo métro Techdays 2013

Le bouquin SSIS 2012, par le trio gagnant Coutaud / Harel / Jehl

C’est avec un grand plaisir que j’ai reçu un exemplaire gracieux du livre SQL Server Integration Services 2012 – Mise en œuvre d’un projet ETL avec SSIS 2012, aux éditions ENI, écrit par les très respectables Patrice Harel, Romuald Coutaud, et François Jehl.

SSIS 2012 - Coutaud, Harel et Jehl - Editions ENI

Je dois encore me le faire dédicacer (perso je profiterai des JSS2012 pour le faire, n’hésitez pas à amener votre copie si vous voulez faire de même), mais ça ne m’a pas empêché de déjà le terminer !

En deux mots : c’est un très bon livre sur SSIS 2012, définitivement le meilleur écrit en français (le seul ? :p), et même sans cet avantage il n’a pas à rougir de son contenu face aux poids lourds américains.

A qui se destine ce livre :

  • Les développeurs, experts techniques et architectes en décisionnel Microsoft qui veulent se mettre à jour sur 2012. On se fait un chapitre tous les jours pendant 2 semaines et c’est réglé.
  • Les autodidactes qui veulent stabiliser leurs connaissances. On apprend le pourquoi des fonctionnalités et quels sont les cas d’usages classiques du produit (oui on fait tous de l’OLE-DB, pas la peine de souffrir à essayer de faire autre chose). Excellent quand on n’a pas accès à quelqu’un d’expérimenté qui peut répondre aux questions et transmettre les bonnes pratiques.
  • Les développeurs d’ETL non Microsoft, c’est une très bonne première approche pour cerner le produit. Je conseillerais même de lire le livre avant de toucher à SSIS, cela vous donnera une familiarité avec l’interface qui aidera grandement le transfert de compétences.
  • Les chefs de projet : c’est un bon point de référence pour participer aux discussions techniques avec vos développeurs. Il y a un choix d’implémentation à faire et vous voulez comprendre les tenants et aboutissants de la conversation ? Hop hop ouvrez la page correspondante du livre et vous comprendrez les enjeux (attention quand même à ne pas déraper ;))

Ce n’est pas pour :

  • J’aurai du mal à recommander le livre à un vrai débutant. Les auteurs nous préviennent d’ailleurs – le livre nécessite des compétences générales en base de données – j’irai plus loin, il nécessite d’avoir déjà été exposé un minimum au monde joyeux de l’ETL d’entreprise. Parce que si le niveau technique est progressif et bien structuré, ce n’est pas un tutoriel, et un débutant ne saurait pas par quel bout commencer s’il n’avait que ce bouquin sous la main.
  • De même pour un expert technique déjà sur 2012 depuis quelque temps, à qui ne peuvent s’adresser que les 3 derniers chapitres.

Rapide revue des chapitres :

  1. Introduction à SSIS : Un peu trop rapide à mon gout. Il manque l’historique du produit, de sa place dans la chaîne BI Microsoft, de son positionnement par rapport aux concurrents (forces et faiblesses)… Mais vous le savez, c’est ma marotte, j’aime avoir le contexte, connaître le pourquoi d’une situation, d’un produit, et ça s’applique même dans un bouquin sur SSIS 😉
  2. Flux de contrôle : Excellent chapitre, exhaustif et qui donne des éléments de contexte sur les fonctionnalités. Must read : la revue des connecteurs de base de données (ADO.NET, ODBC, OLE DB…) et le petit guide de quand employer lequel (p41).
  3. Variables, paramètres et expressions : Très bonne lecture, mais à mon sens il manque une petite explication du besoin fonctionnel avant le détail et l’exemple d’implémentation. On a les outils et la solution sans avoir le problème initial. Par ailleurs c’est un très bel exemple d’implémentation qui a été choisit, qui illustre bien le rôle de chacune des fonctionnalités. Must read : la liste des types de données des variables et leur correspondance en type de base de données (Double c’est DT_R8 ou DT_I8 ? réponse page 135 :)).
  4. Manipulation de données simples : Passage assez descriptif obligatoire mais pas vraiment passionnant pour un vieux de la vieille !
  5. Transformation de données : Une explication des composants de la boîte à outils de SSIS 2012. J’aime les petites remarques qui viennent rappeler les cas d’usages réels, leur emploi dans la vraie vie en somme, et pas uniquement les vœux de Microsoft. Quelques pages sur le CDC et DQS, c’est bon à prendre !
  6. Flux de données multi-source et jointures : Un bon comparatif des différentes solutions de brassage de flux de données dans le data flow. J’aime qu’on se détache un peu des composants pour penser flux de données. Must read : les petits schémas explicatifs des LEFT/RIGHT/INNER/FULL OUTER JOIN (p238), un petit test que d’ailleurs j’adore faire passer à mes développeurs juniors pour valider leur compréhension de la chose.
  7. Événements et suivi d’exécution : Le détail du gestionnaire d’événements (avec le bon conseil de modérer son utilisation), de la gestion des logs, du debug, du monitoring et de la nouveauté 2012 : les data taps. Des sujets pas forcément ultra-sexys mais présentés de manière très digeste.
  8. Administration SSIS : Chapitre qui débute avec un comparatif entre l’ancien mode de déploiement (granularité package) et le nouveau (granularité projet) qui cohabitent dans SSIS 2012. Je ne suis pas convaincu comme les auteurs que le nouveau mode doit être utilisé systématiquement. J’ai fait quelques projets Datastage (chut !) qui utilise largement la notion de repository, et j’aime beaucoup l’indépendance que fournit SSIS en mode déploiement de package (rien de tel que les déploiements en mode dépose de fichiers dtsx sur le disque du serveur, aucune équipe d’exploitation ne peut se planter). Je suis content que le choix reste possible dans 2012 et j’espère qu’il le restera dans le futur. Le reste du chapitre détaille bien les possibilités d’administration offertes par SSIS dans les 2 modes de déploiement.
  9. Checkpoints et transactions : Un très bon chapitre sur une fonctionnalité à oublier de SSIS, c’est un peu du gâchis ! En tout cas respect aux auteurs d’avoir pris le temps de traiter le champ de mines qu’est la configuration des checkpoints. Pour les transactions je dirais que soit elles sont traitées trop rapidement, soit elles ne sont pas assez creusées. Mais je ne peux pas leur en vouloir : c’est un sujet délicat qui justifierait à lui seul plusieurs chapitres et qui n’est finalement que très rarement employé.
  10. Notions avancées et bonnes pratiques : Un chapitre définitivement trop court ! Je comprends que les auteurs ne veulent pas nous révéler tous leurs secrets, mais j’en aurais voulu plus 😉 Par exemple quelques implémentations des scénarios classiques dans SSIS : la détection de doublons, le nettoyage d’un champ texte, la conversion d’une date, le chargement d’une table de fait, la gestion d’une table de transcodage…
  11. Programmation de composants SSIS : J’avoue avoir parcouru le chapitre en diagonale, mais j’y ai trouvé ce qui me semble être un très bon tutoriel pour le développement de son premier composant perso, partant des méandres des éléments à installer sur son poste et les serveurs jusqu’à l’ajout d’une interface graphique pour le paramétrage à l’utilisation. Beau boulot !

A mon sens il manque, dans le désordre :

  • Le load balancing de packages sur une ferme de serveurs SSIS, et plus globalement un petit chapitre sur le déploiement de SSIS sur des grosses infrastructures
  • La gestion des comptes de service et l‘héritage des droits à l’exécution (oui je te regarde SQL Agent)
  • Des recommandations / abaques sur les performances attendues en fonction de volumétries classiques sur 2/3 configurations matérielles standard. Histoire de savoir si on est dans les clous ou à côté de la plaque en traitant 5 millions de lignes de 20 colonnes de texte en 10 minutes sur un quad-core avec 16Go de RAM et un disque 7200tpm. Très grosse maille évidemment.
  • Une vision un peu plus architecture et un peu moins produit. Gérer sa solution et ses projets, l’atomicité d’un package et d’un data flow, l’enchainement des packages (children ou par SQL Agent)…
  • Le détail de l’accès aux features en fonction des éditions (standard, BI, entreprise)
  • Une petite conclusion sur le futur de SSIS dans le cloud azuré?

Évidemment le bouquin fait déjà 450 pages, alors à un moment il faut savoir tailler pour sauver les arbres 😀

En conclusion :

Je recommande sans problème. Beau travail messieurs, merci pour votre dur labeur, à quand le prochain sur SSAS ? 🙂

Big Data, Révolution IT ou effet de mode marketing ?

Je reviens sur le sujet Big Data en quelques schémas faits rapidement sur ArgumentPuissant. Ils sont inspirés par Stephen Few, Ralph Kimball, Rob Collie, Jen Stirrup, Romuald Coutaud, et plein d’autres…

Si on part de la pyramide du savoir, que vous connaissez tous (data > information > knowledge > wisdom en VO) :

Data > Information > Connaissance > Sagesse

Et qu’on écoute les services marketing des éditeurs, et les analystes, le Big Data ça donne ça :

Data > BOUM Big Data > Sagesse

Par contre si on écoute son bon sens, et les gens dont je parlais plus haut, ça donne plutôt ça :

Big Data > Data > Information > Connaissance > Sagesse

A vous de choisir la vision de la chose qui vous semble la plus réaliste.

Le Big Data c’est une belle nouvelle technologie, qui en effet va nous permettre de réaliser beaucoup de nouvelles analyses vraiment chouettes. Mais seulement à travers les outils dont on dispose déjà : les bases relationnelles (le SQL), la modélisation dimensionnelle (dimensions et mesures), la visualisation de données, et une méthode scientifique, une approche rationnelle de compréhension du monde qui nous entoure. Ces étapes ne sont pas facultatives, le Big Data n’y change rien.

Si dans votre entreprise vous n’arrivez déjà pas à exploiter pleinement votre plateforme décisionnelle, à passer de l’information à la connaissance, alors ne vous engagez pas dans un projet Big Data. Plus de données, plus d’informations, ne vous aideront certainement pas à y voir plus clair.

Je reviendrai sur cette pyramide du savoir. C’est une représentation que j’aime beaucoup, et qui illustre bien les différentes facettes de notre métier. On en reparle plus tard 😉