Une rentrée bien silencieuse…

S’il est vrai que mon rythme de publication a bien ralenti dernièrement, ne vous inquiétez pas, c’est pour de saines raisons !

J’en avais déjà parlé, et vous l’avez certainement vu à travers mes récentes lectures, je travaille à fond sur ma veille technologique. Avec David nous avons la chance de disposer d’un peu de bande passante pour la R&D, on ne pourra pas nous reprocher de n’avoir su en profiter :

  • Big Data avec Pig et Hive sur HDInsight (Hadoop sur Azure, le cloud Microsoft). David présente même une session sur le sujet au SQLSat ce samedi
  • Passage de la certification ScrumMaster. Alors oui le plus gros critère de notation c’est la présence à la formation payante, mais bon… C’est qui les patrons de la BI Agile maintenant ? 😉
  • Et surtout un gros focus sur Machine Learning à travers : la formation Coursera de Stanford (spéciale dédicace à notre camarade de classe Geoffrey), 10 semaines de cours sur la théorie et son application dans Octave (un dérivé Open Source de MatLab). Et là on enchaine sur le parcours certifiant de Data Scientist de l’Université Johns Hopkins, toujours sur Coursera, 10 modules de 4 semaines, cette fois en employant R.

Maintenant je peux le dire : franchement, le Machine Learning, ça déchire.

Je vais bien sûr vous faire découvrir (ou dépoussiérer) la discipline prochainement via une série d’articles, mais je voulais avant cela bien digérer le tout. En effet une des premières leçons qui m’a été transmise est la suivante (via Drew Conway) :

Diagramme des compétences requises en Data SciencePetit jeu: saurez-vous placer le spécialiste BI là-dessus ?

  • Hacking Skills (capacité technique) : Check !
  • Expertise métier ? Derrière une bonne modélisation dimensionnelle se cache une belle compréhension du métier : Check !
  • Math et Stats : bof bof…

Vous l’avez deviné, en plein dans la Danger Zone !

Archer et Lana, quote Danger Zone

Je vous laisse lire l’article qui va avec pour creuser, mais vous comprendrez donc que j’avance prudemment sur le sujet. Parce qu’il ne faudrait pas que sous prétexte d’occuper le terrain, je vous enduise d’erreurs 😉

 

J’ai suivi la formation Data Analyst avec Hadoop et Pig, Hive et Impala par Cloudera (et c’était bien!)

Avec mon camarade David nous avons eu la chance de pouvoir participer à cette formation au nom un peu long, mais définitivement dans notre nouveau périmètre Big Data.

Déjà on peut s’interroger de pourquoi faire une formation Cloudera, éditeur d’une des distributions Hadoop les plus importantes, la CDH, alors que David et moi sommes plutôt orientés Microsoft (pour faire dans l’euphémisme).

Parce que pour rappel, le partenaire officiel de Microsoft sur le Big Data n’est autre qu’Hortonworks, concurrent de Cloudera et également contributeur majeur à l’écosystème Hadoop. Les fruits de la collaboration entre Microsoft et Hortonworks étant bien entendu la distribution HDP for Windows à installer chez soi, et également HDInsight, le Big Data à la demande directement dans le cloud.

Alors oui, pourquoi une formation Cloudera ? D’abord parce que Pig et Hive, les deux langages de manipulation de données les plus utilisés sur Hadoop, sont évidemment communs à toutes les distributions. Ensuite parce que cette formation est dispensée par Xebia, la société copine de Cellenza, que leurs formateurs sont ultra réputés, et vous vous en doutez, qu’on a eu un prix 😉

Certificat pour la formation Cloudera

Du formateur on peut en parler, il s’agissait de Kris Geusebroek (twitter), consultant sénior de GoDataDriven, filiale de Xebia Hollande spécialisée sur le Big Data (oui ça reste en famille ;)). Et il a été très très bon. L’avantage d’avoir un consultant c’est évidemment qu’il nous a apporté une vraie vision terrain, avec des pratiques et méthodes qui n’apparaissent pas habituellement dans une formation éditeur et qui pourtant sont essentielles.

Le contenu quant à lui était également au top, tant sur la forme que sur le fond. Autant vous dire que ça nous a sérieusement décomplexés par rapport à ces nouvelles technos. Une fois l’architecture globale bien comprise, Hive et Impala c’est plus ou moins du SQL, Pig ça ressemble beaucoup à du M (le langage derrière Power Query), et du nettoyage de données ça reste du nettoyage de données, qu’on le fasse avec un ETL ou sur un cluster Hadoop.

Vous l’avez compris je recommande chaudement cette formation, même si le mieux pour vous serait surement d’attendre que des spécialistes de l’écosystème proposent une déclinaison du contenu pour HDInsight, et ça, ça ne devrait pas tarder… 😉