J’ai suivi la formation Data Analyst avec Hadoop et Pig, Hive et Impala par Cloudera (et c’était bien!)

Avec mon camarade David nous avons eu la chance de pouvoir participer à cette formation au nom un peu long, mais définitivement dans notre nouveau périmètre Big Data.

Déjà on peut s’interroger de pourquoi faire une formation Cloudera, éditeur d’une des distributions Hadoop les plus importantes, la CDH, alors que David et moi sommes plutôt orientés Microsoft (pour faire dans l’euphémisme).

Parce que pour rappel, le partenaire officiel de Microsoft sur le Big Data n’est autre qu’Hortonworks, concurrent de Cloudera et également contributeur majeur à l’écosystème Hadoop. Les fruits de la collaboration entre Microsoft et Hortonworks étant bien entendu la distribution HDP for Windows à installer chez soi, et également HDInsight, le Big Data à la demande directement dans le cloud.

Alors oui, pourquoi une formation Cloudera ? D’abord parce que Pig et Hive, les deux langages de manipulation de données les plus utilisés sur Hadoop, sont évidemment communs à toutes les distributions. Ensuite parce que cette formation est dispensée par Xebia, la société copine de Cellenza, que leurs formateurs sont ultra réputés, et vous vous en doutez, qu’on a eu un prix 😉

Certificat pour la formation Cloudera

Du formateur on peut en parler, il s’agissait de Kris Geusebroek (twitter), consultant sénior de GoDataDriven, filiale de Xebia Hollande spécialisée sur le Big Data (oui ça reste en famille ;)). Et il a été très très bon. L’avantage d’avoir un consultant c’est évidemment qu’il nous a apporté une vraie vision terrain, avec des pratiques et méthodes qui n’apparaissent pas habituellement dans une formation éditeur et qui pourtant sont essentielles.

Le contenu quant à lui était également au top, tant sur la forme que sur le fond. Autant vous dire que ça nous a sérieusement décomplexés par rapport à ces nouvelles technos. Une fois l’architecture globale bien comprise, Hive et Impala c’est plus ou moins du SQL, Pig ça ressemble beaucoup à du M (le langage derrière Power Query), et du nettoyage de données ça reste du nettoyage de données, qu’on le fasse avec un ETL ou sur un cluster Hadoop.

Vous l’avez compris je recommande chaudement cette formation, même si le mieux pour vous serait surement d’attendre que des spécialistes de l’écosystème proposent une déclinaison du contenu pour HDInsight, et ça, ça ne devrait pas tarder… 😉

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s