En tant que l'un des frameworks de programmation open source les plus performants, Hadoop est un outil important pour quiconque souhaite trouver un job de Big Data. Si vous souhaitez parfaire vos compétences Hadoop ou apprendre à le maîtriser, la meilleure option est de suivre un cours en ligne. Si ce n'est pas le cas, regardez des didacticiels en ligne gratuits et utilisez des documents de référence pour résoudre des problèmes spécifiques. Une fois que vous avez acquis les bases, entraînez-vous sur de petits ensembles de données réelles pour améliorer vos compétences.

Méthode One of Two:
Prendre des cours et utiliser des didacticiels

  1. 1 Inscrivez-vous à Cloudera pour un cours en six parties et des didacticiels interactifs. Cloudera vous donne des exemples concrets sur lesquels vous pouvez vous exercer dans un environnement en lecture seule. Vous n'avez donc pas à vous soucier des erreurs énormes. Ils proposent également des outils analytiques pour vous aider à tester vos données, ainsi qu'une démonstration en direct gratuite appelée Cloudera Live pour vous aider à apprendre l'environnement Hadoop.[1]
    • Bien que le cours complet et approfondi avec certification vous coûtera 295 $, cela vaudra certainement la peine si vous utilisez ces compétences pour votre travail. Utiliser le cours Cloudera vous aidera à déceler les erreurs et à gagner du temps, ce qui vous permettra de payer rapidement tout seul![2]
  2. 2 Essayez les cours en ligne gratuits via Cloudera si vous connaissez déjà les bases. Si vous avez de l'expérience avec Hadoop et que vous souhaitez simplement effectuer un recyclage, vous n'avez peut-être pas besoin de débourser de l'argent pour le cours en six parties. Au lieu de cela, consultez les cours en ligne gratuits sur le site Web de l'Université Cloudera.[3]
    • Il existe des ressources pour les administrateurs, les développeurs et les analystes de données. Peu importe votre rôle, vous devriez être en mesure de trouver un cours approprié.
  3. 3 Suivez un cours de niveau universitaire sur Coursera si vous voulez plus de théorie. Coursera est une source de cours bien connue et respectée. Bien que les instructions soient généralement plus théoriques et n'incluent pas autant d'exemples courants, vous pouvez vous entraîner parallèlement au didacticiel et utiliser les projets du cours pour acquérir une expérience pratique.[4]
    • Vous pouvez trouver ce cours en ligne à l'adresse https://www.coursera.org/specializations/big-data.
    • Le coût varie entre les cours, mais Coursera offre également une option d'aide financière à ceux qui se qualifient.
  4. 4 Suivez un cours gratuit sur Big Data University pour une option économique. Si vous ne voulez pas payer pour un cours en ligne, Big Data University est une excellente option. Ils ont un cours en deux parties, axé en premier lieu sur les bases de Hadoop, puis sur la programmation avec Hadoop, et le format en ligne facilite l’accès à votre rythme.[5]
    • Vous pouvez trouver ces cours sur https://cognitiveclass.ai.
    • Ils offrent de nombreux tutoriels en anglais, ainsi que japonais, espagnol, portugais et russe.
  5. 5 Recherchez des solutions sur YouTube si vous avez besoin d'une formation spécifique gratuite. Il y a des milliers de vidéos pour expliquer Hadoop et comment l'utiliser. La large gamme de vidéos vous donne de la flexibilité, en plus d'être gratuite. Si vous rencontrez un problème spécifique, recherchez sur YouTube une vidéo qui vous guide tout au long du processus.[6]
    • Les didacticiels Hadoop devraient également être assez faciles à trouver, car «hadoop» est un terme de recherche unique.[7]
  6. 6 Utilisez les tutoriels gratuits de Yahoo si vous souhaitez vous entraîner avec un exemple virtuel. Ces didacticiels sont divisés en 7 modules et ils vous informent dès le début de l'installation et de l'exploitation de Hadoop. C'est une excellente option pour améliorer certaines compétences si elles sont un peu rouillées.[8]
    • Vous pouvez trouver ces tutoriels gratuitement sur https://developer.yahoo.com/hadoop/tutorial/.
  7. 7 Reportez-vous au document IBM Open Source pour des instructions gratuites et détaillées. Il s’agit d’un document PDF incroyablement complet et open source créé par une initiative de formation IBM. Il vous guide pas à pas à travers Hadoop et vous donne des instructions écrites claires.
    • Vous pouvez trouver ce PDF à l'adresse https://www.ibm.com/developerworks/data/library/techarticle/dm-1209hadoopbigdata/.
    • Ces instructions fonctionnent aussi bien lorsqu'elles sont associées à une démonstration en direct comme Cloudera.[9]

Méthode deux sur deux:
Transition vers une application du monde réel

  1. 1 Demandez si vous pouvez implémenter Hadoop au travail pour vous entraîner avec des données réelles. Présentez une demande à votre patron ou à votre superviseur, ou discutez-en en tête-à-tête de la possibilité d’introduire ces nouvelles compétences sur le lieu de travail. Ceci est particulièrement important si votre entreprise a payé pour des formations ou des cours en ligne.[10]
    • Plus vite vous commencez à mettre en œuvre les compétences que vous avez apprises, plus vite vous serez capable de les maîtriser!
  2. 2 Rechercher des projets simples sur lesquels pratiquer vos compétences. Choisissez des projets relativement simples et à faible risque, tels que le comptage et le classement du nombre d'interactions par agent client, tels que les e-mails et les sessions de discussion.[11]
    • Parmi les autres applications de données réelles, citons la recherche d'erreurs dans les journaux Web ou la surveillance des canaux de médias sociaux en fonction du sentiment de marque.
    • Vous pouvez également vous exercer avec des exemples de données provenant de sites tels que https://www.kaggle.com/datasets ou https://aws.amazon.com/datasets/.
  3. 3 Vérifiez régulièrement votre code avec de petits sous-ensembles pour résoudre les éventuels problèmes. Avant d'exécuter l'intégralité des données, apportez un ensemble de données de test plus petit sur votre machine locale et exécutez-le via plusieurs modes différents. Par exemple, vous pouvez l'exécuter de manière itérative via le mode Jobrunner local, puis le mode pseudo-distribué, puis le mode entièrement distribué.[12]
    • Cela vous permettra de reconnaître tout défaut ou bogue avant qu'il ne soit amplifié dans l'ensemble de données complet.
    • Le mode Jobrunner local vous permet de tester et de déboguer localement votre code Map et Reduce, le mode Pseudo-Distributed imite l'environnement de production et le mode Fully Distributed examine votre cluster de production réel.
  4. 4 Utilisez un essai gratuit d'un an pour vous entraîner sur un environnement de machine virtuelle. Des sociétés telles qu'Amazon et Microsoft proposent des abonnements payants pour leurs services de pratique Hadoop.La machine virtuelle d'Amazon s'appelle Amazon Web Service (AWS) et le service de Microsoft s'appelle Microsoft Azure. Pour les deux services, votre première année est gratuite lorsque vous entrez vos informations de carte de crédit.[13]
    • N'oubliez pas d'annuler l'abonnement après 1 an pour éviter d'être facturé.