Python Spark and Machine Learning

RDD, Supervised and Unsupervised Learning, Mlib, Spark SQL, Hive, Hadoop

Apache Spark est un framework de traitement parallèle open source qui existe depuis un certain temps maintenant. L’une des nombreuses utilisations d’Apache Spark est pour les applications d’analyse des données sur les ordinateurs en cluster

What you’ll learn

  • Create robust processing pipelines by testing Apache Spark jobs.
  • Configure a local instance of PySpark in a virtual environment.
  • Explore regression, classification and clustering models available in the ML module.
  • Use DataFrames to transform data used for modeling.
  • Learn Linear Regression, Logistic Regression, and Cluster Analysis.
  • you’ll learn how to abstract data with RDDs and DataFrames.

Course Content

  • Introduction to Spark –> 6 lectures • 14min.
  • Configure Environnement Big Data –> 4 lectures • 24min.
  • install pysark on windows –> 3 lectures • 19min.
  • Resilient Distributed Datasets –> 4 lectures • 30min.
  • Data Preprocessing –> 6 lectures • 46min.
  • Supervised Learning –> 1 lecture • 5min.
  • linear regression algorithm –> 5 lectures • 25min.
  • Classification –> 1 lecture • 3min.
  • logistic regression –> 6 lectures • 31min.
  • Random forest –> 4 lectures • 17min.

Python Spark and Machine Learning

Requirements

  • No requirements.

Apache Spark est un framework de traitement parallèle open source qui existe depuis un certain temps maintenant. L’une des nombreuses utilisations d’Apache Spark est pour les applications d’analyse des données sur les ordinateurs en cluster

 

Vous apprenez à obtenir des données à partir de toutes les plaques-formes d’hébergement de données populaires, y compris HDFS, Hive, JSON et à gérer de grands ensembles de données avec PySpark pour acquérir une expérience pratique du Big Data.

 

nous couvrons l’installation et la configuration de PySpark, les opérations RDD, le nettoyage et le traitement des mégadonnées, et l’agrégation et la synthèse des données dans les rapports utiles. Vous apprenez également comment implémenter certaines techniques pratiques et éprouvées pour améliorer certains aspects de la programmation et de l’administration dans Apache Spark.

 

 

À la fin, vous serez en mesure de créer des solutions analytiques et d’apprentissage machine Big Data en utilisant les différentes offres PySpark et également de l’optimiseur efficacement.

Get Tutorial