BigData & Intelligence Artificielle avec Apache Spark
Introduction to Big Data and Apache Spark
Partie 1 : Introduction à Apache Spark
Part 1: Introduction to Apache Spark
-
Historique de Spark
History of Spark
Compréhension des origines et de l’évolution d’Apache Spark dans l’écosystème Big Data.
Understanding the origins and evolution of Apache Spark in the Big Data ecosystem. -
Architecture logique
Logical Architecture
Analyse de l’architecture de Spark : drivers, executors, cluster manager, et DAG.
Analysis of Spark’s architecture: drivers, executors, cluster manager, and DAG. -
RDD vs DataFrame vs Dataset
RDD vs DataFrame vs Dataset
Comparaison des principales abstractions de Spark pour le traitement des données : RDD, DataFrame et Dataset.
Comparison of the main abstractions in Spark for data processing: RDD, DataFrame, and Dataset. -
Actions & Transformations
Actions & Transformations
Distinction entre les actions et transformations dans Spark pour le traitement des données.
Differentiating between actions and transformations in Spark for data processing. -
RDD Lineage & Fault Tolerance
RDD Lineage & Fault Tolerance
Explication du concept de RDD Lineage et de la tolérance aux pannes dans Spark.
Explanation of the RDD Lineage concept and fault tolerance in Spark. -
Explication Closure
Closure Explanation
Compréhension du mécanisme de closure dans Spark et son impact sur les performances.
Understanding the closure mechanism in Spark and its impact on performance. -
Les 5S Apache Spark
The 5S of Apache Spark
Introduction aux 5 concepts clés pour optimiser Spark : Spill, Shuffle, Storage, Serialization, Skew.
Introduction to the 5 key concepts to optimize Spark: Spill, Shuffle, Storage, Serialization, Skew.
Partie 2 : Prise en main de Docker
Part 2: Getting Started with Docker
-
Introduction à Docker
Introduction to Docker
Présentation des concepts de conteneurisation et des avantages de Docker pour l’industrialisation des pipelines analytiques.
Presentation of containerization concepts and the advantages of Docker for industrializing data pipelines. -
Opération RDD
RDD Operations
Utilisation de Docker pour exécuter des tâches Spark basées sur les RDD.
Using Docker to run Spark tasks based on RDDs. -
Opération DataFrame
DataFrame Operations
Déploiement de tâches Spark DataFrame via Docker pour l’automatisation des workflows analytiques.
Deploying Spark DataFrame tasks via Docker for automating data workflows.
Partie 3 : Cycle analytique avec Spark
Part 3: Analytic Cycle with Spark
-
Cycle de vie d’un projet de Machine Learning
Machine Learning Project Lifecycle
Compréhension des étapes du cycle de vie d’un projet ML, de l’ingestion des données à la production.
Understanding the steps of a machine learning project lifecycle, from data ingestion to production. -
Exploration des données
Data Exploration
Techniques d’exploration des données pour identifier les anomalies, les valeurs manquantes, et comprendre les tendances.
Data exploration techniques to identify anomalies, missing values, and understand trends. -
Préparation des données
Data Preparation
Mise en œuvre des techniques de nettoyage, de transformation et de réduction de dimension pour préparer les données à l’analyse.
Implementation of cleaning, transformation, and dimensionality reduction techniques to prepare data for analysis. -
Apprentissage
Learning
Application des algorithmes de machine learning avec Spark MLlib pour modéliser les données.
Applying machine learning algorithms with Spark MLlib to model data. -
Industrialisation
Industrialization
Industrialisation des pipelines analytiques avec Docker et Spark, pour un déploiement à l’échelle.
Industrialization of data pipelines with Docker and Spark for large-scale deployment.
Partie 4 : Ingestion des données
Part 4: Data Ingestion
-
Le chargement de données
Data Loading
Méthodes pour charger efficacement des données dans Spark depuis diverses sources (fichiers, bases de données, etc.).
Methods for efficiently loading data into Spark from various sources (files, databases, etc.). -
Traitements batch
Batch Processing
Mise en place de traitements batch avec Spark pour le traitement de gros volumes de données.
Setting up batch processing with Spark for large-scale data processing. -
Traitements en streaming
Streaming Processing
Implémentation de pipelines de streaming avec Spark Streaming pour traiter des flux de données en temps réel.
Implementing streaming pipelines with Spark Streaming to process real-time data streams. -
Les formats de données
Data Formats
Utilisation des différents formats de données supportés par Spark (CSV, Parquet, Avro, etc.).
Using different data formats supported by Spark (CSV, Parquet, Avro, etc.).
Partie 5 : Exploration des données
Part 5: Data Exploration
-
Statistiques descriptives
Descriptive Statistics
Calcul de statistiques descriptives sur des ensembles de données pour obtenir des résumés informatifs.
Calculating descriptive statistics on datasets to obtain informative summaries. -
Identifier les cas aberrants, les données vides
Identifying Outliers and Missing Data
Détection et gestion des outliers et des valeurs manquantes dans les jeux de données.
Detecting and managing outliers and missing values in datasets. -
Identifier les valeurs invalides et autres anomalies
Identifying Invalid Values and Other Anomalies
Analyse des anomalies dans les données pour garantir leur qualité avant le traitement.
Analyzing anomalies in data to ensure quality before processing.
Partie 6 : Préparation et feature engineering
Part 6: Data Preparation and Feature Engineering
-
Création de nouvelles features
Creating New Features
Techniques de création de nouvelles features à partir des données existantes pour améliorer les modèles.
Techniques for creating new features from existing data to improve models. -
Réduction de dimensions
Dimensionality Reduction
Application de techniques de réduction de dimensions pour simplifier les jeux de données tout en conservant leur pertinence.
Applying dimensionality reduction techniques to simplify datasets while retaining relevance. -
Vectorisation
Vectorization
Transformation des données en vecteurs de caractéristiques pour leur utilisation dans les algorithmes ML.
Transforming data into feature vectors for use in machine learning algorithms.
Partie 7 : Cycle de vie du ML avec MLflow
Part 7: ML Lifecycle with MLflow
-
Cycle de vie d’un projet ML
ML Project Lifecycle
Compréhension des étapes clés du cycle de vie d’un projet ML avec MLflow : de l’expérimentation à la production.
Understanding the key steps of a machine learning project lifecycle with MLflow: from experimentation to production. -
Présentation de la plateforme open-source MLflow
Introduction to the Open-Source MLflow Platform
Introduction à MLflow et ses fonctionnalités pour suivre et gérer les expérimentations de machine learning.
Introduction to MLflow and its features for tracking and managing machine learning experiments. -
Paramètres, métriques, balises et artefacts
Parameters, Metrics, Tags, and Artifacts
Suivi des hyperparamètres, des résultats des modèles, et gestion des artefacts avec MLflow.
Tracking hyperparameters, model results, and managing artifacts with MLflow. -
Différentes solutions MLflow sur le marché
Different MLflow Solutions in the Market
Comparaison des différentes offres MLflow disponibles (open-source, Databricks, etc.).
Comparison of the different MLflow offerings available (open-source, Databricks, etc.). -
Use case MLflow
MLflow Use Case
Étude de cas sur l’utilisation de MLflow pour gérer un projet de machine learning de bout en bout.
A case study on using MLflow to manage an end-to-end machine learning project.
Partie 8 : Machine Learning
Part 8: Machine Learning
-
Introduction à MLlib
Introduction to MLlib
Présentation de la bibliothèque MLlib de Spark pour le machine learning.
Introduction to Spark’s MLlib library for machine learning. -
Diviser un jeu de données
Splitting a Dataset
Techniques pour diviser un jeu de données en ensembles d’entraînement et de test.
Techniques for splitting a dataset into training and test sets. -
Configurer un modèle et l’exécuter
Configuring and Running a Model
Paramétrage et exécution d’un modèle de machine learning avec Spark MLlib.
Setting up and running a machine learning model with Spark MLlib. -
Interprétation et validation des résultats d’apprentissage
Interpreting and Validating Learning Results
Analyse des performances du modèle et validation des résultats avec des métriques appropriées.
Analyzing model performance and validating results with appropriate metrics. -
Pourquoi MLlib
Why MLlib
Avantages de l’utilisation de Spark MLlib pour les projets de machine learning à grande échelle.
Advantages of using Spark MLlib for large-scale machine learning projects. -
Introduction à Spark Streaming
Introduction to Spark Streaming
Utilisation de Spark Streaming pour intégrer des modèles de machine learning en temps réel.
Using Spark Streaming to integrate machine learning models in real-time.
Partie 9 : Études de cas
Part 9: Case Studies
-
Recommender System
Recommender System
Étude de cas sur la mise en place d’un système de recommandation en utilisant les transactions bancaires et les profils clients.
A case study on building a recommender system using banking transactions and customer profiles. -
Forecast Sales
Forecast Sales
Mise en œuvre d’un modèle de prévision des ventes basé sur des données de ventes historiques et des variables externes.
Implementing a sales forecasting model based on historical sales data and external variables. -
Sentiment Analysis
Sentiment Analysis
Implémentation d’un pipeline d’analyse de sentiment en temps réel en utilisant Spark Streaming et un modèle de traitement de langage naturel.
Implementing a real-time sentiment analysis pipeline using Spark Streaming and a natural language processing model.
Ping :Quiz BigData & Intelligence Artificielle avec Apache Spark - WYTASOFT