BigData & Intelligence Artificielle avec Apache Spark

BigData & Intelligence Artificielle avec Apache Spark​ Mehdi TAJMOUATI

Introduction to Big Data and Apache Spark

Partie 1 : Introduction à Apache Spark

Part 1: Introduction to Apache Spark

  1. Historique de Spark
    History of Spark
    Compréhension des origines et de l’évolution d’Apache Spark dans l’écosystème Big Data.
    Understanding the origins and evolution of Apache Spark in the Big Data ecosystem.

  2. Architecture logique
    Logical Architecture
    Analyse de l’architecture de Spark : drivers, executors, cluster manager, et DAG.
    Analysis of Spark’s architecture: drivers, executors, cluster manager, and DAG.

  3. RDD vs DataFrame vs Dataset
    RDD vs DataFrame vs Dataset
    Comparaison des principales abstractions de Spark pour le traitement des données : RDD, DataFrame et Dataset.
    Comparison of the main abstractions in Spark for data processing: RDD, DataFrame, and Dataset.

  4. Actions & Transformations
    Actions & Transformations
    Distinction entre les actions et transformations dans Spark pour le traitement des données.
    Differentiating between actions and transformations in Spark for data processing.

  5. RDD Lineage & Fault Tolerance
    RDD Lineage & Fault Tolerance
    Explication du concept de RDD Lineage et de la tolérance aux pannes dans Spark.
    Explanation of the RDD Lineage concept and fault tolerance in Spark.

  6. Explication Closure
    Closure Explanation
    Compréhension du mécanisme de closure dans Spark et son impact sur les performances.
    Understanding the closure mechanism in Spark and its impact on performance.

  7. Les 5S Apache Spark
    The 5S of Apache Spark
    Introduction aux 5 concepts clés pour optimiser Spark : Spill, Shuffle, Storage, Serialization, Skew.
    Introduction to the 5 key concepts to optimize Spark: Spill, Shuffle, Storage, Serialization, Skew.


Partie 2 : Prise en main de Docker

Part 2: Getting Started with Docker

  1. Introduction à Docker
    Introduction to Docker
    Présentation des concepts de conteneurisation et des avantages de Docker pour l’industrialisation des pipelines analytiques.
    Presentation of containerization concepts and the advantages of Docker for industrializing data pipelines.

  2. Opération RDD
    RDD Operations
    Utilisation de Docker pour exécuter des tâches Spark basées sur les RDD.
    Using Docker to run Spark tasks based on RDDs.

  3. Opération DataFrame
    DataFrame Operations
    Déploiement de tâches Spark DataFrame via Docker pour l’automatisation des workflows analytiques.
    Deploying Spark DataFrame tasks via Docker for automating data workflows.


Partie 3 : Cycle analytique avec Spark

Part 3: Analytic Cycle with Spark

  1. Cycle de vie d’un projet de Machine Learning
    Machine Learning Project Lifecycle
    Compréhension des étapes du cycle de vie d’un projet ML, de l’ingestion des données à la production.
    Understanding the steps of a machine learning project lifecycle, from data ingestion to production.

  2. Exploration des données
    Data Exploration
    Techniques d’exploration des données pour identifier les anomalies, les valeurs manquantes, et comprendre les tendances.
    Data exploration techniques to identify anomalies, missing values, and understand trends.

  3. Préparation des données
    Data Preparation
    Mise en œuvre des techniques de nettoyage, de transformation et de réduction de dimension pour préparer les données à l’analyse.
    Implementation of cleaning, transformation, and dimensionality reduction techniques to prepare data for analysis.

  4. Apprentissage
    Learning
    Application des algorithmes de machine learning avec Spark MLlib pour modéliser les données.
    Applying machine learning algorithms with Spark MLlib to model data.

  5. Industrialisation
    Industrialization
    Industrialisation des pipelines analytiques avec Docker et Spark, pour un déploiement à l’échelle.
    Industrialization of data pipelines with Docker and Spark for large-scale deployment.


Partie 4 : Ingestion des données

Part 4: Data Ingestion

  1. Le chargement de données
    Data Loading
    Méthodes pour charger efficacement des données dans Spark depuis diverses sources (fichiers, bases de données, etc.).
    Methods for efficiently loading data into Spark from various sources (files, databases, etc.).

  2. Traitements batch
    Batch Processing
    Mise en place de traitements batch avec Spark pour le traitement de gros volumes de données.
    Setting up batch processing with Spark for large-scale data processing.

  3. Traitements en streaming
    Streaming Processing
    Implémentation de pipelines de streaming avec Spark Streaming pour traiter des flux de données en temps réel.
    Implementing streaming pipelines with Spark Streaming to process real-time data streams.

  4. Les formats de données
    Data Formats
    Utilisation des différents formats de données supportés par Spark (CSV, Parquet, Avro, etc.).
    Using different data formats supported by Spark (CSV, Parquet, Avro, etc.).


Partie 5 : Exploration des données

Part 5: Data Exploration

  1. Statistiques descriptives
    Descriptive Statistics
    Calcul de statistiques descriptives sur des ensembles de données pour obtenir des résumés informatifs.
    Calculating descriptive statistics on datasets to obtain informative summaries.

  2. Identifier les cas aberrants, les données vides
    Identifying Outliers and Missing Data
    Détection et gestion des outliers et des valeurs manquantes dans les jeux de données.
    Detecting and managing outliers and missing values in datasets.

  3. Identifier les valeurs invalides et autres anomalies
    Identifying Invalid Values and Other Anomalies
    Analyse des anomalies dans les données pour garantir leur qualité avant le traitement.
    Analyzing anomalies in data to ensure quality before processing.


Partie 6 : Préparation et feature engineering

Part 6: Data Preparation and Feature Engineering

  1. Création de nouvelles features
    Creating New Features
    Techniques de création de nouvelles features à partir des données existantes pour améliorer les modèles.
    Techniques for creating new features from existing data to improve models.

  2. Réduction de dimensions
    Dimensionality Reduction
    Application de techniques de réduction de dimensions pour simplifier les jeux de données tout en conservant leur pertinence.
    Applying dimensionality reduction techniques to simplify datasets while retaining relevance.

  3. Vectorisation
    Vectorization
    Transformation des données en vecteurs de caractéristiques pour leur utilisation dans les algorithmes ML.
    Transforming data into feature vectors for use in machine learning algorithms.


Partie 7 : Cycle de vie du ML avec MLflow

Part 7: ML Lifecycle with MLflow

  1. Cycle de vie d’un projet ML
    ML Project Lifecycle
    Compréhension des étapes clés du cycle de vie d’un projet ML avec MLflow : de l’expérimentation à la production.
    Understanding the key steps of a machine learning project lifecycle with MLflow: from experimentation to production.

  2. Présentation de la plateforme open-source MLflow
    Introduction to the Open-Source MLflow Platform
    Introduction à MLflow et ses fonctionnalités pour suivre et gérer les expérimentations de machine learning.
    Introduction to MLflow and its features for tracking and managing machine learning experiments.

  3. Paramètres, métriques, balises et artefacts
    Parameters, Metrics, Tags, and Artifacts
    Suivi des hyperparamètres, des résultats des modèles, et gestion des artefacts avec MLflow.
    Tracking hyperparameters, model results, and managing artifacts with MLflow.

  4. Différentes solutions MLflow sur le marché
    Different MLflow Solutions in the Market
    Comparaison des différentes offres MLflow disponibles (open-source, Databricks, etc.).
    Comparison of the different MLflow offerings available (open-source, Databricks, etc.).

  5. Use case MLflow
    MLflow Use Case
    Étude de cas sur l’utilisation de MLflow pour gérer un projet de machine learning de bout en bout.
    A case study on using MLflow to manage an end-to-end machine learning project.


Partie 8 : Machine Learning

Part 8: Machine Learning

  1. Introduction à MLlib
    Introduction to MLlib
    Présentation de la bibliothèque MLlib de Spark pour le machine learning.
    Introduction to Spark’s MLlib library for machine learning.

  2. Diviser un jeu de données
    Splitting a Dataset
    Techniques pour diviser un jeu de données en ensembles d’entraînement et de test.
    Techniques for splitting a dataset into training and test sets.

  3. Configurer un modèle et l’exécuter
    Configuring and Running a Model
    Paramétrage et exécution d’un modèle de machine learning avec Spark MLlib.
    Setting up and running a machine learning model with Spark MLlib.

  4. Interprétation et validation des résultats d’apprentissage
    Interpreting and Validating Learning Results
    Analyse des performances du modèle et validation des résultats avec des métriques appropriées.
    Analyzing model performance and validating results with appropriate metrics.

  5. Pourquoi MLlib
    Why MLlib
    Avantages de l’utilisation de Spark MLlib pour les projets de machine learning à grande échelle.
    Advantages of using Spark MLlib for large-scale machine learning projects.

  6. Introduction à Spark Streaming
    Introduction to Spark Streaming
    Utilisation de Spark Streaming pour intégrer des modèles de machine learning en temps réel.
    Using Spark Streaming to integrate machine learning models in real-time.


Partie 9 : Études de cas

Part 9: Case Studies

  1. Recommender System
    Recommender System
    Étude de cas sur la mise en place d’un système de recommandation en utilisant les transactions bancaires et les profils clients.
    A case study on building a recommender system using banking transactions and customer profiles.

  2. Forecast Sales
    Forecast Sales
    Mise en œuvre d’un modèle de prévision des ventes basé sur des données de ventes historiques et des variables externes.
    Implementing a sales forecasting model based on historical sales data and external variables.

  3. Sentiment Analysis
    Sentiment Analysis
    Implémentation d’un pipeline d’analyse de sentiment en temps réel en utilisant Spark Streaming et un modèle de traitement de langage naturel.
    Implementing a real-time sentiment analysis pipeline using Spark Streaming and a natural language processing model.

BigData & Intelligence Artificielle avec Apache Spark​
Étiqueté avec :            

Un avis sur « BigData & Intelligence Artificielle avec Apache Spark​ »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *