Data science et Intelligence Artificielle

image

Programme Détaillé

Module 1 : Introduction & Fondamentaux

2 séances
1
Introduction au domaine de l'IA et Fondamentaux Python
  • Terminologies: IA, ML, Big Data, Deep Learning, NLP, CV, LLMs…
  • Panorama des métiers (Data Engineer, Data Scientist, AI Engineer…)
  • Python 101: Syntaxe de base, Arithmétique et Variables en Python
  • Types et Structures de données en Python (booléens, listes, tuples, strings, dictionnaires…)
  • Structures Conditionnelles (if/elif/else) et structures Itératives (for/while, break/continue) en Python
  • TP plateforme: Installations et configurations (Python, VSCode, Anaconda (Jupyter), Git/GitHub et Kaggle/Google Colab) et exercices Python
2
Python Avancé
  • Programmation Fonctionnelle (fonctions, lambda, map, filter, reduce)
  • Programmation Orienté Objet - POO (classes, héritage, encapsulation, polymorphisme)
  • Gestion de modules et bibliothèques standard (os, sys, pathlib…)
  • Gestion des fichiers (CSV, JSON) et gestion d'exceptions(try/except/finally)
  • Environnements virtuels (venv, pipenv, conda)
  • TP plateforme: Création d'une mini-bibliothèque Python

Module 2 : Mathématiques et Data Analysis

2 séances
3
Fondamentaux Mathématiques pour le Machine Learning
  • Algèbre linéaire (vecteurs, matrices, opérations fondamentales)
  • Statistiques descriptives (mesures de position et de dispersion: moyenne, médiane, variance, écart-type)
  • Introduction à la théorie de la probabilité (lois classiques, indépendance, espérance)
  • Notions d'Optimisation (fonctions convexes vs non-convexes)
  • TP plateforme: Manipulations NumPy: vecteurs, produits matriciels, statistiques, lois de probabilité
4
Prétraitement, Visualisation et Analyse de données
  • Manipulation des données avec Pandas (DataFrame, Séries, jointures, groupby)
  • Nettoyage des données (gestion des valeurs manquantes, scaling, outliers, normalisation, encodage etc…)
  • Data visualization avec matplotlib & Seaborn (diagrammes, Heatmaps, histogrammes etc…)
  • TP plateforme: Pandas : DataFrame, nettoyage, agrégations; matplotlib/Seaborn : histogrammes, boîte à moustaches, heatmaps

Module 3 : Machine Learning (ML)

3 séances
5
Apprentissage Supervisé: Modèles de Régression
  • Types d'algorithmes de Machine Learning
  • Workflow ML : collecte, préparation, modélisation, évaluation, déploiement
  • Régression linéaire (simple, multiple, polynomiale)
  • Biais/variance, overfitting, régularisation (Ridge, Lasso)
  • Métriques (MSE, RMSE, R²)
  • TP/Projet plateforme: Prédiction de la qualité de l'air dans différentes régions en utilisant des données environnementales
6
Classification supervisée
  • Régression logistique, K-Nearest neighbors (KNN), Support Vector Machines (SVM), Naïves Bayes
  • Arbres de décision et Random Forests
  • Métriques classification (accuracy, précision, recall, F1, ROC AUC)
  • TP/Projet plateforme: Prédiction du risque de contraction de maladies cardiovasculaires en milieu médical
7
Apprentissage non supervisé et Techniques avancées
  • Clustering (KMeans, DSBSCAN) et Analyse en Composantes Principales (PCA)
  • Techniques de Validation croisée (KFold, Stratified KFold, Leave-One-Out)
  • Feature Engineering et Hyperparameters tuning (Grid Search CV, Random Search, Bayesian Search)
  • Les Modèles d'ensembling et de boosting (XGBoost, LightGBM, AdaBoost, stacking, bagging etc…)
  • TP plateforme: Détection de transactions frauduleuses en milieu bancaire

Module 4 : Deep Learning avec PyTorch

3 séances
8
Réseaux de Neurones Profonds
  • Perceptron, fonctions d'activation (ReLU, Sigmoid, Tanh)
  • Réseaux feed-forward, fonctions coûts (MSE, MAE, Cross entropy etc…)
  • Backpropagation, optimizers (Stochastic Gradient Descent, Batch GD, Adam, RMSProp)
  • Techniques de régularisation (Dropout, BatchNorm, early stopping)
  • TP: Implémentation from scratch et entrainer d'un perceptron multi-couche avec PyTorch
9
Vision par Ordinateur
  • Réseaux de Neurones Convolutifs (CNNs, pooling, padding…)
  • Architectures classiques (LeNet, VGG, ResNet)
  • Transfert learning & fine-tuning
  • Détection d'objets (YOLO, Faster R-CNN)
  • TP/Projet plateforme 1: Détection de maladies de plantes à partir d'images (agriculture intelligente)
  • TP/Projet plateforme 2: Créer un modèle pour reconnaître et suivre des objets dans des vidéos en temps réel
10
Traitement automatique du Langage Naturel (NLP) & Sequence Modeling
  • Réseaux de neuronnes récurrents (RNNs) & LSTMs
  • Représentations de texte (One-hot, TF-IDF, Word2Vec, embeddings)
  • Introduction aux Transformers & Mécanisme d'attention
  • Large Language Models (LLMs) et modèles de fondation (Llama, Mistral…)
  • Notions de RAG, fine-tuning de LLMs
  • TP plateforme: Création d'un chatbot RAG personnalisé de vulgarisation scientifique déployé avec Streamlit/Gradio

Module 5 : Déploiement & MLOps

1 séance + Projet final
11
Déploiement & MLOps (Bonus)
  • Introduction au MLOps, CI/CD pour modèles IA
  • APIs avec FastAPI, interfaces avec Streamlit/Gradio
  • Monitoring et gestion des versions de modèles avec Mlflow
  • Déploiement de modèle sur le Cloud avec Docker et AWS
  • TP: Déployer un modèle d'analyse de sentiments en API REST avec FastAPI + démo Gradio + tracking avec MLFlow sur HuggingFace Spaces
🎓
Projet & Évaluation finale
  • Projet final Kaggle (2 semaines) : compétition en groupe ou individuelle, prix pour le Top 3 du leaderboard
  • Présentation orale + rapport écrit détaillant méthodologie, résultats et axes d'amélioration
  • Nombre de places: 30
  • Enregistrement séance: Oui
  • Durée: 40 heures
  • Quizzes et exos: Oui
  • Langue d'enseignement: Français
  • Support vidéo tuto: Oui
  • Certificat: Oui