Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Build and Deploy Multimodal AI Systems.

Design, train, evaluate, and deploy multimodal AI systems that process text, images, and audio.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text data streams into scalable production pipelines.

  • Fine-tune transformer-based multimodal models using transfer learning and evaluate performance with cross-modal and ethical AI metrics.

  • Build automated ETL pipelines and unified data schemas to ingest, validate, and store multimodal features for model training and inference.

  • Deploy versioned, secured, and documented inference APIs on containerized Kubernetes infrastructure with real-time performance optimization.

Compétences que vous acquerrez

  • Catégorie : API Design
  • Catégorie : CI/CD
  • Catégorie : Computer Vision
  • Catégorie : Data Pipelines
  • Catégorie : Data Preprocessing
  • Catégorie : Data Processing
  • Catégorie : Deep Learning
  • Catégorie : Ethical Standards And Conduct
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Model Evaluation
  • Catégorie : Multimodal Prompts
  • Catégorie : Natural Language Processing
  • Catégorie : Responsible AI
  • Catégorie : Solution Architecture
  • Catégorie : Transfer Learning

Outils que vous découvrirez

  • Catégorie : Apache Airflow
  • Catégorie : Docker (Software)
  • Catégorie : Kubernetes
  • Catégorie : PyTorch (Machine Learning Library)
  • Catégorie : Restful API
  • Catégorie : Vision Transformer (ViT)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 5 cours

Solution Architecture and Ethical AI Design

Solution Architecture and Ethical AI Design

COURS 1, 4 heures

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text pipelines into scalable, production-ready systems.

  • Evaluate multimodal model performance using cross-modal metrics including FID, CLIP scores, recall@k, and Visual Question Answering accuracy.

  • Apply ethical AI frameworks to assess model bias using demographic parity and equalized odds across sensitive population subgroups.

  • Generate model interpretability reports using LIME and SHAP to explain AI predictions and communicate findings to technical stakeholders.

Compétences que vous acquerrez

Catégorie : Solution Architecture
Catégorie : Responsible AI
Catégorie : Technical Documentation
Catégorie : Generative Model Architectures
Catégorie : Software Documentation
Catégorie : Computer Science
Catégorie : Systems Architecture
Catégorie : Natural Language Processing
Catégorie : Machine Learning
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : AI Integrations
Catégorie : Enterprise Architecture
Catégorie : Image Quality
Catégorie : Model Evaluation
Catégorie : AI Orchestration
Catégorie : Data Science
Catégorie : Algorithms
Catégorie : Scalability
Catégorie : Solution Design
Catégorie : Data Ethics

Ce que vous apprendrez

  • Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.

  • Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.

  • Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.

  • Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

Catégorie : API Design
Catégorie : Model Optimization
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Transfer Learning
Catégorie : Model Training
Catégorie : Fine-tuning
Catégorie : Machine Learning Software
Catégorie : Technical Communication
Catégorie : Model Evaluation
Catégorie : Model Deployment
Catégorie : AI Workflows
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Machine Learning
Catégorie : Vision Transformer (ViT)
Catégorie : Machine Learning Algorithms
Catégorie : Data Architecture
Catégorie : OAuth
Catégorie : Data Science
Catégorie : Restful API
Catégorie : Solution Architecture

Ce que vous apprendrez

  • Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.

  • Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.

  • Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.

  • Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.

Compétences que vous acquerrez

Catégorie : Data Preprocessing
Catégorie : Computer Vision
Catégorie : Data Transformation
Catégorie : Natural Language Processing
Catégorie : Image Quality
Catégorie : Model Training
Catégorie : Feature Engineering
Catégorie : Data Pipelines
Catégorie : Model Evaluation
Catégorie : Artificial Neural Networks
Catégorie : Data Architecture
Catégorie : Image Analysis
Catégorie : Machine Learning Algorithms
Catégorie : Fine-tuning
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Machine Learning Software
Catégorie : Machine Learning Methods
Catégorie : Digital Signal Processing
Catégorie : Data Processing
Catégorie : Hugging Face
Production-Ready Multimodal ML Engineering

Production-Ready Multimodal ML Engineering

COURS 4, 12 heures

Ce que vous apprendrez

  • Design a multimodal feature store and build automated ETL pipelines using BigQuery and Airflow.

  • Write test-driven ML training code and validate multimodal datasets for production readiness.

  • Optimize model inference with TensorRT and manage ML codebases using GitFlow and CI/CD tools.

  • Deploy GPU-accelerated services on Kubernetes and tune autoscaling for real-time performance.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Containerization
Catégorie : Model Training
Catégorie : Extract, Transform, Load
Catégorie : Data Validation
Catégorie : Kubernetes
Catégorie : Test Driven Development (TDD)
Catégorie : Apache Airflow
Catégorie : Cloud-Native Computing
Catégorie : Algorithms
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Natural Language Processing
Catégorie : Model Deployment
Catégorie : Machine Learning Algorithms
Catégorie : Machine Learning Software
Catégorie : Artificial Neural Networks
Catégorie : Model Optimization
Catégorie : Data Integrity
Catégorie : Artificial Intelligence
Catégorie : MLOps (Machine Learning Operations)
Career Development for Multimodal Intelligence

Career Development for Multimodal Intelligence

COURS 5, 2 heures

Ce que vous apprendrez

  • Build multimodal AI systems that integrate vision, audio, and language using cross-attention fusion and transformer architectures.

  • Deploy production-ready multimodal models with optimized inference pipelines, containerization, and automated MLOps workflows.

  • Architect cross-modal retrieval and fusion systems using contrastive learning and embedding alignment for real-world applications.

Compétences que vous acquerrez

Catégorie : Deep Learning
Catégorie : Machine Learning
Catégorie : Embeddings
Catégorie : AI Integrations
Catégorie : Image Analysis
Catégorie : Retrieval-Augmented Generation
Catégorie : Model Deployment
Catégorie : Applied Machine Learning
Catégorie : Large Language Modeling
Catégorie : Generative AI
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Model Optimization
Catégorie : Model Training
Catégorie : Tensorflow
Catégorie : Vision Transformer (ViT)
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Generative Model Architectures
Catégorie : Natural Language Processing
Catégorie : Computer Vision

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
475 Cours97 333 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.