Coursera

Spécialisation "Pixels, Waveforms & Words: Engineering Multimodal AI Systems"

Ce spécialisation n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Spécialisation "Pixels, Waveforms & Words: Engineering Multimodal AI Systems"

Build AI Systems That See, Hear, and Read.

Master multimodal AI engineering across vision, audio, language, and cross-modal retrieval.

Hurix Digital
John Whitworth

Instructeurs : Hurix Digital

Inclus avec Coursera Plus

Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Approfondissez votre connaissance d’un sujet
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Preprocess image and audio data using normalization, color-space conversion, spectral feature extraction, and augmentation pipeline design.

  • Debug neural network training dynamics, diagnose vision and audio model failures, and apply systematic root cause analysis frameworks.

  • Fine-tune transformer-based multimodal models using transfer learning and implement fusion mechanisms for cross-modal understanding.

  • Build cross-modal retrieval systems using approximate nearest-neighbor search, vector embeddings, and attention-based fusion architectures.

Compétences que vous acquerrez

  • Catégorie : Computer Vision
  • Catégorie : Data Preprocessing
  • Catégorie : Debugging
  • Catégorie : Deep Learning
  • Catégorie : Embeddings
  • Catégorie : Ethical Standards And Conduct
  • Catégorie : Feature Engineering
  • Catégorie : Fine-tuning
  • Catégorie : Image Analysis
  • Catégorie : Large Language Modeling
  • Catégorie : Model Evaluation
  • Catégorie : Model Optimization
  • Catégorie : Model Training
  • Catégorie : Multimodal Prompts
  • Catégorie : Root Cause Analysis
  • Catégorie : Systems Design
  • Catégorie : Technical Documentation
  • Catégorie : Transfer Learning

Outils que vous découvrirez

  • Catégorie : PyTorch (Machine Learning Library)
  • Catégorie : Tensorflow

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

avril 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Améliorez votre expertise en la matière

  • Acquérez des compétences recherchées auprès d’universités et d’experts du secteur
  • Maîtrisez un sujet ou un outil avec des projets pratiques
  • Développez une compréhension approfondie de concepts clés
  • Obtenez un certificat professionnel auprès de Coursera

Spécialisation - série de 12 cours

Process Images & Extract Motion Features

Process Images & Extract Motion Features

COURS 1, 2 heures

Ce que vous apprendrez

  • Image preprocessing with normalization and color-space conversion ensures stable training and consistent performance across visuals.

  • Motion features from optical flow and frame differencing help systems learn temporal dynamics for tracking and action tasks.

  • Strong preprocessing improves model accuracy and training efficiency, making it essential in any vision pipeline

  • Mastering pixel changes and motion patterns enables advanced AI systems to understand dynamic visual scenes.

Compétences que vous acquerrez

Catégorie : Computer Vision
Catégorie : Data Preprocessing
Catégorie : Image Analysis
Catégorie : Model Training
Catégorie : Color Theory
Catégorie : NumPy
Catégorie : Data Transformation
Enhance Images: Quality Fixes Fast

Enhance Images: Quality Fixes Fast

COURS 2, 1 heure

Ce que vous apprendrez

  • Image quality directly impacts model performance—systematic quality assessment and correction is essential for reliable computer vision systems.

  • Diagnostic-first approach: Identify specific quality issues before applying corrective techniques to avoid overcorrection and preserve features.

  • Quantitative validation through metrics like PSNR provides objective evidence of enhancement effectiveness and supports data-driven processes.

  • Algorithmic enhancement techniques, like deblurring, denoising, etc. can be systematically applied, making quality improvement scalable.

Compétences que vous acquerrez

Catégorie : Model Training
Catégorie : Post-Production
Catégorie : Photo Editing
Transform Audio: Extract Features & Augment Models

Transform Audio: Extract Features & Augment Models

COURS 3, 2 heures

Ce que vous apprendrez

  • Raw audio waveforms must be transformed into structured numerical representations to enable effective processing by machine learning models.

  • Spectral features, STFT, MFSCs, & cepstral features, MFCCs, capture complementary signal info supporting ML classification, detection, recognition.

  • Noise injection, time-shifting, pitch modification & speed adjustment improve model generalization in real-world acoustic environments.

  • Automated audio augmentation pipelines are essential for production-ready AI systems ensuring reliable performance across diverse conditions.

Compétences que vous acquerrez

Catégorie : Digital Signal Processing
Catégorie : Data Transformation
Catégorie : Model Training
Catégorie : Data Manipulation
Catégorie : Model Deployment
Catégorie : Data Processing
Catégorie : Machine Learning Methods
Catégorie : Data Pipelines
Catégorie : Data Preprocessing
Catégorie : Feature Engineering
Catégorie : Applied Machine Learning
Catégorie : Data Wrangling
Debug Neural Networks: Analyze Training Dynamics

Debug Neural Networks: Analyze Training Dynamics

COURS 4, 2 heures

Ce que vous apprendrez

  • Training and validation metric divergence patterns are reliable indicators of overfitting that require early intervention to avoid model degradation.

  • Gradient magnitude tracking during backpropagation reveals critical stability issues that can be systematically diagnosed and corrected.

  • Proactive diagnostic workflows using visualization tools like TensorBoard enable timely interventions that save significant computational resources

  • Successful model development depends on establishing continuous monitoring practices that catch training failures before they become costly problems.

Compétences que vous acquerrez

Catégorie : Model Training
Catégorie : Applied Machine Learning
Catégorie : Performance Analysis
Catégorie : Model Optimization
Evaluate Vision Errors: Identify Failure Patterns

Evaluate Vision Errors: Identify Failure Patterns

COURS 5, 2 heures

Ce que vous apprendrez

  • Systematic error analysis uncovers specific failure modes and root causes that guide focused model improvements.

  • Confusion matrices and error categories reveal class-level model strengths and weaknesses.

  • Visualizing predictions with ground truth adds qualitative insight to complement numeric metrics.

  • Linking errors to data traits enables targeted data collection and model tuning for stronger robustness.

Compétences que vous acquerrez

Catégorie : Model Evaluation
Catégorie : Computer Vision
Catégorie : Data Visualization
Catégorie : Root Cause Analysis
Catégorie : Analysis
Catégorie : Quality Assurance
Catégorie : Statistical Reporting
Catégorie : Failure Mode And Effects Analysis
Catégorie : Correlation Analysis
Catégorie : Image Analysis
Catégorie : Scientific Visualization
Debug Audio Models: Performance and Root Cause

Debug Audio Models: Performance and Root Cause

COURS 6, 2 heures

Ce que vous apprendrez

  • Performance monitoring needs quantitative metrics and audio sample analysis to understand model behaviour and failures.

  • Audio failures often link to environmental conditions found through spectrogram and signal quality analysis.

  • Effective debugging combines statistical measures with audio analysis techniques for actionable insights

  • Root cause analysis requires understanding data quality, environmental factors, and model architecture relationships.

Compétences que vous acquerrez

Catégorie : Analysis
Catégorie : Root Cause Analysis
Catégorie : Exploratory Data Analysis
Catégorie : Performance Analysis
Catégorie : Model Evaluation
Catégorie : Data Preprocessing
Catégorie : Digital Signal Processing
Catégorie : Debugging
Catégorie : Software Visualization
Catégorie : Scenario Testing
Catégorie : Quantitative Research
Catégorie : Responsible AI
Fine-tune Multimodal Models with Transfer Learning

Fine-tune Multimodal Models with Transfer Learning

COURS 7, 2 heures

Ce que vous apprendrez

  • Multimodal architecture needs encoder-fusion-decoder pipelines balancing computational efficiency with cross-modal understanding capabilities.

  • Transfer learning transforms AI by enabling rapid adaptation of pre-trained knowledge to new domains with minimal data and training requirements.

  • Fine-tuning balances knowledge preservation and task adaptation through careful hyperparameter selection and strategic layer freezing techniques.

  • Production multimodal systems require systematic optimization approaches considering both model performance and computational resource constraints.

Compétences que vous acquerrez

Catégorie : Model Optimization
Catégorie : Model Training
Catégorie : Artificial Neural Networks
Catégorie : Fine-tuning
Catégorie : Keras (Neural Network Library)
Catégorie : Knowledge Transfer
Catégorie : Data Processing
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Generative Model Architectures
Catégorie : Deep Learning
Catégorie : Tensorflow
Catégorie : Multimodal Prompts
Unify Modalities: Cross-Modal Retrieval

Unify Modalities: Cross-Modal Retrieval

COURS 8, 2 heures

Ce que vous apprendrez

  • Cross-modal retrieval aligns vector spaces to bridge semantic gaps between text, images, and other data types.

  • ANN tools like FAISS enable fast similarity search across millions of embeddings with production-scale performance.

  • Attention mechanisms fuse visual and textual features by learning contextual relationships across multiple representations.

  • Multimodal systems balance accuracy, speed, and memory through careful index choice and parameter tuning.

Compétences que vous acquerrez

Catégorie : Embeddings
Catégorie : Scalability
Catégorie : Vector Databases
Catégorie : Applied Machine Learning
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Image Analysis
Analyze and Optimize Fusion Algorithms

Analyze and Optimize Fusion Algorithms

COURS 9, 2 heures

Ce que vous apprendrez

  • Systematic complexity analysis with Big O notation for time and space is fundamental to predicting performance in scalable AI system design.

  • Trade-off evaluation between speed and memory usage requires formal assessment methodologies rather than intuitive guessing.

  • Resource optimization decisions must be grounded in empirical profiling data combined with theoretical complexity analysis.

  • Algorithm selection for deployment environments requires matching complexity profiles to specific hardware constraints and performance requirements.

Compétences que vous acquerrez

Catégorie : Algorithms
Catégorie : Memory Management
Catégorie : Resource Utilization
Catégorie : Performance Testing
Catégorie : Scalability
Catégorie : Model Optimization
Evaluate and Apply Ethical AI Models

Evaluate and Apply Ethical AI Models

COURS 10, 2 heures

Ce que vous apprendrez

  • Cross-modal evaluation requires specialized metrics that assess semantic alignment and joint reasoning capabilities across different data modalities.

  • Ethical AI assessment is a systematic process involving quantitative bias measurement and interpretability analysis using standardized frameworks.

  • Enterprise AI deployment success depends on balancing performance optimization with ethical governance and continuous monitoring.

  • Model interpretability through LIME and SHAP analysis provides transparency essential for responsible AI system deployment.

Compétences que vous acquerrez

Catégorie : Large Language Modeling
Architect Multimodal AI Solutions End-to-End

Architect Multimodal AI Solutions End-to-End

COURS 11, 1 heure

Ce que vous apprendrez

  • Successful multimodal AI systems require thoughtful integration of diverse data streams with appropriate preprocessing and fusion strategies.

  • Production-ready AI architectures must account for scalability, latency requirements, and infrastructure constraints from the design phase.

  • Component interaction design determines system reliability and maintainability in complex AI pipelines.

  • Technical documentation and system diagrams are critical communication tools for translating AI concepts into implementable solutions.

Compétences que vous acquerrez

Catégorie : Technical Documentation
Catégorie : Solution Architecture
Catégorie : Systems Architecture
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Software Design Documents
Catégorie : Functional Specification
Catégorie : Systems Design
Catégorie : AI Workflows
Catégorie : Systems Development Life Cycle
Catégorie : Data Architecture
Catégorie : AI Integrations
Catégorie : Model Deployment
Catégorie : Cloud Computing Architecture
Catégorie : Software Documentation
Catégorie : Scalability
Catégorie : Data Pipelines
Catégorie : Data Integration
Process Images, Create Captioning AI Models

Process Images, Create Captioning AI Models

COURS 12, 2 heures

Ce que vous apprendrez

  • Image preprocessing using normalization and color-space conversion ensures stable training and consistent model performance.

  • Optical flow and frame differencing complement motion analysis, helping systems capture scene dynamics over time.

  • Preprocessing is essential for vision tasks, directly affecting model convergence, stability, and real-world results

  • Motion feature extraction links static images with dynamic understanding for recognition, tracking, and navigation.

Compétences que vous acquerrez

Catégorie : Computer Vision
Catégorie : Data Preprocessing
Catégorie : Data Transformation
Catégorie : NumPy
Catégorie : Python Programming
Catégorie : Image Analysis

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Hurix Digital
Coursera
444 Cours43 584 apprenants
John Whitworth
Coursera
30 Cours2 654 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions