Hugging Face

Introduction to Multimodal AI with Hugging Face

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Hugging Face

Introduction to Multimodal AI with Hugging Face

Hugging Face

Instructeur : Hugging Face

Inclus avec Coursera Plus

Demander à Coursera

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

6 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

6 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Use vision-language models for image understanding and document extraction.

  • Build audio transcription, image generation, and agentic VLM/MCP workflows.

  • Apply multimodal safety filtering for responsible AI deployment.

Compétences que vous acquerrez

  • Catégorie : Image Analysis
  • Catégorie : AI Security
  • Catégorie : Agentic systems
  • Catégorie : Generative AI Agents
  • Catégorie : Responsible AI
  • Catégorie : Multimodal Prompts
  • Catégorie : LLM Application
  • Catégorie : Computer Vision
  • Catégorie : Retrieval-Augmented Generation
  • Catégorie : Fine-tuning
  • Catégorie : Large Language Modeling

Outils que vous découvrirez

  • Catégorie : Prompt Engineering
  • Catégorie : Model Deployment
  • Catégorie : AI Workflows
  • Catégorie : Model Context Protocol
  • Catégorie : Vision Transformer (ViT)
  • Catégorie : Agentic Workflows
  • Catégorie : Hugging Face
  • Catégorie : Generative AI

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

juin 2026

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 4 modules dans ce cours

Most AI models see one thing at a time — text or images, never both. Vision-language models change that, and the key insight starts with CLIP: images and text can live in the same embedding space. This module builds your multimodal mental model from CLIP to modern VLMs, then puts them to work on real tasks: visual question answering, image captioning, and document AI.

Inclus

4 vidéos1 lecture1 devoir1 laboratoire non noté

Multimodal AI isn’t limited to vision — audio transcription and image generation are equally practical capabilities that HF makes accessible through Whisper and Diffusers. This module covers both, then introduces the strategic decision every practitioner faces: when to fine-tune a model with LoRA versus when to use retrieval-augmented generation to give the model better context.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

Running a single model is useful. Building a system where a model can see, reason, pick tools, act, and iterate — that’s an agent. This module teaches you to build agentic workflows with HF smolagents, connect agents to external tools via MCP (Model Context Protocol), and give agents vision capabilities so they can reason over screenshots and visual inputs.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

A multimodal system that works in a notebook can still fail catastrophically in production — generating harmful images, misreading sensitive documents, or amplifying biases across modalities. This module teaches you to wrap VLM pipelines with safety filtering, test against adversarial inputs, and document failure modes before anyone else finds them.

Inclus

4 vidéos2 lectures2 devoirs1 laboratoire non noté

Instructeur

Hugging Face
Hugging Face
3 Cours39 apprenants

Offert par

Hugging Face

En savoir plus sur Entrepreneurship

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions