Développez les compétences prêtes à l'emploi dont vous avez besoin pour créer des applications d'IA générative multimodale en seulement 3 semaines
Comprendre les concepts fondamentaux et les défis de l'IA multimodale, y compris l'intégration du texte, de la reconnaissance vocale, des images et de la vidéo
Construire des applications d'IA multimodales en utilisant des modèles et des frameworks de pointe tels que Granite d'IBM, Llama de Meta, Whisper d'OpenAI, DALL-E et Sora
Développer des solutions d'IA multimodales, notamment des chatbots et des modèles génératifs d'images/vidéos, en utilisant IBM watsonx.ai, Hugging Face, Flask et Gradio
Compétences que vous acquerrez
Catégorie : Candidature au LLM
Candidature au LLM
Catégorie : Une créativité alimentée par l'IA
Une créativité alimentée par l'IA
Catégorie : Intelligence décisionnelle
Intelligence décisionnelle
Catégorie : Intégrations AI
Intégrations AI
Catégorie : Modélisation des grandes langues
Modélisation des grandes langues
Catégorie : Développement Web
Développement Web
Catégorie : Emboîtements
Emboîtements
Catégorie : Développement de logiciels
Développement de logiciels
Catégorie : Déploiement des applications
Déploiement des applications
Catégorie : Génération assistée par récupération
Génération assistée par récupération
Catégorie : Invitations multimodales
Invitations multimodales
Outils que vous découvrirez
Catégorie : Flask (Framework Web)
Flask (Framework Web)
Catégorie : API OpenAI
API OpenAI
Catégorie : Ingénierie rapide
Ingénierie rapide
Détails à connaître
Certificat partageable
Ajouter à votre profil LinkedIn
Évaluations
6 devoirs
Enseigné en Anglais
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.
Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable auprès de IBM
Il y a 3 modules dans ce cours
Prêt à améliorer vos compétences en GenAI ? Entrez dans le monde passionnant de l'IA multimodale, où le langage, les images et la parole s'associent pour créer des applications plus intelligentes et plus interactives. Dans ce cours pratique, vous apprendrez à construire des systèmes qui fonctionnent à travers de multiples modalités, de la création de conteurs et d'assistants de réunion alimentés par l'IA au développement d'outils de sous-titrage d'images et d'applications de génération de vidéos.
Vous acquerrez de l'expérience avec des outils réels tels que Granite d'IBM, Whisper, Sora et DALL-E d'OpenAI, Llama de Meta, Mixtral de Mistral et Gradio. De plus, vous explorerez la recherche multimodale, la réponse aux questions et les systèmes de récupération qui combinent le texte, la reconnaissance vocale et les données visuelles.
À la fin du cours, vous serez en mesure de concevoir et de construire des solutions d'IA multimodales complètes à l'aide de Python et de frameworks tels que Flask et Gradio. Si vous cherchez à acquérir des compétences en demande pour construire la prochaine génération d'applications d'IA, inscrivez-vous dès aujourd'hui et donnez un coup de pouce à votre carrière dans l'IA !
Ce module propose une introduction approfondie à l'IA multimodale, en se concentrant sur la manière dont les systèmes d'IA traitent et intègrent de multiples types de données, y compris le texte, la parole et les images. Vous explorerez les concepts de base et certains des défis auxquels vous serez confrontés dans l'IA multimodale, en acquérant des compétences fondamentales avec des techniques de traitement du texte et de la parole. Grâce à des travaux pratiques, vous appliquerez la narration assistée par l'IA, la transcription de la parole en texte et la synthèse de la parole en texte à des applications réelles, telles que des livres audio générés par l'IA et des assistants de réunion automatisés.
Afficher les informations sur le contenu du module
5 vidéos•Total 34 minutes
Vidéo : Introduction au cours•5 minutes
Vue d'ensemble du certificat professionnel RAG et IA agentique•6 minutes
Introduction à l'IA multimodale•8 minutes
Technologies de synthèse vocale•8 minutes
Technologies de conversion de la parole en texte•7 minutes
2 lectures•Total 5 minutes
Lecture : Aperçu du cours•3 minutes
Lecture : Résumé et points forts•2 minutes
2 devoirs•Total 36 minutes
Quiz pratique : Introduction à l'IA multimodale : traitement du texte et de la parole•15 minutes
Quiz noté : Fondements de l'IA multimodale•21 minutes
2 éléments d'application•Total 75 minutes
Lab : Utilisez Mistral et gTTS pour créer votre conteur personnel•30 minutes
Lab : Construire un assistant de réunion avec Whisper, LangChain et Gradio•45 minutes
6 plugins•Total 32 minutes
Conseils utiles pour l'achèvement des cours•3 minutes
Lecture : Qu'est-ce que l'IA générative multimodale et pourquoi est-elle importante ?•5 minutes
Lecture : Qu'est-ce que la vision par ordinateur ?•7 minutes
Lecture : Traitement du texte, traitement de la parole et synthèse vocale•7 minutes
Lecture : Les défis de l'intégration multimodale de l'IA•5 minutes
Aide-mémoire : Fondements de l'IA multimodale•5 minutes
Intégration des modalités visuelles et vidéo
Module 2•2 heures à terminer
Détails du module
Ce module explore la façon dont les processus IA génèrent des données visuelles en intégrant des images et des vidéos avec du texte. Vous examinerez les modèles texte-image/image-texte et texte-vidéo/vidéo-texte, le sous-titrage des images et les techniques de fusion nécessaires pour des systèmes d'IA multimodaux efficaces. Grâce à des travaux pratiques, vous appliquerez des modèles de pointe tels que DALL-E et Sora pour générer des images et des vidéos à partir d'invites textuelles. En outre, vous mettrez en œuvre un système de sous-titrage d'images en utilisant le Llama 4 de Meta, acquérant ainsi une expérience pratique dans la combinaison de modèles de vision et de langage pour des applications du monde réel.
Afficher les informations sur le contenu du module
2 vidéos•Total 15 minutes
Comprendre le sous-titrage des images avec le lama de Meta•7 minutes
Démonstration : Génération de texte à partir d'une vidéo avec Sora d'OpenAI•8 minutes
1 lecture•Total 3 minutes
Lecture : Résumé et points forts•3 minutes
2 devoirs•Total 31 minutes
Génération d'images et sous-titrage•10 minutes
Quiz noté : Intégrer les modalités visuelles et vidéo•21 minutes
2 éléments d'application•Total 50 minutes
Lab : Guide de génération d'images DALL-E pour les débutants•20 minutes
Lab : Construire un système de sous-titrage d'images avec watsonx et Granite d'IBM•30 minutes
3 plugins•Total 35 minutes
Lecture : Introduction aux technologies de conversion du texte en vidéo et de l'image en vidéo•12 minutes
Lecture : Forces, limites et applications pratiques des modèles de vision multimodale dans des scénarios du monde réel•8 minutes
Aide-mémoire : Intégrer les modalités visuelles et vidéo•15 minutes
Applications multimodales avancées
Module 3•2 heures à terminer
Détails du module
Le dernier module explore les applications IA multimodales avancées, en intégrant des systèmes basés sur l'image, le texte et la récupération pour construire des solutions innovantes. Vous plongerez dans la recherche multimodale, la réponse aux questions multimodale et les chatbots, en apprenant comment les techniques de recherche multimodale améliorent les moteurs de recherche et les systèmes de recommandation. En outre, vous apprendrez comment l'intégration des données visuelles et textuelles améliore les interactions avec les chatbots. Grâce à des laboratoires pratiques, vous construirez des applications web entièrement fonctionnelles avec des capacités multimodales à l'aide de Flask, en appliquant des modèles et des frameworks de pointe
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeurs
Évaluations de l’enseignant
Évaluations de l’enseignant
Nous avons demandé à tous les étudiants de fournir des commentaires sur nos enseignants au sujet de la qualité de leur pédagogie.
Chez IBM, nous savons à quel point la technologie évolue rapidement et nous reconnaissons le besoin crucial pour les entreprises et les professionnels d'acquérir rapidement des compétences pratiques prêtes à l'emploi. En tant qu'innovateur technologique leader sur le marché, nous nous engageons à vous aider à prospérer dans ce paysage dynamique. Grâce à IBM Skills Network, nos programmes de formation conçus par des experts en IA, développement de logiciels, cybersécurité, science des données, gestion d'entreprise, et plus encore, fournissent les compétences essentielles dont vous avez besoin pour décrocher votre premier emploi, faire progresser votre carrière ou favoriser la réussite de votre entreprise. Que vous vous perfectionniez ou que vous perfectionniez votre équipe, nos cours, nos spécialisations et nos certificats professionnels développent l'expertise technique qui vous assure, ainsi qu'à votre organisation, d'exceller dans un monde compétitif.
OK
En savoir plus sur Développement de logiciels
RecommandéCertificats ProfessionnelsSpécialisationsEn rapport
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Avis des étudiants
4.7
58 avis
5 stars
81,03 %
4 stars
10,34 %
3 stars
5,17 %
2 stars
0 %
1 star
3,44 %
Affichage de 3 sur 58
M
MH
5·
Révisé le 26 oct. 2025
Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.
Quels emplois puis-je obtenir avec des compétences en IA générative multimodale ?
Les compétences en IA générative multimodale, où les systèmes intègrent le texte, la parole, les images et la vidéo, sont très demandées pour des rôles tels que développeur IA, ingénieur en apprentissage automatique, chercheur en IA multimodale et développeur full stack spécialisé dans les expériences utilisateur alimentées par l'IA.
Ai-je besoin d'une expérience en apprentissage automatique pour créer des apps d'IA générative multimodale ?
Pas nécessairement. Si vous êtes un développeur Python, vous pouvez commencer à construire avec l'IA générative en utilisant des outils comme IBM watsonx.ai, Flask et Gradio-aucune formation avancée en ML n'est requise.
En quoi le développement d'apps d'IA générative multimodale est-il différent du développement d'apps traditionnelles ?
Les apps d'IA multimodales vont au-delà du développement typique d'appsen incorporant des modèles de langage à grande échelle multimodaux (LLM) et des entrées basées sur les médias comme la parole, les images et la vidéo. Vous utiliserez toujours des outils familiers tels que Python, Flasket Gradio, mais vous apprendrez également à intégrer et à orchestrer des modèles pour des tâches telles que la transcription, la génération d'images et la narration alimentée par l'IA.
Quand aurai-je accès aux cours et aux devoirs ?
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Qu'est-ce que je recevrai si je m'abonne à ce certificat ?
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.