IA générative pour l'audio et les images : Modèles et applications

IA générative pour l'audio et les images : Modèles et applications

Ce cours fait partie de Spécialisation "Principes fondamentaux de l'IA générative"

Instructeur : Anahita Doosti

Inclus avec En savoir plus

Demander à Coursera

4 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

3 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

4 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

3 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Compétences que vous acquerrez

Catégorie : Traitement des données
Catégorie : Réseaux neuronaux convolutifs
Catégorie : L'IA responsable
Catégorie : Architectures de modèles génératifs
Catégorie : Musique
Catégorie : Modèle de formation
Catégorie : Une créativité alimentée par l'IA
Catégorie : Traitement des signaux numériques
Catégorie : Vision par ordinateur

Outils que vous découvrirez

Catégorie : Réseaux adversoriels génératifs (GAN)
Catégorie : IA générative
Catégorie : Transformateur de vision (ViT)
Catégorie : Autoencodeurs

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

17 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Principes fondamentaux de l'IA générative"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 4 modules dans ce cours

IA générative pour l'audio et les images : Modèles et applications propose une exploration approfondie de la façon dont les modèles génératifs modernes tels que les autoencodeurs variationnels (VAE), les réseaux antagonistes génératifs (GAN), les transformateurs et les modèles de diffusion sont utilisés pour créer, manipuler et améliorer le contenu audio, image et vidéo. Les apprenants examinent les architectures, les processus de formation et les cas d'utilisation de ces modèles à travers différentes modalités, en acquérant à la fois une compréhension conceptuelle et des aperçus pratiques grâce à des activités pratiques. Le cours met également l'accent sur les implications éthiques et sociétales de l'IA générative, y compris la partialité, la transparence, la propriété intellectuelle et les défis des technologies deepfake. En couvrant la théorie fondamentale ainsi que les approches et les applications de pointe, ce cours prépare les apprenants à appliquer et à développer l'IA générative de manière créative et responsable pour les modalités de l'audio et de l'image.

À l'issue de ce cours, les apprenants seront en mesure : d'exposer les concepts fondamentaux, les défis et l'histoire de l'audio généré par l'IA d'analyser les modèles de génération audio fondamentaux importants, tels que les autoencodeurs variationnels et vectoriels quantifiés (VAE et VQ-VAE) d'examiner comment ces modèles s'intègrent aux dernières technologies GenAI pour former des systèmes de génération audio hybrides, à la pointe de la technologie, basés sur le transformateur et la diffusion d'étudier l'architecture et la fonctionnalité des réseaux antagonistes génératifs (GAN), et leurs variations. Mettre en œuvre et former des modèles GAN pour créer et améliorer le contenu visuel, Explorer les techniques de pointe telles que les modèles de diffusion et les transformateurs pour la création d'images et de vidéos, Discuter des considérations éthiques concernant l'IA générative pour l'audio et les images.

Ce module présente les fondements et les concepts de base de l'audio généré par l'IA. Les apprenants explorent les raisons pour lesquelles la génération audio est un défi unique, tels que les défis de représentation et d'évaluation. Ils apprennent comment l'audio est représenté et traité, comparent les formats de forme d'onde et les formats symboliques, ainsi que les formats de données audio communs et les bibliothèques Python pour travailler avec l'audio. Le module examine également les méthodes d'évaluation de l'audio généré et fournit un cadre pour catégoriser les approches de génération audio en fonction de leur fonctionnalité et du niveau de collaboration entre l'homme et l'IA. Il se termine par un aperçu historique de l'audio généré par l'IA, retraçant son évolution depuis les premières méthodes basées sur des règles jusqu'aux modèles génératifs profonds modernes.

Inclus

21 vidéos3 lectures4 devoirs2 sujets de discussion

21 vidéosTotal 135 minutes

Introduction au cours6 minutes
Rencontrez votre instructeur : Anahita Doosti1 minute
Rencontrez votre instructeur : Nasimeh Asgarian1 minute
Vue d'ensemble de l'IA pour la génération d'audio et de musique7 minutes
Pourquoi la génération d'audio est-elle difficile ?9 minutes
Représentation des données : Forme d'onde ou symbolique8 minutes
Formats de données7 minutes
Évaluation (partie 1)5 minutes
Évaluation (partie 2)10 minutes
Catégorisation des approches de génération audio6 minutes
Les nombreuses formes de génération audio6 minutes
Fonctionnalité audio9 minutes
Collaboration entre l'homme et l'IA7 minutes
Mise en pratique3 minutes
Un aperçu des progrès réalisés au fil des ans7 minutes
Approches pré-ML : Algorithmique, basée sur des règles10 minutes
Premières approches de ML : HMMs, Réseaux de neurones FF7 minutes
Approches modernes 1 : RNN et CNN10 minutes
Approches modernes 2 : Autoencodeurs/VAEs et Réseau antagoniste génératif (GAN)6 minutes
Approches modernes 3 : Transformateurs et diffusion9 minutes
Récapitulation du module 12 minutes

3 lecturesTotal 140 minutes

Terminologie10 minutes
Bibliothèques Python pour les données audio10 minutes
Mise en œuvre du réseau WaveNet (laboratoire pratique)120 minutes

4 devoirsTotal 145 minutes

Quiz du module 180 minutes
Quiz pratique 130 minutes
Quiz pratique 220 minutes
Quiz pratique 315 minutes

2 sujets de discussionTotal 20 minutes

Objectif d'apprentissage10 minutes
L'IA est-elle même capable d'atteindre une véritable créativité ?10 minutes

S'appuyant sur les principes fondamentaux, ce module se penche sur les modèles génératifs avancés pour la génération audio. Les apprenants étudient les autoencodeurs variationnels (VAE) et leurs variantes, et comment ils s'appliquent à la génération de mélodies et à la synthèse vocale. Le module explore également les modèles transformateurs, tels que Music Transformer, AudioLM et FastSpeech, ainsi que les modèles basés sur la diffusion, tels que DiffWave et Stable Audio. Grâce à ces leçons, les apprenants acquièrent une compréhension complète de la manière dont les architectures génératives modernes produisent des sons et de la musique réalistes et de haute qualité.

Inclus

31 vidéos2 lectures4 devoirs

31 vidéosTotal 202 minutes

Introduction aux autoencodeurs variationnels4 minutes
Autoencodeurs5 minutes
Espace latent8 minutes
A l'intérieur des blocs codeur-décodeur8 minutes
Formation des VAE (1ère partie)5 minutes
Formation des VAE (Partie 2)7 minutes
Autoencodeurs variationnels quantifiés par vecteur (Partie 1)6 minutes
Autoencodeurs variationnels quantifiés par vecteur (partie 2)6 minutes
Utilisation de la VAE pour générer des mélodies7 minutes
Comment conditionner les VAE avec des informations musicales supplémentaires telles que l'accord, la gamme ?7 minutes
Exemple : MusicVAE8 minutes
Arithmétique des vecteurs d'attributs pour les mélodies8 minutes
Exemple : Jukebox6 minutes
Exemple : Synthèse vocale8 minutes
Points forts et limites des approches fondées sur la VAE5 minutes
Initiation aux transformateurs6 minutes
Transformateurs pour la génération audio6 minutes
Exemple : Transformateur de musique13 minutes
Revisiter JukeBox : Comment les transformateurs peuvent générer des formes d'ondes audio ! (Partie 1)9 minutes
Revisiter JukeBox : Comment les transformateurs peuvent générer des formes d'ondes audio ! (Partie 2)4 minutes
Un nouveau paradigme : Codec audio + Modèle de langage (Partie 1)6 minutes
Un nouveau paradigme : Codec audio + Modèle de langage (Partie 2)8 minutes
Exemple : FastSpeech8 minutes
Points forts et limites des approches basées sur les transformateurs5 minutes
Que sont les modèles génératifs de diffusion et comment peuvent-ils générer de l'audio ?5 minutes
Exemple : Audio stable6 minutes
Exemple : DiffWave5 minutes
Points forts et limites des approches fondées sur la diffusion5 minutes
Comment les modèles récents se comparent-ils les uns aux autres ?9 minutes
Qu'est-ce qui se profile à l'horizon ? Où allons-nous ?7 minutes
Récapitulation du module 23 minutes

2 lecturesTotal 130 minutes

Guide de ressources10 minutes
Modèles de génération audio, inférence et comparaison (laboratoire pratique)120 minutes

4 devoirsTotal 125 minutes

Quiz du module 280 minutes
Quiz pratique15 minutes
Quiz pratique15 minutes
Quiz pratique15 minutes

Ce module passe de l'audio à la génération d'images, en introduisant les principes et l'évolution de la synthèse d'images et de vidéos. Les apprenants examinent les architectures clés telles que les GAN et les VAE, explorent le fonctionnement de l'apprentissage contradictoire et étudient des variantes telles que les GAN conditionnels et progressifs, Pix2Pix et CycleGAN. Le module relie également la théorie à la pratique en présentant des applications créatives et commerciales - de l'art et du design à l'augmentation des données - démontrant comment les modèles génératifs améliorent le réalisme et la variété des sorties visuelles.

Inclus

22 vidéos3 lectures5 devoirs

22 vidéosTotal 156 minutes

Aperçu de l'IA pour la génération d'images et de vidéos8 minutes
Applications de la génération d'images et de vidéos8 minutes
Exemples de DALL-E et de MidJourney8 minutes
Exemples de Sora5 minutes
Une brève histoire de la génération d'images8 minutes
Revisiter la VAE6 minutes
Réseau antagoniste génératif (GAN)8 minutes
Discriminateur7 minutes
Générateur9 minutes
Réseau antagoniste génératif (GAN)6 minutes
Défis et bonnes pratiques pour la formation au Réseau antagoniste génératif (GAN)6 minutes
Réseau antagoniste génératif (GAN)8 minutes
Réseau antagoniste génératif (GAN)8 minutes
Applications, avantages et limites des cGANs7 minutes
Traduction d'image à image7 minutes
Défis et applications de la traduction d'image à image5 minutes
Réseau antagoniste génératif (GAN)9 minutes
Autres variantes du Réseau antagoniste génératif (GAN) : Réseau antagoniste génératif (GAN), DCGAN, StyleGAN10 minutes
Conception créative9 minutes
Cas d'utilisation commerciale7 minutes
Augmentation des données7 minutes
Récapitulation du module 32 minutes

3 lecturesTotal 140 minutes

Réseau antagoniste génératif (GAN)10 minutes
Synthèse des données10 minutes
DCGAN à partir de zéro (laboratoire pratique)120 minutes

5 devoirsTotal 140 minutes

Quiz du module 380 minutes
Quiz pratique 115 minutes
Quiz pratique 215 minutes
Quiz pratique 315 minutes
Quiz pratique 415 minutes

Dans ce module, nous explorons les étapes finales de ce que les grands modèles de langage (LLM) peuvent offrir. Vous apprendrez comment et quand utiliser le réglage fin, ainsi que les avantages et les inconvénients des différentes approches. Tout au long du cours, vous recevrez des devoirs pertinents qui vous prépareront au projet principal : la construction d'un chatbot entièrement fonctionnel

Inclus

21 vidéos1 lecture4 devoirs

21 vidéosTotal 146 minutes

Aperçu des principaux modèles et architectures8 minutes
Vue d'ensemble du transformateur de vision8 minutes
Patron de conception d'un codeur-décodeur9 minutes
Encodeurs convolutifs10 minutes
Attention à soi9 minutes
Attention spatiale, canal, temporelle8 minutes
Architecture du modèle de diffusion Vue d'ensemble7 minutes
Processus d'avancement / de diffusion7 minutes
Processus inverse7 minutes
Formation au modèle de diffusion5 minutes
Exemples de modèles de diffusion6 minutes
Biais des données d'entraînement8 minutes
Transparence9 minutes
Propriété intellectuelle8 minutes
Protection des données7 minutes
Intro Deepfake9 minutes
Deep Fake - Échange de visages5 minutes
Clonage vocal4 minutes
Vidéo Deep Fake6 minutes
Récapitulation du module 42 minutes
Synthèse du cours3 minutes

1 lectureTotal 120 minutes

ViT et diffusion (laboratoire pratique)120 minutes

4 devoirsTotal 158 minutes

Quiz du module 480 minutes
Quiz pratique 130 minutes
Quiz pratique 230 minutes
Quiz pratique 318 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Anahita Doosti

Alberta Machine Intelligence Institute

2 Cours683 apprenants

Offert par

Alberta Machine Intelligence Institute

En savoir plus sur Algorithmes

Statut : Essai gratuit
Coursera
Interactive and Immersive Experiences with Generative AI
Cours
Statut : Essai gratuit
Edureka
Generative AI Models and GPU Systems
Cours
Statut : Essai gratuit
Microsoft
Core generative models and techniques
Cours
University of Colorado Boulder
Introduction to Generative AI
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

Pour accéder aux supports de cours et aux devoirs, et obtenir un certificat, vous devrez acheter l'option « Certificat » lors de votre inscription à un cours. Les apprenants éligibles peuvent également avoir la possibilité de commencer par un essai gratuit. Certains cours peuvent également proposer une option « Cours complet, sans certificat ». Celle-ci vous permet d’accéder aux supports de cours, de rendre les évaluations requises et d’obtenir une note finale, mais vous ne pourrez ni obtenir ni acheter de certificat.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.