Northeastern University

Traitement du langage naturel naturel (NLP) appliqué à l'ingénierie - Partie 2

Obtenez l'une de nos meilleures offres avec Coursera Plus pour 199 $ (habituellement 399 $). Économisez maintenant.

Northeastern University

Traitement du langage naturel naturel (NLP) appliqué à l'ingénierie - Partie 2

Ramin Mohammadi

Instructeur : Ramin Mohammadi

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
3 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : Modèle de Markov
  • Catégorie : Apprentissage par transfert
  • Catégorie : Modèle de formation
  • Catégorie : Réseaux neuronaux récurrents (RNN)
  • Catégorie : Réseaux neuronaux artificiels
  • Catégorie : Architectures de modèles génératifs
  • Catégorie : Optimisation du modèle
  • Catégorie : Traitement du langage naturel
  • Catégorie : Apprentissage profond
  • Catégorie : Méthodes d'apprentissage automatique
  • Catégorie : Modélisation des grandes langues
  • Catégorie : Prétraitement des données

Outils que vous découvrirez

  • Catégorie : Visage étreint
  • Catégorie : PyTorch (Bibliothèque d'apprentissage automatique)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

21 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 7 modules dans ce cours

Ce module aborde en détail l’étape cruciale de prétraitement qu’est la tokenisation en TALN, qui consiste à segmenter un texte en unités plus petites appelées « tokens ». Vous découvrirez diverses techniques de tokenisation, notamment la tokenisation au niveau des caractères, au niveau des mots, par encodage par paires d’octets (BPE), WordPiece et Unigram. Vous examinerez ensuite l’importance des processus de normalisation et de pré-tokenisation pour garantir l’uniformité du texte et améliorer la précision de la tokenisation. À travers des exemples concrets et des exercices pratiques, les étudiants apprendront à gérer les problèmes liés aux mots hors vocabulaire (OOV), à gérer efficacement les grands vocabulaires et à comprendre les complexités de calcul impliquées. À la fin de ce module, vous disposerez des connaissances nécessaires pour mettre en œuvre et optimiser des méthodes de tokenisation destinées à diverses applications de traitement du langage naturel (NLP).

Inclus

1 vidéo13 lectures2 devoirs1 élément d'application

Dans ce module, nous aborderons les modèles fondamentaux du traitement du langage naturel (TLN), en mettant l'accent sur les modèles linguistiques, les réseaux neuronaux à propagation directe (FFNN) et les modèles de Markov cachés (HMM). Les modèles linguistiques jouent un rôle crucial dans la prédiction et la génération de séquences de texte en attribuant des probabilités aux mots ou aux expressions d'une phrase, ce qui permet des applications telles que la saisie semi-automatique et la génération de texte. Les FFNN, bien que limités à des contextes de taille fixe, constituent des architectures neuronales fondamentales utilisées dans la modélisation du langage, permettant d’apprendre des relations complexes entre les mots grâce à des transformations non linéaires. À l’inverse, les HMM modélisent des séquences en se basant sur des états cachés, qui influencent les résultats observables. Ils sont particulièrement utiles dans des tâches telles que le marquage des catégories grammaticales et la reconnaissance vocale. Au fil de ce module, nous examinerons également les avancées récentes, telles que l’analyse syntaxique basée sur les transitions neuronales, ainsi que l’évolution des modèles linguistiques vers des architectures sophistiquées comme les « transformers » et les modèles pré-entraînés à grande échelle tels que BERT et GPT. Ce module offre une vue d’ensemble complète de l’évolution de la modélisation du langage, depuis les méthodes statistiques jusqu’aux architectures neuronales de pointe.

Inclus

2 vidéos19 lectures4 devoirs

Dans ce module, nous allons explorer les réseaux neuronaux récurrents (RNN), une architecture fondamentale de l'apprentissage profond conçue pour les données séquentielles. Les RNN sont particulièrement adaptés aux tâches où l'ordre des entrées a son importance, telles que la prédiction de séries chronologiques, la modélisation linguistique et la reconnaissance vocale. Contrairement aux réseaux neuronaux traditionnels, les RNN disposent de connexions qui leur permettent de « se souvenir » des informations issues des étapes précédentes en partageant des paramètres d’un pas de temps à l’autre. Cette capacité leur permet de saisir les dépendances temporelles dans les données, ce qui en fait des outils puissants pour les tâches basées sur des séquences. Cependant, les RNN posent des défis tels que la disparition et l’explosion des gradients, qui affectent leur capacité à apprendre des dépendances à long terme. Tout au long de ce module, vous explorerez différentes variantes de RNN, telles que les réseaux à mémoire à court et long terme (LSTM) et les unités récurrentes à porte (GRU), qui permettent de surmonter ces défis. Vous vous plongerez également dans les techniques d’entraînement avancées et les applications des RNN à des problèmes concrets de traitement du langage naturel (NLP) et de séries chronologiques.

Inclus

2 vidéos22 lectures2 devoirs1 élément d'application

Ce module initie les étudiants aux techniques avancées de traitement du langage naturel (NLP), en mettant l'accent sur des tâches fondamentales telles que le marquage des catégories grammaticales (PoS), l'analyse des sentiments et la modélisation de séquences à l'aide de réseaux neuronaux récurrents (RNN). Les étudiants examineront comment le marquage des parties du discours aide à comprendre les structures grammaticales, permettant ainsi des applications telles que la traduction automatique et la reconnaissance d'entités nommées (NER). Le module explore en détail l’analyse des sentiments, en mettant en avant diverses approches allant des modèles traditionnels d’apprentissage automatique (par exemple, Naive Bayes) aux techniques avancées d’apprentissage profond (par exemple, les RNN bidirectionnels et les transformateurs). Les étudiants apprendront à mettre en œuvre une compréhension contextuelle à la fois ascendante et descendante à l’aide de RNN bidirectionnels, ce qui améliore la précision dans les tâches où l’ordre des séquences a une incidence sur le sens. À la fin du cours, les étudiants auront acquis une expérience pratique de la construction de modèles de TALN destinés à des applications concrètes, ce qui leur permettra de traiter des données séquentielles et de saisir les dépendances complexes dans l’analyse de textes.

Inclus

1 vidéo15 lectures4 devoirs

Ce module vous présente les tâches CORE et les techniques avancées du traitement du langage naturel (NLP), en mettant l'accent sur la prédiction structurée, la traduction automatique et l'étiquetage de séquences. Vous explorerez des thèmes fondamentaux tels que la reconnaissance d’entités nommées (NER), le marquage des catégories grammaticales (PoS) et l’analyse des sentiments, et vous utiliserez des architectures de réseaux neuronaux telles que les réseaux neuronaux récurrents (RNN), les réseaux à mémoire à court et long terme (LSTM) et les champs aléatoires conditionnels (CRF). Ce module abordera les concepts clés de la modélisation de séquences, tels que les RNN bidirectionnels et multicouches, qui prennent en compte à la fois le contexte passé et futur afin d’améliorer la précision de tâches telles que la reconnaissance d’entités nommées (NER) et l’étiquetage des parties du discours (PoS). De plus, vous vous plongerez dans la traduction automatique neuronale (NMT), en étudiant les modèles encodeur-décodeur dotés de mécanismes d’attention pour relever les défis liés à la traduction de longues séquences. Les mises en œuvre pratiques consisteront à intégrer ces modèles dans des applications concrètes, en mettant l’accent sur la gestion des structures linguistiques complexes, des mots rares et des dépendances séquentielles. À l’issue de ce module, vous serez capable de construire et d’optimiser des modèles d’apprentissage profond pour diverses tâches de traitement du langage naturel (NLP).

Inclus

3 vidéos18 lectures4 devoirs

Dans ce module, nous nous intéresserons aux mécanismes d’attention et explorerons l’évolution et l’importance de l’attention dans les réseaux neuronaux, en commençant par son introduction dans la traduction automatique neuronale. Nous aborderons les défis posés par les modèles traditionnels de type « séquence à séquence » et la manière dont les mécanismes d’attention, en particulier dans les architectures Transformer, permettent de résoudre des problèmes tels que les dépendances à longue portée et la parallélisation, ce qui améliore la capacité du modèle à se concentrer de manière dynamique sur les parties pertinentes de la séquence d’entrée. Nous nous intéresserons ensuite aux Transformers et nous plongerons dans l’architecture révolutionnaire introduite par Vaswani et al. en 2017, qui a considérablement fait progresser le traitement du langage naturel. Nous aborderons les composants CORE des Transformers, notamment l’auto-attention, l’attention multi-têtes et l’encodage positionnel, afin d’expliquer comment ces innovations surmontent les limites des modèles séquence-séquence traditionnels et permettent un traitement parallèle efficace ainsi que la gestion des dépendances à longue portée dans le texte.

Inclus

2 vidéos25 lectures3 devoirs2 éléments d'application

Dans ce module, nous nous intéresserons de près au pré-entraînement et explorerons son rôle fondamental dans les modèles modernes de traitement du langage naturel (NLP), en soulignant comment ces modèles sont initialement entraînés sur de vastes ensembles de données généraux afin d’apprendre les structures linguistiques et la sémantique. Cette phase de pré-entraînement, qui implique souvent des tâches telles que la modélisation linguistique masquée, dote les modèles de connaissances linguistiques étendues, qui peuvent ensuite être affinées pour des tâches spécifiques, ce qui améliore les performances et réduit le besoin de disposer de données spécifiques à ces tâches en grande quantité.

Inclus

1 vidéo19 lectures2 devoirs

Instructeur

Ramin Mohammadi
Northeastern University
6 Cours962 apprenants

Offert par

En savoir plus sur Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions