Packt
Prétraitement de données non structurées pour les LLM et les systèmes RAG

Profitez d'une croissance illimitée avec un an de Coursera Plus pour 199 $ (régulièrement 399 $). Économisez maintenant.

Packt

Prétraitement de données non structurées pour les LLM et les systèmes RAG

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

5 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

5 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Maîtriser les techniques de prétraitement des données non structurées pour les LLM et les systèmes RAG.

  • Extraction et normalisation de données à partir de types de documents complexes tels que les PDF et le HTML.

  • Mise en œuvre de la similarité sémantique et de l'extraction de métadonnées à l'aide de bases de données vectorielles.

  • Construisez un système RAG pour interagir dynamiquement avec vos données prétraitées.

Compétences que vous acquerrez

  • Catégorie : Données en temps réel
  • Catégorie : Transformateur de vision (ViT)
  • Catégorie : Emboîtements
  • Catégorie : LangChain
  • Catégorie : Génération augmentée de récupération
  • Catégorie : Bases de données vectorielles
  • Catégorie : Qualité des données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

8 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 8 modules dans ce cours

Dans ce module, nous vous présenterons le cours, en soulignant ses objectifs, les compétences et les connaissances dont vous aurez besoin pour réussir, et la façon dont le contenu est organisé pour vous guider dans le processus de préparation des données non structurées pour les grands modèles de langage (LLM) et les systèmes de Génération augmentée de récupération (RAG).

Inclus

2 vidéos1 lecture

Dans ce module, nous vous guiderons dans la mise en place de l'environnement de développement nécessaire, y compris la création et la configuration des comptes API, l'intégration du framework Prétraitement de données et l'exécution d'un test pour s'assurer que tout est opérationnel avant de procéder aux tâches de prétraitement des données.

Inclus

4 vidéos1 devoir

Dans ce module, nous explorerons les subtilités du prétraitement des données pour les LLM, en nous penchant sur les défis posés par les données non structurées et les techniques requises pour les surmonter. Vous découvrirez l'ensemble du flux de travail, du nettoyage et de la normalisation des données à leur structuration et à leur regroupement, pour aboutir à une présentation complète du cadre de travail Données non structurées.

Inclus

6 vidéos1 devoir

Dans ce module, nous allons nous plonger dans des exercices pratiques utilisant le framework Unstructured pour prétraiter différents types de documents. Vous explorerez les étapes impliquées dans l'extraction et la normalisation des données à partir des PDF, des fichiers PPTX et HTML, et découvrirez comment ces processus améliorent la qualité des données pour les cas d'utilisation en aval dans les LLM et les systèmes RAG.

Inclus

4 vidéos1 devoir

Dans ce module, nous nous concentrerons sur le découpage et l'extraction de métadonnées, en explorant comment segmenter le contenu d'un document en unités logiques et l'enrichir de métadonnées pour des applications avancées telles que la similarité sémantique et la recherche hybride. Grâce à des activités pratiques, vous apprendrez à optimiser les flux de traitement des documents, à structurer efficacement les éléments des documents et à intégrer les résultats dans une base de données vectorielle.

Inclus

8 vidéos1 devoir

Dans ce module, nous allons relever les défis du prétraitement de documents complexes, y compris les PDF et les images, en tirant parti d'outils avancés tels que le DLD et le ViT. Vous explorerez des méthodes pratiques pour extraire et résumer le contenu des tableaux, vous aurez un aperçu du prétraitement efficace des fichiers HTML et PDF, et vous évaluerez les compromis entre les différentes techniques de prétraitement.

Inclus

7 vidéos1 devoir

Dans ce module, nous synthétiserons les compétences et les techniques apprises tout au long du cours pour construire un système RAG complet. Du prétraitement et de la structuration de documents complexes à la création d'une base de données consultable et à l'activation d'interactions conversationnelles avec vos documents, vous acquerrez une expérience pratique dans le déploiement d'une solution de bout en bout adaptée à des applications du monde réel.

Inclus

6 vidéos1 devoir

Dans ce module, nous conclurons le cours en revisitant les principales étapes et les compétences acquises. Vous recevrez des conseils sur l'application de vos connaissances à des scénarios du monde réel et découvrirez des ressources pour poursuivre votre voyage dans le domaine du prétraitement avancé des données et du développement de systèmes RAG.

Inclus

1 vidéo2 devoirs

Instructeur

Packt - Course Instructors
Packt
1 280 Cours312 158 apprenants

Offert par

Packt

En savoir plus sur Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions