Le vocabulaire de l’analyse de données : glossaire de A à Z

Écrit par Coursera Staff • Mise à jour à

Le vocabulaire de l’analyse de données à connaître pour se préparer à passer une certification, à un entretien d’embauche et à la rédaction de CV.

[Image en vedette] Deux analystes de données examinent des tableaux et des graphiques projetés sur un tableau blanc.

Read in English (Lire en anglais).

L'analyse de données est le processus qui consiste à travailler avec des données pour en extraire des informations utiles, qui peuvent ensuite être utilisées pour prendre des décisions éclairées. L'analyse de données est généralement un processus en six étapes : poser une question, préparer vos ensembles de données brutes, traiter vos données pour analyse, analyser vos données, partager vos résultats et agir en fonction de vos données.

Les analystes de données ou data analysts sont des professionnels des données qui collectent, nettoient, étudient ou interprètent des données afin de résoudre des problèmes qui se posent aux entreprises. Ils ont tendance à travailler aux côtés d'autres professionnels de l'analyse de données, tels que des data scientists et des data engineers.

Ce vocabulaire de l’analyse de données adapté aux débutants peut être une référence utile si vous débutez une nouvelle carrière dans les données ou si vous cherchez à améliorer vos compétences en matière de données.

Vocabulaire de l’analyse de données

Vous trouverez les termes courants du vocabulaire de l’analyse de données dans le glossaire suivant. 

Attribut

Lorsque vous travaillez dans une feuille de calcul ou une base de données, un attribut est un descripteur courant utilisé pour étiqueter une colonne. L'étiquetage clair et précis des colonnes peut vous permettre de conserver vos données organisées et prêtes à être analysées.

Journal des modifications

Un journal des modifications est une liste documentant toutes les étapes que vous avez suivies lors de l'utilisation de vos données. Cela peut être utile si vous devez revenir à vos données d'origine ou vous rappeler comment vous avez préparé vos données pour l'analyse.

Données propres

Les données propres sont des données exactes, complètes et prêtes à être analysées. Le nettoyage des données, une étape importante du processus d'analyse des données, consiste à vérifier que vos données ne comportent pas d'inexactitudes, d'incohérences, d'irrégularités ni de biais. 

Fichier CSV

Un fichier CSV (comma separated values) est un fichier texte qui sépare les éléments de données par des virgules. Il s'agit d'un type de fichier courant lors du téléchargement de fichiers de données à des fins d'analyse, car il a tendance à être compatible avec les logiciels de tableur et de base de données courants.

Tableau de bord

Un tableau de bord est un outil utilisé pour surveiller et afficher des données en direct. Les tableaux de bord sont généralement connectés à des bases de données et proposent des visualisations qui se mettent automatiquement à jour pour refléter les données les plus récentes de la base de données.

Analyse de données

L'analyse de données consiste à collecter, transformer et organiser des données afin de tirer des conclusions, de faire des prédictions et de favoriser une prise de décision éclairée.  L’analyse de données est l’une des composantes de la science des données.    

Il existe quatre principaux types d’analyse de données :

  • Les analyses descriptives nous disent ce qui s'est passé

  • L'analyse diagnostique nous indique pourquoi quelque chose s'est produit

  • L'analyse prédictive nous indique ce qui se passera probablement dans le futur

  • L'analyse prescriptive nous indique comment agir

Architecture de données

L'architecture de données ou data architecture est le plan du système de gestion des données d'une organisation. Cela peut inclure tous les éléments du cycle de vie des données, y compris la manière dont les données sont collectées, organisées, utilisées et supprimées. Les architectes de données ou data architects conçoivent les plans directeurs que les organisations utilisent pour leurs systèmes de gestion des données.

Nettoyage de données

Le nettoyage de données est le processus de préparation des données brutes pour l'analyse. Lorsque vous nettoyez vos données, vous vérifiez qu'elles sont exactes, complètes, cohérentes et non biaisées. Il est important de vous assurer que vous disposez de données propres avant l'analyse, car des données sales peuvent conduire à des conclusions inexactes et à des décisions erronées dans l’entreprise.

Ingénierie des données

L'ingénierie des données est le processus qui consiste à rendre les données accessibles à des fins d'analyse. Les ingénieurs de données ou data engineers créent des systèmes qui collectent, gèrent et convertissent les données brutes en informations exploitables. Certaines tâches courantes incluent le développement d'algorithmes pour transformer les données en une forme plus utile, la création d'architectures de pipeline de données et la création de nouveaux outils d'analyse de données. 

Enrichissement de données

L'enrichissement de données consiste à ajouter des données à votre ensemble de données existant. Vous enrichissez généralement vos données pendant le processus de transformation des données, lorsque vous vous préparez à commencer votre analyse, si vous réalisez que vous avez besoin de données supplémentaires pour répondre à la problématique de votre entreprise.

Gouvernance des données

La gouvernance des données est le plan officiel de gestion des données de l'entreprise par une organisation. La gouvernance des données englobe les règles régissant l'accès aux données et leur utilisation, et peut inclure des règles de responsabilité et de conformité.

Intégrité des données

L'intégrité des données  englobe l'exactitude, la fiabilité et la cohérence des données au fil du temps. Elle implique de maintenir la qualité et la fiabilité des données en mettant en œuvre des mesures de protection contre les modifications non autorisées, les erreurs ou la perte de données. 

Exploration de données

L'exploration de données consiste à examiner minutieusement les données pour identifier des tendances et en tirer des enseignements. L'exploration de données est un aspect central de l'analyse de données ; les informations que vous obtenez au cours du processus d'exploration éclaireront les recommandations à faire à votre entreprise.

Science des données

La science des données est l'étude scientifique des données. Les data scientists posent des questions et trouvent des moyens d'y répondre avec des données. Ils peuvent travailler sur la capture de données, la transformation de données brutes en un format utilisable, l'analyse de données et la création de modèles prédictifs.

Source de données

Une  source de données fait référence à l'origine d'un ensemble spécifique d'informations. Les entreprises générant de plus en plus de données d'année en année, les analystes de données s'appuient sur différentes sources de données pour mesurer la réussite de l'entreprise et proposer des recommandations stratégiques.

Visualisation de données

La visualisation de données est la représentation d'informations et de données à l'aide de diagrammes, de graphiques, de cartes et d'autres outils visuels. Grâce à des visualisations efficaces des données, vous pouvez faciliter leur communication, rendre vos données accessibles à un public plus large, identifier des modèles et des relations et explorer vos données plus en profondeur.

Formatage de données

Le formatage de données, également appelé « data wrangling » ou « data munging », est le processus de conversion des données brutes en un format exploitable. Le processus de formatage de données se déroule en quatre étapes : la découverte, la transformation des données, la validation des données et la publication. L'étape de transformation des données peut être décomposée en tâches telles que la structuration des données, la normalisation ou la dénormalisation des données, le nettoyage des données et l'enrichissement des données.

Base de données

Une base de données est un ensemble organisé d'informations pouvant être recherchées, triées et mises à jour. Ces données sont souvent stockées électroniquement dans un système informatique appelé système de gestion de base de données (SGBD). Vous devrez souvent utiliser un langage de programmation, tel que le langage de requête structuré (SQL), pour interagir avec votre base de données.

Métadonnées

Les métadonnées sont des données sur les données. Elles décrivent diverses caractéristiques de vos données, telles que la manière dont elles ont été collectées, leur lieu de stockage, leur type de fichier ou leur date de création. Les métadonnées peuvent être particulièrement utiles à des fins de vérification et de suivi.

Données ouvertes

Les données ouvertes, également appelées données publiques, sont des données accessibles à tous. L'exploration et l'analyse d'ensembles de données ouvertes constituent une façon de mettre en pratique ses compétences en analyse de données.

Données qualitatives

Les données qualitatives sont des données qui décrivent des qualités ou des caractéristiques. Il s'agit généralement de données non numériques et qui peuvent être subjectives, par exemple la couleur des yeux ou les émotions.

Données quantitatives

Les données quantitatives sont des données objectives ayant une valeur numérique spécifique. Il s'agit généralement de quelque chose que l'on peut compter ou mesurer, comme la taille ou la vitesse.

Requête

Une requête est une demande d'informations. Il s'agit essentiellement de la question que vous posez à une base de données afin qu’elle vous renvoie les données que vous souhaitez récupérer. Dans l'analyse de données, vous adresserez vos requêtes à une base de données à l'aide d'un langage de requête, tel que le langage de requête structuré (SQL).

Base de données relationnelle

Une base de données relationnelle est une base de données qui contient plusieurs tables contenant des informations connexes. Même si les données sont stockées dans des tables distinctes, vous pouvez accéder aux données connexes de plusieurs tables à l'aide d'une seule requête. Par exemple, une base de données relationnelle peut avoir une table pour l'inventaire et une autre pour les commandes des clients. Lorsque vous recherchez un produit spécifique dans votre base de données relationnelle, vous pouvez récupérer simultanément les informations sur l'inventaire et les commandes des clients.

Données structurées

Les données structurées sont des données formatées, par exemple des données organisées en lignes et en colonnes. Les données structurées sont plus faciles à analyser que les données non structurées en raison de leur formatage ordonné.

Langage de requête structuré (SQL)

Le langage de requête structuré, ou SQL, est un langage de programmation informatique utilisé pour gérer des bases de données relationnelles. Il fait partie des langages les plus courants pour la gestion de bases de données.

Données non structurées

Les données non structurées sont des données qui se présentent sans aucune organisation apparente. Pour pouvoir analyser des données non structurées, vous devez généralement mettre en œuvre un certain type de structuration.

En savoir plus

Apprenez-en plus sur l'analyse des données auprès des leaders du secteur sur Coursera. Renforcez vos compétences en analyse de données avec le cours Certificat professionnel en analyse de données de Google.

Mise à jour à
Écrit par :

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.

Développez vos compétences. Stimulez votre carrière.

Accédez à 10,000+ cours de classe mondiale, apprenez plus efficacement avec Coursera Coach et obtenez des titres de compétences reconnus, le tout avec un seul abonnement.

Débloquez 10,000+ cours de classe mondiale et le coach Coursera.

Accédez à 10,000+ cours de classe mondiale, apprenez plus efficacement avec Coursera Coach et obtenez des titres de compétences reconnus, le tout avec un seul abonnement.

En savoir plus