13/12/2021 4 Minutes read Data / IA 

Clustering de données : comment faire naître l’ordre dans votre chaos ?

La donnée dispose d’un fort potentiel inexploité. Cependant, un jeu de données encore non structuré n’a aucun sens pour l’utilisateur. Le plus important pour donner du sens aux données est d'organiser l'information de manière à ce que l'utilisateur puisse y accéder et la comprendre facilement. Nous allons donc nous pencher sur la valeur qu’apporte le clustering de données et sur la façon dont il peut faire émerger des tendances constituant des solutions prometteuses à nos problèmes les plus complexes, de la détection prédictive de zones sismiques à la détection de fraudes.

Clustering de données

Retrouvez la version originale de l’article de Think Design en anglais : Clustering Datasets: How to discover your order in the chaos?

A quoi sert le clustering de données ?

“Aidez-nous à mieux comprendre nos clients afin de mieux leur promouvoir nos produits !”

Que feriez-vous si votre direction marketing vous chargeait de cette mission en vous fournissant la donnée client nécessaire ?

Dans le cas de problèmes spécifiques, il est nécessaire de prédire un résultat pour divers ensembles de conditions. Cela diffère du calcul de métriques spécifiques pré-définies, comme la Customer Lifetime Value (CLV) ou vos performances en matière de cross-sell – des KPI pour lesquels les données à analyser spécifiquement sont connues en amont. 

Dans notre cas, la question posée est vague par nature. Elle requiert d’identifier des tendances grâce à la donnée, et ces tendances ne sont liées à aucune métrique spécifique pré-définie.

Le clustering de données, ou partitionnement de données, est une approche visant à isoler des groupes disposant de caractéristiques similaires et de les assigner à un cluster afin d’ouvrir la voie à la découverte. Plutôt que d’analyser la donnée afin de confirmer un point, la regrouper peut mener à la découverte d’informations précieuses.

L’histoire de la décimation de l’Armée de Napoléon

En 1825, un ingénieur en civil français du nom de Charles Joseph Minard (1781-1870) a créé une représentation graphique statistique illustrant l’avancée (1812) et la retraite (1813) de la Grande Armée de Napoléon en Russie.

En tant qu’outil statistique, le génie de cette carte repose dans le fait qu’elle classifie et regroupe six différents groupes de données :

  1. Géographie : les cours d’eau, les villes, ainsi que les batailles sont nommées et positionnées de manière fidèle sur une carte classique ;
  2. La direction de l’armée : indiquée par le couleur du chemin – le marron indiquant l’avancée et le noir la retraite ;
  3. La trajectoire de l’armée : représentée par le chemin en tant que tel ;
  4. Le nombre de soldats restants : représenté par la largeur du chemin, qui s’affine progressivement et qui illustre très clairement le coût humain de cette campagne, avec chaque millimètre représentant 10 000 hommes ;
  5. La température : le froid mordant de l’hiver Russe est indiqué en abscisses à l’Echelle de Réaumur ;
  6. Les conditions météorologiques : en lien avec la température, de droite à gauche.

En clusterisant et en corrélant la donnée, la représentation visuelle nous livre une information qui a changé le cours de l’histoire.

Alors que Napoléon est entré en Russie avec 442,000 hommes, il a pris Moscou avec seulement 100 hommes restants, a erré dans ses ruines abandonnées pendant un certain temps et s’est échappé des griffes hivernales de l’Est avec à peine 100,000 soldats frissonnants. Napoléon ne se remettra jamais de ce coup dur et sera battu de façon décisive à Waterloo moins de deux ans plus tard.

Variété des données et clusters : quelles sont les alternatives ?

“L’information a beau être infinie, l’organisation de l’information, elle, est finie. Elle ne peut être organisée que selon LATCH : Localisation, Alphabet, Temps, Catégorie, ou Hiérarchie”

Richard Saul Wurman, 1996

La recherche en design propose des méthodes telles que le tri par cartes (card sorting) qui requièrent que les utilisateurs classifient l’information en clusters comme ils l’entendent. Cette approche du tri est utile lorsqu’il s’agit d’améliorer l’utilisabilité d’un produit en améliorant notre compréhension des modes de pensée de l’utilisateur.

Le diagramme d’affinité est une méthode capitalisant sur le concept de saturation de l’espace et le processus de regroupement de données afin de les répertorier au sein de groupes ou de thèmes.

Dans le cadre de l’Intelligence Artificielle, le clustering de données se modélise via l’apprentissage non supervisé, qui est souvent utilisé pour répondre aux problématiques de détection de tendances. Aucune étiquette n’est donnée à l’algorithme d’apprentissage afin que ce dernier identifie une potentielle structure par lui-même. L’apprentissage non supervisé peut être un but en lui-même (découvrir des tendances dans la donnée) ou un moyen (apprentissage par renforcement par exemple).

Une des caractéristiques communes aux différentes façons de clusteriser la donnée est l’identification de mesures de proximité : ce qui rend des points de données similaires et ce qui les sépare.

Il suffit de se poser la question.

  • Quelles sont les propriétés de mon jeu de données ? Par exemple : la localisation, la mesure du temps, la température, etc.
  • Quelles sont les différentes catégories (une combinaison unique de certaines propriétés) au sein desquelles ma donnée peut être classifiée ? Par exemple : la trajectoire de l’armée est représentée par les différentes localisations parcourues par l’armée)

Si une propriété peut couvrir différentes catégories, avec laquelle existe-t-il le plus de similarités, ou de différences ?

La donnée peut elle être comparée via une propriété de mesure commune et ordonnée ? Par exemple : l’âge de l’armée, avec des groupes du type < 20 ans, 20-40 ans, 40+ ans.

  • Comment la donnée peut-elle être catégorisée en corrélant deux propriétés, ou une propriété avec de multiples propriétés ? Par exemple : une catégorie dédiée au nombre de soldats en comparaison avec le temps, ou encore les températures en fonction du temps et de différentes localisations).

Découvrir les vérités cachées derrière la donnée en la traitant différemment.

Lorsque nous pensons au clustering de données, ou partitionnement de données, nous adoptons généralement une approche linéaire ou un mode de pensée qui limite les possibilités. Élargir notre champ de vision afin de faciliter l’adoption d’une approche créative à la résolution de problèmes peut mener à la découverte de précieuses informations, autrefois présentes mais situées dans un angle mort.

Étudier les propriétés d’un jeu de données de manière approfondie, et réduire ainsi le “bruit”, devrait nous permettre de recenser des éléments inconnus. De même, explorer leur étendue à la recherche de corrélations nous aidera à nuancer les informations qui nous sont prédéterminées.

En permettant à l’utilisateur de voir l’information d’une manière pertinente et adaptée à son objectif, vous créerez des produits plus utilisables. Lorsque l’utilisateur ne peut pas identifier de tendances par lui-même, il est nécessaire d’étudier la valeur que peut apporter le clustering de données, afin d’ouvrir un champ des possibilités pouvant mener à l’identification d’informations significatives grâce à la donnée.

Contact

Vous avez des questions sur le clustering de données, des enjeux ou tout simplement envie de discuter ?

Contactez-nous