Une traduction d'un article de Clay Shirky (Ontology is Overrated: Categories, Links, and Tags, seul lien de référence)


éditer la page pour corriger et améliorer cette traduction (attention cette page est en html et non en syntaxe wiki !)

L'Ontologie Est Surfaite : Catégories, Tags et Liens

Cet article est basé sur deux discours que j'ai donnés au printemps 2005 -- l'un à la conférence O'Reilly ETech en mars, appelé "Ontology Is Overrated", et l'un à IMCExpo en avril appelé "Folksonomies& Tags: The rise of user-developed classification." La version écrite est une concaténation vraiment modifiée de ces deux présentations.

Aujourd'hui, je veux parler de catégorisation et je veux vous convaincre que beaucoup de ce que nous connaissons à propos des catégorisations est faux. En particulier, je veux vous convaincre que les façons dont nous tentons d'appliquer la catégorisation au monde électronique sont véritablement une mauvaise voie, parce que nous avons adopté de mauvaises habitudes d'esprit restées des stratégies précédentes.

Je veux aussi vous convaincre que ce que nous voyons quand nous observons le Web est une rupture radicale avec les stratégies précédentes de catégorisation, plutôt qu'une extension de celles-ci. La deuxième partie du discours est plus spéculative, parce que c'est souvent le cas où les vieux systèmes se brisent avant que les personnes ne sachent ce qui va prendre leurs places. (Quiconque observe l'industrie du disque peut voir cela à l'oeuvre aujourd'hui). C'est ce qui selon moi se passe avec la catégorisation.

Ce que je pense plutôt est qu'il existe beaucoup plus de moyens organiques d'organiser l'information que nos schémas actuels de catégorisations ne le permettent, et ceci se fonde sur deux unités -- le lien qui peut pointer vers n'importe quoi et le tag qui est un moyen d'attacher des étiquettes aux liens. La stratégie de tag -- libre format d'étiquetage, sans égards pour les contraintes de catégories -- semble être une recette pour le désastre, mais comme le web nous l'a montré, vous pouvez extraire une quantité suprenante de valeur à partir d'ensembles désordonnés d'informations.

1° PARTIE : La Classification et Ses Protestations #

Q : Qu'est-ce que l'Ontologie ? R : Cela dépend du Sens de "Est" ? #

J'ai besoin de fournir quelques définitions rapides en commençant par l'ontologie. Ironie riche que ce mot "ontologie", qui a quelque chose à voir avec la production d'énoncés clairs et explicites dans un domaine particulier, et qui a tant de définitions conflictuelles. J'en offrirai deux.

Le point essentiel de l'ontologie dans le sens philosophique est l'étude des entités et de leurs relations. La question de l'ontologie est : Quels types de choses existent ou peuvent exister dans le monde, et quelles sortes de relations peuvent avoir ces choses les unes avec les autres ? L'ontologie a moins quelque chose à voir avec ce que c'est qu'avec ce qui est possible.

Les communautés de Knowledge Management et d'Intelligence Artificielle ont une définition en rapport -- elles ont pris le mot "ontologie" et l'ont appliquée plus directement à leurs problèmes. Le sens de l'ontologie dans ce cas-là est quelque chose comme une "spécification explicite d'une conceptualisation."

Le point commun entre les deux définitions est par essence, "Is-ness." (NDT non traduit). Dans un domaine particulier, quels sont les types de choses dont nous pouvons dire qu'elles existent dans ce domaine, et comment pouvons-nous dire que ces choses ont un rapport les unes avec les autres ?

Les deux autres termes que j'ai besoin de définir sont la catégorisation et la classification. Celles-ci sont l'acte d'organiser un ensemble d'entités, que ce soit des choses ou des concepts, dans des groupes en rapport. Bien qu'il y ait quelques distinctions champ-par-champ, les termes sont ceux qui sont principalement utilisés et interchangeables.

Et puis, il existe une classification ontologique ou une catégorisation, qui organise un ensemble d'entités à l'intérieur de groupes, fondée sur leurs essences et leurs relations possibles. Un catalogue de bibliothèque, par exemple, supporte que pour n'importe quel nouveau livre, sa place logique existe déjà dans le système, même si le livre a été publié. Cette stratégie de concevoir les catégories pour couvrir les cas possibles à l'avance est ce qui me préoccupe, parce que c'est à la fois largement utilisé et salement surfait en termes de valeur dans le monde digital.

Maintenant, quiconque doit traiter avec la catégorisation pour une vie vous dira qu'il ne peut jamais obtenir un système parfait. Dans les systèmes de classification de travail, le succès n'est pas "Avons-nous obtenu le rangement idéal ?" mais plutôt "A quel niveau de proximité sommes-nous, et sur quelles mesures ?" L'idée d'un schéma parfait est simplement un idéal Platonique. Néanmoins, je veux avancer que même l'idéal ontologique est une erreur. Utiliser même la perfection théorique comme une mesure pratique du succès conduit à une mauvaise application des ressources.

Maintenant, les problèmes de classifications.

Clivage de la Nature aux Joints #
table périodique des éléments
[ La Table Périodique des Eléments ]


La table périodique des éléments est mon vote pour "Best. Classification. Evar." Elle parvient à organiser les éléments par le nombre de protons dans le noyau, vous obtenez toute cette valeur fantastique, tant à la fois descriptive que prédictive. Et parce que ce que vous faites est d'organiser les choses, la table périodique est aussi proche que de faire des assertions à propos de l'essence parce que c'est physiquement possible à obtenir. C'est un schéma vraiment puissant, presque parfait. Presque.

Tout le chemin sur la colonne de droite, la colonne rose, est constitué de gaz nobles. Maintenant le gaz noble est une catégorie curieuse, parce que l'hélium n'est pas plus un gaz que le mercure n'est un liquide. L'hélium n'est fondamentalement pas un gaz, c'est simplement un gaz à la plupart des températures, mais les personnes l'étudiant à cette époque ne savaient pas ça, parce qu'elles ne pouvaient pas produire suffisamment de froid pour voir que l'hélium comme n'importe quoi d'autre, a différents états de matière. En l'absence de bonnes mesures, elles ont supposé que l'état gazeux était un aspect essentiel -- littéralement, une partie de l'essence -- de ces éléments.

Même dans un schéma de catégorisation presque parfait, on trouve ces types d'erreurs de contexte, où les personnes sont en train de placer quelque chose qui est simplement vrai à la température de la pièce, et n'a absolument rien à voir avec l'essence, à droite dans le centre de la catégorisation. Et la catégorie 'Gaz Noble' est restée là du jour où elles l'ont ajoutée, parce que nous avons tout simplement obtenu cette anomalie comme un accident de froid.

S'il est impossible de créer une catégorisation complètement cohérente, même si vous faites quelque chose de physiquement en rapport avec l'essence comme par exemple la chimie, imaginez les problèmes rencontrés par quelqu'un ayant quelque chose à traiter avec un domaine où l'essence est même encore moins évidente.

Ce qui m'amène au sujet des bibliothèques.

Des Cartes et des Catalogues #

La table périodique a mon vote pour le meilleur schéma de catégorisation, mais les bibliothèques ont les schémas les plus connus de catégorisations. L'expérience du catalogue de bibliothèque est probablement ce que les personnes connaissent le mieux comme une vue du monde catégorisée avec le meilleur ordre. Et ces systèmes de catalogue contiennent tous les types d'applications curieuses entre les catégories et le monde qu'elles décrivent.

Voilà le premier système du niveau le plus haut dans le système de la bibliothèque soviétique :

A: Marxism-Leninism
A1: Classic works of Marxism-Leninism
A3: Life and work of C.Marx, F.Engels, V.I.Lenin
A5: Marxism-Leninism Philosophy
A6: Marxist-Leninist Political Economics
A7/8: Scientific Communism

Quelques-unes de ces catégories commencent à être un peu datées.

Ou mon favori -- c'est la catégorisation du Système Décimal de Dewey pour les religions du monde, qui est la catégorie 200.

Dewey, 200: Religion
210 Natural theology
220 Bible
230 Christian theology
240 Christian moral & devotional theology
250 Christian orders & local church
260 Christian social theology
270 Christian church history
280 Christian sects & denominations
290 Other religions

Comment, n'est ce pas la catégorisation que vous voulez au 21ème siècle ?

Ce type de biais est courant dans les systèmes de catégorisation. Voilà la catégorisation de la "Library of Congress" de l'Histoire. Voilà toutes les catégories au niveau le plus haut -- toutes ces choses sont présentées comme étant co-égales.

D: History (general)
DA: Great Britain
DB: Austria
DC: France
DD: Germany
DE: Mediterranean
DF: Greece
DG: Italy
DH: Low Countries
DJ: Netherlands
DK: Former Soviet Union
DL: Scandinavia
DP: Iberian Peninsula
DQ: Switzerland
DR: Balkan Peninsula
DS: Asia
DT: Africa
DU: Oceania
DX: Gypsies
J'aimerais appeler votre attention à celles en gras : The Balkan Peninsula. Asia. Africa.

 

Et simplement, vous le savez, pour réviser la géographie :

Planisphère
[ Faites la différence ]


A cette heure, pour tout le caractère étrange de placer la Péninsule des Balkans et l'Asie au même niveau, ceci est plus difficile de choisir d'en rire que l'exemple de Dewey, parce que c'est si déroutant. La "Library of Congress" -- pas de dégonflés dans le département de réflexion, fondé par Thomas Jefferson -- a un personnel qui ne fait rien mais pense toute la journée à propos de la catégorisation. Aussi, qu'est-ce qu'ici peut être optimisé ? Ce n'est pas la géographie. Ce n'est pas la population. Ce n'est pas le GDP régional.

Ce qui est optimisé est le nombre de livres sur l'étagère. C'est ce que catégorise le schéma de catégorisation. Il est tentant de penser que les schémas de clasissification que les bibliothèques ont optimisés dans le passé peuvent être agrandis d'une manière simplifiée dans le monde digital. Ceci sous-estime, selon moi, le degré selon lequel les bibliothèques ont historiquement géré un problème totalement différent.

La musculature du schéma de catégorisation de la Bibliothèque du Congrès ressemble à priori à des approches conceptuelles. Elle est organisée en catégories qui ne se chevauchent pas et deviennent de plus en plus détaillées aux niveaux de plus en plus bas -- tout concept est supposé se ranger dans une catégorie et dans aucune autre. Mais à nouveau et systématiquement, le squelette cogne, et le squelette -- c.a.d. la structure supportant l'ensemble sur laquelle le système est véritablement construit -- est conçu pour minimiser le temps de recherche sur les étagères.

L'essence d'un livre n'est pas constituée des idées qu'il contient. L'essence d'un livre est "livre". Penser que les catalogues de bibliothèques existent pour organiser les concepts embrouille le conteneur pour la chose contenue.

Le schéma de catégorisation est une réponse aux contraintes physiques sur le stockage, et à l'incapacité des personnes de conserver en mémoire l'emplacement de plus d'une centaine de choses à la fois. Une fois que vous possédez plus d'une centaine de livres, vous devez les organiser de quelque sorte. (Ma mère, qui était bibliothécaire de référence, disait qu'elle voulait remettre en rayon toute la bibliothèque de l'Université par couleur, parce que les étudiants rentreraient et diraient "Je cherche un livre de sociologie. Il est vert...") Mais quelle que soit la façon dont vous le faites, la défaillance de la mémoire humaine et la réalité physique des livres font qu'il est obligatoire de disposer de quelque sorte de schéma organisationnel, et la hiérarchie est un bon moyen de gérer des objets physiques.

Le type de déséquilibre "Balkans/Asie" est simplement un produit dérivé des contraintes physiques. Ce ne sont pas les idées dans un livre qui doivent être dans un lieu -- un livre peut traiter de plusieurs choses à la fois. C'est le livre lui-même, l'objet physique de l'objet lié, qui doit être dans un lieu, et si c'est un lieu, il ne peut pas être aussi dans un autre lieu. Et ceci à son tour signifie qu'un livre doit être déclaré à propos de quelque chose de principal. Un livre qui traite également de deux thèmes brise l'obligation 'd'être à un endroit', ainsi chaque livre a besoin d'être déclaré à propos d'un thème plus que d'un autre, sans égards à ses véritables contenus.

Depuis des dizaines d'années, les gens ont paniqué sur la virtualité des données et vous auriez pensé que nous aurions pu intérioriser la vérité évidente : il n'y a pas d'étagères. Dans le monde digital, il n'existe plus de contraintes physiques qui nous forcent à ce type d'organisation. Nous pouvons faire sans elle, et vous penseriez que nous aurions appris cette leçon désormais.

Et maintenant.

La Parabole de l'Ontologiste, ou, "Il n'y a Pas d'Etagères" #

Il y a un peu plus d'une dizaine d'années, deux types de Stanford ont lancé un service appelé Yahoo qui offrait une liste de choses disponibles sur le Web. C'était la première tentative significative de ramener de l'ordre sur le Web. Au fur et à mesure que le Web grandissait, la liste Yahoo grandissait à l'intérieur d'une hiérarchie avec des catégories. Au fur et à mesure que le Web grandissait de plus en plus, ils ont réalisé que pour maintenir la valeur dans le répertoire, ils allaient devoir systématiser, aussi ils embauchèrent un ontologiste professionnel, et ils développèrent leurs systèmes de catégories de top-niveau se dirigeant vers des sous-catégories, chaque sous-catégorie contenant des liens vers d'autres sous-catégories et ainsi de suite. Maintenant nous avons cette liste gérée ontologiquement de ce qu'il y a là.

Ici nous sommes dans une des catégories du niveau le plus haut de Yahoo, Entertainment. (NDT : Divertissement)

catégorie entertainment yahoo us
[ La Catégorie Entertainment de Yahoo ]


Vous pouvez voir ce que sont les sous-catégories de l'Entertainment, qu'il y ait ou non de nouveaux ajouts, et combien de liens roulent sous ces sous-catégories. Mis à part le cas de "Books and Literature", cette sous-catégorie ne vous dit pas combien de liens roulent en dessous. "Books and Literature" ne se termine pas par un nombre de liens, mais avec un signe "@". Ce signe "@" vous dit que la catégorie "Books and Literature" n'est pas 'vraiment' dans la catégorie Entertainment. Yahoo dit "Nous avons mis ce lien ici pour votre confort, mais c'est seulement pour vous emmener là où sont 'vraiment' les "Books and Literature" Ce à quoi, on ne peut que répondre -- "Qu'est-ce que c'est que ce 'Vraiment ?'"

Yahoo dit "Nous comprenons mieux que vous comment le monde est organisé, parce que nous sommes des professionnels formés. Aussi, si vous pensez par erreur que "Books and Literature" relèvent de l'"Entertainment", nous mettrons une petite marque de façon à ce que nous puissions vous aiguiller, mais pour voir ces liens, vous devez 'aller' là où ils 'sont'." (Mes doigts vont tomber avec tous ces guillemets.) Quand vous allez vers "Literature" -- qui fait partie de "Humanities", pas d'"Entertainment" -- on vous dit de même, que les vendeurs de livres ne sont pas 'vraiment' là. Parce que c'est un service commercial, les vendeurs de livres sont 'vraiment' en "Business".

Yahoo litterature
[ 'Literature' sur Yahoo ]


Regardez ce qui s'est passé ici. Yahoo, confronté à la possibilité qu'ils pouvaient organiser les choses sans contraintes physiques, ont ajouté l'étagère. Ils ne pouvaient pas imaginer l'organisation sans les contraintes de l'étagère, aussi l'ont t'il rajoutée. Il est parfaitement possible pour n'importe quel nombre de liens d'être dans n'importe quel nombre d'endroits dans une hiérarchie, ou dans beaucoup de hiérarchies, ou dans pas de hiérarchie du tout. Mais Yahoo a décidé de privilégier une façon d'organiser les liens sur toutes les autres, parce qu'ils voulaient faire des assertions sur ce qui est "vrai".

L'explication charitable pour ça est qu'ils pensaient ce type d'organisation à priori comme leur job, et comme quelque chose que leurs utilisateurs valoriseraient. L'explication non charitable pour ça est qu'ils ont pensé qu'il y avait une valeur commerciale à déterminer la vision que l'utilisateur devrait adopter pour utiliser le système. Les deux de ces explications peuvent avoir été vraies à différents moments et selon différentes mesures, mais l'effet a été de surpasser le sens de l'utilisateur de là où devraient être les choses, et d'insister à la place sur la vision de Yahoo.

Systèmes de Fichier et Hiérarchie #

Il est facile de voir comment les hiérarchies Yahoo pointent vers des contraintes technologiques aussi bien que physiques. Les contraintes dans le répertoire Yahoo décrivent à la fois un schéma de catégorisation de bibliothèque et évidemment un système de fichier -- le système de fichier est à la fois un outil puissant et une métaphore puissante, et nous l'avons tous utilisé, cela nous semble naturel.

hiérarchie
[ Hiérarchie ]


Voici le niveau le plus haut et ses sous-répertoires.  Les sous-répertoires contiennent des fichiers ou des sous-répertoires et ainsi de suite, tout le long du chemin. Tant les bibliothécaires que les scientifiques informatiques touchent la même prochaine idée, ce qui donne "Vous savez, ça ne gênerait pas d'ajouter quelques liens secondaires là-dedans" -- des liens symboliques, des alias, des raccourcis, peu importe comment vous les appelez.

hiérarchie + liens
[ Plus Liens ]


La Bibliothèque du Congrès a quelque chose d'équivalent dans sa catégorisation de deuxième-ordre -- "Ce livre est essentiellement à propos des Balkans, mais il parle aussi d'art, mais il parle aussi des Balkans." La plupart des essais hiérarchiques qui tentent de subdiviser le monde utilisent ce genre de système.

Alors, au début des années 90, une des choses que Berners-Lee nous a montrée est que nous pourrions avoir beaucoup de liens. Vous ne devez pas avoir simplement quelques liens, vous pourriez avoir vraiment un ensemble de beaucoup de liens.

hierarchie avec beaucoup de liens
[ Plus Beaucoup de Liens ]

C'est là où Yahoo est sorti du bateau. Ils ont dit, "Sortons d'ici ce discours dingue. Une URL ne peut apparaître que dans trois endroits. C'est la règle Yahoo." Ils ont fait cela en partie parce qu'ils ne voulaient pas être spammés, parce qu'ils faisaient un répertoire commercial, aussi ont t-ils mis une limite haute sur le nombre de liens symboliques qui pourraient rentrer dans leur vision du monde. Ils ont raté la fin de cette progression, ce qui veut dire, si vous avez assez de liens, vous n'avez plus besoin de hiérarchies. Il n'y a pas d'étagères. Il n'y a pas de fichier système. Les liens seuls suffisent.

que des liens.
[ Que des Liens (Il n'Y a Plus de Fichier Système) ]


Une raison pour laquelle Google a été adopté si rapidement quand il est sorti est que Google a compris qu'il n'y a plus d'étagères, et qu'il n'y a plus de fichier système. Google peut décider ce qui va avec quoi après avoir entendu l'utilisateur, plutôt que d'essayer de prédire à l'avance ce que vous avez besoin de savoir.

Disons que j'ai besoin de chaque page Web avec le mot "obstreperous" et le "Minnesota" dedans. Vous ne pouvez pas demander à l'avance à un catalogueur de dire "Bien, cela va être une catégorie utile, nous devrions encoder cela à l'avance." Au lieu de ça, ce que le catalogueur va dire est, "Obstreperous plus Minnesota ! Oubliez-ça, nous n'allons pas optimiser pour un truc pareil." Google, d'un autre côté, dit, "Qui s'en soucie ? Nous n'allons pas dire à l'utilisateur quoi faire, parce que la structure des liens est plus complexe que ce que nous pouvons lire, mis à part dans la réponse à une requête utilisateur."

Naviguer versus Chercher est une amélioration radicale dans la confiance que nous mettons dans l'infrastructure des liens et dans le degré de puissance dérivé de cette structure de lien. Naviguer dit que les gens fabriquent l'ontologie, les gens faisant la catégorisation ont la responsabilité d'organiser le monde en avance. Compte tenu de cette exigence, les visions des catalogueurs surpassent nécessairement les besoins de l'utilisateur et la vision du monde de l'utilisateur. Si vous voulez quelque chose qui n'a pas été catégorisé dans le sens où vous y pensez, pas de chance pour vous.

Le paradigme de la recherche dit l'inverse. Il dit que personne ne peut vous dire par avance ce dont vous avez besoin.La recherche dit qu'aù moment où vous cherchez, nous ferons de notre mieux pour vous servir ce qui est fondé sur notre structure de liens, parce que nous croyons à un monde où nous n'avons pas besoin de hiérarchies pour coexister avec la structure de liens.

Beaucoup de la conversation en cours actuellement à propos de la catégorisation démarre à une deuxième étape -- "Parce que la catégorisation est un bon moyen d'organiser le monde, nous devrions..." Mais la première étape est de poser la question critique : Est-ce que la catégorisation est une bonne idée ? Nous pouvons voir, à partir de l'exemple Yahoo versus Google, qu'il existe un nombre de cas où vous obtenez une valeur significative de ne pas catégoriser. Même Google qui avait adopté DMOZ, la version open source du répertoire Yahoo, a rétrogradé plus tard sa présence sur le site, parce que presque personne ne l'utilisait. Quand les gens se sont vus offrir une recherche et une catégorisation côte à côte, de moins en moins de gens ont utilisé la catégorisation pour trouver des choses.

Quand Est-ce que la Classification Ontologique Fonctionne Vraiment Bien ? #

Bien sûr, la classification ontologique fonctionne bien à certains endroits. Vous avez besoin d'un catalogue de cartes si vous gérez une bibliothèque physique. Vous avez besoin d'une hiérarchie pour gérer un système de fichier. Aussi ce que vous voulez au moment de penser comment organiser quelque chose, est de savoir si ce type de classification est une bonne stratégie.

Voilà une liste partiale des caractéristiques qui aident à ce que cela fonctionne :

Domaine à Organiser

C'est toutes ces choses spécifiques par domaine que vous aimeriez vraies si vous essayez de classifier proprement. La table périodique des éléments a toutes ces choses -- il n'y a à peu près seulement qu'une centaine d'éléments ; les catégories sont simples et dérivables ; les protons ne changent pas compte tenu des circonstances politiques ; seuls les éléments peuvent être classifiés, pas les molécules ; il n'existe pas d'éléments mélangés ; et ainsi de suite. Plus ces caractéristiques sont vraies, meilleure sera la capacité d'avoir une ontologie prête à correspondre.

L'autre question-clé, à côté des caractéristiques du domaine en lui-même est "A quoi ressemblent les participants ?" Voilà quelques choses, qui si elles sont avérées, aident à faire de l'ontologie une stratégie de classification pouvant être travaillée :

Participants

 

DSM-IV, la 4° version du Manuel de Diagnostic et Statistique des psychiâtres, est un exemple classique d'un schéma de classification qui fonctionne du fait de caractéristiques. DSM IV permet aux psychiâtres partout aux Etats-Unis, de produire en théorie, le même jugement à propos d'une maladie mentale, quand elle est présentée avec la même liste de symptômes. Il existe une source officielle pour le DSM-IV, the American Psychiatric Association. L'APA en est venue à dire quels symptômes s'ajoutent à la psychose. Il ont à la fois des catalogueurs experts et des utilisateurs experts. La quantité "d'infrastructure humaine" cachée dans un système fonctionnant comme DSM IV est une grande partie de ce qui fait fonctionner ce type de catégorisation.

Cette 'infrastructure humaine' est néanmoins très coûteuse. L'un des problèmes que les utilisateurs rencontrent avec les catégories est que quand nous faisons des tests en tête à tête -- nous décrivons quelque chose et puis demandons aux utilisateurs de devenir comment nous l'avons décrit -- il y a une concordance très pauvre. Les utilisateurs ont un temps très difficile à deviner comment quelque chose qu'ils veulent aura été catégorisé à l'avance, à moins qu'ils n'aient été éduqués tout aussi bien en avance sur ces catégories, et plus grosse est la base utilisateurs, plus il y a de travail pour l'éducation des utilisateurs.

Vous pouvez aussi transformer cette liste. Vous pouvez dire "Voilà quelques caractéristiques où la classification ontologique ne fonctionne pas bien" :

Domaine

Participants

Si vous avez un grand corpus, mal défini, si vous avez des utilisateur naïfs, si vos catalogueurs ne sont pas des experts, s'il n'y a personne pour dire officiellement ce qui se passe, l'ontologie va être une mauvaise stratégie.

La liste des facteurs faisant que l'ontologie s'adapte mal est une description presque parfaite du Web -- le plus grand corpus, les utilisateurs les plus naïfs, pas d'autorité globale et ainsi de suite. Plus vous poussez dans la direction de l'envergure, de l'épanchement, de la fluidité, de la flexibilité, plus cela devient difficile de gérer le coût de démarrer un système de catalogue et les tracas de le maintenir, sans parler de toute la force que vous devez mobiliser pour vous épuiser à la tâche afin de parvenir à ce que les utilisateurs laissent tomber leur propre vue du monde en faveur de la vôtre.

La raison pour laquelle nous savons que les SUVs (NDT véhicules utililitaires de sports) sont des camions légers au lieu de voitures est que le Gouvernement dit que ce sont des camions légers. Ceci est une catégorisation vaudou, où l'action sur le modèle change le monde -- quand le Gouvernement dit qu'un SUV est un camion, c'est un camion, par définition. La majorité du recours à cette catégorisation provient de cette sorte de vaudou, où les gens faisant la catégorisation, croient même si c'est seulement inconsciemment, que nommer le monde le change. Malheureusement, la plupart du monde n'est véritablement pas docile à la catégorisation vaudou.

La raison pour laquelle nous ne savons pas si oui ou non Buffy, The Vampire Slayer   relève par exemple de la science fiction est parce que personne ne peut définitvement dire oui ou non. Dans des environnements où il n'y a pas d'autorité et où aucune force ne peut être appliquée envers l'utilisateur, il est très difficile de supporter le style d'organisation vaudou. Nommer simplement le monde ne crée aucun véritable changement, que ce soit dans le monde ou dans les esprits des utilisateurs potentiels qui ne comprennent pas le système.

Voyance #

L'un des plus gros problèmes avec le fait de catégoriser les choses à l'avance est que cela force les catégoriseurs d'accepter deux jobs qui ont été historiquement plutôt très difficiles, voyants et cartomanciens. Cela force les catégoriseurs à deviner ce que leurs utilisateurs pensent et à faire des prédictions sur l'avenir.

L'aspect voyance émerge dans les conversations à propos des vocabulaires contrôlés. Chaque fois que les utilisateurs peuvent étiqueter ou taguer les choses, quelqu'un dit "Hé, je sais ! Faisons un thésaurus, ainsi si vous taguez quelque chose 'Mac' et que je le tague 'Apple' et que quelqu'un d'autre le tague 'OSX', nous parviendrons tous à regarder la même chose !" Ils signalent la perte de signal provenant du fait que les utilisateurs, même s'ils utilisent ces trois différentes étiquettes, sont en train de parler de la même chose.

L'hypothèse est que nous pouvons et devrions à la fois lire dans les esprits des personnes, comprendre ce qu'elles ont voulu dire quand elles ont utilisé une étiquette particulière et qu'en comprenant cela, nous puissions commencer à restreindre ces étiquettes ou au moins les relier facilement l'une vers l'autre.

Ceci semble relativement simple avec l'exemple Apple/Mac/OSX mais quand nous démarrons à essaimer vers d'autres groupes de mots en rapport, comme 'movies', 'film' et 'cinema', le cas pour le thésaurus devient beaucoup moins clair. J'ai appris cela à partir de la conception de Brad Fitzpatrick pour LiveJournal, qui permet aux utilisateurs de lister leurs propres intérêts. LiveJournal ne fait absolument aucune tentative pour durcir la solidarité ou un thésaurus ou un ensemble minimal de termes, pas de boutons à cocher, pas de menus déroulants, juste de la saisie de texte. Quelques personnes disent qu'elles sont intéressées par les "films". D'autres disent qu'elles sont intéressées par les "movies". D'autres personnes disent qu'elles sont intéressées par le "cinema".

La première réaction des catalogueurs à cela est, "Oh mon dieu, ceci veut dire que tu ne vas pas présenter les gens de "movies" aux gens de "cinema" ! Ce à quoi la réponse évidente est "Mon Dieu. Les gens de "movies" ne veulent pas passer du temps avec les gens de "cinema"." Ces termes-là encodent véritablement différentes choses et l'hypothèse que restreindre les vocabulaires améliore le signal suppose qu'il n'y pas de différence de signal en elle-même, et aucune valeur à protéger l'utilisateur de beaucoup trop de correspondances.

Quand nous en sommes venus à des termes vraiment contestés comme queer/gay/homosexuel, à ce stade, toute la perte de signal est dans l'écroulement, pas dans l'expansion. "Oh les personnes parlant de 'politique queer' et les personnes parlant de 'l'agenda homosexuel', parlent vraiment de la même chose." Oh non, elles ne le font pas. Si vous pensez que les personnes de 'movies' et 'cinéma' allaient devoir combattre, attendez jusqu'à ce que vous parveniez à mettre les personnes de 'politique queer' et  'agenda homosexuel' dans la même pièce.

Vous ne pouvez pas y parvenir. Vous ne pouvez pas effondrer ces catégorisations sans quelque perte de signal. Le problème se pose car les catalogueurs supposent que leur classification devrait s'imposer au monde, ils sous-estiment la difficulté de comprendre quels utilisateurs sont en train de réfléchir, et ils surestiment la quantité des utilisateurs qui seront d'accord, soit l'un avec l'autre ou avec les catalogueurs, de la meilleure façon de catégoriser. Ils sous-estiment aussi la perte provenant de l'effacement de différence d'expression et ils surestiment la perte provenant d'un manque de thésaurus.

Cartomancien #

L'autre gros problème est que prédire le futur tend à devenir difficile, et à ce stade tout système de classification sensé être stable dans le temps met le catégoriseur dans la position d'un cartomancien.

Les lecteurs attentifs pourront pointer la différence entre la Phrase A et la Phrase B.

A : "Je t'aime."
B : "Je t'aimerai toujours."

La souffrance arrive à la personne prononçant la Phrase B quand ce qu'elle voulait dire est la Phrase A. La Phrase A est une affirmation. La phrase B est une prédiction.

Mais c'est le dilemme ontologique. Considérez les deux énoncés suivants :

A : "Ceci est un livre à propos de Dresde."
B : "Ceci est un livre à propos de Dresde, 
et il va dans la catégorie 'Allemange de l'Est'."

Cette seconde phrase semble évidente, mais l'Allemagne de l'Est s'est avérée véritablement être une catégorie instable. Les villes sont réelles. Elles sont vraies, des faits physiques. Les pays sont des fictions sociales. Il est bien plus facile pour un pays de disparaître, que ce ne l'est pour une ville, aussi quand vous dites que la petite chose est contenue par la grande chose, vous mixez véritablement radicalement différents types d'entités. Nous prétendons que 'pays' renvoie à un espace physique de la même façon que 'ville' le fait, mais ce n'est pas vrai, parce que nous savons cela des endroits comme l'ancienne Yougoslavie.

Il existe une catégorie de niveau supérieur, vous pouvez avoir vu ça plus haut dans le schéma de la Bibliothèque du Congrès, appelé "Former Soviet Union". Le mieux qu'ils aient pu faire fût simplement de tacler "Former" sur cette zone entière qu'ils auraient précédemment catégorisée comme l'Union Soviétique. Pas parce qu'ils pensaient que c'était vrai au sujet du monde, mais parce qu'ils n'ont pas le personnel pour reclasser tous les livres en rayons. C'est là la contrainte.

Partie II : Le Seul Groupe Qui Peut Tout Catégoriser Est Tout le Monde #

"Mon Dieu. C'est plein de liens !" #

Quand nous réexaminons la catégorisation sans supposer la contrainte physique que ce soit une hiérarchie sur un disque ou une hiérarchie dans le monde physique, nous obtenons des réponses très différentes. Disons que vous vouliez fusionner deux bibliothèques -- la mienne et la Bibliothèque du Congrès. (Vous pouvez dire que c'est la Bibliothèque du Congrès sur la droite, parce qu'elle a un peu plus de livres que je n'en ai.)

nuage de livres : deux collections de livres
[ Deux Collections de Livres Catégorisées ]


Aussi, comment faisons-nous ça ? Dois-je m'asseoir avec le Bibliothécaire du Congrès et dire, "Bon, dans mon monde, Python In A Nutshell est un livre de référence, et je garde ensemble tous mes livres sur la créativité." Devons-nous discuter de la différence entre mon schéma de catégorisation et le leur avant que la Bibliothèque du Congrès ne puisse prendre mes livres ?

Non bien sûr, nous ne devons rien faire de la sorte. Ils peuvent prendre mes livres tout en ignorant mes catégories, parce que tous mes livres ont des numéros ISBN, International Standard Book Numbers. Ils ne se mélangent pas au niveau catégorie. Ils fusionnent dans le niveau globalement unique de l'item. Mes entités, mes livres étiquetés exclusivement, rentrent trivialement dans le schéma de la Bibliothèque du Congrès. La présence d'étiquettes exclusives signifie que fusionner des bibliothèques n'oblige pas à fusionner les schémas de catégorisation.

fusion isbn
[ Fusion des ISBNs ]


Maintenant, imaginez un monde où tout peut avoir un identifiant unique. Ce serait facile, parce que le monde dans lequel nous vivons actuellement -- l'URL nous donne un moyen de créer un Identifiant globalement unique pour tout ce que nous avons besoin de pointer. Parfois les pointeurs sont directs, comme quand une URL pointe vers les contenus d'une page Web. Parfois, ils sont indirects, comme quand vous utilisez le lien Amazon pour pointer un livre. Parfois, il y a des niveaux de détours, comme quand vous utilisez une URI, un "uniform resource identifier", pour nommer quelque chose dont l'emplacement est indéterminé. Mais le schéma basique nous donne des moyens de créer un identifiant globalement unique pour tout.

Et une fois que vous faites ça, quiconque peut étiqueter ces pointeurs, peut taguer ces URLs, dans des manières qui les rendent plus valables, et tout ceci sans exiger des schémas d'organisation du haut vers le bas. Et ceci -- une explosion de l'étiquetage des liens sous format libre, suivie par toutes les sortes de moyens de saisir de la valeur de la part de ces étiquettes -- est ce qui, je pense, est en train d'arriver maintenant.

Les Grands Esprits Ne Pensent Pas Pareils #

Voici del.icio.us, le service de signet social de Joshua Shachter. Il est destiné aux personnes qui conservent une trace de leurs URLs pour elles-mêmes, mais qui sont désireuses de partager globalement une vision de ce qu'elles font, en créant une vue agrégée de tous les signets de tous les utilisateurs, tout comme une vue personnelle pour chaque utilisateur.

Delicious-HomePage
[ Page Accueil de del.icio.us ]


Comme vous pouvez le voir ici, les caractéristiques d'une entrée del.icio.us sont un lien, une description étendue en option et un ensemble de tags qui sont des mots ou des phrases attachés à un lien. Chaque utilisateur qui attache un lien au système peut lui donner un ensemble de tags -- quelques-uns le font, d'autres non. Attaché à chaque lien sur la page d'accueil, vous avez les tags, le nom d'utilisateur de la personne qui les a ajoutés, le nombre d'autres personnes qui ont ajouté ce même lien et la date.

Les tags sont simplement des étiquettes pour les URLs, sélectionnés pour aider l'utilisateur à retrouver plus tard ces URLs. Les tags ont l'effet supplémentaire de grouper ensemble les URLs en rapport. Il n'y a pas d'ensemble fixé à l'avance de catégories ou de choix officiellement approuvés. Vous pouvez utiliser des mots, des acronymes, des nombres, tout ce qui pour vous fait sens, sans égards pour les besoins de n'importe qui d'autre, de ses intérêts ou exigences.

L'addition de quelques étiquettes simples semble à peine si capitale, mais la suprise ici, comme si souvent sur le web, est la surprise de la simplicité. Les tags sont importants essentiellement pour ce qu'ils excluent. En renonçant à une classification formelle, les tags permettent une quantité énorme de valeur organisationnelle produite par les utilisateurs, à un petit coût proche de zéro.

Il y a une comparaison utile ici entre le gopher et le Web, où le gopher était mieux organisé, mieux élaboré vers des pratiques existantes institutionnelles et absolument inapte à fonctionner à l'échelle de l'internet. Le Web, à l'inverse, était et demeure un bazar complet, avec seulement une marque de pointeur, l'URL, et aucun mécanisme ou ressources pour l'organisation globale. Le Web est remarquable essentiellement pour deux choses -- la façon dont il a ignoré la plupart des théories de l'hypertexte et des métadonnées riches, et comment il fonctionne bien mieux que toutes les alternatives proposées. (Les stratégies Yahoo/Google que j'ai mentionnées plus haut se divisent aussi en deux sur ces lignes.)

Avec ces modifications en cours, voici quelques-unes des choses qui, je pense, sont en train d'arriver en tant qu'avantage pour les systèmes de tags :

 

Distributions de Tags sur del.icio.us #

Voici quelque chose présentant ce que veut dire sur la rupture de la catégorisation binaire.

tags par utilisateur
[ Tags par utilisateur ]


Ceci est un chart fondé sur un petit échantillon de liens provenant de la page d'accueil de del.icio.us, pris durant un intervalle de deux heures. L'axe X représente 64 utilisateurs qui ont posté des liens durant cette période. L'axe Y est le nombre total des formes discrètes de tags que ces utilisateurs ont toujours historiquement utilisés sur del.icio.us.

Le diagramme montre une grande irrégularité dans les stratégies de tag parmi les différents utilisateurs. L'utilisateur tout à gauche à un nombre énorme de tags uniques, presque 600. Puis, il y a ce groupe de personnes qui ne sont pas tout à fait des tagueurs de puissance mais qui taguent un peu, et bien sûr sur la droite il y a la longue queue caractéristique des personnes qui utilisent bien moins de tags que les tagueurs puissants. (Parce que c'est un instantané de deux heures, ceci a des travers naturels par rapport aux utilisateurs fréquents de del.icio.us. J'essaye d'avoir un ensemble plus grand de données. Ma supposition est que la queue sort un peu plus profondément que ça.) Mais ceci est ce à quoi ressemble l'organisation quand vous la retournez aux utilisateurs -- beaucoup de stratégies différentes, chacune d'entre elle fonctionne dans son propre contexte, mais qui peut aussi être fusionnée.

single user tag
  [ Tags d'un Utilisateur Unique ]


Voici les tags d'un utilisateur unique. A partir d'ici, vous pouvez dire quelque chose sur cette personne -- il ou elle est évidemment un programmeur Flash -- le tag le plus commun est Flash, suivi d'un nombre d'autres tags utilisés fréquemment en rapport avec la programmation. Comme la page d'accueil, cette distribution a sa signature organique. Les experts ne cataloguent pas de cette façon ; les experts qui apprennent comment cataloguer produisent un étiquetage plus cohérent. Ici, c'est tout ce qu'a pensé l'utilisateur qui l'aidera à se souvenir plus tard du lien.

Vous pouvez voir qu'il existe un tag "à_lire". Un catalogueur professionnel regarderait ce tag en horreur -- "Ceci est dépendant du contexte et temporaire". Oui, telle était la catégorie "Allemagne de l'Est". Une fois que vous avez agrandi votre échelle de temps pour inclure la véritable vie du schéma de catégorisation en lui-même, vous reconnaissez que la distinction entre le temporaire et le permanent est drôlement vague. En fait, il n'existe pas une condition binaire d'un tag qui peut ou ne peut pas survivre à toute sorte d'examen à long terme.

Différentes signatures de tag pour différentes urls
[ Différentes 'signatures' de tag pour différentes URLs ]


Puis il y a cette série de graphes. C'est pour moi dans un sens le plus intéressant et le moins bien compris de la part de del.icio.us à cette heure -- ce sont deux URLs différentes et les tags qu'un groupe entier d'utilisateurs leur ont appliqués. Le graphe en bas à gauche renvoie à un site pour télécharger des vieilles versions de programmes qui ne sont plus supportées. Vous pouvez voir ici qu'il existe un consensus communal large. 140 personnes ont tagué cela Software. Puis, le tag suivant le plus commun, avec seulement 20 occurences, est Old, puis Download et ainsi de suite. Pour cette URL, il existe un consensus clé -- ce lien parle de logiciel -- et après tout c'est un peu un sens commun, mais il y a une popularité décroissante très pointue dans les tags.

Le graphe en haut et à droite, à l'inverse, montre les tags d'une page détaillant comment incorporer les états de recherche dans Gmail. Vous pouvez voir les tags -- Gmail, Firefox, Search, Javascript, GreaseMonkey -- c'est une distribution beaucoup plus barbouillée avec une popularité beaucoup moins décroissante. La vue consensuelle est que ce lien est plus à propos de plus de types de choses que ne l'est le lien de téléchargement de logiciel, ou plutôt, occupe plus de contextes pour les utilisateurs del.icio.us que ne le fait le lien de téléchargement.

En regardant ce type de données, nous pouvons commencer à dire, des URLs spécifiques, que les utilisateurs taguant cette URL se sont ou non centrés autour de certains tags clés, avec ce degré de certitude et grâce aux chronodatages, nous pouvons même commencer à comprendre comment la distribution des tags d'URLs change au fil du temps. Il s'est passé 5 ans entre la diffusion du lien et la compréhension de Google sur comment utiliser l'ensemble général des liens pour créer de la valeur ajoutée. Nous sommes au début de l'utilisation des tags, aussi nous n'avons pas encore de grands ensemble de données ayant vécu suffisamment longtemps, mais ils se constituent rapidement, et nous commençons juste à comprendre comment extraire de la nouvelle valeur à partir de ces collections générales de tags.

L'Organisation Va vers l'Organique #

Nous sommes en train de migrer d'une catégorisation binaire -- les livres sont soit du divertissement ou ne sont pas du divertissement -- et à l'intérieur de ce monde de probabilités, où N% des utilisateurs pensent que les livres relèvent du divertissement. Ce peut bien être cela dans Yahoo, il y a eu un grand débat pour savoir si oui ou non les livres relèvent du divertissement. Mais ils n'avaient soit pas moyen de répercuter ce débat ou ils ont décidé de ne pas le présenter aux utilisateurs. Ce qui est arrivé à la place a été que c'est devenu une catégorisation tout-ou-rien, "C'est du divertissement, ce n'est pas du divertissement." Nous nous éloignons de ce type de déclaration absolue et vers la capacité de remonter ce type de valeur en observant comment les personnes les gèrent en pratique.

Cela nous amène pour finir à une question de philosophie. Est-ce que le monde produit du sens ou faisons-nous du sens au monde ? Si vous croyez que le monde fait sens, alors quiconque qui essaye de faire du sens au monde différemment de vous se présente à vous une situation qui a besoin d'être réconciliée formellement, parce que si vous avez tort, vous obtiendrez une erreur à propos du vrai monde.

Si, d'un autre côté, vous croyez que nous faisons du sens au monde, si nous appliquons à partir d'un ensemble de différents points de vue quelque sorte de sens au monde, alors vous ne privilégiez pas un niveau le plus haut de fabrication de sens sur l'autre. Ce que vous faites à la place est d'essayer de trouver des manières dont la fabrication individuelle de sens peut remonter vers quelque chose qui est de valeur dans l'agrégat, mais vous le faites sans but ontologique. Vous le faites axec un but d'obtenir explicitement ou même correspondant très près à quelque vision théoriquement parfaite du monde.

Les sémantiques ici sont dans les utilisateurs, pas dans le système. Ce n'est pas une manière de faire que les ordinateurs comprennent. Quand del.icio.us me recommande des tags, le système ne me dit pas, "Je sais que OSX est un système d'exploitation. Par conséquent, j'utilise une logique de prédicat pour sortir des recommandations - les utilisateurs font tourner du logiciel, le logiciel tourne sur des systèmes d'exploitation, OSX est un type de système d'exploitation -- et puis disons 'Ici Monsieur Utilisateur, vous pouvez aimer ces liens.'"

Ce qu'elles font à la place est bien plus simple : "Beaucoup d'utilisateurs taguant les choses foobar sont aussi en train de les taguer frobnitz. Je dirai à l'utilisateur que foobar et frobnitz sont en rapport." Il dépend de l'utilisateur de décider si oui ou non cette recommandation-là est utile -- del.icio.us n'a pas d'idée de ce que signfie les tags. Le chevauchement de tags est dans le système, mais les sémantiques de tagS sont dans les utilisateurs. Ce n'est pas une façon d'injecter un sens linguistique dans la machine.

Tout dépend du contexte humain. C'est ce que nous allons commencer à voir avec del.icio.us, avec Flickr, avec les systèmes qui permettent et agrègent les tags. L'avantage de ces systèmes est qu'ils ne recréent pas la catégorisation structurée, hiérarchique si souvent imposée à nous par nos systèmes physiques. Au lieu de cela, nous traitons avec une ruputure significative -- en laissant les utilisateurs taguer les URLs et puis agréger ces tags, nous allons pouvoir construire des systèmes alternatifs d'organisation, des systèmes qui comme le Web lui-même, font un meilleur travail de laisser les individus créer de la valeur pour un autre, souvent sans en avoir conscience.

Merci beaucoup.

Merci à Alicia Cervini pour son inestimable aide éditoriale.

Les écrits de Clay Shirky à propos de l'Internet

Economie & Culture, Médias & Communauté, Open Source

clay@shirky.com