Un exemple de l’utilisation de la folksonomie : Twitter

La folksonomie est très présente sur le web depuis l’avènement du web 2.0, ou web collaboratif. En effet, les usagers des services du web qui s’inscrivent dans cette continuité sont amenés à créer, poster, diffuser du contenu ; mais aussi à l’indexer afin de retrouver ce contenu dans la masse. Tout internaute devient donc un indexeur potentiel, usant cependant du langage naturel.

Un site où cette pratique est très répandue est Twitter. En effet, le principe du hashtag (#) se trouve être de la folksonomie ; il permet à n’importe quel utilisateur d’insérer un ou plusieurs mots-clefs, issue du langage naturel, dans son tweet afin de permettre de le retrouver dans la multitude de tweets postés chaque jour. C’est donc une forme d’indexation libre, c’est à dire de folksonomie.

Cet exemple d’utilisation de la folksonomie à grande échelle nous permet d’éclairer quelques points, et surtout de relever quelques défauts de cette pratique.

Ainsi, si nous cherchons dans Twitter les tweets référencés avec #thesaurus, nous trouvons :

https://twitter.com/_homespun/status/446344469311676416

On peut donc tomber sur tout et n’importe quoi : un tweet sans contenu, mais sur lequel on va forcément tomber à cause du #thesaurus, un tweet dont le contenu n’est pas réellement pertinent, et entre les deux un tweet bien plus pertinent et qui utilise correctement le hashtag (évidemment).

Essayons avec un hashtag moins spécifique, #Londres :

Nous pouvons voir qu’avec un terme plus large, et bien plus utilisé que “thesaurus” (soyons honnête), l’indexation perd tout son intérêt : on trouve tout, et surtout n’importe quoi sur le sujet. Le terme ne servant plus à spécifier un tweet par rapport aux nombreux autres sans rapports, où est l’intérêt ?

Thésaurus : définition

Selon le vocabulaire de la documentation de l’ADBS, un thésaurus (ou thesaurus) est une : « Liste organisée de termes normalisés (descripteurs et non-descripteurs) servant à l’indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d’équivalence) exprimées par des signes conventionnels. Les synonymes (non-descripteurs) sont reliés aux descripteurs par la seule relation d’équivalence. On peut distinguer les thésaurus en fonction du mode de regroupement des termes (thésaurus à facettes) ; de la variété linguistique des termes (mono- ou multilingue) ; des domaines de connaissances couverts (thésaurus spécialisé ou sectoriel, thésaurus encyclopédique) ».

Wikipédia donne une seconde définition : « Un thésaurus, thésaurus de descripteurs ou thésaurus documentaire, est une liste organisée de termes contrôlés et normalisés (descripteurs et non descripteurs) représentant les concepts d’un domaine de la connaissance. C’est un langage contrôlé utilisé pour l’indexation de documents et la recherche de ressources documentaires dans des applications informatiques spécialisées. ».

Enfin, le Larousse en ligne donne une dernière définition plus concise : un thésaurus est un « Liste alphabétique de mots standards utilisés pour le classement de la documentation. ».

Un thésaurus est un donc un ensemble de termes, utilisés pour l’indexation (des descripteurs) ou non (non-descripteurs), qui sont relié entre avec des relations de synonymie, de hiérarchie, et d’association. Ces termes servent à l’indexation des documents, c’est à dire à pointer la spécificité d’un document dans un fonds documentaire ; pour cela les termes ne doivent pas être ambiguës, c’est à dire ne pas avoir plusieurs significations possibles. Pour cela, on créé des notes d’applications qui précisent cette seule et unique signification. Le sens des termes est également précisé par les relations hiérarchiques.

Un thésaurus est donc un type de langage documentaire, qui est spécialisé (souvent dans un domaine, mais cela peut être plus ou moins large) et qui se compose de termes hiérarchisés entre eux.

Pour quelques exemples de thésaurus en ligne, voir ce thésauro-annuaire.