jeudi, novembre 10

Comprendre les moteurs de recherche

Si la définition d'un moteur de recherche ne vous est pas encore apparu comme la lumière jaillissante du soleil un matin d'été, c'est probablement parce que personne ne s'est proposé de vous la donner.
Et au cas où, vous ne seriez pas capable d'appréhender la problèmatique de la recherche et de l'indexation de l'information (selon l'URFIST) ? Grave erreur...

Le JDN nous pose 5 questions clés (et offre les réponses, quelle générosité ?...) afin de connaitre l'essentiel en un coup d'oeil !
Comme cet article est paru hier mais qu'il passera sans aucun doute aux oubliettes, le voici :



    1 - Quels sont les grands domaines d'application des moteurs de recherche d'entreprise ?
    Les solutions de moteur de recherche d'entreprise sont exploitées principalement dans deux cadres. En premier lieu, elles sont utilisées au sein des sites Web pour faciliter l'accès au contenu et la navigation. Cette approche est particulièrement pertinente pour les environnements de presse en ligne présentant des archives importantes, ou encore pour les espaces e-commerce afin de déployer des formulaires multicritères d'aide au choix et à la sélection de produits. En second lieu, les outils de recherche sont typiquement mis en oeuvre au sein d'intranets ou de portails d'entreprise en vue de bénéficier de systèmes d'indexation permettant à un utilisateur interne de retrouver plus facilement un document publié quel que soit le format (Web, Word, PDF, Powerpoint, etc.).
    2 - Comment fonctionne un moteur de recherche ?
    Un moteur de recherche s'articule autour d'un système d'indexation. Un dispositif logiciel qui a pour but de parcourir la ou les bases de documents ou de contenu ciblées afin d'en référencer les différents éléments, que ce soit les textes ou les meta-données associées. En sortie, il génère un ou plusieurs fichiers identifiant l'ensemble des mots repérés ainsi que leur position. Permettant de faire le lien entre la requête de l'utilisateur et les sources disponibles (termes et expressions), ce processus de cartographie propre à l'informatique a été élaboré par les éditeurs, notamment ceux qui font la promotion de l'indexation dite "plein texte" (tel que Verity par exemple). Aujourd'hui, cette technique s'est généralisée sur le marché. Certains acteurs s'appuyent également sur des méthodes issues de démarches plus traditionnelles, comme la tradition documentaliste qui promeut une indexation par mots clés - éventuellement basée sur des thésaurus (organisations de termes en familles et sous-familles) -, ou encore sur celles développées au sein des bibliothèques, comme les plans de classement (ou taxonomies).
    3 - Où se situe l'intelligence d'un moteur de recherche ?
    L'ensemble des moteurs de recherche s'appuit sur des algorithmes statistiques. A partir d'une analyse des termes inclus dans une requête utilisateur, ils s'appliquent à l'index, en vue de trier les réponses possibles par ordre de pertinence. Certains moteurs intègrent jusqu'à 30 algorithmes. Ils se classent en deux groupes. Les premières comparent la répétition et l'espacement des termes contenus dans la requête avec ceux répertoriés par l'index, puis appliquent un taux de pertinence aux réponses correspondantes. Les seconds vont effectuer le classement en partant du principe que plus un objet textuel est rare, plus sa valeur informative est élevée.Au-delà du traitement statistique, certains moteurs - dits sémantiques - intègrent également une batterie d'analyseurs et de dictionnaires permettant de prendre en compte des synonymes et autres termes et expressions connexes à la requête posée. La combinaison de différents analyseurs linguistiques (sémantiques, syntaxiques, etc.) permet d'aller assez loin. Selon certains experts, le processus pourrait permettre au final de faire comprendre au moteur que l'expression "président de la république" est plus proche de celle de "chef de l'état" que de celle de "chef du gouvernement" ou encore de saisir la différence entre la requête "la souris de mon PC" et le concept (extrait d'un texte) "le cerveau des souris peut être modélisé par un PC."
    4 - Quels sont les différents types de requête possibles ?
    On distingue deux catégories de requête :
    - Les requêtes booléennes : Adaptées à la recherche sur des mots-clés, elles s'appuient sur le langage élaboré par le mathématicien anglais Georges Bool. Un dialecte qui est aujourd'hui intégré à la plupart des solutions de recherche associées à des bases de données. Une requête 'booléenne' permet d'inclure des mots clés ou expressions en les combinant avec des conditions (sous forme d'opérateurs). Ainsi, une solution supportant cette technique peut accueillir la question suivante : "prestataires de service" AND "informatique d'entreprise". Pour répondre, le moteur recherche l'ensemble des documents incluant les deux groupes de mots. Beaucoup d'autres opérateurs existent, parmi lesquels "or", "near" et "not".
    - La requêtes plein texte ou en texte intégral : Une recherche en texte intégral identifie et classe les réponses possibles par ordre de pertinence, en faisant appel éventuellement à des techniques issues de la linguistique, à la manière du processus décrit plus haut dans la 3e question. Comme la recherche booléenne, elle permet d'inclure des opérateurs.
    5 - Quelle approche adopter quand on souhaite déployer un moteur ?
    Certaines sociétés préfèrent opter pour un moteur purement statistique. Cette logique permet de réduire le travail de maintenance nécessaire à l'exploitation du moteur. La solution, une fois paramétrée, peut fonctionner sans intervention. Elle peut présenter néanmoins certaines limitations en termes de pertinence, les réponses remontées pouvant être également très nombreuses selon la technologie utilisée. Une autre politique consiste à déployer des indexes, thésaurus ou plans de classement. Une approche qui permet à l'entreprise de s'assurer de la pertinence de son moteur (sans faire simplement confiance à une boîte noire) tout en l'adaptant à ses problématiques métiers, en termes de domaines de spécialisation (par le biais d'un travail documentaire particulier). Ce procédé, souvent jugé peu souple en cas de modifications, implique aussi la présence d'un personnel compétent dans le domaine de la documentation.



Editeurs de solutions de recherche
Acetic ; Alogic ; Antidot ; Arisem ; Atomz ; Auracom ; Autonomy (Verity) ; Convera ;
Exalead ; Fast ; GoAlbert ; Hummingbird ; Sinequa ; Synomia ; TripleHop

Antoine CROCHET-DAMAIS, JDN Solutions


Aucun commentaire: