Comme chacun sait, l’utilisation des moteurs de recherche, notamment de Google (le moteur n°1) pose problème en termes de résultats de recherches.
A ce sujet, je reprends ici un extrait de l’article de Direction Informatique relayé par Vtech :
« Les informations souvent recueillies par les moteurs de recherche les plus populaires ne disposent pas toujours de la fiabilité nécessaire aux organisations. Dans le cadre d’une veille stratégique, les concurrents s’intéressant aux mêmes sujets vont obtenir les mêmes informations, amenuisant du coup l’impact stratégique. De nombreuses organisations, comme les bibliothèques nationales et les organismes publics disposent d’une quantité faramineuse d’informations qu’il semble impossible de rejoindre par le Web et les moteurs de recherche classiques. »
Les robots de ces moteurs ne parcourent qu’une infime partie des pages du web, les indexent et les copient sur leurs serveurs. Lorsqu’une recherche est effectuée, le moteur consulte les pages sauvegardées sur ces serveurs. « Aussi, il peut y avoir une disparité entre le résultat de la recherche et la réalité instantanée sur le Web. »
Sachant que ces moteurs indexent en moyenne jusqu’à  500 Ko par site (exit donc les pages trop lourdes!), on peut légitimement s’interroger sur la pertinence du résultat…
L’article nous donne par ailleurs des données très intéressantes :
– Google indexerait 8 à  10 milliards de pages web dans le monde…
– …alors que le contenu accessible à  ces moteurs serait de 65 à  70 milliards de pages Web! Le web visible via Google serait donc de 10% seulement.
– tous les moteurs n’indexent pas les mêmes pages. Ainsi, en utilisant plusieurs moteurs pour une même recherche, on pourrait sonder environ 20% des pages.
Les moteurs de recherches n’indexent pas une multitude de sources, c’est le web abyssal :
– les bases de données,
– les pages trop lourdes,
– les pages protégés par un mot de passe,
– les sites refusant l’accès aux robots d’indexation,
– les pages dont les requêtes sont générées dynamiquement dans le processus fonctionnel du site,
– les pages au format incompatible (assez rare),
– les pages qui ne sont pas reliées à  une autre page du site.
Quelques chiffres sur ce web abyssal et invisible à  la recherche classique sur le net :
– il représente 95% du contenu total accessible publiquement et gratuitement en ligne,
– il contient les bases de données spécialisées, « de nombreux répertoires, une grande variété de publications, des sites de ventes en ligne, des portails verticaux spécialisés, les sites d’applications en ligne et de simulation, les bases de données scientifiques et de recherche, et les bibliothèques »
– de nombreux sites présents dans le web visible peuvent constituer des portes d’entrée sur le web abyssal.
D’après l’auteur, le décalage entre le contenu visible et invisible par les moteur de recherche ne cessera de croître avec l’utilisation de nouveaux outils et des nouvelles technologies sur le net, telles que le web 2.0, notamment pour des raisons d’incompatibilité avec les robots d’indexation de contenu.
Il reste donc à  espérer que de nouveaux moteurs et outils émergeront pour pouvoir sonder plus facilement ces « profondeurs du web ».
Une petite illustration pour terminer…
Source : Les trésors informationnels stratégiques du Web abyssal, Direction Informatique du 1er mai 2007.