Table des matières
Les limites des moteurs de recherche interne classiques
La fonction rechercher
Pour faciliter l’accès des internautes à l’information stockée sur un site web, les webmasters ont l’habitude de proposer une fonction « rechercher ».
Cette fonction « rechercher » fait appel à un moteur de recherche interne, qui fonctionne ainsi :
- il indexe les pages du site web
- l’internaute tape une requête (une question, ou un mot-clé, dans un champ « Rechercher »
- le moteur de recherche interne cherche les correspondances entre les mots de la requête et les mots des pages web indexées
- s’il trouve des correspondances, il affiche les urls des pages
Une recherche trop simpliste
Ce scénario d’usage trouve des limites évidentes :
- le moteur de recherche interne ne sait chercher que les mots tapés par l’utilisateur, sans jamais voir plus loin
- il ne sait donc ni reformuler ni comprendre l’intention de recherche
- s’il n’y a pas de correspondance exacte ni partielle ou approximative, il ne trouve rien (par exemple, vous avez 300 produits qui contiennent tous les mot « affiche », mais l’internaute cherche « poster » : le moteur de recherche ne trouve donc rien, alors que 300 pages sont pertinentes !)
- il peut trouver des correspondances assez exactes, qui en réalité sont moins pertinentes que d’autres qui utilisent des synonymes ou des formulations différentes (par exemple il trouve que « poster une lettre » est pertinent quand l’internaute cherchait « poster » au sens d’affiche ; ou encore l’internaute cherche « chat » qui signifie discussion en anglais et le moteur interne trouve un article sur « Mon chat miaule trop fort », mais il ne trouve pas une page intitulée « chatbot » alors que ce terme est étroitement lié à « chat »).
En d’autres termes, ce type de recherche, simpliste et mécanique, produit à la fois du silence documentaire (elle oublie de mentionner des documents pertinents) et du bruit documentaire (elle présente comme pertinents des documents qui ne le sont pas, en trouvant des correspondances sur des homonymes).
Pour surmonter ces limites, il est aujourd’hui possible d’utiliser un modèle de langage comme ChatGPT comme moteur de recherche interne.
Les avantages de ChatGPT comme moteur de recherche interne
ChatGPT : un chatbot au corpus limité
D’abord, je rappelle ce qu’est ChatGPT d’OpenAI : c’est un chatbot, c’est à dire un « robot conversationnel » : un programme qui sait discuter avec l’utilisateur.
De base, ChatGPT a été entraîné sur un corpus, une grande masse de documents, empruntés à Internet. Il « sait » donc beaucoup de choses, on peut lui parler de physique quantique, d’histoire, de maths, d’informatique, d’arts, et il réussit la plupart du temps à fournir des réponses pertinentes.
Par contre, si vous lui posez des questions dont seul tel site professionnel a les réponses – par exemple, combien coûte la création d’un site web d’association sur Boutique-WP.fr – , là il ne sait pas y répondre parce que mon site ne faisait pas partie du corpus sur lequel il a été entraîné.
Et c’est probablement aussi le cas de votre site : votre expertise à vous, les infos que seul votre site possède, en moyenne ChatGPT ne les connait pas.
Et même sur les infos générales du monde, étant donné que l’entraînement de chatGPT s’est fait en 2021, il ne « sait » rien après cette année, ce qui signifie par exemple que la guerre en Ukraine il n’est pas au courant.
Depuis peu, il est certes possible d’envoyer ChatGPT surfer sur le web grâce à un plugin dispo sur les comptes GPT Plus, mais ça buggue encore pas mal pour l’instant.
Donner votre site web comme corpus à ChatGPT
La bonne nouvelle c’est que vous pouvez à présent donner votre site web en tant que corpus à ChatGPT, dans une sorte de version privée du modèle. Il saura toujours tout ce qu’il a appris dans sa formation sur une fraction du web, mais en plus de cela il saura intégrer toutes les informations présentes sur les pages de votre site – on n’aura qu’à lui fournir un sitemap, c’est à dire la liste officielle des contenus de votre site.
Pas d’inquiétude : ce que le programme apprendra sur votre site ne sera utilisable que par vous, cela ne deviendra pas automatiquement une contribution gratuite.
Vous imaginez bien l’intérêt que présente un chatbot ChatGPT intégré sur un site en tant que moteur de recherche :
- quand le visiteur l’interroge avec des mots-clés, une question, une affirmation, le chatbot ne se contente pas d’aller bêtement chercher des correspondances (« match ») entre les mots : il comprend le sens global de la requête et va chercher des documents pertinents, même si la requête ne contenait aucun des mots présents sur une page pourtant pertinente.
- Par exemple, si sur un site de recettes de cuisine, l’internaute cherche « recette salade olives », le chatbot pourra faire remonter une page traitant des entrées idéales en été, ou de la cuisine méditerranéenne.
- de plus, comme il sait discuter avec l’utilisateur, si celui-ci n’est pas satisfait du premier coup il va pouvoir discuter avec ChatGPT et affiner sa demande au lieu d’abandonner sa recherche
Concrètement, je vous propose d’installer un service de chatbot ChatGPT utilisable comme moteur de recherche interne. Vous payez un abonnement, vous fournissez le sitemap et, si vous le souhaitez, une documentation sous forme de fichiers, et ensuite GPT va répondre en utilisant ces informations, un peu comme le ferait un lecteur assidu de votre site, ou un documentaliste spécialisé.
L’opération remplacera votre champ de recherche classique par un champ de discussion avec le chatbot, intégré sous la forme d’un widget en javascript, dont le code vous sera fourni dès lors que vous êtes abonné au service.
Sur quels types de sites web ?
On peut se demander si ChatGPT va pouvoir fonctionner comme moteur de recherche sur tous types de sites Internet.
La réponse est oui : vu qu’il suffit d’intégrer deux bouts de code en html et javascript, deux langages fondamentaux du web, n’importe quel type de CMS peut convenir : des sites faits en PHP comme WordPress, Wix, Drupal, Joomla, SPIP, Laravel, etc, ou des sites en python, en react, etc.
Est-ce que chatGPT hallucine ? Est-ce qu’il déraille ?
Un souci dénoncé dès la sortie publique des premières versions de chatGPT fin 2022 était que le chatbot avait tendance à « halluciner« , c’est-à-dire à inventer des faits. Ce problème a beaucoup diminué depuis la sortie de GPT-4, qui inclut peut-être une étape de fact-checking.
Un autre problème possible tient au fait que le chatbot a été conçu pour répondre de manière universelle. Or, sur votre site web, vous n’avez probablement pas envie qu’on puisse avoir des conversations sur tout et n’importe quoi : vous pouvez trouver plus judicieux de réserver les échanges aux thèmes que vous traitez sur votre site (sachant que votre abonnement ne rend pas les échanges illimités).
Or, ces deux problèmes sont largement pris en charge dans le service que je propose.
En effet, le fait de donner votre site comme corpus à ChatGPT, et de cocher une option pour lui demander de ne répondre qu’avec ce corpus, et pas avec le corpus Internet, va éviter les hallucinations et cadrer les échanges.
Par exemple, si votre site parle de décoration intérieure et qu’un internaute commence à questionner le chatbot sur la politique étrangère du Japon ou les meilleurs manières de cultiver des bananes, le chatbot répondra tout simplement qu’il ne sait pas, qu’il n’a pas le contexte.
Si vous le souhaitez, vous pouvez aussi cocher l’option pour qu’il réponde à la fois avec le corpus Internet et avec votre site.
Conclusion
En résumé :
- la recherche classique sur les sites web est techniquement dépassée
- chatGPT et d’autres modèles de langage peuvent dorénavant servir de moteurs de recherche internes, plus pertinents et plus interactifs
De nombreux métiers pourront tirer parti de cette fonctionnalité toute récente de chatbot interactif.





