Le plugin WordPress AI Engine de Jordi Meow : rédaction web et chatbot par IA

Table des matières

Présentation

Le plugin WordPress AI Engine, codé par le productif développeur Jordi Meow, est un trésor de fonctionnalités d’intelligence artificielle, en connexion avec OpenAI.

C’est un plugin freemium, donc il est gratuit pour des fonctions de base mais devient payant pour des fonctions avancées.

Il nécessite d’avoir un compte OpenAI, et de payer les calculs à l’origine des réponses de ChatGPT. Pour info générer un article coûte dans les 0,001€ pour l’instant, donc le coût reste modique, mais il pourrait devenir plus important dans un des scénarios d’usage les plus intéressants d’AI Engine : le fine-tuning d’un modèle personnalisé. On va y revenir plus loin.

Voir la fiche d’AI Engine sur le répertoire WordPress

AI Engine comme rédacteur d’articles de blog et de fiches-produit

Description générale

Une fois installé sur votre site WordPress et votre compte OpenAI connecté par API, AI Engine peut servir de rédacteur web.

Le plugin s’intègre dans votre administration WordPress et, reproduisant l’interface d’édition d’articles, avec quelques champs en plus, il vous propose de remplir automatiquement les champs d’édition avec du contenu écrit par ChatGPT.

Concrètement, les champs ainsi générables sont :

titre de l’article ou de la page ou de la fiche-produit
texte de l’article ou de la page ou de la fiche-produit
extrait / meta description

Générer un article avec AI Engine

Il suffit de se rendre sur la page du « mwai content generator« , de fournir un « topic » (un thème, un sujet, un mot-clé), et de régler un certain nombre de paramètres :

Content params / paramètres de contenu

Il s’agit de :

la langue (français, anglais, allemand, italien, espagnol, etc)
le style (informatif, descriptif, créatif, narratif, persuasif, réflexif, etc… il y en a 11 en tout)
le ton (neutre, formel, affirmatif, joyeux, humoristique, inspirant… il y en a 17 en tout)

Post params / paramètres d’article ou de page

Il s’agit en fait du type de post WordPress : page, article, produit, custom post type, etc.

Model params / paramètres d’article ou de page

Il y a 3 paramètres dans cette catégorie :

température : le degré de probabilité de la réponse (0 donnera une réponse très standard, 1 donnera une réponse plus farfelue)
max tokens : le nombre de tokens que vous voulez consacrer à la réponse (plus vous attribuez de tokens, meilleure est la réponse mais plus elle coûte cher)
modèle : le modèle avec lequel vous voulez générer votre texte (turbo, gpt-4, gpt-4-32k, davinci-003, curie-001, babbage-001, ada-001, et vos propres modèles fine-tunés)

Prompt

Vous pouvez éditer chaque prompt qui par défaut est rédigé en anglais. Il vaut mieux les traduire en français et les adapter à la personnalité de votre site.

AI Engine - Interface d'édition du générateur d'articles — AI Engine – Interface d’édition du générateur d’articles

Paramètres du texte

Au centre de l’interface d’écriture, vous avez aussi 2 menus déroulants qui vous permettent de définir

le nombre de sections (de parties, avec des titres H2)
le nombre de paragraphes par section

Génération du post WordPress

Ensuite, vous n’avez plus qu’à cliquer sur Generate et une giclée de secondes plus tard, vous obtenez votre post WordPress.

Vous devrez probablement réécrire si vous voulez que votre article ranke sur Google, du moins cet outil permet de considérablement accélérer votre activité de création de contenu.

AI Engine comme chatbot ChatGPT personnalisé, avec fine-tuning de dataset

On peut utiliser le plugin AI Engine pour personnaliser un chatbot, sur son site web public ou sur un Intranet, après une étape de fine-tuning de dataset.

Pour ceux qui trouvent que je parle trop bien chinois, laissez-moi vous expliquer de quoi il s’agit car c’est très intéressant.

Le fine-tuning d’un modèle de langage comme ChatGPT, c’est l’opération qui consiste à nourrir le modèle avec vos propres données.

Ce sont ces données, formatées d’une manière particulière, qu’on nomme « dataset » – littéralement, « jeu de données » en anglais.

En effet, il est facile d’installer un chatbot ChatGPT sur son site, mais celui-ci répond avec comme dataset son corpus venu d’Internet.

En d’autres termes, il répond avec un savoir qui n’est pas du tout le vôtre, et si vous lui demandez par exemple quelles sont les caractéristiques des produits de votre entreprise, ou le numéro de téléphone de votre service client, il y a de fortes chances pour que ces données ne fassent tout simplement pas partie de son corpus, et donc qu’il ne sache pas répondre.

En lui fournissant vos propres datasets, vous pouvez lui transférer une partie du savoir propre à votre organisation – entreprise, asso, administration etc. Ensuite, vous pouvez l’interroger ou laisser votre public l’interroger, et il aura réponse à tout – dès lors que la question de l’utilisateur contient une réponse dans le dataset.

Créer un dataset

C’est là que les choses se compliquent.

La création d’un dataset doit en effet être faite à la main, et nécessite de créer long tableau contenant des centaines de lignes, voire idéalement de 3 à 5000 lignes.

Ce tableau comportera 2 colonnes :

Les prompts / les questions possibles
Les bonnes réponses

Dans sa documentation, Jordi Meow explique :

Les données sont essentiellement une feuille de calcul avec deux colonnes : le prompt et la réponse. Dans le cas d’un chatbot, nous pouvons simplifier le concept et penser qu’il s’agit d’une question et d’une réponse. Le type de données, la façon dont elles sont écrites et formatées dépendent fortement de l’objectif et du type d’application. Mais dans notre cas, il s’agira d’un chatbot, et j’essaierai de faire en sorte que ce soit simple et facile à comprendre.
Pour recueillir vos données, commencez par rassembler toutes vos pages, votre contenu et toutes les idées qui vous viennent à l’esprit. Essayez de créer un fichier, ou plusieurs fichiers, sans formatage HTML ou autres éléments inutiles. Si vous avez accès à la version gratuite de ChatGPT, utilisez-la pour générer un grand nombre de questions et de réponses basées sur votre contenu. Rassemblez les données dans une feuille Google avec les deux colonnes, et assurez-vous de les réviser et de les perfectionner. Un ensemble de données doit comporter un minimum de 500 lignes pour offrir des résultats utiles, et bien plus si vous souhaitez obtenir de meilleurs résultats. Selon la documentation de l’OpenAI, des nombres de 3 000 et 5 000 lignes sont recommandés. Mais cela dépend en fin de compte de ce que vous essayez d’obtenir.

Constituer un tel fichier dataset est une tâche chronophage donc coûteuse.

Néanmoins, faites le calcul : si vous payez déjà un-e employé-e à répondre à des questions qui reviennent en boucle, autant payer cet employé à écrire l’essentiel des réponses, laisser votre chatbot ChatGPT y répondre, et consacrer le temps de travail de votre employé à répondre à des cas particuliers et à des questions très complexes.

De plus : Jordi Meow a pensé à tout et son plugin AI Engine intègre une fonctionnalité de création automatique de dataset à partir de pages web.

Le dataset generator

Le dataset generator, ou générateur de jeux de données, fonctionne ainsi :

vous lui donnez des urls ou tout un site
et il constitue une base de données de 30 questions par article

Concrètement, le dataset generator d’AI Engine envoie chacun de vos articles à ChatGPT avec un prompt disant en gros « écris-moi 30 questions dont les réponses se trouvent dans cet article ».

Donc si vous lui donnez un site contenant 100 pages, vous vous retrouvez avec 3000 paires de question + réponse, de quoi entraîner le modèle à avoir réponse à tout !

Utiliser le generator

Pour accéder au générateur :

allez sur la page AI Engine du plugin
puis dans l’onglet Finetunes
puis cliquez sur le bouton Model finetune (il se transformera en bouton Dataset builder pour revenir au constructeur de dataset)
puis cliquez sur Entries generator
puis cliquez sur Single generate (test) ou sur Run bulk generate

L’option Single generate permet de tester l’outil en donnant une url individuelle : il renvoie 30 questions / réponses.

L’option Run bulk generate, permet de lancer l’outil à l’échelle de tout un site, avec la possibilité de ne traiter que certains types de pages : les articles, les pages, les produits ou d’autres « custom post page ».

Cette opération peut vous consommer pas mal de tokens OpenAI donc faites attention à ce que vous faites.

Formater le dataset

Ensuite, vous devez gérer un souci de format : en effet pour donner des paires question / réponse à l’API d’Open AI en tant que dataset, il faut que ce dataset soit formaté d’une certaine manière : le texte, puis un alinéa, puis ###, puis un autre alinéa.

Heureusement, Jordi Meow a traité cela aussi et vous permet de formater des milliers de paires question / réponse en un clic :

retournez sur Entries editor
cliquer sur Format with Defaults

Et voilà le tour est joué !

Uploader le dataset vers OpenAI

Il ne reste qu’à transférer votre fichier vers les serveurs d’OpenAI. Le fichier doit être au format JsonL mais une fois de plus, Jordi Meow fait le job pour vous.

Donnez simplement un nom plus parlant à votre fichier – vous le retrouverez juste après dans la liste de vos datasets, donc il vaut mieux que le nom soit explicite et précis. (N’enlevez surtout pas l’extension .jsonl à la fin du nom !)

Cliquez sur le bouton Upload to OpenAI, et cela envoie votre fichier à OpenAI, qui va l’analyser et l’utiliser pour fournir des réponses.

Entraîner le modèle ChatGPT avec vos datasets

Maintenant que vous avez fourni un ou plusieurs datasets à OpenAI, il est temps de fine-tuner ChatGPT à proprement parler.

Attention, cette étape est la plus consommatrice de tokens de toutes.

Choisir et paramétrer le modèle

Vous pouvez choisir le modèle sur lequel vous voulez fine-tuner votre dataset :

davinci
curie
babbage
ada

Davinci est le meilleur mais aussi le plus cher.

Jordi Meow recommande d’utiliser plutôt curie, au moins pour essayer.

Vous pouvez aussi personnaliser deux hyper-paramètres :

epoch désigne un cycle complet d’entraînement du modèle ; le nombre par défaut est 4 ; plus un modèle est entraîné meilleur il est, en théorie
batch_size est le pourcentage d’éléments du dataset qui servira à l’entraînement à chaque passe, 0,2% par défaut, avec un maximum de 256 éléments

Lancer le fine-tuning

Quand vous avez fini de paramétrer, lancez le fine-tuning. En fonction de la taille de vos datasets, cela peut prendre des heures voire des jours. Jordi parle d’environ 1h pour 500 paires question / réponse.

Cliquez sur le bouton Train model dans l’onglet Model fintune / Datasets.

Quand le fine-tuning s’achève, vous pouvez commencer à utiliser votre modèle de chatbot.

Utiliser votre modèle fine-tuné

Rendez-vous sur l’onglet Chatbots de la page AI Engine.

Là, dans la section AI Settings, cherchez et sélectionnez le nom du modèle que vous avez fine-tuné dans les étapes précédentes, et cochez bien la case Casually Fine-Tuned.

Vous pourrez aussi configurer d’autres réglages comme le nombre de tokens à utiliser par réponse, ou la longueur maximum des questions.

Quand votre config est prête, vous pouvez copier le shortcode en haut à droite de cet onglet chatbots. Cela ressemble à ça :

[mwai_chatbot_v2 id= »default »]

Conclusion

Voilà, j’espère que ce tuto vous aura intéressé et appris des choses.

Le secteur des chatbots personnalisés et en général des applications de ChatGPT est en plein boom. AI Engine est une des manières parmi d’autres de faire du fine-tuning. Les plus geeks programmeront leurs propres logiciels en Python ou en Langchain. Et ceux qui veulent une efficacité immédiate passeront par mon offre de Chatbot GPT4 !

Le plugin WordPress AI Engine de Jordi Meow : rédaction web et chatbot par IA

Présentation