Exploiter la puissance du modèle o1 en sciences physiques

Pratiquant le tennis de table depuis de nombreuses années, je me suis penché sur un phénomène bien connu des pongistes et surnommé “carotte”. Il s’agit d’un point qui se termine sur un coup “hasardeux” faisant tomber la balle sous sur la bande du filet, puis du côté adverse, soit sur l’une des trois arêtes de la demi-table adverse.

Un phénomène assez étonnant semble être la sur-proportion de balles hautes (coup de défense jouée par l’opposant) tombant sur l’arête de la table comme en témoigne cette compilation de la chaîne Monqui Pong. Simple hasard ou régularité statistique ? Y a-t-il une ou plusieurs explications scientifiques à cela ?

[NDA : il y aura deux manières de lire cet article, l’une portée sur le modèle d’intelligence artificielle utilsé, l’autre sur les aspects purement liés au tennis de table. Certains lecteurs seront sans doute intéressés par les deux !]

Pour nous aider, nous allons faire appel au plus doué des modèles de langage : o1 de la société OpenAI. Ce modèle a la particularité d’avoir intégré les chaines de pensée (chain of thought) lors de son entrainement et donc de pouvoir reproduire des raisonnements complexes.

On a souvent entendu dire que les modèles de fondation ne disposaient pas d’une connaissance physique du monde et c’est pourquoi les générateurs d’images ou de vidéos pouvaient produire des aberrations physiques ou mécaniques, choquant ainsi notre perception humaine.

Rappelons-nous toutefois que nous sommes tous passés par la phase expérimentale du jet d’objets depuis notre chaise haute de bébé pour tester la gravité universelle ! C’est cette expérience continue du quotidien qui nous permet ensuite de considérer les lois physiques comme “naturelles” et si évidentes.

Déploiement du modèle o1 dans Azure

Le modèle o1 est à ce jour (janvier 2025) disponible dans les régions East US2 et Sweden Central, en mode “Global Standard”. Afin de réaliser le déploiement, il est nécessaire de remplir un formulaire de demande d’accès.

Le modèle dispose de connaissances allant jusqu’à octobre 2023, il connaît donc les dimensions officielles d’une table de ping-pong ainsi que les caractéristiques des balles plastiques.

Comparaison des réponses entre o1 et ChatGPT

Probabilité de toucher l’arête

Testons un premier prompt qui donner la probabilité de toucher l’arête de la demi-table adverse.

Soit une table de ping-pong vue de dessus, aux dimensions officielles. En posant l’hypothèse que l’arête de la table mesure 1 millimètre, quelle est la probabilité que la balle touche l’une des trois arêtes de la table adverse ? On considèrera une répartition uniforme des balles sur la table, sauf si d’autres lois mathématiques permettent de modifier cette hypothèse.

Pour répondre à cette question, il faut d’abord préciser les dimensions officielles d’une table de ping-pong : elle mesure 2,74 m de long et 1,525 m de large. Le filet la partage en deux moitiés égales, chacune de 1,37 m × 1,525 m. Vue de dessus, « la table adverse » peut donc être modélisée par un simple rectangle de 1,37 m sur 1,525 m, dont on veut connaître la probabilité qu’un point (où la balle atterrit) se trouve à 1 mm ou moins d’une des trois arêtes extérieures (on ne compte pas le côté du filet).

Aire totale de la demi-table

L’aire A de la demi-table est A = 1,37 m × 1,525 m = 2,08825 m².

Aire « au bord » de chacune des arêtes

Les deux arêtes latérales (longueur 1,37 m) :

chacune est bordée, sur toute sa longueur, d’une bande de largeur 0,001 m (1 mm). L’aire d’une telle bande vaut donc 1,37 m × 0,001 m = 0,00137 m²

et comme il y en a deux, l’aire totale pour ces deux côtés est 2 × 0,00137 m² = 0,00274 m².

L’arête du fond (largeur 1,525 m) : elle est bordée d’une bande de même largeur (1 mm), d’aire 1,525 m × 0,001 m = 0,001525 m².

En additionnant ces aires, on obtient 0,00274 m² + 0,001525 m² = 0,004265 m². Cependant, on compte deux fois les petites zones de recouvrement dans les deux coins (là où une arête latérale et l’arête du fond se croisent). Chacune de ces zones de recouvrement est un carré de côté 1 mm = 0,001 m, donc d’aire 0,001 m × 0,001 m = 1×10⁻⁶ m². Il y a deux coins, donc une aire totale de 2 × 1×10⁻⁶ m² = 2×10⁻⁶ m² à soustraire une fois de la somme précédente.

La « surface au bord » corrigée vaut donc

S_bord = 0,004265 m² − 2×10⁻⁶ m² = 0,004263 m²

(en pratique, la différence est très faible).

Probabilité de toucher un bord

Si l’on suppose que la balle « atterrit » de façon uniforme sur la demi-table (hypothèse simplificatrice), la probabilité P de toucher l’une des trois arêtes extérieures est le rapport

P = S_bord / A

soit

P ≈ 0,004263 m² / 2,08825 m² ≈ 0,00204.

En pourcentage, cela donne environ 0,00204 × 100 % ≈ 0,20 %.

RÉPONSE

Sous l’hypothèse d’une répartition uniforme des balles et en négligeant les effets du filet, la probabilité qu’une balle touche l’une des trois arêtes extérieures de la demi-table adverse est d’environ 0,2 %.

Le modèle o1 nous propose un raisonnement se décomposant en différentes étapes permettant d’arriver à une conclusion. Chacune de ces étapes comporte des calculs mathématiques dont les valeurs peuvent être reprises aux étapes suivantes. Nous sommes bien loin des premiers balbutiements du modèles GPT 3.5 avec les chiffres !

Les logs de l’appel au modèle nous renseigne sur les tokens utilisés. La facturation portera sur les tokens utilisés dans le prompt (la question), la complétion (la réponse) mais également lors des étapes de raisonnement qui ne sont pas visibles pour l’utilisateur.

“completion_tokens”: 3233,
“prompt_tokens”: 111,
“total_tokens”: 3344,
“completion_tokens_details”: {
“accepted_prediction_tokens”: 0,
“audio_tokens”: 0,
“reasoning_tokens”: 2304,
“rejected_prediction_tokens”: 0

Les tokens de raisonnement ne sont pas visibles via l’API mais ils seront en revanche bien facturés ! La société OpenAI justifie ceci dans cette documentation.

L’appel au modèle o1 peut, de temps en temps, ne pas donner de réponse en raison de la longueur de la réponse qui dépasse le paramètre par défaut (4096 tokens). Les logs seront alors comme tels.

“finish_reason”: “length”,
“index”: 0,
“logprobs”: null,
“message”: {
“content”: “”,
“refusal”: null,
“role”: “assistant”}

Les paramètres sont visibles dans l’interface Azure.

En Python, le code ci-dessous modifie la valeur maximale pour la complétion.

max_completion_tokens=8192

LLa question similaire soumise à ChatGPT, dans sa version gratuite, nous donne la réponse suivante :

Nous remarquons une première erreur de raisonnement puisque ce n’est pas la demi-table de l’adversaire qui est considérée mais bien le côté complet (2,74m). Le modèle o1 a bien évité cette erreur.

Les pongistes retiendront que sur 1000 balles tombant “au hasard” sur la demi-table adverse, deux seulement devraient toucher l’arête.

Hypothèse de l’attraction des corps

Une idée (farfelue ?) déjà entendue dans une salle de ping est que l’attraction de deux corps (la table et la table) “détournerait” la balle d’une trajectoire sortante pour qu’elle vienne frôler l’arête de la table. Soumettons donc cette question à o1, à l’aide du prompt ci-dessous.

Soit une table de ping-pong vue de dessus, aux dimensions officielles. On définit comme une “carotte” l’impact de la balle sur une des tranches supérieures de la demi-table de l’adversaire. L’attraction des corps entre la balle et l’arête est-elle suffisante pour attirer une balle tombant d’une certaine hauteur et augmenter la probabilité d’une carotte ? Utilise le poids et la dimension officiels d’une balle.

Pour répondre à cette question, il faut évaluer l’ordre de grandeur de la force d’attraction gravitationnelle entre la balle et l’arête de la table, puis comparer cette force à d’autres forces en jeu (en particulier le poids de la balle), afin de déterminer si elle est significative.

Données de base

Masse d’une balle de tennis de table (officielle) : m_b = 2,7 g = 2,7×10⁻³ kg
Diamètre d’une balle : environ 40 mm
Masse typique d’une demi-table (en considérant le cadre + panneau) : on peut estimer une cinquantaine de kg pour simplifier (m_t = 50 kg), même si cela peut varier.
Constante de gravitation universelle : G ≈ 6,67×10⁻¹¹ N·m²·kg⁻²
Accélération de la pesanteur : g ≈ 9,81 m·s⁻²

Le poids de la balle, c’est-à-dire la force qui l’attire vers le sol, vaut :

F_poids = m_b × g = 2,7×10⁻³ × 9,81 ≈ 2,65×10⁻² N

Force gravitationnelle entre la balle et l’arête

Si l’on modélise (de façon très grossière) la portion de table à proximité de l’arête comme un « bloc » de masse m_t, et que la distance entre le centre de la balle et le bloc soit de l’ordre du centimètre (r = 0,01 m), la force gravitationnelle F_g entre la balle et la table se calcule par la loi de Newton :

F_g = G × (m_b × m_t) / r²

Substituons les valeurs (en prenant m_t = 50 kg, r = 0,01 m) :

F_g = 6,67×10⁻¹¹ × (2,7×10⁻³ × 50) / (0,01)²

= 6,67×10⁻¹¹ × (1,35×10⁻¹) / 10⁻⁴

= 6,67×10⁻¹¹ × 1,35×10⁻¹ × 10⁴

Faisons l’estimation pas à pas :

1,35×10⁻¹ = 0,135

6,67×10⁻¹¹ × 0,135 ≈ 9×10⁻¹² (en arrondissant)

Multiplié par 10⁴ donne à peu près 9×10⁻⁸ N

Autrement dit : F_g ≈ 9×10⁻⁸ N

Comparaison à d’autres forces

Le poids de la balle est d’environ 2,65×10⁻² N.

La force gravitationnelle due à l’arête de la table : ≈ 9×10⁻⁸ N.

On constate que F_g est plus d’un million de fois plus faible que le poids de la balle (un rapport d’environ 10⁻⁶). Même en tenant compte d’approximations (distance un peu plus courte, table un peu plus massive, etc.), il est clair que cette force d’attraction est négligeable : elle ne peut pas « attirer » la balle de manière significative pour favoriser un rebond sur l’arête.

Conclusion

L’attraction gravitationnelle entre la balle de ping-pong et l’arête de la table est extrêmement faible comparée au poids de la balle et aux autres forces (rebond, frottements de l’air, etc.). Elle n’influence donc pratiquement pas la trajectoire. Autrement dit, non, cette attraction ne peut pas augmenter la probabilité de réaliser une « carotte » (rebond sur l’arête supérieure).

En pratique, le fait qu’une balle tombe sur l’arête résulte surtout de la trajectoire initiale, de la vitesse, de l’effet (spin) éventuel, et bien sûr d’un peu de hasard — mais pas d’une quelconque « force d’attraction » exercée par l’arête de la table.

Les pongistes ne retiendront donc pas cette hypothèse d’attraction entre la table et la balle.

[NDA : ici s’arrête l’article pour les personnes qui ne s’intéressent qu’à l’intelligence artificielle. Les pongistes peuvent continuer.]

Augmenter la probabilité d’une carotte ?

Au gré des échanges avec ChatGPT, j’ai soumis le prompt suivant, lui laissant libre cours pour proposer ses solutions.

Soit une table de ping-pong vue de dessus, aux dimensions officielles. On définit comme une ‘carotte’ l’impact de la balle sur une des arêtes supérieures de la demi-table de l’adversaire ou bien le fait d’accrocher le filet et de retomber sur la demi-table adverse. Propose-moi une ou plusieurs approches basées sur les lois de la physique pour augmenter la probabilité d’une carotte.

Une proposition attire mon attention.

Cette excellente vidéo disponible sur la chaîne ARTE vous apprendra tout sur l’effet Magnus.

Mais y aurait-il un impact d’une hauteur initiale plus grande sur la trajectoire de la balle l’amenant à toucher le bord de table ? La question mérite d’être étudiée mais on peut la reformuler différemment. En effet, il est quasi impossible pour l’adversaire de remettre une balle qui toucherait l’arête mais n’aura pas un rebond “vers le haut”. La balle effleure l’arête et prolonge alors sa course vers le sol. Le prompt suivant formule cette question.

Soit une table de ping-pong vue de dessus, aux dimensions officielles. On définit comme une ‘carotte’ l’impact de la balle sur une des arêtes supérieures de la demi-table de l’adversaire ou bien le fait d’accrocher le filet et de retomber sur la demi-table adverse. Etablis une démonstration scientifique pour identifier les caractéristiques nécessaires à la balle (vitesse, hauteur, rotation, surface de contact avec la table…) pour ne pas rebondir vers le haut lorsqu’elle tombe sur l’arête de la demi-table adverse.

D’un point de vue purement physique, l’« effet carotte » (c’est‐à‐dire le fait qu’une balle de ping‐pong percute l’arête supérieure de la demi‐table adverse et « glisse » au lieu de rebondir vers le haut) peut s’analyser comme un choc avec un obstacle situé au bord de la table, combiné à des effets de frottement et de rotation. L’objectif est de déterminer les conditions (vitesse, hauteur, rotation, etc.) pour que la composante verticale finale de la vitesse de la balle (dans le repère de la table) soit nulle ou dirigée vers le bas, de sorte que la balle ne « saute » pas mais « file » au ras de la table.

Modélisation du système

Repères et hypothèses simplificatrices

On se place dans un repère où le plan de la table coïncide avec le plan (x,y), et l’axe z est vertical (z>0 vers le haut).

L’arête supérieure (ou le bord) de la demi‐table adverse est schématiquement modélisée comme un « coin » horizontal dont l’arête est à z=0.

La balle (de rayon R) entre en contact avec l’arête à un instant t₀, avec une vitesse (vectorielle) du centre de gravité V = (Vₓ, Vᵧ, V𝓏) et une rotation ω = (ωₓ, ωᵧ, ω𝓏).

On suppose un choc partiellement inélastique caractérisé par un coefficient de restitution e < 1 dans la direction normale au plan de contact, et l’existence d’une force de frottement (coefficient µ) dans la direction tangentielle.

Contact et normal de choc

Au moment du contact, la normale de choc n → est (en première approche) dirigée horizontalement ou légèrement vers le haut/vers le bas selon la géométrie réelle de l’arête (on peut l’assimiler à une surface verticale ou oblique).

Toutefois, on retiendra l’idée générale : il y a toujours une décomposition de la vitesse relative de la balle au point de contact entre :

– Composante normale Vₙ = V · n → (scalaire)

– Composante tangentielle Vₜ = V − (Vₙ n →)

Décomposition du choc et conditions de rebond

Coefficient de restitution (choc normal)

Le changement de la composante normale de la vitesse s’écrit, dans le cas d’un choc central simple avec coefficient de restitution e :

Vₙ′ = − e Vₙ

où Vₙ est la composante normale de la vitesse juste avant l’impact, et Vₙ′ celle juste après.

Si e < 1, la vitesse normale est réduite en amplitude et inversée de sens (rebond « inélastique »).

Dans l’idéal (e=0), la balle « s’écrase » complètement dans la direction normale et ne repart pas (aucune composante normale après le choc).

Frottement et transfert de rotation

Le point de contact subit également une force tangentielle de frottement Fₒₜ. Dans le cas d’une balle en rotation, l’effet du frottement peut être décomposé en :

Une force tangentielle (au point de contact) qui modifie la composante tangentielle de la vitesse du centre de gravité.
Un couple de frottement qui agit sur la balle et modifie sa rotation.

Suivant le signe de ω et la direction de la vitesse tangentielle, la balle peut :

Accélérer (ou décélérer) dans la direction tangentielle,
Augmenter (ou diminuer) sa rotation.

Le frottement peut donc contribuer à « plaquer » la balle vers le bas si la rotation et la direction du frottement s’y prêtent (par exemple, balle avec un backspin approprié).

Condition pour « ne pas repartir vers le haut »

On souhaite que la composante verticale finale V𝓏′ de la balle (après la
collision) soit ≤ 0. Or, V𝓏′ résulte :

De la restitution dans la direction normale (si la normale de contact a une composante verticale),

Des effets du frottement (la force tangentielle peut avoir une composante verticale si la géométrie de l’arête l’impose, ou si la balle « mord » légèrement le haut de la table),

De la modification de la rotation qui peut influer sur la direction de glissement. En schématisant la direction normale au choc comme ayant un angle α par rapport à l’horizontale (α = 0 si la surface de contact est parfaitement verticale), la composante verticale de la vitesse normale finale devient :

V𝓏′(normal) =(− e |Vₙ|) sin α ,

alors que la composante tangentielle (considérant un frottement µ et un bras de levier R pour la balle) peut générer une correction ∆V𝓏′(tan
gent) dépendant du couple et de la vitesse tangentielle initiale. Au premier ordre, on écrit souvent :

|∆V𝓏′(tangent)| ≈ f ( µ, Vₜ, ω, R )

La condition pour que le résultat global soit V𝓏′ = V𝓏′(normal) + ∆V𝓏′(tangent) ≤ 0 nous donne l’inégalité à satisfaire :

(− e |Vₙ|) sin α + f(µ, Vₜ, ω, R) ≤ 0

Le terme f(µ, Vₜ, ω, R) peut être soit positif, soit négatif, selon le sens du frottement et l’effet de la rotation (backspin, topspin, etc.).

Analyse qualitative des paramètres requis

Pour qu’il n’y ait pas de rebond vers le haut, plusieurs conditions pratiques se dégagent :

Composante verticale initiale (avant choc) faible ou négative :

– Si la balle arrive presque horizontalement (V𝓏 < 0, c’est‐à‐dire légèrement en descente), le choc peut la contraindre à poursuivre vers le bas ou à rester rasante.

– Si la balle a une composante verticale trop grande vers le bas, elle risque d’impacter fortement l’arête et rebondir (même si c’est un rebond faible, il peut y avoir un « saut » vers le haut).

Vitesse horizontale élevée et angle rasant :

– Une forte vitesse horizontale (Vₓ ou Vᵧ) diminue le temps de contact et réduit l’élévation éventuelle post‐choc.

– Plus l’angle d’incidence est rasant (de faible α par rapport à la table), plus la balle est « glissante » au contact, ce qui favorise l’effet « carotte ».

Rotation adaptée :

– Un backspin (rotation « rétro ») approprié crée une composante tangentielle au contact qui, couplée au frottement, peut appliquer à la balle un effort dirigé vers le bas.

– Un topspin (rotation « avant ») a tendance au contraire à faire remonter la balle après contact si la friction agit dans le sens de faire rouler la balle sur la table.

Coefficient de restitution et frottement :

– Un matériau de la balle et/ou de la table avec un coefficient de restitution faible (e petit) limite l’énergie renvoyée à la balle dans la direction normale : le rebond est donc plus « amorti ».

– Un coefficient de frottement suffisant (µ) peut consolider l’effet d’adhérence, permettant de convertir une partie de la vitesse tangentielle en couple et de tirer la balle vers le bas si la rotation le permet.

Conclusion pratique

Pour qu’une balle de ping‐pong ne rebondisse pas vers le haut en touchant précisément l’arête supérieure de la demi‐table adverse (et qu’elle « glisse » ou « tombe » sur la table au lieu de « sauter »), il faut réunir :

Une incidence suffisamment rasante (faible hauteur de chute ou vitesse essentiellement horizontale).
Un coefficient de restitution globalement faible dans la direction du choc (e petit dans la mesure du possible).
Une rotation (typiquement un backspin ou une rotation « latérale adéquate ») qui, par le frottement, aide à orienter la résultante du choc vers le bas ou à annuler la composante verticale finale.
Une vitesse verticale descendante minimale (ou nulle) juste avant l’impact pour éviter un choc normal trop fort qui renverrait la balle vers le haut.

En pratique, cela se traduit souvent par un geste très précis : la balle frôle littéralement l’arête, arrive avec un léger effet rétro ou latéral, et voit son énergie de rebond absorbée par la combinaison du choc inélastique et du glissement/frottement sur l’arête ou le filet. Ainsi, elle ne « saute » pas mais poursuit sa course rase sur la demi‐table adverse, réalisant alors la fameuse « carotte ».

Voici les tokens qui auront été nécessaires pour développer cette démonstration :

“completion_tokens”: 4014,
“prompt_tokens”: 143,
“total_tokens”: 4157,
“completion_tokens_details”: {
“accepted_prediction_tokens”: 0,
“audio_tokens”: 0,
“reasoning_tokens”: 1920,
“rejected_prediction_tokens”: 0

A vous maintenant de jouer pour décortiquer cette réponse ou bien de retourner jouer… à la table ! Et surtout, n’oubliez pas de vous excuser après une “carotte”.

Ajouter GitHub Copilot à Visual Studio Code

Les modèles de langage ont rapidement prouvé que s’ils pouvaient exploiter le langage naturel des humains, ils pouvaient aussi être très doués pour la programmation. Les premiers modèles dédiés au code sont donc assez vite apparus et se sont tout naturellement intégrés au sein des IDE (Integrated Developement Environment). Des études ont démontré l’impact très fort sur le travail quotidien des développeurs.

Microsoft propose ainsi GitHub Copilot dans son produit Visual Studio Code. Jusqu’ici (décembre 2024), l’outil était soumis à une licence payante. Mais une annonce récente de Satya Nadella a dévoilé sa mise à disposition gratuite pour tous les utilisateurs disposant d’un compte personnel, gratuit également, sur le site GitHub.com. Nous allons voir comment activer GitHub Copilot, dans cette nouvelle version.

Vérifiez tout d’abord que vous avez reçu un email provenant de l’adresse no-reply@github.com sur votre adresse vous servant d’identifiant sur GitHub.

Cliquez sur le lien “Start using Copilot” inclus dans ce mail.

Vous recevrez alors un second email expliquant le processus pour démarrer l’outil GitHub Copilot.

L’interface GitHub Copilot apparaît alors dans un navigateur web.

Nous pouvons alors commencer à interagir avec le Copilot.

Il faut noter qu’il est possible de choisir le LLM qui sur lequel s’appuyera GitHub Copilot. Alors que la toute première version utilisait le modèle Codec d’OpenAI, nous bénéficions maintenant de l’avancée des LLM généralistes et de leur capacité à comprendre et produire du code.

Voici le cadre d’utilisation offert par Microsoft:

2 000 compléments de code par mois
50 messages Copilot Chat par mois (comprendre le code, refactoriser ou à déboguer un problème…)
Choisir entre Claude 3.5 Sonnet et OpenAI GPT-4o.
Apporter des modifications à plusieurs fichiers avec Copilot Edits
Accéder à des agents tiers conçus pour des tâches telles que l’interrogation de Stack Overflow ou la recherche sur le web avec Perplexity.

Les IDE suivants permettent l’utilisation de GitHub Copilot.

Nous retrouvons les différents paramétrages de GitHub Copilot dans le menu Settings du compte personnel GitHub, sur l’URL https://github.com/settings/copilot.

Par défaut, GitHub n’utilise pas vos données pour entrainer d’autres modèles d’intelligence artificielle.

Installer GitHub Copilot dans VS Code

Nous sommes alors redirigés vers la page de téléchargement de l’extension GitHub Copilot:

https://marketplace.visualstudio.com/items?itemName=GitHub.copilot

Cliquez ici sur le bouton “Install” qui lancera alors Visual Studio Code.

Authentifiez-vous à l’aide du bouton “Sign in to GitHub.com”. Le petit icone symbolisant Copilot est maintenant visible en bas à droite de l’écran. En cliquant sur ce bouton, nous déroulons les commandes relatives à GitHub Copilot dans la barre de recherche de l’IDE.

Quelques commandes

Même si le principe général des Copilots est d’interagir en langage naturel, il existe quelques commandes utiles pour réaliser des actions précises, précédées par un slash.

Le contexte à prendre en compte est précisé par un mot-clé précédé d’un dièse.

Copilot Edits

Copilot Edits permet de réaliser des modifications sur un ou plusieurs fichiers de l’espace de travail (workspace), sur la base d’instructions données en langage naturel.

Dans l’exemple ci-dessous, nous demandons au Copilot de créer un fichier de tests unitaires pour les fonctions développées dans le fichier passé en référence.

Un nouveau fichier apparaît alors dans l’espace de travail. Les boutons “accept” et “discard” permettent de valider ou refuser les propositions faites par Copilot.

Les assistants de programmation sont devenus en quelques mois des outils incontournables, véritablement accélérateurs pour les débutant.e.s et support du quotidien pour les plus expérimenté.e.s. Avec cette offre gratuite, Microsoft démocratise leur usage.

Connecter ChatGPT à Wikipedia

Combien de femmes ont occupé ou occupe le poste de Premier ministre en France ? Posons la question à ChatGPT (version 3.5) sur le site public d’OpenAI.

C’est peut-être la question qui est biaisée, car le nom de la fonction n’est pas féminisé ! Nous pouvons reformuler ainsi, dans une nouvelle session :

Même si ChatGPT “oublie” ici Edith CRESSON, nous notons surtout que ce modèle est entrainé avec sur un dataset allant jusqu’à septembre 2021. Tout événement postérieur lui est donc inconnu. Il est fort peu probable que la société OpenAI se destine à entrainer de manière continue un modèle aussi gigantesque (175 milliards de paramètres !). Nous devons donc trouver une autre manière de “connecter” ChatGPT à l’actualité.

Nous allons nous tourner vers le site Wikipedia dont les pages sont alimentées très rapidement et dont le nombre de contributeurs et modérateurs permet de d’assurer un niveau satisfaisant de véracité.

Au moyen de la fonctionnalité Prompt Flow de Azure Machine Learning, nous allons déployer le démonstrateur “Ask Wikipedia“.

Prompt flow est un outil qui permet d’enchainer différentes tâches (le flow) dont des tâches de prompt et d’appel à un Large Language Model (LLM), mais aussi des scripts Python. Nous avons donc la possibilité de réaliser rapidement un développement qui deviendra par la suite un endpoint HTTPS, au travers d’un déploiement similaire aux modèles traditionnels d’Azure Machine Learning.

Interface de Prompt Flow dans le studio Azure Machine Learning

Un flow débute par une entrée (input) et se termine par une sortie (output). Les entrées et sorties des briques intermédiaires permettent de relier les différentes tâches entre elles. Il est également possible d’ajouter des inputs qui sont en fait des paramètres d’une étape du flow (par exemple des variables de fonctions Python). Nous allons détailler le flow développé ici.

input : il s’agit de la question posée. Il serait intéressant de détecter la langue de la question pour adapter ensuite différents éléments (prompt ou URL de recherche)
best_intent (élément ajouté par rapport au template généré automatiquement) : la question formulée par l’utilisateur peut ne pas être la forme la plus efficace pour des moteurs de recherche optimisés pour les mots clés ou les expressions. Nous utilisons ici un modèle GPT de type Da Vinci pour reformuler la question et dégager l’intention de l’utilisateur
get_wiki_url : liste des URLs données par le moteur de recherche Wikipedia en réponse aux mots clés définis à l’étape précédente
search_result_from_url : extraction des premières phrases de chaque page grâce au parser de la librairie Python BeautifulSoup
process_search_result : concaténation des résultats précédents en une chaîne de texte, alternant les balises “Content” et “Source”
augmented_qna : interrogation d’un LLM à partir d’un system message et des contextes obtenus ci-dessus

Nous allons maintenant réaliser une série de tests pour savoir si le flow est en capacité de trouver la bonne réponse à notre question initiale, à savoir deux femmes : Edith CRESSON et Elisabeth BORNE.

Pour adapter la recherche à notre contexte en langue française, l’URL de recherche de Wikipedia a été rendue dynamique et se construit à l’aide d’un paramètre (input) nommé “culture”.

Optimisation des paramètres du flow

Les paramètres dont nous disposons sont :

le nombre d’URLs retenues sur la page de search de Wikipedia (max_urls)
le nombre de phrases retenues par page, en commençant par le début de la page (max_sentences)
le modèle utilisé pour formuler la réponse à partir des sources (deployment_name) qui conditionne le paramètre suivant
le nombre de tokens admis dans le prompt où sont concaténés les phrases extraites des pages (max_tokens)

Test n°1 (valeurs par défaut)

count_urls : 2
count_sentences : 10
deployment_name : GPT-3.5-turbo
max_tokens : 8192

"Aucune femme n'a occupé le poste de Premier ministre en France jusqu'à présent."

Mauvaise réponse ! Mais en regardant le détail des phrases relevées par le flow, nous voyons qu’aucune référence à Edith CRESSON ou Elisabeth BORNE n’y figure. Elargissons le périmètre de recherche sur Wikipedia en retentant 10 URLs.

Test n°2

count_urls : 10
count_sentences : 10
deployment_name : GPT-3.5-turbo
max_tokens : 8192

"Il y a eu deux femmes qui ont occupé le poste de Premier ministre en France : Édith Cresson de mai 1991 à avril 1992 et Élisabeth Borne depuis mai 2022. SOURCES: https://fr.wikipedia.org/w/index.php?search=Premier+ministre+fran%C3%A7ais"

La réponse est bonne, la source également mais… ce n’est pas l’extrait de cette page qui a permis au LLM de formuler la bonne réponse ! En effet, sur des extraits de 10 phrases, seule la page https://fr.wikipedia.org/w/index.php?search=Élisabeth+Borne donne l’information suffisamment rapidement. Notons ici que le moteur de recherche de Wikipedia a été assez “intelligent” pour aller chercher la page de la Première ministre actuelle, en cinquième lien.

Pour trouver la bonne réponse dans la source citée, nous devons augmenter le nombre de phrases retenues par page.

Test n°3

count_urls : 5
count_sentences : 200
deployment_name : GPT-3.5-turbo
max_tokens : 8192

 OpenAI API hits InvalidRequestError: This model's maximum context length is 8192 tokens. However, your messages resulted in 16042 tokens. Please reduce the length of the messages.

Message d’erreur ! En effet, nous ramenons un contexte trop long par rapport au modèle utilisé. Il faut donc changer de modèle, soit pour un nouveau GPT-3.5-turbo, acceptant 16k tokens, soit pour GPT-4 32k.

Test n°4

count_urls : 5
count_sentences : 200
deployment_name : GPT-4
max_tokens : 32768

"Deux femmes ont occupé ou occupent le poste de Premier ministre en France : Édith Cresson en 1991 et Élisabeth Borne en 2022. SOURCES : https://fr.wikipedia.org/w/index.php?search=Femmes+ministres+en+France, https://fr.wikipedia.org/w/index.php?search=Élisabeth+Borne"

Nous obtenons ici les sources correctes pour la réponse. Il faut préciser que le premier lien parle bien du “Gouvernement Elisabeth BORNE” mais le LLM ne semble pas faire le lien avec le rôle de Premier ministre.

En effet, en reformulant la question de la sorte : “En France, combien de femmes ont été cheffe du gouvernement ?”, nous obtenons une réponse correcte. Le lien Wikipedia donne d’ailleurs les différents intitulés de ce poste au cours de l’Histoire.

La plus grande difficulté réside ici dans la récupération des informations pertinentes lorsque le corpus à disposition est volumineux (il faut alors un outil de search efficace) puis lorsque les informations rapportées dépassent le nombre de tokens maximum d’un prompt. Une étape supplémentaire pourrait alors être ajoutée pour résumer les phrases obtenues de chaque page, afin de les fournir au prompt final. Comme il n’existe à ce jour (juillet 2023) pas de logique de boucle dans Prompt Flow, il serait nécessaire d’appeler l’API du service Azure OpenAI directement dans le script Python, en se passant de la connexion définie.

Modèle biaisé ou utilisateur à former ?

En conclusion, on pourrait s’arrêter sur le fait qu’il est possible de trouver la bonne réponse… du moment qu’on la connaît ! Ce serait bien sûr réducteur, cet article vise à montrer la nécessité de disposer de jeux de tests significatifs et de ne pas s’arrêter à la première réponse obtenue, puis de rester critique vis à vis d’informations données par le combo LLM + search. Mais ne sommes-nous pas face aux mêmes limites quand nous nous arrêtons aux premiers liens obtenus dans Google Search ou quand nous ne lisons pas l’entièreté d’un article ?

Maintenant, quelle responsabilité vis à vis du biais de représentation des femmes faut-il accorder aux différentes parties de cette expérience ?

ChatGPT, dans sa version 3.5 tout public, ne pouvait avoir connaissance de la nomination d’Elisabeth BORNE, intervenue après sa phase d’entrainement
L’article Wikipedia le plus “pertinent” (au sens de l’algorithme de recherche) présente bien la titulaire actuelle dès le début de la page mais dans une zone plus difficile à lire pour les fonctions Python utilisées (voir copie d’écran ci-dessous)
L’approche historique de l’article contient les informations récentes en fin de page, à une distance en tokens plus complexe à gérer selon la version du LLM utilisée

https://fr.wikipedia.org/wiki/Premier_ministre_fran%C3%A7ais

Résultats avec le nouveau Bing

Voici le résultat de la question initiale, soumise à Bing, augmenté par le modèle GPT-4. Cette interface fournit également les liens sources de la réponse.

Elisabeth BORNE n’a pas été comptabilisée mais il faut noter que, par défaut, c’est le mode “More Balanced” qui est utilisé.

En se plaçant sur le mode “More Precise“, la bonne réponse est enfin obtenue !

D’ailleurs, le lien Wikipedia fourni ici est identique à celui qui a permis de trouver la bonne information précédemment, à savoir : Femmes ministres en France — Wikipédia (wikipedia.org).

Enfin, les résultats de recherche n’auraient-ils alors pas été meilleurs si le poste de Premier ministre avaient été occupé plus tôt par des femmes au cours des IIIe, IVe et Ve République ?

Pour aller (encore) plus loin

D’autres source que Wikipedia pourraient également être plus efficaces et disposer d’articles répondant plus directement à la question posée.

Prompt Flow propose de définir une connection vers le service SerpApi qui réalise des recherches sur Google et d’autres moteurs.

Quant au service Bard de Google, celui-ci fournit la réponse attendue dans chacune de ses suggestions.

Ajoutez vos données à ChatGPT

En décembre 2022, tout le monde ou presque s’est mis à interroger ChatGPT et à tester sa “culture générale” allant jusqu’à… sa date d’entrainement, située à début 2022. Impossible donc de savoir qui avait remporté la Coupe de Monde de la FIFA à l’été 2022 !

Très rapidement, les entreprises se sont projetées sur un cas d’usage professionnel : l’amélioration de la recherche au sein de leur documentation interne. En effet, il existe bien souvent des montagnes de fichiers Word ou PDF, contenant des trésors d’informations, restées inexploitées car les mécanismes de recherche ne pouvaient les atteindre. Et lorsque la recherche est efficace, il est bien utile de disposer d’un bot capable de reformuler, synthétiser, vulgariser ou encore traduire les résultats les plus pertinents.

Le 19 juin 2023, une nouvelle fonctionnalité dédiée à ce scénario est apparue dans Azure OpenAI Service. Voici comment l’utiliser.

Nous allons ici déposer deux fichiers PDF, l’un en anglais, l’autre en français, contenant des procédures informatiques.

Depuis le playground Azure OpenAI, dans le menu Chat (conversation), nous trouvons un nouvel onglet “Add your data (preview)“.

Les aspects de sécurité de vos données et la gestion de la modération de la discussion sont présentés dans la documentation officielle de Microsoft.

Il est important de comprendre que le chargement de ses propres documents n’entraine pas de fine-tuning du modèle. Une revue des couples prompts – completions peut être faite par Microsoft mais il est possible de demander la désactivation de cette revue et donc du stockage temporaire des échanges avec le bot. Voici le formulaire de demande : https://aka.ms/oai/modifiedaccess

Cliquons sur le bouton “Add a datasource”.

Nous disposons de trois sources possibles mais toutes aboutiront à un index Azure Search. Il est en effet possible de sélectionner :

un index Azure Cognitive Search déjà réalisé
le container d’un Azure Blob Storage
l’upload de fichiers locaux dans… un Azure Blob Storage

Cette dernière fonctionnalité sera utile si les utilisateurs n’ont accès qu’au playground du service Azure OpenAI.

Les fichiers du container sont alors indexés en tâche de fond.

Il faut bien comprendre qu’il s’agit ici, pour l’instant, d’un index basé sur les mots clés (keywords) ou bien le semantic search si cette fonctionnalité a été ajoutée dans Azure Cognitive Search. Nous ne parlons donc pas pour l’instant d’embeddings ni de vector search.

La case à cocher “Limit responses to your content” permet de s’assurer que le modèle n’ira pas chercher d’informations complémentaires dont il disposerait déjà, lors de son entrainement initial.

En analysant l’exemple de code proposé dans l’interface, nous ne remarquons rien de particulier : pas de nouvel “engine” (ici GPT 3.5 turbo et la fonctionnalité ne semble pas disponible avec GPT-4), pas de nouvelle méthode (ChatCompletion.create en Python).

Il y a donc un mécanisme sous-jacent qui transmet à l’API les bonnes informations issues du search pour réaliser la réponse du bot. En interrogeant les logs d’Azure Search, nous pouvons retrouver la requête soumise.

Le queryLanguage ne s’adapte pas et reste en “en-us”.

Une rapide vérification des paramètres permet de voir que la température est à 0, afin d’assurer l’aspect déterministe du modèle et donc d’espérer obtenir les mêmes réponses lorsque l’on répète les questions.

Nous allons utiliser le bouton “Deploy to…” pour créer une application web qui portera la fonctionnalité de chat sur les données. Une authentification par Azure Active Directory sera nécessaire.

L’application est maintenant déployée (il sera possible de la mettre en pause, depuis le portail Azure).

EDIT : le code source de cette application est disponible sur ce repo GitHub.

Si la question ne trouve pas réponse dans les documents indexés, le bot ne fournit pas de réponse.

En conclusion, voici les éléments qui limitent encore cet outil et pourraient vous convaincre de réaliser vous-même votre application avec des frameworks comme LangChain ou Semantic Kernel (voir cet article de Kévin BEAUGRAND) :

le search sur des vecteurs d’embedding n’est pas encore disponible (mais arrivera prochainement)
le search n’intègre pas la langue dans le paramètre de la requête émise par l’application (la recherche multilingue s’avère délicate)
il est nécessaire de déplacer tous les documents dans Azure Blob Storage
en cas d’évolution du contenu des documents, il faut regénérer complètement les index
l’application se conforme au choix du bouton “Limit responses to your content” mais il n’est pas possible de le changer dynamiquement, une fois l’application déployée
les documents cités comme sources ne peuvent pas s’afficher dans l’application
les citations ne semblent pas toujours pertinentes (voir illustration ci-dessous)
EDIT sur discussion avec Nicolas ROBERT : les documents contenant des images devraient passer par un processus d’OCR, par exemple avec Azure Form Recognizer

Notons tout de même qu’il s’agit là d’un accélérateur particulièrement efficace pour démontrer les performances des modèles GPT sur des corpus de documents.

Structurer une conversation en JSON à l’aide d’un prompt GPT-4

La donnée non structurée est partout autour de nous : texte, image, son, vidéo… rien de cela ne tient dans une base de données SQL ou NOSQL. Les grands modèles de langage comme GPT-4 sont une aubaine pour structurer les corpus de texte, et en particulier les conversations entre plusieurs personnes, desquelles il faudra extraire quelques informations bien structurées.

Nous allons ici tester différents prompts sur le dialogue ci-dessous, tenu dans un contexte bancaire, entre un client, une employée et un banquier. L’objectif principal sera de produire un fichier JSON avec plusieurs informations relatives au client.

L’employée : – Bonjour, que puis-je faire pour vous ?
Le client : – Bonjour Madame, je souhaite ouvrir un compte.
L’employée : – Bien, alors vous devez prendre rendez-vous avec un conseiller clientèle.
Le client : – Et dois-je apporter des papiers ?
L’employée : – Oui, il faut apporter un justificatif de domicile, une facture d’électricité ou de téléphone par exemple.
Le client : – Oui, et c’est tout ?
L’employée : – Non, il faut une pièce d’identité, carte d’identité ou passeport si vous êtes étranger.
Le client : – Bien. Et combien ça coûte ?
L’employée : – À la BG, c’est gratuit et il n’y a pas de somme minimum à verser.
Le client : – C’est parfait ! Est-ce que je peux prendre un rendez-vous maintenant ?
L’employée : – Bien sûr ! Pouvez-vous revenir demain à 15 h 30 ? Le client : – Oui, c’est possible. L’employée : – Très bien. Alors vous avez rendez-vous avec monsieur Didier Desmarais.
Le client : – D’accord, merci et au revoir.
L’employée : – Je vous en prie, au revoir.
Le conseiller : – Bonjour monsieur, je suis Didier Desmarais. Asseyez-vous.
Le client : – Bonjour monsieur, je m’appelle Frank Bayer et je viens pour ouvrir un compte.
Le conseiller : – Bien, alors, tout d’abord est-ce que vous avez les documents nécessaires ?
Le client : – Oui, j’ai tout apporté.
Le conseiller : – Parfait, je les photocopie et ensuite je vous explique tout.
Le conseiller : – Alors, nous allons ouvrir un compte courant pour les opérations de tous les jours, vous pouvez déposer ou retirer des espèces, faire virer votre salaire, verser des chèques ou émettre des chèques, recevoir ou émettre des virements, ou encore effectuer des retraits ou payer par carte. Vous recevrez un relevé de compte (la liste des opérations effectuées sur le compte pour une période déterminée) tous les mois (gratuit) ou tous les 15 jours (service payant).

Cette conversation est issue de ce site dédié à l’apprentissage de la langue française.

Nous débutons par un premier prompt qui vise à expliquer comment se structure le dialogue et quelles sont les informations recherchées.

Tu es un assistant IA qui aide à résumer un dialogue entre plusieurs personnes. Chaque personne sera citée en début de phrase et suivi par le signe :.
Tu produiras un fichier JSON contenant les informations suivantes : nom du client, prénom du client, date du rendez-vous, heure du rendez-vous, nom du conseiller et sous forme imbriquée, les documents fournis puis les services souscrits. Tu pourras ensuite répondre à des questions spécifiques sur la conversation.

Le premier résultat est assez satisfaisant mais il peut être amélioré. La date est donnée à “demain” et n’est donc pas contextualisée. Le modèle GPT-4 n’a pas pas accès à l’information de la date du jour, nous devons la préciser dans le prompt. Ensuite, les services souscrits sont trop détaillés. Nous allons donc fournir dans le prompt un exemple de la structure JSON attendue, en nous inspirant tout simplement de la première itération réalisée.

Tu es un assistant IA qui aide à résumer un dialogue entre plusieurs personnes. Chaque personne sera citée en début de phrase et suivi par le signe :.
Tu produiras un fichier JSON contenant les informations suivantes : nom du client, prénom du client, date du rendez-vous, heure du rendez-vous, nom du conseiller et sous forme imbriquée, les documents fournis puis les services souscrits. Tu pourras ensuite répondre à des questions spécifiques sur la conversation. Le fichier JSON devra être structuré de la sorte :
{
"nom_client": "PETON",
"prenom_client": "Paul",
"date_rendezvous": "2023-01-08",
"heure_rendezvous": "09h30",
"nom_conseiller": "Jérôme KERVIEL",
"documents_fournis": {
"justificatif_domicile": "facture d'électricité",
"piece_identite": "carte d'identité"
},
"services_souscrits": {
"compte_courant"}
}
La date de rendez-vous devra être interprétée en considérant que nous sommes aujourd'hui le 17 mai 2023.

C’est beaucoup mieux ! Nous avons résolu les deux problèmes identifiés.

Il reste une interprétation de la part du modèle quant aux documents fournis. Ceux-ci sont les documents cités par l’employée et nous ne savons pas si le client a fourni une facture d’électricité ou bien de téléphone. Il serait préférable que le modèle ne donne l’information que si celle-ci est réellement fiable.

Nous pouvons compléter le précédent prompt de la sorte :

Les documents fournis devront correspondre à ce que le client déclare et non ce que propose la banque. Si ce n'est pas le client qui donne l'information, indiquer "Ne Sait Pas" dans le fichier JSON.

Modifions légèrement le dialogue pour vérifier la robustesse de ce prompt.

Le client cite explicitement les pièces.

Le conseiller cite explicitement les pièces, sans ambiguïté.

Terminons par une série de questions / réponses sur le dialogue. Ici, le modèle GPT-4 est à son aise.

Cette démarche fonctionne ici très bien car le dialogue tient dans la limite des 32000 tokens autorisés par le modèle GPT-4. Pour des corpus de texte plus long, nous devrons utiliser une autre approche, qui sera détaillée dans de prochains articles sur ce blog.

Comment ChatGPT a résolu les énigmes KustoQL

Ou plus exactement, les modèles de langage GPT peuvent-ils réussir les défis de la Kusto Detective Agency, ce défi lancé par Microsoft en 2022, autour du langage KustoQL (KQL) et des clusters Azure Data Explorer ?

Il s’agit en effet d’un triple défi pour le modèle d’IA : résoudre une énigme en langage naturel et faire le lien avec le modèle de données, puis répondre en langage KQL.

Echauffement avec ChatGPT

La première épreuve consiste à calculer la somme d’une colonne numérique dans une table ne contenant que cette colonne.

Nous allons tout d’abord tester ChatGPT au travers du site de la société OpenAI, dans son accès public. C’est donc le modèle GPT-3.5 qui est utilisé.

Aucun problème pour ce robot ! Nous obtenons la bonne syntaxe et il suffit de la lancer sur le cluster provisionné.

Enigme “The rarest book is missing!“

Nous poursuivons avec la première véritable énigme. Il s’agit d’identifier, dans une bibliothèque, l’étagère d’où a disparu le livre “De Revolutionibus Magnis Data”. Pour cela, nous pouvons utiliser des informations sur le poids des livres et le poids total de chaque étagère, à laquelle est rattachée la liste des livres qu’elle contient. Le prompt peut être composé de la sorte :

Here is an enigma 
""" This was supposed to be a great day for Digitown’s National Library Museum and all of Digitown.
The museum has just finished scanning more than 325,000 rare books, so that history lovers around the world can experience the ancient culture and knowledge of the Digitown Explorers.
The great book exhibition was about to re-open, when the museum director noticed that he can't locate the rarest book in the world:
"De Revolutionibus Magnis Data", published 1613, by Gustav Kustov.
The mayor of the Digitown herself, Mrs. Gaia Budskott - has called on our agency to help find the missing artifact.

Luckily, everything is digital in the Digitown library:
- Each book has its parameters recorded: number of pages, weight.
- Each book has RFID sticker attached (RFID: radio-transmitter with ID).
- Each shelve in the Museum sends data: what RFIDs appear on the shelve and also measures actual total weight of books on the shelve.

Unfortunately, the RFID of the "De Revolutionibus Magnis Data" was found on the museum floor - detached and lonely.
Perhaps, you will be able to locate the book on one of the museum shelves and save the day?
"""
Complete the following code to resolve the enigma.
"""
.execute database script <|
// Create table for the books
.create-merge table Books(rf_id:string, book_title:string, publish_date:long, author:string, language:string, number_of_pages:long, weight_gram:long)
// Import data for books
// (Used data is utilzing catalogue from https://github.com/internetarchive/openlibrary )
.ingest into table Books ('https://kustodetectiveagency.blob.core.windows.net/digitown-books/books.csv.gz') with (ignoreFirstRecord=true)
// Create table for the shelves
.create-merge table Shelves (shelf:long, rf_ids:dynamic, total_weight:long) 
// Import data for shelves
.ingest into table Shelves ('https://kustodetectiveagency.blob.core.windows.net/digitown-books/shelves.csv.gz') with (ignoreFirstRecord=true)
"""

ChatGPT se lance alors dans un commentaire de code.

A la fin de la réponse, nous apprenons juste que les données pourraient nous permettre de résoudre l’énigme…

GPT-4 à la rescousse

Nous allons donc utiliser la version suivante du modèle GPT : GPT-4 32k ! Pour cela, nous utiliserons le playground du service Azure OpenAI.

Avec un prompt similaire à celui fourni à ChatGPT, voici la réponse obtenue.

La structure de la réponse est intéressante : le modèle d’AI explique sa démarche, propose un code KQL et ajoute une explication de ce code.

Malheureusement, ce code n’est pas fonctionnel et nous obtenons un message d’erreur.

Essayons tout simplement de copier-coller ce message d’erreur dans le chat.

Le modèle d’IA réagit et corrige son code. Celui-ci est maintenant valide mais ne renvoit pas de ligne, nous n’obtenons donc pas la réponse recherchée. Nous le signifions d’emblée dans la conversation et rappelons l’objectif de la recherche.

Cette fois-ci, le raisonnement semble plus évolué et le code plus structuré. Pour autant, celui-ci n’est toujours pas valide. Nous allons guider le modèle en lui donnant la marche à suivre.

Ca y est ! Nous avons maintenant un code valide et surtout… la bonne réponse !

Même si le résultat est bon, la démarche a pu paraître laborieuse et a nécessité une reformulation assez explicite de l’énigme. Nous allons voir s’il est possible d’être plus efficace en tunant le modèle.

Prompt engineering

Le modèle de conversation peut être amélioré en donnant un message système initial, suivi d’un ou plusieurs exemples (one or few-shot-learning).

Voici le prompt fourni.

You are an AI assistant who helps solve puzzles. The statement of the puzzle will be given after the [ENIGMA] tag. The data available to solve the puzzle is loaded using the Microsoft KustoQL (KQL) language. The loading code will be given after the [KQL] tag. You will detail your reasoning by commenting the KQL code produced.

L’exemple fourni est tout simplement le premier calcul proposé pour obtenir la somme d’une colonne et la réponse obtenue sous ChatGPT.

Voici maintenant la première réponse du modèle d’IA, lors de la soumission du prompt reformulé de la manière suivante :

[ENIGMA]  
This was supposed to be a great day for Digitown’s National Library Museum and all of Digitown.  
The museum has just finished scanning more than 325,000 rare books, so that history lovers around the world can experience the ancient culture and knowledge of the Digitown Explorers.  
The great book exhibition was about to re-open, when the museum director noticed that he can't locate the rarest book in the world:  
"De Revolutionibus Magnis Data", published 1613, by Gustav Kustov.  
The mayor of the Digitown herself, Mrs. Gaia Budskott - has called on our agency to help find the missing artifact.  
&nbsp;  
Luckily, everything is digital in the Digitown library:  
- Each book has its parameters recorded: number of pages, weight.  
- Each book has RFID sticker attached (RFID: radio-transmitter with ID).  
- Each shelve in the Museum sends data: what RFIDs appear on the shelve and also measures actual total weight of books on the shelve.  
&nbsp;  
Unfortunately, the RFID of the "De Revolutionibus Magnis Data" was found on the museum floor - detached and lonely.  
Perhaps, you will be able to locate the book on one of the museum shelves and save the day?  
[KQL]  
.execute database script <|  
// Create table for the books  
.create-merge table Books(rf_id:string, book_title:string, publish_date:long, author:string, language:string, number_of_pages:long, weight_gram:long)  
// Import data for books  
// (Used data is utilzing catalogue from https://github.com/internetarchive/openlibrary )  
.ingest into table Books ('https://kustodetectiveagency.blob.core.windows.net/digitown-books/books.csv.gz') with (ignoreFirstRecord=true)  
// Create table for the shelves  
.create-merge table Shelves (shelf:long, rf_ids:dynamic, total_weight:long)   
// Import data for shelves  
.ingest into table Shelves ('https://kustodetectiveagency.blob.core.windows.net/digitown-books/shelves.csv.gz') with (ignoreFirstRecord=true)

La logique semble bonne mais aucune ligne ne ressort. En regardant de plus près, la valeur de 10 grammes comme différence de poids semble trop restrictive. Nous pouvons en faire part au bot.

Cette fois-ci, c’est bon ! Le prompt engineering aura donc montré son efficacité.

En conclusion, il manque vraisemblablement une information pour que le modèle GPT-4 donne la bonne réponse du premier coup : une exploration des données qui aurait montré qu’il existe une marge d’erreur entre la somme du poids des livres et le poids total de l’étagère. Les Data Scientists ont donc encore un rôle à jouer mais pour combien de temps ?

Utiliser ChatGPT dans Azure

Après le “bourdonnement” mondial de ChatGPT, nous attendions d’accéder au modèle sous-jacent (GPT 3.5) au travers de la ressource Azure OpenAI. C’est désormais (mars 2023) possible et nous trouvons d’ailleurs un menu dédié à ChatGPT dans le studio Azure OpenAI. Nous allons pouvoir ici travailler l’adaptation du modèle générique à l’agent conversationnel que nous souhaitons mettre en œuvre.

L’interface présente trois panneaux :

la configuration (assistant setup), proposant plusieurs exemples
Chat session où il est possible de visualiser soit l’interface de discussion, soit la version brute des échanges de prompts et de complétion
Parameters : les hyperparamètres disponibles sur le modèle dont en particulier le nombre de messages de la session inclus dans le prompt complet (ce qui correspond à la “mémoire” de l’agent conversationnel

Utilisons le setup “Default” dans lequel nous allons renseigner le “system message” qui sera un préambule au prompt de l’utilisateur, permettant de spécifier les caractéristiques de l’agent conversationnel. Voici les recommandations données par l’interface pour renseigner cette boîte de dialogue.

Give the model instructions about how it should behave and any context it should reference when generating a response. You can describe the assistant’s personality, tell it what it should and shouldn’t answer, and tell it how to format responses. There’s no token limit for this section, but it will be included with every API call, so it counts against the overall token limit.

Nous allons spécifier ici un agent dédié à l’écriture de requêtes SQL.

En plus du contexte, il est possible d’ajouter des couples “user / assistant” donnant des exemples concrets du dialogue attendu.

Le fait de sauver les changements réalisés va démarrer une nouvelle session dans le panneau de chat.

Voici le “pré-prompt” inclus dans le début de la session.

Un nouveau prompt est soumis et la complétion se fait en respectant les directives.

Voici la suite de la discussion, cette fois dans un aperçu classique de l’interface de conversation.

Nous allons maintenant utiliser un contexte plus élaboré, toujours sur le scénario d’un assistant SQL. L’agent devra poser deux questions (majuscules ou minuscules, présence ou non d’un point-virgule).

I am a SQL enthusiast named sequel who helps people write difficult SQL queries. I introduce myself when first saying hello. When helping people out, I always ask them for this information to specify the query I provide:

Do you prefer lowercase or UPPERCASE
Should I close the query with a semicolon
I will then provide the query with carriage return after SELECT, FROM, WHERE, GROUP BY and ORDER BY.

Voici les premiers échanges avec cet agent.

Comme pour les autres modèles dans le studio Azure OpenAI, le code est toujours disponible afin de déployer cet agent.

Voici le code complet, utilisant les méthodes simples de la librairie openai.

#Note: The openai-python library support for Azure OpenAI is in preview.
import os
import openai
openai.api_type = "azure"
openai.api_base = "https://methopenai.openai.azure.com/"
openai.api_version = "2022-12-01"
openai.api_key = os.getenv("OPENAI_API_KEY")

# defining a function to create the prompt from the system message and the messages
def create_prompt(system_message, messages):
    prompt = system_message
    message_template = "\n<|im_start|>{}\n{}\n<|im_end|>"
    for message in messages:
        prompt += message_template.format(message['sender'], message['text'])
    prompt += "\n<|im_start|>assistant\n"
    return prompt

# defining the system message
system_message_template = "<|im_start|>system\n{}\n<|im_end|>"
system_message = system_message_template.format("I am a SQL enthusiast named sequel who helps people write difficult SQL queries. I introduce myself when first saying hello. When helping people out, I always ask them for this information to specify the query I provide:
1.	Do you prefer lowercase or UPPERCASE
2.	Should I close the query with a semicolon
I will then provide the query with carriage return after SELECT, FROM, WHERE, GROUP BY and ORDER BY.")

# creating a list of messages to track the conversation
messages = [{"sender":"user","text":"Hello, I am a newbie in SQL..."},{"sender":"assistant","text":" Hi there! I'm sequel, a SQL enthusiast. Nice to meet you! How can I help you today?"},{"sender":"user","text":"I would like to list the distinct values of sold products, included in the table \"sales\""},{"sender":"assistant","text":" to=python\nSure! Here's a query that should give you the distinct values of sold products from the \"sales\" table:\n\n```sql\nSELECT DISTINCT product\nFROM sales;\n```\n\nThis will return a list of all unique product names that appear in the \"sales\" table. Let me know if you prefer the query in lowercase or UPPERCASE and if you want me to close it with a semicolon."},{"sender":"user","text":"I prefer lowercase, stop shouting !"},{"sender":"assistant","text":" to=python\nMy apologies! Here's the query in lowercase:\n\n```sql\nselect distinct product\nfrom sales;\n```\n\nLet me know if you want me to add a semicolon at the end of the query."}]
response = openai.Completion.create(
  engine="my-gpt-35-turbo",
  prompt= create_prompt(system_message, messages),
  temperature=0.5,
  max_tokens=800,
  top_p=0.95,
  frequency_penalty=0,
  presence_penalty=0,
  stop=["<|im_end|>"])

En continuant la conversation, nous revenons sur les points demandés à l’agent : la casse et la présence d’un point-virgule.

Grâce à la “mémoire” de la session, nous arrivons à nos fins 🙂

En conclusion (et d’ici aux prochains évolutions… qui arriveront certainement dans un avenir très proche :)), nous avons ici un outil qui révolutionne la capacité à déployer un agent conversationnel avec un scénario de discussion encadré. Les arbres conversationnels et leur rigidité paraissent maintenant bien obsolètes… mais il reste à maîtriser ce nouvel art qu’est le prompt engineering !

La documentation officielle de Microsoft rappelle que :

LUIS will be retired on October 1st 2025 and starting April 1st 2023 you will not be able to create new LUIS resources.

Il ne serait pas étonnant de retrouver bientôt la puissance de ChatGPT au sein de Power Virtual Agent.

Utiliser l’API Azure OpenAI en Python

Nous avons vu dans un précédent post les possibilités des modèles basés sur GTP au travers du studio et du playground. Ce bac à sable n’est bien sûr destiné qu’à de premiers tests et une utilisation de l’inférence au sein d’une application se fera de manière programmatique, à l’aide de l’API de service disponible. (Il existe également une API dite de gestion pour la création, mise à jour ou suppression de la ressource Azure.)

Mais avant de nous lancer dans le code, nous allons réaliser un premier appel dans l’outil Postman.

Nous allons utiliser l’URL suivante, à compléter par les valeurs de paramètres :

YOUR_RESSOURCE_NAME : le nom de la ressource Azure OpenAI provisionnée
YOUR_DEPLOYMENT_NAME : le nom du déploiement de modèle (réalisé en amont dans le studio)
la version de l’API, exprimée sous forme de date (en février 2023, nous utilisons la version 2022-12-01)

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/completions?api-version=YYYY-MM-DD

Nous remarquons que l’URL se termine par le terme “completions“, nous sommes donc bien ici dans le scénario d’une prévision de texte par l’API

Il existe deux manières de s’authentifier :

clé d’API
jeton Azure Active Directory

Utilisons la clé d’API dans un premier temps, même s’il sera plus précis de passer par un jeton AAD, celui-ci étant lié au profil de l’utilisateur et donc à des droits mieux définis. Nous prenons soin tout de même de masquer la clé dans une variable de Postman.

Le corps (body) de la requête sera de type JSON (application/json) et devra contenir le fameux prompt soumis au modèle.

Au texte soumis “Postman is a tool for…“, nous obtenons une complétion “building APIs faster“, en quatre tokens (valeur précisée dans le body par le paramètre max_tokens). Il est intéressant de voir que chaque appel renvoie une nouvelle proposition.

Voici la syntaxe Curl correspondante.

curl --location 'https://methopenai.openai.azure.com/openai/deployments/davinci-summarize/completions?api-version=2022-12-01' \
--header 'Content-Type: application/json' \
--header 'api-key: ***' \
--data '{
  "prompt": "Postman is a tool for",
  "max_tokens": 4
}'

En Python, avec la librarie Request, nous obtenons le code ci-dessous.

import requests
import json

url = "https://methopenai.openai.azure.com/openai/deployments/davinci-summarize/completions?api-version=2022-12-01"

payload = json.dumps({
  "prompt": "Postman is a tool for",
  "max_tokens": 4
})
headers = {
  'Content-Type': 'application/json',
  'api-key': '***'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Pour utiliser l’authentification par jeton Azure Active Directory, nous devons réaliser deux étapes. Nous attribuons tout d’abord un rôle de type “Cognitive Services User” sur la ressource OpenAI.

Pour utiliser des lignes de commandes, voir cette documentation officielle.

Le token peut être obtenu par cette commande az cli :

az account get-access-token --resource https://cognitiveservices.azure.com | jq -r .accessToken

Le header de la requête devient alors, en remplacement de l’entrée api-key :

'Authorization': 'Bearer ***'

Il faut noter également qu’une librairie Python openai existe également. Le code pourra être généré automatiquement depuis le playground à l’aide du bouton view code. Les méthodes de cette librairie simplifient l’utilisation de la complétion et en particulier la spécification des hyperparamètres du modèle.

Découvrir Azure OpenAI et son studio

Lorsque votre souscription Azure aura été autorisée à déployer le service OpenAI (voir ce précédent article), vous pourrez accéder à l’écran ci-dessous.

Au cours de cet article, nous allons donner un premier aperçu des fonctionnalités disponibles et insister sur les différences entre le service OpenAI directement disponible et son intégration au sein du cloud Microsoft Azure.

Afin d’expérimenter les différents modèles, nous allons tout d’abord nous connecter au studio Azure OpenAI sur l’URL https://oai.azure.com/

La page d’accueil fournit de nombreux liens d’exemples et de documentation.

Nous retrouvons le playground de OpenAI et la possibilité d’expérimenter des prompts dans différents scénarios :

résumé
classification
génération de code
etc.

Nous ne retrouvons toutefois pas, pour l’instant (février 2023), l’intégralité des exemples proposés dans le playground d’OpenAI.

Déployer un modèle

C’est la première opération à réaliser afin de pouvoir utiliser les différents services : déployer l’un des modèles disponibles. Par défaut, aucun modèle n’est déployé dans le studio.

Il faut tout d’abord sélectionner l’un des modèles de base.

Une description rapide des différents modèles est donnée, afin d’aider à la sélection. Les modèles dédiés au langage naturel, dérivant de GPT-3, sont décrits dans cette partie de la documentation officielle.

Il est alors possible de retourner dans le playground et de sélectionner le déploiement réalisé.

Complétion de texte

C’est ici que l’expérience avec un modèle GPT-3 peut s’avérer déstabilisante. En effet, nous sommes face à un outil destiné à traiter le langage naturel et également à interagir de la sorte. Nous n’avons donc d’un simple prompt pour exprimer notre demande. Attention à l’angoisse de la page blanche !

Le résultat généré est identifié par un surlignage vert. On remarquera l’indicateur du nombre de tokens, correspondant à la longueur du texte contenu dans le prompt.

Le paramètre de température permet de gérer l’aspect stochastique du modèle (comprendre que les prévisions peuvent changer même avec un prompt similaire). Dans l’exemple ci-dessous, le résultat est généré trois fois, avec une température de valeur 1.

Write a original prompt for image generation with DALL-E 2

What would DALL-E draw if you asked it to generate an image of a "perfect day"?

What if DALL-E was asked to generate an image of a world where everyone was happy and there was no conflict?

What if the world was made of candy?

Premiers scénarios d’utilisation

Approprions-nous maintenant le terrain de jeu !

Résumé

On soumet un texte long afin d’obtenir un résumé.

L’intention est ici exprimée par le terme “Tl;dr:” (“trop long; n’a pas lu) mais pourrait être formulée d’une autre façon, par exemple en précisant le public cible.

Les guillemets encadrent ici la partie de texte à résumer.

Classification

Nous donnons tout d’abord l’intention, celle d’établir un classifieur. La dizaine d’exemples ci-dessous est issue d’un jeu de données connu sur le sujet.

Avec si peu de données d’entrainement, le résultat peut paraitre impressionnant mais n’oublions pas qu’il y a une chance sur deux de trouver la bonne réponse (pile ou face) ! Contrairement à un classifieur issu par exemple du framework Scikit-Learn, nous ne pouvons pas accéder à la probabilité d’appartenance à la classe.

Génération

Nous demandons une liste, donnons un exemple puis débutons la suite de la liste par le chiffre 2.

Attention, tous ces produits ne sont pas réellement Open Source !

Parsing de données non structurées

Peut-être l’illustration la plus surprenante, le moteur va réussir à mettre en tableau un texte donné en langage naturel.

Extraction d’information

A nouveau, nous donnons une description du document qui sera soumis entre guillemets.

Toutefois, en essayant le même prompt dans ChatGPT (basé sur GPT 3.5), nous obtenons une réponse tout à fait correcte !

Code view

Prenons maintenant l’exemple d’un résumé de texte, avec pour objectif d’utiliser cette fonctionnalité en dehors du studio Azure OpenAI.

Le code correspondant à cet appel dans le playground est disponible (en Python).

Ce code utilise la librairie Python openai (à installer avec la commande pip install) et nécessitera de connaître une des clés du service.

Pourquoi ne pas demander au modèle de générer un code Python appelant cette API ? Voici le résultat obtenu.

Nous ne disposons pas ici d’un quota suffisant pour que le code s’écrive en entier. L’utilisation de GitHub Copilot sera plus adaptée dans ce cas de figure.

En résumé (et sans l’aide de GPT-3 !), nous pouvons successivement déployer un modèle, l’expérimenter à l’intérieur du terrain de jeu (playground) puis déployer une application qui s’appuiera sur l’API mise à disposition par Azure OpenAI.

Avantages d’Azure pour OpenAI

Utiliser OpenAI au travers d’Azure donne accès à trois pratiques d’entreprise :

la disponibilité régionale
la mise en réseau privé
le filtrage de contenu d’IA responsable

Une logique d’accès par RBAC (Role Based Access Control) pourra également être mise en place, tout comme l’authentification par identité managée (MSI).

Le portail Azure permet également une gestion des clés d’API par rotation.

Bien sûr, l’utilisation au travers d’Azure engendre une facturation dont les modalités sont détaillées sur cette page. Les coûts seront engendrés par l’inférence (utilisation prédictive) des modèles ainsi que par leur personnalisation (entrainement de type transfer learning).

Cette réponse n’est pas juste ! N’oubliez pas que GPT-3 ne scanne pas le web pour répondre.

Veuillez également prendre en compte les quotas et limites appliquées. Une demande au support permettra de lever certaines de ces limites.

Choix de la région

A ce jour (février 2023), seules trois régions Azure sont disponibles.

L’utilisation de deux régions différentes permet d’assurer une continuité d’activité. Ainsi, si un datacenter vient à être indisponible dans une région, il est possible de basculer (par modification du endpoint) vers une autre région Azure.

Utilisation dans un réseau privé

L’utilisation d’un réseau privé sécurise l’accès au studio Azure OpenAI, qui devra par exemple se faire au travers d’un VPN.

Il est également possible d’enclencher le pare-feu Azure (firewall) et de n’autoriser qu’une liste d’adresses IP à accéder au studio OpenAI.

IA responsable

Outre les engagements pris au travers du formulaire de demande du service, la documentation de Microsoft nous incite à respecter les points suivants lors d’une intégration des services Azure OpenAI :

Mettre en œuvre une surveillance humaine significative.
Mettre en place des limites techniques strictes sur les entrées et les sorties afin de réduire la probabilité d’une utilisation abusive au-delà de l’objectif prévu de l’application.
Tester les applications de manière approfondie afin de détecter et d’atténuer les comportements indésirables.
Établir des canaux de feedback.
Mettre en œuvre des mesures d’atténuation (bias mitigation) supplémentaires propres à chaque scénario.

A termes (ce n’est pas aujourd’hui le cas), un filtrage de contenu supplémentaire sera mis en place par Microsoft. Celui-ci est décrit dans la documentation. Concrètement, un utilisateur proposant un prompt avec un contenu inapproprié recevra, à l’appel de l’API, un code erreur HTTP 400 et une description “content_filter” dans le corps de la réponse. Une demande au support permet d’activer dès à présent ce filtrage.

EDIT : le filtrage de contenu sera activé le 13 février 2023.

With our latest update we’re providing content filters with significant quality and precision improvements. We have adjusted the system to filter at higher severity levels with each category (Hate and Fairness, Sexual, Violence, Self-harm) and expanded coverage across other languages.
Once the filters are turned back on, the system will resume blocking harmful prompts and model generations.
email Azure OpenAI Support

S’inscrire au service OpenAI sous Azure

Est-il besoin de présenter la société Open AI dont le modèle GPT3 connaît une renommée planétaire, suite à la mise en service de ChatGPT ?

Au delà du buzz, des exemples humoristiques ou de la recherche des erreurs (souvent dans des cas d’utilisation pour lesquels il n’a pas été entrainé), nous disposons dorénavant d’un accès professionnel aux modèles d’Open AI sous Azure, et ce sous le statut de general availability (GA), c’est-à-dire avec tout le support et garantis de service (SLA) attendus.

Une recherche de “openAI” dans la barre du portail Azure nous donne accès à la création de notre première ressource Azure OpenAI. Il faut remarquer ici que ce service est catégorisé comme un service cognitif, services qui représentent l’intelligence artificielle “appliquée” au sein des services Azure.

Un descriptif du service est donné, citant ses principales fonctionnalités (résumé, génération de contenu ou de code) :

Enable new business solutions with OpenAI’s language generation capabilities powered by GPT-3 models. These models have been pretrained with trillions of words and can easily adapt to your scenario with a few short examples provided at inference. Apply them to numerous scenarios, from summarization to content and code generation.
Azure portal

A ce jour, le modèle GPT est disponible ainsi que CODEX qui s’exprime au travers de GitHub Copilot. La génération d’images grâce au modèle DALL-E est encore en préversion (preview) sous Azure.

Avant de pouvoir réellement accéder à la création du service, un avertissement est donné :

Azure OpenAI Service is currently available to customers via an application process. Request access to Azure OpenAI Service.

Un formulaire sera nécessaire pour obtenir le droit de créer une ressource Azure OpenAI. Au bout d’un délai de quelques jours, vous serez informés de l’approbation ou du rejet de votre demande. Nous allons ici détailler quelques-unes des 35 questions posées afin de bien comprendre les cas d’usage autorisés et les garde-fous posés par Microsoft.

Description des cas d’usage

Please explain how you will use Azure OpenAI Service in your application.

Please explain the data you will use,
how you plan to use the models,
how people will consume or interact with the outputs,
and more details about the domain or industry in which you will use the application.

PLEASE PROVIDE AT LEAST 5+ SENTENCES. IF YOUR USE CASE IS TOO SHORT OR TOO VAGUE, YOU WILL BE DENIED.

Il s’agit tout d’abord de décrire l’usage qui sera fait du service Azure OpenAI, sur un principe de “bout en bout” : données en entrée, modèle(s) utilisé(s) et interactions avec l’utilisateur. Le cas d’usage doit être suffisamment détaillé et il convient de préciser le domaine ou le secteur d’activités concerné, même si ce dernier point fera l’objet de la question suivante.

Ce paragraphe est particulièrement important et vous devez démontrer qu’une réflexion a déjà été élaborée autour de l’application que vous souhaitez développer. Lorsque vous achetez des outils dans un magasin de bricolage, vous avez sans doute déjà une idée de ce pour quoi vous allez les utiliser !

Domaine(s) d’utilisation

Applications in these domains may require additional mitigations and will be approved only if the customer demonstrates that the risks associated with the application are well-managed and outweighed by the beneficial uses.

Le terme à retenir ici est celui de mitigation (atténuation) que l’on emploie dans l’expression “bias mitigation” pour éviter la correction des biais possibles d’un modèle d’apprentissage. Outre la détection des biais, des actions devront être entreprises pour éviter l’effet néfaste qu’ils pourraient avoir sur les utilisateurs. Des librairies spécifiques existent pour cela comme le produit Open Source FairLearn, développé par Microsoft.

Les différents domaines “à risque” ou dits encore “à enjeux élevés” sont :

Law enforcement, legal, and criminal justice
Healthcare and medicine Government and civil services, such as essential private and public services Politics
Financial services and banking Social media
Management and operation of critical infrastructure
Pollution and emission management and control
Migration, asylum, and border control management
Education, vocational training, hiring, and employment, such as applications in consequential decision making that impacts one’s opportunities
Therapy, wellness, relationship coaching or forecasting, such as relationship advice or bots for companionship, emotional support, or romance
Military or intelligence
Other scenario that could have a consequential impact on legal position, life opportunities, or result in physical or psychological injury to an individual if misused
None of the above. The domain, industry, or scenario do not have the potential to have a consequential impact on legal position, life opportunities, or result in physical or psychological injury to an individual if misused

Il conviendra de cocher “None of the above” si aucun de ces domaines n’est concerné.

Fonctionnalités attendues

Il serait tentant de tout cocher dans cette question 26 ! En effet, vous avez sûrement beaucoup d’idées d’utilisation des services d’OpenAI mais il faut ici se limiter à ceux qui seront réellement utiles à votre cas d’usage décrit ci-dessus. Il est peu probable qu’un agent conversationnel (chatbot), dans un scénario d’entreprise, propose des images générées par DALL-E ! Soyez donc raisonnables sur les fonctionnalités demandées et si besoin, remplissez plusieurs formulaires, en isolant les applications.

Fonctionnalités spécifiques de l’agent conversationnel

Si vous avez coché la case “Conversational AI” à la question 26, vous devez préciser les fonctionnalités attendues pour l’agent conversationnel.

Attention à nouveau si vous prévoyez de déployer ce bot dans un domaine “à enjeux élevés”.

Acceptation des conditions d’utilisation

Enfin, il sera nécessaire d’approuver explicitement les conditions d’utilisation (“Yes, I agree“) énoncées dans les questions 29 à 35. C’est tout particulièrement sur l’usage en production que vous allez devoir vous engager.

Question 29

29. I understand that mitigations should be considered early in development and must be implemented prior to production.

N’attendez pas d’être en production pour atténuer les biais !

Question 30

30.My application will ensure human oversight prior to production.

This includes never automatically posting generated outputs and never automatically executing generated code. This may also include clearly disclosing AI’s role, communicating relevant limitations to stakeholders (including developers and end users), making sure people (e.g., end users) have a role in decision-making, highlighting inaccuracies in generated outputs, and letting people edit generated outputs.

Ce point nous alerte sur des chaines de CI/CD trop automatisées : un contrôle humain est nécessaire. (Si vous me connaissez bien, vous m’avez déjà entendu pester contre le Continuous Training :))

Question 31

31.My application will implement strong technical limits on inputs from end users and outputs from the system prior to production.

This increases the likelihood your application will perform as expected and decreases the likelihood it can be misused beyond its intended purpose. This may include limiting the length of inputs and outputs, exposing the service to end users through a front end, requiring that inputs and outputs follow a specific structure, returning outputs only from validated source materials, implementing blocklists or content filtering, and implementing rate limits.

En production, un contrôle fort sur les entrées et les sorties sera essentiel. Il s’agit par exemple d’éviter tout détournement de l’usage intial prévu. Ainsi, au démarrage de ChatGPT, il était possible de contourner certaines de ses limites en lui demandant de jouer un rôle.

Question 32

32.I will test my application thoroughly prior to production to ensure it responds in a way that is fit for the application’s purpose.

This includes conducting adversarial testing where trusted testers attempt to find system failures, undesirable behaviors such as producing offensive content, and ways that application can be misused by malicious actors beyond its intended purpose.

Non, tester n’est pas douter ! Ici, il s’agira même d’essayer de “hacker” votre propre application.

Question 33

33.My application will establish feedback channels for users and impacted groups prior to production.

This includes providing ways to report problematic content and misuse such as building feedback features into the user experience and providing an easy to remember email address for feedback submission.

A minima, votre application devra donner un contact simple, par exemple par email, aux utilisateurs qui souhaiteraient faire part de leur réaction. Au mieux, vous pourrez penser une vraie boucle de feedback (human feedback loop), qui vous servira à termes à améliorer le modèle et l’expérience utilisateur.

Question 34

34.My application will follow the Microsoft guidelines for responsible development of conversational AI systems prior to production.

Prenez connaissance des principes pour une IA responsable, donnés par Microsoft.

Question 35

35.I will resubmit this form for a production review before going into production.

Avant le passage en production, et surtout si des changements sont apparus par rapport à l’expression du cas d’usage intial, il sera nécessaire de soumettre à nouveau le formulaire.

Maintenant que vous connaissez les conditions à remplir, vous voilà prêts à décider si l’expérience Azure OpenAI est une opportunité pour vous et votre organisation !