« ChatGPT, peux-tu travailler à la Bibliothèque de l’Assemblée nationale? »

Au printemps 2023, la Bibliothèque de l’Assemblée nationale s’est penchée sur les usages possibles de ChatGPT dans un contexte professionnel et sur la pertinence pour ses différents services de recourir à cet agent conversationnel. Après une période d’expérimentation qui s’est déroulée sur environ 4 mois, 8 types de tests et 70 essais, le Groupe de travail sur l’intelligence artificielle de la Bibliothèque vous présente ses conclusions.

Audrey Houle
Catherine Lanouette
Véronique Boucher-Lafleur
Service de la recherche

CONTEXTE

Inspirée par la vague de changements technologiques qui transforment plusieurs industries à travers le monde et soucieuse de l’optimisation de ses processus de travail, la Direction de la Bibliothèque de l’Assemblée nationale a amorcé au printemps 2023 la réflexion sur les usages potentiels de l’intelligence artificielle générative dans ses activités.

À cet effet, la Direction de la Bibliothèque a formé un groupe de travail composé de personnes issues de l’ensemble de ses services. Le Groupe de travail sur l’intelligence artificielle a reçu le mandat d’étudier et de mesurer les capacités et les usages potentiels de ChatGPT au sein de la Bibliothèque. Créé par la compagnie OpenAI, ChatGPT est un agent conversationnel qui intègre les modèles linguistiques d’intelligence artificielle. ChatGPT peut effectuer des tâches très variées comme la rédaction de documents, des réponses à des questions factuelles ou la traduction de textes^[1].

Plusieurs raisons militent pour le choix d’un tel outil dans le cadre de cette démarche comme sa disponibilité, sa rapidité et ses avancées en matière de traitement du langage naturel. Or, dès sa sortie, ChatGPT a été la cible de plusieurs critiques en raison notamment de la validité de l’information produite et du fait qu’il ne cite pas ses sources dans ses réponses.

Dans ce texte, Première lecture vous offre un survol du Rapport produit par le Groupe de travail sur l’intelligence artificielle. Il présente la méthodologie, discute des résultats et conclut avec des pistes de réflexion sur l’intelligence artificielle.

MÉTHODOLOGIE

La méthodologie du Groupe de travail repose sur une démarche participative. Les enjeux éthiques et sociaux entourant l’intelligence artificielle requièrent une approche qui met l’être humain au centre des démarches. Pour le Groupe de travail, il était primordial d’impliquer le personnel dans toutes les étapes du projet afin de s’assurer que le rapport final parle d’une seule voix, celle de la Bibliothèque de l’Assemblée nationale. Cette approche participative se décline en deux volets : les groupes de discussion et la phase expérimentale.

Les groupes de discussion

Le Groupe de travail a organisé des périodes de discussion dans chaque service et équipe de la Bibliothèque du 10 au 17 mai 2023^[2]. Au total, quatre rencontres d’une durée de soixante minutes se sont tenues en format hybride. Ces rencontres avaient pour but d’échanger avec le personnel de la Bibliothèque sur ses connaissances de ChatGPT et de l’intelligence artificielle, les façons dont ces technologies pourraient être intégrées à son travail, ses critiques et ses préoccupations face à l’outil.

Les résultats de ces travaux sont concluants. Les employées et employés de la Bibliothèque ont participé en grand nombre et les échanges ont permis au Groupe de travail d’établir des bases solides pour les étapes subséquentes du mandat. Plus d’une trentaine de panélistes ont pris part aux groupes de discussion. Plusieurs ont fait part de leurs inquiétudes sur la fiabilité des données et l’impossibilité d’identifier les sources d’information utilisées par ChatGPT. Dans cette perspective, des personnes se demandent si l’usage de ChatGPT est une véritable économie de temps. D’autres ont fait part de leur préoccupation sur la sécurité de l’information et sur la possibilité réelle d’intégrer une telle technologie dans l’environnement de travail numérique de l’Assemblée nationale.

Il a aussi été question du sens à donner à son travail. La monotonie que peut entraîner le travail de collaboration avec l’IA a été soulevée, de même que la préoccupation que le rôle de l’humain se résume à vérifier le travail de la machine. Un point de vue inverse a toutefois été amené : faire le choix d’effectuer une tâche qui peut être réalisée par une machine ne semble pas valorisant pour tous.

On a aussi discuté de la pertinence de ChatGPT. Des membres du personnel ont souligné que ChatGPT n’est pas une solution technologique pertinente pour leur travail. Considérant les limitations du logiciel, il n’a pas les caractéristiques appropriées pour réaliser plusieurs tâches comme la numérisation de documents et le graphisme. Selon plusieurs personnes, des solutions plus spécialisées d’intelligence artificielle semblent avoir un potentiel d’utilisation plus probant que ChatGPT. Certaines personnes considèrent qu’une licence privée de ChatGPT pourrait offrir de meilleures perspectives pour leur travail.

En somme, les groupes de discussion ont démontré que l’appréciation de ce type de technologie varie au sein des effectifs de la Bibliothèque. L’arrivée d’une telle technologie dans un environnement de travail suscite des questionnements sur la redéfinition du travail, la confidentialité des données et la pertinence même de l’intelligence artificielle.

La phase expérimentale

À la suite des échanges avec les groupes de discussion, le Groupe de travail a déterminé des usages potentiels de ChatGPT pour chaque service de la Bibliothèque. Certains ont été testés durant la phase expérimentale, le deuxième volet méthodologique de l’étude. Ces tests avaient pour objectif de comparer le travail produit par ChatGPT à celui réalisé par le personnel de la Bibliothèque. Les tests ont été menés par les membres du Groupe de travail en collaboration avec des camarades de leur service respectif. Ils ont été choisis en fonction de leur pertinence pour leur service, leur potentiel d’automatisation, leur comparabilité et leur faisabilité. L’ensemble des tests a été conduit en français, car il s’agit de la langue de travail de la Bibliothèque. Par souci de confidentialité, les tests ont mobilisé seulement des données ou des informations publiques.

Dans la sélection des tests, les contraintes inhérentes au fonctionnement de ChatGPT ont été prises en compte. En tant que modèle de langage naturel, ChatGPT a été entraîné avec un corpus de données qui prenait fin en septembre 2021. Ses capacités sont donc limitées pour les informations postérieures à cette date. Les tests de la phase expérimentale se basaient sur des données antérieures à 2021 pour assurer la comparabilité des résultats.

De plus, en tant qu’agent conversationnel, les résultats produits par ChatGPT se limitent à générer du texte répondant à une question ou à une demande soumise. Le texte est limité à 4 096 jetons, ce qui comprend les mots, les signes de ponctuation et les espaces. Au moment d’écrire ces lignes, son interface n’est toujours pas en mesure de reconnaître ou de générer des images ou des graphiques. Il est également impossible de lui donner accès à un fichier de texte afin qu’il se nourrisse de son contenu. Enfin, le système ne cite pas ses sources lorsqu’il produit des réponses.

En raison de considérations logistiques et pratiques, certaines tâches ont dû être exclues. Par exemple, le travail effectué par l’Équipe des archives et de la gestion documentaire nécessite la manipulation de pièces d’archives physiques. Il est donc impossible de confier ces tâches à un outil numérique. Les tâches administratives ont aussi été exclues en raison de la priorité accordée aux tâches plus spécialisées réalisées par les membres de la Bibliothèque.

Vingt-cinq personnes ont collaboré à la phase test. Elles ont réalisé huit types de tests se déclinant en 70 essais. Les tests accomplis sont variés et ont porté sur une grande variété de sujets pour examiner plusieurs zones d’expertise de la Bibliothèque : la recherche d’information, le catalogage de documents en encodage MARC 21 et selon la norme RDA, la définition de concepts, l’indexation de documents et de débats parlementaires, la rédaction d’un plan d’écriture, la synthèse d’information, la rédaction d’une note d’information courte et le développement des collections de la Bibliothèque.

Méthode d’évaluation

Le Groupe de travail a conçu une grille d’évaluation pour mesurer les résultats des tests. Elle comporte sept critères de fond et de forme :

Validité des éléments de la réponse
Pertinence de la réponse
Cohérence des propos
Neutralité des termes
Performance et rapidité du processus
Structuration de la réponse
Qualité de la langue

Pour la conduite des tests, la grille d’évaluation a d’abord été adaptée selon les besoins de chaque service. Puis, pour remplir la grille d’évaluation, le Groupe de travail a fourni une échelle de notation composée des valeurs suivantes : excellent, très bon, bon, mauvais et très mauvais. Cette méthode d’évaluation qualitative permet une meilleure comparabilité entre les critères et les tests puisque les valeurs d’évaluation sont standardisées. Les points forts et les points faibles de ChatGPT sont facilement et rapidement identifiables. Enfin, les cotes ont été converties en chiffres pour pouvoir calculer les moyennes de chaque test^[3].

RÉSULTATS

Les résultats de la phase expérimentale sont mitigés. Les tableaux suivants démontrent que ChatGPT performe très bien pour le test de synthèse d’information, mais offre un résultat peu concluant pour le développement des collections. Le test de synthèse d’information consiste à demander à ChatGPT de résumer un texte qui est déposé dans la boîte de dialogue. Le test sur le développement des collections consiste à demander à ChatGPT d’énumérer des titres de nouveaux documents sur un sujet donné pour enrichir les collections de la Bibliothèque.

*Source :* Audrey Houle, Catherine Lanouette et Véronique Boucher-Lafleur, L’intelligence artificielle générative à la Bibliothèque de l’Assemblée nationale : une étude de cas sur les usages potentiels de ChatGPT en contexte professionnel, *Bibliothèque de l’Assemblée* nationale, décembre 2023, p. 24 et 29.

De manière générale, ChatGPT performe mieux sur les critères de forme que de fond. La qualité de la langue constitue l’un des points forts de l’outil. Sa maîtrise de la langue française écrite est excellente : grammaire, vocabulaire et syntaxe. Il organise ses propos de façon cohérente et logique. Ces résultats concordent avec le fait que ChatGPT est un outil conversationnel qui se spécialise dans le traitement du langage naturel.

Les résultats révèlent que ChatGPT est un outil performant, rapide et polyvalent. Il est en mesure de produire en quelques secondes un résultat apparemment plausible à un ensemble de questions portant sur un large spectre de sujets. Même interrogé sur des questions sensibles ou mis devant des interactions humaines qui nécessitent une compréhension fine du langage naturel, ChatGPT est en mesure d’adopter une posture adéquate dans ses réponses.

ChatGPT demeure néanmoins un outil généraliste. Il peut traiter d’une très grande diversité de sujets, mais il s’égare lorsque les informations demandées requièrent une certaine expertise. Sa performance est optimale lorsque le résultat demandé est court. L’outil a tendance à s’égarer dans le contenu ou démontre ses limites lorsqu’on lui soumet une question longue, alors qu’il répond avec les mêmes propos que pour une question courte. La phase expérimentale a permis de mettre en lumière les problèmes de validité associés à l’information générée par ChatGPT. Les réponses qu’il produit sont parfois inexactes ou fausses, et ce, même si le contenu semble crédible. Il répond à la plupart des questions qui lui sont soumises même s’il ne détient pas les connaissances nécessaires pour le faire. En conséquence, l’information générée doit être systématiquement vérifiée, d’autant plus qu’il ne cite pas ses sources. Ce processus de vérification a soulevé des questionnements auprès des testeurs quant à la rapidité réelle d’utilisation de ChatGPT. Ce processus peut s’avérer fastidieux et prendre parfois plus de temps que si ChatGPT n’avait pas été impliqué.

Néanmoins, les tests ont révélé que ChatGPT performe très bien lorsqu’il est alimenté par un corpus d’information. C’est ainsi qu’il a obtenu un score élevé pour le test de la synthèse d’information qui consistait à lui demander de résumer un texte qui lui a été soumis. Pour une telle utilisation, le contenu généré est essentiellement reformulé.

Il convient de souligner que des problèmes techniques ont été rencontrés durant la phase test. Par exemple, le site Web était parfois inaccessible ou l’interface affichait des messages d’erreurs dans la génération de ses réponses malgré l’utilisation d’un abonnement à ChatGPT Plus^[4]. Ces ratés réduisent la fiabilité de l’outil.

Le Groupe de travail considère que la performance de ChatGPT demeure insuffisante pour être utilisée par le personnel de la Bibliothèque. La variabilité des résultats démontre que ChatGPT n’est pas un outil assez fiable pour servir régulièrement au personnel de la Bibliothèque, selon les tâches testées. ChatGPT ne semble pas être un outil approprié à la plupart des services soumis aux tests.

Le mandat du Groupe de travail étant limité à l’évaluation de la performance de ChatGPT dans sa forme accessible au grand public, les résultats ne permettent pas de juger de la pertinence de l’acquisition d’une licence privée. Néanmoins, la phase expérimentale tend à démontrer que les outils basés sur la reconnaissance et le traitement du langage naturel revêtent un intérêt pour les différents services de la Bibliothèque de l’Assemblée nationale.

DISCUSSION

Au fil de ses travaux, le Groupe de travail sur l’intelligence artificielle a recueilli un ensemble de commentaires sur l’usage de ChatGPT à la Bibliothèque de l’Assemblée nationale. Ces commentaires s’inscrivent dans une réflexion plus large que le mandat octroyé au Groupe de travail. À partir de ses discussions et des résultats obtenus pendant la phase expérimentale, le Groupe de travail formule huit recommandations^[5]. Elles portent sur ChatGPT, et plus largement, sur l’intégration de l’intelligence artificielle à la Bibliothèque de l’Assemblée nationale.

Les recommandations touchent plusieurs facettes de la Bibliothèque telles que ses usagères et ses usagers, son personnel, ses ressources technologiques et son rôle de pourvoyeur d’information.

Dans le contexte des nouvelles technologies, une évolution des besoins d’information des usagères et des usagers de la Bibliothèque est à prévoir. L’accessibilité de logiciels comme ChatGPT comporte des risques de désinformation en raison des informations fausses ou trompeuses qu’il génère^[6]. La présentation logique des idées porte toutefois à croire que l’information est exacte, ce qui donne de la crédibilité à sa réponse. Ainsi, la Bibliothèque de l’Assemblée nationale doit se positionner afin de maintenir son rôle de pourvoyeur d’information fiable et véridique.

Les usagères et les usagers sont également susceptibles d’avoir des questions sur l’utilisation de ChatGPT. Pour ce faire, le personnel de la Bibliothèque doit être adéquatement formé pour comprendre l’outil et répondre aux questions qui en découlent. Mis à part l’utilisation, ces formations doivent aborder les limites de l’outil et les bonnes pratiques en matière de recherche d’information de qualité sur ChatGPT.

Dans l’éventualité où la Bibliothèque ferait l’acquisition d’un logiciel de traitement du langage naturel comme ChatGPT, les tâches de son personnel seront appelées à évoluer. Au cours des groupes de discussion, plusieurs se sont dits inquiets de voir réduire leur poste à une simple responsabilité de validation de contenu. À cet égard, le Groupe de travail recommande de conserver une place prioritaire au personnel dans la réflexion sur la modernisation des tâches. De plus, une réévaluation du niveau de complexité des tâches et des postes touchés par l’outil choisi devra être réalisée.

L’intégration potentielle de l’intelligence artificielle dans l’environnement technologique de la Bibliothèque nécessite des ressources humaines supplémentaires spécialisées dans ce domaine. Pour éviter un bris de service et assurer la pérennité de la mise en œuvre d’un outil d’intelligence artificielle, des ressources professionnelles seraient nécessaires pour assurer la gestion des projets technologiques.

L’intelligence artificielle soulève aussi des questionnements de nature humaine, éthique et juridique qui dépassent le cadre de ce rapport. Le patrimoine informationnel détenu par la Bibliothèque de l’Assemblée nationale est composé d’information de nature sensible, susceptible de faire intervenir un ensemble de lois. La protection de ce patrimoine contre les usages malveillants, la cybersécurité et la pérennité des informations détenues sont essentielles et doivent entrer en jeu dans la prise de décisions. Ces éléments doivent faire partie de la démarche de réflexion dans l’acquisition d’une technologie d’intelligence artificielle.

Enfin, l’hébergement local des données et le recours aux services d’une entreprise québécoise ou canadienne devrait avoir la priorité dans la recherche d’une technologie adaptée à la Bibliothèque de l’Assemblée. Cette démarche vise à limiter les risques liés à l’usage d’un produit ou d’un service d’une entreprise soumise à des lois étrangères.

Voir Audrey Houle, « ChatGPT qu’es-tu? : portrait de l’intelligence artificielle au Québec », Première lecture, 26 avril 2023. [retour]
La Direction de la Bibliothèque est composée du Service de la recherche, du Service de l’information et du Service des collections qui se divise en deux équipes, soit l’Équipe du développement des collections et du traitement documentaire et l’Équipe des archives et de la gestion documentaire. [retour]
Les valeurs attribuées sont de 1 à 5, où 1 signifie très mauvais et 5 signifie excellent. Plus la moyenne se rapproche du chiffre 5, plus le résultat est considéré comme étant excellent. [retour]
ChatGPT Plus constitue l’abonnement payant de ChatGPT. Au moment de la conduite des tests, ChatGPT Plus offrait un temps de réponse plus rapide et un accès prioritaire aux mises à jour et aux nouvelles fonctionnalités. Il génère également des réponses plus longues que la version gratuite. [retour]
Les recommandations sont discutées aux pages 31 à 34 du rapport. [retour]
Voir Catherine Lanouette, « Matière à réflexion – La désinformation : risques pour la démocratie et pistes de solution », Première lecture, 31 octobre 2022. [retour]

PREMIÈRE LECTURE

Recherche et analyses de la Bibliothèque de l'Assemblée nationale du Québec

« ChatGPT, peux-tu travailler à la Bibliothèque de l’Assemblée nationale? »

J’aime ça :

Similaire

Partager :

J’aime ça :

Similaire

En savoir plus sur PREMIÈRE LECTURE