TechForum 2019 : intelligence artificielle et découvrabilité

Cette année, la conférence TechForum a présenté de nombreux exposés sur les recherches récentes et les développements liés à l’édition. Dans notre publication aujourd’hui, nous ferons un résumé de la présentation de Christian Roy, président de Brix Labs, intitulée Projet TAMIS : utiliser l’intelligence artificielle pour traiter la question de la découvrabilité.

Le projet TAMIS a été élaboré par les Éditions Septentrion, en partenariat avec Brix Labs. Le projet cherchait à démystifier la question de la découvrabilité, à la suite de développements modernes comme les moteurs de recherche et les algorithmes de recommandation. Dans le monde de l’édition, s’assurer que les lecteurs peuvent découvrir les titres constitue un éternel problème, alors que les éditeurs s’efforcent de faire en sorte que leurs livres se démarquent dans un paysage culturel de plus en plus encombré. Comme le soulignait M. Roy, la façon dont les clients cherchent des livres a considérablement changé au fil des ans, depuis la recherche en librairie jusqu’à la recherche à l’aide de technologies comme les moteurs de recherche et les algorithmes de suggestion. Toutefois, les pratiques de découvrabilité dans le secteur de l’édition ne se sont pas nécessairement adaptées pour correspondre à ces changements. En même temps, les consommateurs s’attendent de plus en plus à vivre une expérience personnalisée et à obtenir de l’aide pour trouver de nouveaux contenus. Ces changements technologiques ont modifié non seulement comment les publics recherchent des contenus, mais aussi comment ils voient les résultats, de même que leurs attentes en matière de service.

Le service à la clientèle s’éloigne des systèmes de découverte de contenu axés sur les produits, dans lesquels le fardeau de la découverte appartient au consommateur. Nous observons plutôt, comme l’expliquait M. Roy, un essor des systèmes de recommandation axés sur les consommateurs. Ceux-ci n’ont plus besoin de se mettre à la recherche de titres qui seraient susceptibles de leur plaire – des algorithmes examinent leurs achats passés et leur proposent des options ciblées. Avec cette nouvelle orientation, les données des consommateurs revêtent une importance encore plus grande. Tous ces changements et modifications font ressortir un nouveau paradigme du service à la clientèle, depuis la recherche jusqu’à la recommandation. Plutôt que de parcourir les librairies, les acheteurs de livres trouvent des titres grâce aux moteurs de recherche. S’ils font leur recherche sur un ordinateur de bureau, les résultats sont présentés sous forme de liste. Cependant, 50 % des recherches sont aujourd’hui effectuées sur un appareil mobile, où les résultats qui sont visibles au premier coup d’œil sont moins nombreux sur les écrans plus petits. Également, de nombreux moteurs de recherche fournissent des cartes informatives qui mettent en évidence les résultats de recherche qui, d’après le moteur de recherche, sont les plus pertinents pour les utilisateurs d’appareils mobiles. M. Roy a fait remarquer que, si tout est en train de changer, depuis les méthodes de recherche des consommateurs jusqu’aux pratiques de vente au détail, la façon dont les livres existent dans le système demeure la même. C’est ce que le projet TAMIS vise à changer.

L’hypothèse derrière le projet TAMIS est simple : les livres nécessitent des métadonnées pour pouvoir être accessibles par les nouveaux systèmes, mais les éditeurs n’ont pas toujours le temps ni les ressources nécessaires pour créer des listes de mots clés adéquates pour tous leurs titres. L’intelligence artificielle – des systèmes d’apprentissage spécialisés en reconnaissance des formes et en réplication des applications – peut fonctionner à grande échelle, et les livres contiennent un important ensemble de contenus dont on peut extraire des données. Il devrait donc être possible d’utiliser l’intelligence artificielle pour générer des métadonnées. Afin de tester cette théorie, le projet TAMIS a mis à l’épreuve la capacité des programmes d’intelligence artificielle actuels pour produire des mots clés sur trois volets : description d’images, extraction de mots clés et production de catégories.

Les programmes d’IA de description d’images produisent des métadonnées à partir de couvertures de livres. Pour en savoir plus au sujet de l’efficacité de ces programmes, le projet TAMIS a testé AWS Rekognition, Microsoft Azure, IBM Watson, Cloudsight et Clarifai. Dans l’ensemble, les programmes d’IA ont tous généré des mots clés reflétant la couleur et le contenu de l’illustration de couverture. L’IA offerte par Clarifai a également proposé des thèmes abstraits. Par exemple, à partir d’une couverture présentant un paysage arctique, tous les programmes d’IA ont produit des mots clés comme glacier, glace, montagne, neige et hiver; Clarifai, pour sa part, a généré des mots plus abstraits, comme voyage et aventure.

L’utilité de ce type d’IA s’est avérée dépendre grandement du type de couverture. Le projet TAMIS a révélé que les images très stylisées ou les dessins de type BD donnent de piètres résultats, alors que les couvertures avec une photographie ont 50 % de chances de produire des mots clés utiles. Les meilleurs mots clés ont découlé de l’analyse de couvertures avec des illustrations réalistes. Les chercheurs du projet TAMIS en ont conclu que l’utilité des mots clés générés par l’IA à partir d’images dépend largement du type d’image utilisée.

Les fournisseurs d’intelligence artificielle offrent aussi la possibilité de générer des mots clés en les extrayant du texte lui-même. L’IA identifie des mots clés, ou entités, à partir du texte en utilisant de vastes catégories telles que les lieux, les événements, les personnes et les organisations. Par exemple, un livre sur le hockey pourrait générer des mots clés tels que LNH, Wayne Gretzky et coupe Stanley. Dans le cadre du test, le projet TAMIS a analysé les résultats obtenus par Rosette, Google Cloud, TextRazor et IBM Watson. Les programmes d’IA testés ont fourni une grande quantité de mots clés originaux. Cependant, les mots clés n’étaient pas nécessairement pertinents. De plus, les chercheurs ont constaté que l’abondance de mots clés générés pouvait s’avérer problématique, car certains détaillants définissent une limite quant à la quantité de métadonnées pouvant être fournies par les éditeurs. Par exemple, Amazon limite les mots clés à 250 octets. Sur cette base, l’étude a recommandé l’utilisation de programmes d’IA d’extraction de mots clés aux éditeurs qui disposent d’une importante liste d’ouvrages disponibles pour lesquels ils ont besoin de métadonnées.

Finalement, l’intelligence artificielle peut offrir aux éditeurs non seulement des mots clés, mais aussi des codes BISAC ou Thema pour leurs livres. Il n’existe actuellement aucun fournisseur pour ce service; le projet TAMIS a donc dû former les programmes d’IA à classifier des livres. Pour développer l’intelligence artificielle, il faut exposer le système à des données abondantes et lui enseigner la bonne façon d’interpréter les données. Au cours de la recherche, TAMIS a formé Amazon Comprehend à produire des codes BISAC en analysant les têtes de chapitre d’un texte. Les résultats de l’expérience ont été mitigés. Amazon Comprehend suggérait seulement FIC000000 ou JUV000000, révélant un problème de formation qui pourrait se résoudre de lui-même par davantage d’apprentissage machine. TextRazor a connu plus de succès, fournissant toujours des codes Thema pertinents pour les ouvrages de non-fiction. Toutefois, TextRazor n’était pas utile pour les titres de fiction, qu’il avait de la difficulté à différencier des ouvrages de non-fiction. Les chercheurs ont conclu que TextRazor constitue une bonne ressource pour les éditeurs ayant de nombreux ouvrages de non-fiction, mais que dans l’ensemble les programmes d’IA nécessitent plus de formation avant de devenir une ressource fiable pour la classification des titres.

Sur la base de ces tests, le projet TAMIS a établi que l’IA a certainement sa place dans le secteur de l’édition présent et à venir. Pour l’instant, l’intelligence artificielle est un bon outil pour générer des balises de métadonnées. Des études ont montré que les humains sont plus efficaces pour générer des mots clés, mais l’IA peut offrir un bon point de départ au travail des humains, notamment dans le cas où un grand nombre de titres doivent être traités. Le projet TAMIS souhaite particulièrement développer la position de l’intelligence artificielle pour l’avenir. Les systèmes d’intelligence artificielle créent la possibilité d’augmenter la découvrabilité à l’extérieur des détaillants : l’IA pourrait être utilisée pour produire des données structurées destinées aux moteurs de recherche, aux chatbots et aux moteurs de recommandation axés sur les contenus, qui dépendent tous de mots clés pour leur fonctionnement. Les moteurs de recommandation axés sur les contenus se distinguent des moteurs de recommandation du comportement des consommateurs actuels, car les moteurs axés sur les contenus se basent sur des mots clés pour associer certains produits à des produits semblables, plutôt que d’associer le comportement de consommateurs, ce qui nécessite un accès aux données des consommateurs pour suggérer des achats.

Finalement, l’essor des assistants vocaux présente une nouvelle méthode de recherche à prendre en considération. Comment ces assistants présentent-ils les résultats de recherche? Comment les consommateurs utilisent-ils cette technologie pour chercher des livres? Si sa présentation n’a pas approfondi la question des assistants vocaux, M. Roy a souligné que les changements apportés par ceux-ci ne sont pas sans importance.

Pour le moment, les chercheurs du projet TAMIS poursuivent leurs expériences et publient leurs résultats. L’équipe prévoit également construire une interface pour les éditeurs, qui facilitera l’organisation et le téléchargement de résultats provenant des systèmes d’IA. Pour en apprendre plus sur leurs projets et leurs expériences, visitez le site Web de TAMIS : tamis.ca.

2019-08-19 | Foires du livre, Numérique