Évaluer les modèles génératifs : méthodes, mesures et outils

Reza Moradinezhad, AI Scientist

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

- 1.
  
  Intro
  
  3:25
- 2.
  
  L1V1 Introduction aux LLMs et à leurs méthodes d'évaluation
  
  5:46
- 3.
  
  L1V2 - Avantages et défis des méthodes d'évaluation de LLM
  
  5:11
- 4.
  
  L1V3 LLM - Évaluation sur Vertex AI
  
  5:11
- 5.
  
  L2V1 - Mesures automatiques
  
  4:59
- 6.
  
  L2V2 - Démo de mesures automatiques
  
  7:46
- 7.
  
  L2V3 - AutoSxS
  
  7:37
- 8.
  
  L2V4 - Démo AutoSxS
  
  8:29
- 9.
  
  L3V1 - Modèles d'évaluation basés sur du texte partie1
  
  6:07
- 10.
  
  L3V2 - Modèles d'évaluation basés sur du texte partie2
  
  4:42
- 11.
  
  L3V3 - Évaluation de modèles d'IA générative non textuels
  
  5:28
- 12.
  
  L3V4 - Notes finales Importance de l'évaluation humaine
  
  4:18
- 13.
  
  Outro
  
  1:48

Niveau débutant

Niveau intermédiaire

Niveau avancé

Tous niveaux

apprenants

projet

À propos de ce cours

Dans ce cours, vous maîtriserez des techniques d'évaluation avancées pour les grands modèles linguistiques (LLM) en utilisant des outils tels que les mesures automatiques et AutoSxS. Ces méthodes d'évaluation sont essentielles pour optimiser les modèles d'IA et garantir leur efficacité dans des applications réelles. En suivant ce cours, vous acquerrez des connaissances et des compétences pratiques précieuses, notamment :

Expérience pratique avec Vertex AI de Google Cloud pour évaluer des LLM en utilisant des outils d'évaluation puissants et standard dans l'industrie.
Apprendre à utiliser les mesures automatiques pour évaluer la qualité des résultats des modèles pour des tâches telles que la génération de texte, les résumés et les réponses aux questions.
Maîtriser AutoSxS pour comparer plusieurs modèles côte à côte, vous permettant d'obtenir des informations plus approfondies sur les performances des modèles et de sélectionner les modèles les mieux adaptés à vos tâches.
Appliquer des techniques d'évaluation pour améliorer les applications d'IA dans divers secteurs, tels que les soins de santé, les finances et le service client.
Comprendre les mesures d'évaluation de l'équité pour s'assurer que les modèles d'IA produisent des résultats équitables et impartiaux, en relevant les défis critiques dans la prise de décision en IA.
Préparez-vous aux futures tendances en IA en vous familiarisant avec l'évolution des outils et services d'évaluation dans le contexte de l'IA générative.
Optimiser vos stratégies de sélection et de déploiement de modèles, en améliorant les performances, l'efficacité et l'équité des solutions d'IA.

À la fin de ce cours, vous serez en mesure de :

Évaluer efficacement les LLM pour optimiser leurs performances.
Prendre des décisions basées sur les données pour sélectionner les meilleurs modèles pour vos applications.
Assurer l'équité dans les systèmes d'IA, atténuer les préjugés et améliorer les résultats.
Rester à l'affût des tendances en matière d'évaluation de l'IA pour pérenniser vos compétences dans un domaine en rapide évolution.

Que vous soyez chef de produit en IA, scientifique de données ou éthicien en IA, ce cours vous fournit les outils et les connaissances nécessaires pour exceller dans l'évaluation et l'amélioration des modèles d'IA pour des applications concrètes impactantes.

Rencontrez votre enseignant·e

Reza Moradinezhad

AI Scientist

Enseignant·e

Hello, I'm Reza.

I am passionate about designing trustworthy and effective interaction techniques for Human-AI collaboration. I am an Assistant Teaching Professor at Drexel University College of Computing and Informatics (CCI), teaching both undergraduate and graduate level courses. I am also an AI Scientist at TulipAI, leading teams of young students, pushing the mission of empowering media creators through ethical and responsible use of Generative AI.

I received my PhD in Computer Science from Drexel CCI. My PhD dissertation focused on how humans build trust toward Embodied Virtual Agents (EVAs). I have collaborated with MIT Media Lab, CMU HCII, Harvard University, and UCSD, publishing and presenting in venues such as Springer Nature, ACM CHI, and ACM C&C. I have been re... Voir le profil complet

Compétences associées

IA et innovation IA pour le développement Outils d'IA Développement Langages de programmation Python Outils de développement

Level: Intermediate

Projet de cours pratique

Effectuer une évaluation de modèle en utilisant des mesures automatiques :
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/intro_to_gen_ai_evaluation_service_sdk.ipynb

Effectuer une évaluation de modèle avec AutoSxS :
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/legacy/evaluate_gemini_with_autosxs.ipynb

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Intro: Bienvenue dans notre cours sur l'évaluation des résultats de grands modèles linguistiques. Alors que l'IA et le traitement du langage naturel influencent de plus en plus la technologie, une compréhension approfondie de l'évaluation de grands modèles linguistiques est essentielle pour tout développeur moderne. Nous vous guiderons à travers les méthodes d'évaluation fondamentales, les techniques avancées utilisant des outils tels que les mesures automatiques et l'automatisation site par site, et les considérations éthiques liées au développement de l'IA Ce cours met l'accent sur les applications pratiques, intègre le jugement humain aux méthodes automatiques et vous prépare aux tendances futures en matière d'évaluation de l' IA sur différents supports Bonjour, je suis le professeur Reza avec plus de dix ans d' expérience dans l'enseignement dans le domaine de informatique et de l'intelligence artificielle Dans le cadre de mon doctorat, j'ai collaboré avec le MIT Media Lab, l'université Carnegie Melon, le HCII, l'université Harvard et l'université de Californie J'ai publié dans des lieux prestigieux tels que l'IAE, Springer Nature et ACMKI Mon travail a été présenté par de nombreux organes de presse, notamment le Neck Web et CBS News. Ce cours est idéal pour vous si vous souhaitez acquérir les compétences nécessaires pour évaluer efficacement les résultats du LLM afin d'améliorer vos stratégies commerciales et votre innovation personnelle Les objectifs d'apprentissage de ce cours sont comprendre les forces et les défis des outils d' évaluation du LLM Découvrez certains des services d'évaluation de modèles Vertex AI. Optimisez la sélection des modèles en fonction votre application et préparez l'avenir en comprenant comment l'évolution des outils et des services d'évaluation peut avoir un impact sur le développement et le déploiement de grands modèles linguistiques. Pour réussir ce cours, vous devez avoir une connaissance de base des concepts d'apprentissage automatique, y compris les métriques d' évaluation des modèles, et une connaissance des réseaux locaux et de leurs applications Ce cours vous est proposé en trois leçons. Leçon 1, Notions de base sur les méthodes d'évaluation des grands modèles linguistiques. Leçon 2, évaluation du LLM sur l'IA des sommets, et leçon trois, l'avenir des modèles d' évaluation de l'IA générative À la fin de ce cours, vous aurez acquis une compréhension approfondie de l' évaluation des résultats des LLM Vous apprenez à évaluer l'efficacité et la précision du contenu généré par le LLM dans différents domaines Connaître ces compétences vous aidera à évaluer la qualité des différents modèles d'IA. Vous serez en mesure de sélectionner celui qui répond le mieux à vos besoins. Cela vous permettra de concevoir, de développer et de mettre en œuvre des applications efficaces et éthiquement responsables à des fins personnelles, professionnelles et commerciales Commençons donc par découvrir comment l'évaluation des résultats du LLM peut améliorer la fiabilité et l'efficacité des solutions d'IA 2. L1V1 Introduction aux LLMs et à leurs méthodes d'évaluation: Dans cette vidéo, nous allons explorer le concept des modèles linguistiques des lodges, ou LNS en abrégé Imaginez un système d'intelligence artificielle si avancé qu'il peut écrire des histoires, répondre à des questions complexes et même tenir des conversations. N'est-ce pas fascinant ? comprendre le fonctionnement de ces modèles et d'évaluer est essentiel de comprendre le fonctionnement de ces modèles et d'évaluer leurs résultats, car ces technologies sont en train de transformer notre vie quotidienne À la fin de cette vidéo, vous comprendrez en quoi les grands modèles linguistiques diffèrent des modèles traditionnels de traitement du langage naturel ou du traitement du langage naturel Nous allons les comparer en termes d'échelle et de complexité. Nous aborderons également l'importance de méthodes d'évaluation fiables et les conséquences potentielles d' une évaluation incorrecte sur les applications du monde réel. grands modèles linguistiques ou LLM constituent un grand pas en avant dans le domaine de l'intelligence artificielle Ces modèles apprennent à partir d' énormes quantités de données textuelles, ce qui leur permet de comprendre et de créer un langage semblable à celui des humains. C'est presque comme s'ils pouvaient penser de la même manière que les humains. Les LLM peuvent gérer des tâches beaucoup plus complexes les modèles linguistiques plus simples Ils peuvent mener des conversations, résumer de longs textes et même créer du contenu original. Ils font tout cela avec un niveau impressionnant de fluidité et de précision qui n'était pas possible auparavant Le véritable pouvoir des LLN provient de leur profondeur et de leur échelle. Contrairement aux modèles NLP traditionnels qui fonctionnent avec des données limitées, des règles prédéfinies et se concentrent sur des tâches spécifiques, les LLN sont entraînés sur des ensembles de données très divers Ces ensembles de données contiennent des milliards de mots. Cela permet aux LLN de mieux comprendre les nuances du langage et de gérer efficacement diverses tâches Les LLN utilisent des techniques avancées d'apprentissage en profondeur, telles que l'architecture des transformateurs, pour apprendre des modèles manière autonome sans être programmés pour des tâches spécifiques En acquérant une compréhension approfondie du langage directement à partir des données, les LLN peuvent aller bien au-delà des capacités des modèles antérieurs qui reposaient sur techniques plus simples et des entrées structurées Les fonctionnalités avancées des LLN leur permettent d' effectuer simultanément diverses tâches linguistiques, de la traduction d'une langue à la génération d'une écriture créative Ils peuvent s'adapter à différents contextes et générer des réponses pertinentes et cohérentes. Cela les distingue des technologies NLP antérieures, qui géraient généralement du texte plus court Une autre différence essentielle est que les grands réseaux neuronaux des LLM leur permettent de maintenir le contexte de longues conversations ou de longs documents C'était assez difficile pour les modèles de PNL traditionnels précédents Voyons maintenant pourquoi il est important d' évaluer le résultat d'evince Il est important d'évaluer les résultats, car ces modèles sont de plus en plus utilisés dans des domaines où l'obtention d'informations riches est vraiment importante. Des domaines tels que les soins de santé, droit, le service client, les actualités et l'éducation. Dans ces domaines, il est essentiel que les résultats soient précis, justes et appropriés pour maintenir la confiance et rendre ces outils utiles. De bonnes évaluations aident à garantir la fiabilité des informations en vérifiant que les LLM comprennent correctement les données saisies et en s'assurant que les réponses sont correctes et pertinentes Protégez-vous également contre les effets négatifs des résultats incorrects, tels que la diffusion d'informations erronées ou trompeuses ou fausses nouvelles. Une autre raison pour laquelle l'évaluation des LLM est cruciale est que les résultats de ces modèles représentent le biais des données sur lesquelles ils ont été formés Nous voulons nous assurer que nous respectons les normes éthiques. Les LLM peuvent amplifier les biais liés aux données sur lesquelles nous les formons, ce qui peut conduire à des résultats injustes ou De bonnes évaluations peuvent identifier et atténuer ces préjugés, garantissant l'équité et en empêchant de nouvelles discriminations Grâce à l'évaluation, nous pouvons également vérifier si les réponses sont appropriées et conformes aux normes sociétales, en particulier dans les interactions publiques. Des évaluations régulières améliorent ces modèles encouragent l'utilisation éthique de l' intelligence artificielle et contribuent à renforcer la confiance du public dans les technologies interactives. En conclusion, dans cette vidéo, nous avons passé en revue les principes de base des grands modèles linguistiques et leur différence modèles de PNL traditionnels Nous avons également parlé de l' importance de les évaluer et nous avons appris qu'il est essentiel de s' assurer que les sorties LM sont précises et éthiques pour garantir leur bon fonctionnement dans différentes applications. 3. L1V2 - Avantages et défis des méthodes d'évaluation de LLM: Dans cette vidéo, nous allons explorer les étapes de l'évaluation de grands modèles linguistiques. Imaginez que votre agence de presse ait besoin de la meilleure intelligence artificielle pour générer des résumés d' articles Comment choisir le bon ? Nous vous guiderons définition des objectifs, le choix des méthodes, choix des ensembles de données et l'interprétation résultats dans le cadre d'un scénario réel À la fin de cette vidéo, vous comprendrez les étapes et les défis associés à chaque étape de l'évaluation de grands modèles linguistiques. Imaginez que vous travaillez dans une agence de presse qui souhaite utiliser des LLM pour générer des résumés d' une ligne pour ses articles de presse Pour intégrer avec succès les LLM de cette manière, vous êtes chargé d'évaluer plusieurs modèles afin de déterminer le plus approprié À première vue, l'évaluation des LLM peut sembler simple, plus ou moins similaire à l'évaluation d'un modèle d'IA traditionnel Tout d'abord, vous définissez les objectifs de l'évaluation. Ensuite, vous choisissez les méthodes d'évaluation. La troisième étape consiste à sélectionner les ensembles de données appropriés, puis à analyser et à interpréter les résultats Découvrons donc chacune de ces étapes. Dans un premier temps, vous souhaitez poser des questions telles que quelle tâche spécifique souhaitez-vous que le LLM effectue Vous voulez également savoir quels indicateurs sont les plus importants pour vous, à fluidité globale, la cohérence, la précision factuelle ou autre chose. Dans un deuxième temps, vous devez choisir la méthode d'évaluation. Vous pouvez choisir parmi différentes méthodes, telles que les indicateurs spécifiques aux tâches, les benchmarks de recherche, les évaluations basées sur le LLM et les évaluations humaines basées sur vos objectifs d'évaluation En ce qui concerne la sélection du jeu de données approprié, vous devez définir un ensemble de données idéal qui correspond à vos objectifs et à vos indicateurs d'évaluation ensembles de données de référence spécialement conçus pour l'évaluation des LLM sont un bon endroit à rechercher spécialement conçus pour l'évaluation des LLM sont Pour analyser et interpréter les résultats, vous souhaitez combiner les résultats quantitatifs et qualitatifs afin de fournir des informations complètes pour votre évaluation. Assurez-vous de noter les forces et les faiblesses de chaque méthode d'évaluation et de justifier votre conclusion. J'espère donc que cela semble également être une bonne approche pour évaluer les LLM. Cependant, ce processus présente également plusieurs défis , notamment en ce qui concerne l'évaluation des résultats de ces LLS. Le premier défi consiste à définir les objectifs de l'évaluation. Dans notre exemple, il est difficile de définir des objectifs d'évaluation pour les LLM dans le cadre de tâches telles que la synthèse pour les LLM dans le cadre de tâches telles que la synthèse d'articles de presse en raison la nature subjective de ce qui constitue un bon Il est difficile de se fier à un nombre limité de mesures pour évaluer la qualité d'un résultat. En outre, le choix des méthodes d'évaluation des contraintes de temps et de ressources. méthodes d'évaluation sera coûteux en termes de calcul et Essayer plusieurs méthodes d'évaluation sera coûteux en termes de calcul et prendra beaucoup de temps De plus, de nouvelles méthodes d'évaluation sont introduites très fréquemment ce qui rend difficile de décider quelle méthode convient le mieux à notre cas d'utilisation. la sélection des ensembles de données appropriés, la taille et la qualité des ensembles de données disponibles peuvent poser des défis Dans les modèles prédictifs, nous savons que les grands ensembles de données avec un minimum de bruit se traduisent par de meilleures performances Mais dans le monde des modèles génératifs, nous ne savons toujours pas quelles sont la taille et la qualité des ensembles de données. Enfin, lors de l'analyse et de l'interprétation des résultats, problèmes d' explicabilité peuvent survenir, en particulier lorsqu'il s'agit de nouvelles méthodes d'évaluation Nous n'avons toujours pas de méthode standard pour interpréter les résultats ou évaluer la fiabilité de ces méthodes d'évaluation. En conclusion, cette vidéo décrit les étapes essentielles et les défis liés à l'évaluation de grands modèles linguistiques. Nous avons examiné ces évaluations pour des tâches telles que la synthèse d'articles de presse Nous avons étudié comment définir des objectifs d'évaluation clairs, choisir les bonnes méthodes d'évaluation, sélectionner les ensembles de données appropriés et interpréter efficacement les résultats Chaque étape présente des défis distincts qui doivent être gérés avec soin pour garantir l' intégration réussie de grands modèles linguistiques dans les applications du monde réel. 4. L1V3 LLM - Évaluation sur Vertex AI: Dans cette vidéo, nous allons explorer les outils proposés Vertex AI pour évaluer les sorties de grands modèles de langage Imaginez que vous évaluez des modèles d' IA à l'aide d'outils qui mettent l'accent sur la précision et l'équité. Ces outils vous permettent de découvrir les biais cachés et de comparer les performances cachées côte à côte. Nous explorons également quelques pistes pour rendre vos modèles d'IA non seulement efficaces mais aussi éthiques. À la fin de cette vidéo, vous saurez comment utiliser efficacement Vertex AI pour évaluer le résultat de grands modèles linguistiques Comme nous l'avons mentionné précédemment, dans ce cours, nous allons utiliser Google Cloud comme exemple de plate-forme fournissant des outils pour l'évaluation du LLM IA vertex de Google peut vous aider à évaluer le cycle de vie complet d' un grand modèle de langage, du début à la fin Dans Vertex AI, vous pouvez prototyper, personnaliser, évaluer et déployer des modèles de nombreuses tâches différentes et selon différentes modalités Cependant, dans le cadre de ce cours, nous nous concentrerons uniquement sur les capacités d'évaluation fournies par Vertex AI Parmi les fonctionnalités disponibles dans Vertex AI pour rationaliser le processus d'évaluation, citons les métriques automatiques, qui utilisent des données de référence pour calculer des métriques spécifiques aux tâches Auto site par site, qui imite l' évaluation humaine en comparant les performances de deux modèles avec un modèle d'arbitre Et le biais de sécurité, qui met en évidence les biais du modèle à l'encontre d'un certain groupe d'identité Dans la deuxième leçon, nous aborderons plus en profondeur les métriques automatiques et l' automatique côte à côte. Dans la troisième leçon, nous allons également aborder brièvement les biais liés à la sécurité. Pour le moment, examinons chacune de ces trois méthodes d'évaluation. métriques automatiques utilisées dans l'évaluation de l' IA sont des mesures quantitatives utilisées pour évaluer les performances des modèles, en particulier dans des tâches telles que génération de texte ou la traduction automatique. Ils sont généralement rapides, efficaces et peuvent faire partie d' une méthode standardisée utilisée dans le monde universitaire et industriel pour comparer différents romans. Parmi les indicateurs automatiques les plus courants, citons doublure d'évaluation bleue ou bilingue, qui mesure le nombre de mots et de phrases d'une traduction automatique correspondant à une traduction de référence Nous avons également une doublure axée sur le rouge ou le rappel pour l'évaluation des chaînes, une autre métrique utilisée pour évaluer le résumé du texte en comptant les unités qui résumé du texte en comptant se chevauchent, telles que les grammes, séquences de mots et les paires de mots, entre le résumé généré par ordinateur et un ensemble de résumés de référence Il existe également l'outil automatique côte à côte, qui est un outil utilisé pour évaluation côte à côte automatique des modèles d'IA, en particulier des modèles d'IA génératifs dans le registre des modèles d'IA des sommets Cet outil permet de comparer les performances de différents modèles, en fournissant des informations sur le modèle plus performant et dans quelles circonstances. Auto side by side vise à fournir des indicateurs de performance cohérents qui correspondent aux évaluations humaines, tout en offrant les avantages d'être plus rapide, plus rentable et disponible à la demande. Enfin, vertex AI fournit également une évaluation des biais de sécurité Cette évaluation vérifie et modélise les résultats pour détecter les biais à l'encontre de groupes d'identité tels que le genre Cette analyse vise à garantir que les résultats du LLN ne perpétuent pas de stéréotypes néfastes ni traitement injuste envers un groupe quelconque En conclusion, l'IA vertex de Google Cloud fournit des outils complets pour évaluer les modèles linguistiques des loges, se concentrant sur les indicateurs de performance et les biais de sécurité Les métriques automatiques telles que Blue et rouge offrent des moyens standardisés, rapides et efficaces d' évaluer les résultats du modèle par rapport aux données de référence. Auto site par site compare deux modèles côte à côte, imitant le jugement humain, mais avec les avantages de la rapidité et de la rentabilité En outre, les biais de sécurité vérifient l'équité entre les groupes d'identité, tels que le sexe, afin de garantir que les LLN ne renforcent pas les stéréotypes néfastes ou la discrimination Cette approche holistique de l'évaluation permet aux développeurs d'affiner les LLN alignant sur les normes éthiques et attentes de la société en matière d' IA responsable 5. L2V1 - Mesures automatiques: Dans cette vidéo, nous examinerons les métriques automatiques et comprendrons leur rôle dans l'évaluation des modèles linguistiques des lodges. Imaginez un développeur aux prises avec les performances de son modèle d'IA. Ils passent des heures à tester et à peaufiner le modèle sans avoir de feedback clair sur l'effet de leurs modifications sur les résultats du LLM Je crois que la plupart d' entre vous qui suivez ce cours savent déjà à quel point cela peut être frustrant. Et si je vous disais qu'il existe des outils qui nous fournissent des données de performance précises et mettent en évidence les domaines exacts à améliorer. À la fin de cette vidéo, vous découvrirez les différentes métriques automatiques utilisées dans l'évaluation du LLM, pourquoi elles sont utilisées et comment elles peuvent guider l'amélioration des performances du modèle pour différentes tâches Il peut s'agir de classification, synthèse, de génération de texte ou de quelque chose comme ça Les mesures automatiques constituent donc un moyen rapide et rentable d' évaluer les performances de votre modèle à évaluer les performances de votre modèle l'aide d'une série de mesures spécifiques aux tâches. Cette approche évalue les modèles en fonction des paires d'invite d'entrée et de réponse de sortie, ce qui vous permet d' évaluer rapidement leur efficacité Les métriques automatiques sont une méthodologie standard largement utilisée dans la recherche universitaire et dans de nombreux benchmarks ouverts. Ils utilisent des indicateurs communément acceptés pour plusieurs tâches générales d'IA, ce qui permet de comparer les résultats entre différentes études et plateformes. Le processus d'évaluation consiste à intégrer un ensemble de données d'évaluation dans le modèle afin de générer des résultats de prédiction. Ces résultats sont ensuite évalués à l'aide des mesures d'évaluation sélectionnées pour mesurer les performances du modèle sur la tâche spécifique à accomplir. En tirant parti des métriques automatiques, vous pouvez évaluer efficacement les capacités de votre modèle et identifier les domaines à améliorer sans avoir effectuer de révision manuelle approfondie. À l'heure actuelle, les modèles disponibles sur Vertex AI incluent des versions de base et optimisées de Palm Takes Bison et Gemini Les tâches prises en charge incluent la classification, résumé, la réponse aux questions et la génération de texte Il existe au moins une métrique pour chacune de ces tâches. Chaque tâche est associée à des mesures spécifiques pour garantir la précision. scores du microphone et du microfon évaluent la précision globale de la classification et le rappel Par classe F, on l'évalue par catégorie. Rouge L évalue la proximité du résumé par rapport à une référence, tandis que les résultats exacts évaluent la précision des réponses . bleu mesure la précision de la génération de texte par rapport à une norme humaine. L'utilisation de métriques automatiques est assez simple. Tout d'abord, nous préparons l'ensemble de données d'évaluation avec des paires d'entrées-sorties. Ensuite, nous téléchargeons l'ensemble de données sur Google Clouds et dans le stockage. Enfin, nous effectuons l'évaluation du modèle en utilisant la bibliothèque Python Vertex AI pour soumettre le travail Dans la vidéo suivante, je vais vous présenter une démonstration expliquant comment effectuer chacune de ces étapes. Mais pour l'instant, revoyons-le rapidement. Pour le jeu de données, vous devez fournir l'invite des instructions et du contexte, ainsi qu'une vérité de base, qui sera utilisée avec les réponses générées pour calculer les mesures relatives à la tâche sélectionnée. Il est conseillé de proposer au moins dix exemples similaires à la façon dont l' application sera utilisée. Lorsque vous avez préparé votre ensemble de données et que vous l'avez chargé sur Google Cloud Storage, vertex AI dispose d'un modèle pour le pipeline d'évaluation du modèle Les paramètres d'exécution du pipeline d'évaluation incluent l'emplacement du jeu de données d' évaluation , la tâche à exécuter et le modèle à utiliser pour la tâche. Avec ces paramètres, vous pouvez ensuite exécuter la tâche du pipeline d'évaluation du modèle. Nous verrons une démonstration de l'exécution d' une tâche d'évaluation dans la prochaine vidéo. En conclusion, dans cette vidéo, nous avons passé en revue les métriques automatiques dans Vertex AI, une approche efficace et standardisée pour évaluer les LLM Nous avons exploré les modèles et les tâches pris en charge, compris l'application de chaque métrique d'évaluation et décrit le processus de préparation et d'exécution d'un pipeline d'évaluation. Grâce à ces indicateurs, vous pouvez mesurer et affiner objectivement performances de votre modèle afin de vous assurer qu'il répond aux exigences des applications du monde réel 6. L2V2 - Démo de mesures automatiques: Dans cette vidéo, nous allons suivre une démonstration en direct de l'utilisation du SDK d'évaluation rapide pour évaluer les résultats de Gemini et de LLM développés par Google Dans le cadre de cette démonstration, vous découvrirez par vous-même comment appliquer des métriques automatiques pour évaluer résultats de votre modèle et comprendre les forces et les faiblesses des différents modèles d'IA À la fin de cette vidéo, vous saurez exactement comment utiliser le SDK d'évaluation rapide pour évaluer le résultat d'un LLM Nous aborderons le chargement de votre ensemble de données, lancement de l'évaluation du modèle , l' application de mesures automatiques et l'interprétation des résultats pour mieux comprendre les performances de votre modèle. Passons à la démo. Le lien vers ce didacticiel est fourni afin que vous puissiez exécuter l'évaluation vous-même. Dans cette démo, nous verrons comment utiliser l'outil d' évaluation rapide pour analyser les performances d'un LLM Cette démonstration utilisera bloc-notes Google Callb pour vous guider dans l'utilisation de l'évaluation rapide Nous allons d'abord préparer les composants nécessaires pour exécuter cet outil. Nous allons d'abord créer un compte Google Cloud. Lors de la création du compte, il vous sera demandé de saisir votre compte Google Gmail et votre mot de passe. Une fois que vous avez créé le compte, vous verrez un écran d'accueil similaire à celui-ci. Ouvrez l'onglet de menu à gauche et sélectionnez Facturation. À partir de là, vous devrez activer la facturation. Vous devez saisir une carte de crédit ou de débit pour activer la facturation. Mais ne t'inquiète pas. d'une valeur de 300$ sera Au début, un crédit d'une valeur de 300$ sera accordé à quiconque Vous n'avez donc pas à dépenser d'argent pour exécuter cette démo. Ensuite, vous ouvrez à nouveau l'onglet du menu et sélectionnez les API et les services à l'écran. Vous allez cliquer sur le menu déroulant intitulé bibliothèque et rechercher le mot Vertex AI API Vous cliquerez ensuite sur Activer pour permettre à l'API de s'afficher. Enfin, vous allez créer un projet dans Google Cloud dans ce menu déroulant en haut à gauche Cliquez dessus et vous sélectionnez un nouveau projet. À partir de là, Google vous guidera dans la création du premier projet. Après avoir créé le premier projet, vous verrez qu' un identifiant unique est associé au projet. Assurez-vous d'enregistrer l'ID, car il est nécessaire pour la tâche d'évaluation. Nous sommes maintenant prêts à passer à la configuration. Commencez par lancer la première cellule ici. Nous allons maintenant exécuter le package pour exécuter l'évaluation rapide. Notez que vous devrez peut-être redémarrer le noyau pour que le package soit reconnu. Ensuite, nous allons exécuter cette cellule pour nous authentifier. Utilisez l'ID de projet que vous avez vu précédemment et collez-le dans la variable ID de projet. En ce qui concerne la localisation, cette démo utilisera US Central V. Vous pouvez rechercher les emplacements compatibles pour cette variable. Vous recevrez une fenêtre contextuelle indiquant que vous devez vous connecter à Google. Vous pouvez vous connecter ici à l'aide de votre compte Google Cloud. Il vous invitera ensuite à accéder à certaines fonctionnalités que vous autoriserez et à continuer. Vous devriez vous retrouver avec une page indiquant que vous vous êtes authentifié avec succès auprès de Google Cloud , puis vous pouvez retourner sur le réseau Ensuite, nous configurerons les informations du projet Google Cloud et initialiserons le Vertex AISDK à l'aide de l'ID du Après avoir configuré l'ID et l'emplacement de votre projet, exécutez la cellule qui initialisera le sommet AISDK à utiliser Ensuite, nous allons importer les bibliothèques nécessaires. Exécutez la cellule pour obtenir toutes les bibliothèques nécessaires. Notez que les principales bibliothèques sont répertoriées ci-dessous, qui sont celles qui traitent les informations. Ensuite, exécutez la cellule de configuration de la bibliothèque et les fonctions d' assistance. Notez que ces cellules servent à formater les informations et à ajuster les paramètres des avertissements et des journaux ainsi qu'à ajuster les performances. Nous sommes maintenant prêts à exécuter le travail d'évaluation. Avant cela, examinons les exigences requises pour exécuter cette évaluation. Tout d'abord, nous avons besoin des données en cours d'évaluation. Pour formater correctement les données pour la tâche d'évaluation, nous allons créer le bloc de données Pandas l'aide de tableaux de données stockés dans un dictionnaire Dans le dictionnaire, vous pouvez avoir une instruction, un contexte, une référence, une prédiction et une réponse. Chaque valeur d'index correspond à l'autre tableau à la même valeur d'index. Par exemple, l'index zéro et le tableau de réponses correspondent à l'autre tableau index zéro, et ainsi de suite. Dans cette démo, nous utiliserons deux lignes de données. Insérez ces données sous forme de tableau dans un dictionnaire, qui doit être converti en une trame de données Pandas Ensuite, nous déciderons des métriques à choisir pour évaluer les réponses. Les réponses sont mesurées par diverses mesures automatiques fournies par l' outil d'évaluation rapide. Ici, nous pouvons voir toutes les métriques possibles dans la colonne centrale, ainsi que le type de mesures dans la gauche et la saisie de données requise sur la droite. Par exemple, la cohérence mesure la capacité du modèle à produire une réponse claire et précise. Fulfillment mesure dans quelle mesure le modèle a répondu et exécuté les instructions données aide d'une prédiction prédéterminée, et Blue et Rouge comparent la similitude entre la prédiction de référence et la réponse données en termes de mots. Vous pouvez examiner ces statistiques vous-même si cela vous intéresse. Après avoir sélectionné les métriques, vous souhaitez mesurer l'entrée, chacun des noms de métriques et saisir les tableaux présentés ici Vous allez également insérer l'ensemble de données d'évaluation dans l'argument de jeu de données requis et fournir un nom pour l'expérience. Dans le dernier segment de la cellule, nous exécutons la tâche d'évaluation proprement dite. Lorsque vous exécutez la cellule, vous devriez voir qu'une expérience a été créée. En cliquant sur le bouton Afficher l' expérience , vous serez redirigé vers Google Cloud, où vous pourrez consulter l'état du pipeline d'évaluation. Le temps nécessaire à la tâche d'évaluation dépend du nombre de métriques, car la réalisation d' plus grand nombre de métriques prend plus de temps. En conclusion, nous avons vu comment le SDK d'évaluation rapide facilite l'évaluation des modèles d'IA génératifs, en fournissant un moyen efficace d'analyser les performances des modèles grâce à des métriques automatiques Cette approche permet d'identifier les forces et les faiblesses, garantissant ainsi que votre modèle répond aux normes attendues pour les applications du monde réel. 7. L2V3 - AutoSxS: Dans cette vidéo, nous examinons de près Auto side by side, un outil d'évaluation comparative pour les grands modèles linguistiques. Imaginez que vous travaillez sur un projet d' IA où vous devez choisir le meilleur modèle de synthèse. Sans comparaisons claires, on a l'impression de deviner chez le chien bonne nouvelle, c'est qu'avec l' autost côte à côte, vous pouvez effectuer des évaluations côte à côte des sorties de deux modèles différents À la fin de cette vidéo, vous serez en mesure de comprendre le fonctionnement de la fonction Auto side by side, le rôle de l'atorateur et comment l'utiliser pour comparer les sorties des modèles Vous obtiendrez des informations sur l'évaluation des LLM en comprenant clairement ce qui fait que la réponse d' un modèle est meilleure que celle d'un autre Auto side by side est un outil d'évaluation qui compare deux LLM côte à côte. Il utilise un aérateur ou un modèle d'évaluation pour déterminer la meilleure réponse à une invite À l'aide de cet outil, vous pouvez évaluer les performances de n'importe quel modèle d'IA générative pour des cas d'utilisation récapitulatifs et de réponses aux questions. Auto site par site fournit également des explications et des scores de certitude pour chaque décision. Au cœur d' Autost by Side se trouve l'automate, ce qui permet cette évaluation comparative L'automate est un réseau local spécialement conçu pour évaluer la qualité des réponses générées par d'autres modèles lorsqu'une invite d'inférence initiale est donnée Auto Side by Side peut évaluer n'importe quel modèle à l'aide de prédictions prégénérées et peut générer automatiquement des réponses pour n'importe quel modèle du registre de modèles Vertex AI qui prend en charge la prédiction par lots Actuellement, il peut évaluer les performances des modèles sur les tâches de synthèse et de réponse aux questions Pour chaque évaluation côte à côte, l'évaluation côte automatique utilise des critères d'évaluation prédéfinis. Par exemple, certains critères de synthèse incluent la mesure dans laquelle le modèle suit les instructions rapides quelle mesure la réponse est-elle fondée sur le contexte et les instructions d'inférence quelle mesure le modèle saisit-il les principaux détails du résumé et dans quelle mesure la réponse elle-même est-elle concise L'utilisation de l'automatique côte à côte est assez simple. abord, nous préparons un ensemble de données d'invites, de contextes et de réponses générées correspondantes, uniquement si des invites de saisie Ensuite, nous stockons l'ensemble de données d'évaluation Google Clouds of storage ou dans une table Big Query. Ensuite, nous effectuons l'évaluation du modèle en exécutant la tâche du pipeline d'évaluation. Dans la vidéo suivante, vous verrez une démonstration d'Autoste by Side en action, comparant Gemini Pro un autre LLM pour une Mais avant cela, laissez-moi vous expliquer comment fonctionne chacune de ces étapes. Auto site par site accepte un seul jeu de données d'évaluation. L'ensemble de données doit inclure au moins un exemple, mais pour une tâche d'évaluation appropriée, environ 400 à 600 exemples sont recommandés. Chaque exemple unique possède un identifiant unique et inclut du contenu et des réponses. Nous pouvons également ajouter une colonne supplémentaire pour prendre en compte les préférences humaines. Ensuite, nous devons définir les paramètres pour effectuer l'évaluation du modèle. Par exemple, dans une évaluation de modèle sans préférence humaine, paramètres peuvent spécifier le jeu de données d'évaluation, les colonnes à utiliser, la tâche (par exemple, le résumé ou la réponse aux questions) et les paramètres d' invite de l'opérateur tels que le contexte d'inférence Nous devons également fournir les colonnes contenant des prédictions prédéfinies pour calculer la métrique d'évaluation. Après avoir défini nos paramètres, nous pouvons lancer une tâche de pipeline d'évaluation l'aide d'un modèle fourni par Google. Les valeurs des paramètres sont transmises pour configurer la tâche de pipeline. Auto side by side utilise le SDK Python Vertex AI pour effectuer ce Après avoir effectué avec succès une évaluation automatique côte à côte, vous pouvez consulter les résultats de l' évaluation. Auto site by side génère trois types principaux de résultats d' évaluation : une table de jugements, des mesures agrégées et une matrice d'alignement si les préférences humaines sont fournies. tableau des jugements indique la meilleure réponse et chaque choix est accompagné d'un score de confiance, qui est une valeur de 0 à 1 Les jugements côte à côte automatiques incluent une explication de chacun des choix de l'aérateur Auto Side by Side peut générer et comparer plusieurs sorties pour une tâche donnée afin de sélectionner la meilleure réponse en fonction de critères tels que la cohérence, flux logique et la capture des points clés. Par exemple, lorsqu'il choisit entre la réponse A et la réponse B, l'aérateur peut expliquer que même si les deux réponses fournissent de bons résumés, réponse B permet de mieux saisir l'ensemble de l'histoire manière plus cohérente et organisée, par rapport à la réponse A. La mise en parallèle automatique fournit également des mesures agrégées Ces indicateurs de taux de victoire sont dérivés de la table de jugement sous forme de pourcentage de fois où l'opérateur a préféré un modèle par rapport à l'autre Ces indicateurs permettent d' identifier rapidement le meilleur modèle. De plus, comme je l'ai mentionné plus tôt, automatique côte à côte permet de valider les jugements selon les préférences humaines. Cela signifie qu'il est possible de fournir des informations et des paramètres supplémentaires dans le pipeline d'évaluation côte à côte. Pour ce faire, dans le jeu de données, une colonne doit être ajoutée selon les préférences humaines. Nous devons également définir la colonne des préférences humaines dans les paramètres. Le reste du processus reste le même. L'inclusion des préférences humaines entraîne des mesures supplémentaires pour l'alignement des préférences humaines. Le résultat inclut tous les indicateurs habituels, mais il inclut également un taux de victoire par préférence humaine, le taux de victoire de l' outérateur et un score de Chenes Cape, qui indique le niveau d' accord entre l'opérateur et l' évaluateur et un score de Chenes Cape, qui indique le niveau d' accord entre l' humain Encore une fois, il s'agit d'une valeur de 0 à 1 zéro étant un choix aléatoire et un étant un accord parfait En conclusion, Auto Side by Side se distingue comme un outil innovant dans IA vertex pour évaluer et comparer les performances des modèles d'IA génératifs Nous avons vu comment il apporte précision au processus d'évaluation grâce comparaisons côte à côte et à des fonctionnalités d' explication détaillées. Il rationalise l'évaluation des LLN en veillant à ce que le modèle le plus performant puisse être identifié en fonction de critères spécifiques à la tâche 8. L2V4 - Démo AutoSxS: Dans cette vidéo, nous allons montrer comment utiliser Auto site par site dans Vertex AI pour évaluer le modèle Gemini par rapport à un autre Ce guide pratique explique chaque étape de la configuration et de exécution d'une évaluation à l'aide des outils fournis par Google Cloud Platform. À la fin de cette vidéo, vous comprendrez comment utiliser l' outil autoste par site, configurer vos ensembles de données d'évaluation et interpréter les résultats de l' analyse comparative autoste par site Cela vous permettra d'acquérir les compétences nécessaires pour évaluer efficacement les performances des modèles d'IA générative. Passons maintenant à la démo. Le lien vers ce didacticiel est fourni afin que vous puissiez exécuter l'évaluation vous-même. Dans cette démo, nous verrons comment utiliser Auto côte à côte pour évaluer et comparer les performances de grands modèles linguistiques. Pour commencer, nous allons d'abord installer le package suivant en exécutant cette commande. Nous utiliserons ce package pour appeler l'API depuis Google Club. Après avoir exécuté la commande, assurez-vous de redémarrer le moteur d'exécution afin d' utiliser le nouveau package installé. Une cellule a été fournie pour permettre l'utilisateur de redémarrer le moteur d'exécution. Après avoir exécuté la cellule avec succès, vous recevrez une fenêtre contextuelle indiquant que le noyau est mort et redémarrera automatiquement. Configurons maintenant les composants nécessaires. Nous allons d'abord créer un compte Google Cloud. Lors de la génération du compte, il vous sera demandé de saisir votre compte Gmail et votre mot de passe. Une fois le compte créé, vous serez accueilli par un écran similaire à celui-ci. Ouvrez l'onglet du menu sur la gauche et sélectionnez Facturation. À partir de là, vous devrez activer la facturation. Vous devrez saisir une carte de crédit ou de débit pour activer la facturation, mais un crédit d'une valeur de 300$ vous sera fourni, alors ne vous inquiétez pas Ensuite, vous ouvrirez à nouveau l'onglet du menu et sélectionnerez les API et les services. Cliquez sur la bibliothèque et recherchez l'API Vertex AI. Vous cliquerez ensuite sur Activer pour activer l'utilisation de l'API. Vous allez ensuite créer un projet dans Google Cloud. Cliquez sur le menu déroulant en haut à gauche et sélectionnez un nouveau projet. À partir de là, Google vous guidera dans la création du premier projet. Enfin, ouvrez à nouveau l'onglet du menu et sélectionnez IAM et Admin. Vous verrez le projet nouvellement créé. Cliquez sur Autoriser l'accès et saisissez le nom du principal du projet que vous avez créé dans la liste déroulante des rouleaux, recherchez l'objet du filtre Ici, vous verrez l'option pour l' administrateur de l'environnement et des objets de stockage. Ajoutez-le au principal et enregistrez. Voici à quoi cela devrait ressembler avec le rôle d'administrateur d'objets de stockage. Nous sommes maintenant prêts à partir. Puisque nous travaillons sur Vertex AI Workbench, vous n'avez pas besoin d'effectuer d'étapes supplémentaires Pour commencer, nous allons définir l'identifiant du projet. Vous pouvez trouver l'ID du projet en retournant dans le menu déroulant du projet et en trouvant la colonne où il affiche l'ID. Dans ce cas, il s'agit de l'identifiant du projet. Exécutez la cellule après avoir remplacé l'ID par l'ID de votre projet. Ensuite, nous allons définir la région. Dans cette démo, la région est définie comme une obligation centrale américaine. Maintenant, lancez le bloc de cellules. Nous allons maintenant générer un UUID aléatoire. Cela sera utilisé pour identifier le projet de manière unique et éviter d' éventuelles collisions de noms. Nous allons maintenant utiliser l'UUID pour créer un nom d'URI de compartiment unique Nous allons maintenant passer à la mise en place du processus. Nous allons d'abord importer les bibliothèques et définir nos constantes. Nous définirons également nos assistants. Ensuite, nous allons initialiser le sommet AISDK en fournissant notre ID de projet, notre région et l'URI de notre bucket Comme nous l'avons défini dans nos constantes, nous comparerons un jeu de données Gemini à un autre LLM, l'un produisant la réponse A et l'autre la réponse B. Chaque ligne de données contient un identifiant et un document à résumer. Les deux versions de la réponse au document s'y trouvent également Nous pouvons y jeter un coup d' œil en utilisant Pandas pour lire le JSON et le formater Ensuite, nous allons exécuter la tâche d'évaluation du modèle. Voici les paramètres requis par le pipeline. L'ensemble de données d'évaluation pour indiquer l'emplacement des données, les colonnes d' identification pour distinguer les exemples d'évaluation uniques, qui sont des champs d'identification et de document dans ce cas. Vient ensuite la tâche. La tâche que nous évaluons est la synthèse. Et il y a les paramètres d' invite de l'opérateur, qui sont utilisés pour configurer le comportement de la tâche de l'opérateur, par exemple définir le contexte et les instructions. Vous devrez ensuite fournir à la colonne de réponse A et colonne de réponse B les noms des colonnes contenant des prédictions prédéfinies afin de calculer les mesures d'évaluation. Dans ce cas, il s'agit de la réponse A et de la réponse B. Après avoir défini les paramètres d'évaluation du modèle, nous pouvons maintenant exécuter le travail du pipeline d'évaluation du modèle avec ce modèle donné à l'aide du SDK Vertex AI Python Laissez-le fonctionner car la fin du pipeline peut prendre un certain temps. Vous pouvez cliquer sur le lien pour voir le pipeline en action sur la plateforme Google Cloud. Voici à quoi ressemble votre pipeline. Une fois le cycle du pipeline terminé, vous pouvez utiliser le segment de code ci-dessous pour voir l'évaluation de chaque réponse et la comparer en fonction de l'aérateur Il fournit des informations telles que des explications sur les préférences et le score de confiance de l'aérateur Ensuite, nous pouvons également afficher les métriques agrégées à l'aide des segments de code ci-dessous. Cela est plutôt utile pour déterminer quel modèle est le meilleur dans le contexte de la tâche donnée. L'aérateur prend également en compte les préférences humaines pour valider l'évaluation de l'aérateur. Nous allons maintenant utiliser l'autre URI, qui inclut une colonne de préférence humaine supplémentaire. Dans le paramètre des exigences du pipeline, nous allons maintenant inclure la colonne des préférences humaines et exécuter la même tâche d'exécution du pipeline avec la nouvelle colonne de données. Nous pouvons désormais obtenir les métriques agrégées alignées sur l'humain. Encore une fois, voici à quoi ressemble le pipeline dans Google Cloud. À l'aide des segments de code ci-dessous, nous obtenons les performances de l'aérateur côte à côte automatique en fonction des préférences d'un humain. Enfin, nous allons nettoyer les ressources de Google Cloud. Nous pouvons exécuter la cellule ci-dessous, et elle nettoiera toutes les ressources que nous avons utilisées dans ce projet. En conclusion, cette démo a illustré les applications pratiques d'Autoste par site pour évaluer le modèle Gemini sur Vertex Nous avons parcouru le processus de configuration, montré comment configurer et exécuter l'évaluation et interprété le résultat comparatif Cette approche pratique vous permet de tirer parti efficacement de chaque site pour évaluer et améliorer les performances des modèles d'IA génératifs, ce qui vous permet de rendre vos solutions d'IA plus robustes et plus fiables 9. L3V1 - Modèles d'évaluation basés sur du texte partie1: Dans cette vidéo, nous explorerons les modèles d' évaluation textuels fondamentaux pour LNS, tels que Meteor et Perplexity, ainsi que Perplexity Saviez-vous que les modèles d'IA biaisés peuvent avoir un impact négatif sur les candidatures dans des domaines critiques tels que l'approbation des prêts et les décisions d'embauche ? En utilisant le météore et la perplexité, vous pouvez atténuer les risques liés à ces biais en assurant que vos modèles sont à la fois performants et équitables À la fin de cette vidéo, vous comprendrez comment fonctionnent différents indicateurs d'évaluation tels que le météore et la perplexité et pourquoi ils sont importants Vous découvrirez également l'importance des indicateurs de furness pour garantir que les applications d'IA traitent tous les groupes démographiques de manière équitable météore ou métrique d' évaluation de la traduction avec un ordre explicite améliore les indicateurs antérieurs tels que le bleu en tenant compte des synonymes, de la paraphrase Il évalue la qualité de la traduction en fonction de l'exactitude littérale, de la fluidité et de l'intention, ce qui en fait un outil précieux pour les applications nécessitant une compréhension nuancée Prenons un exemple pratique pour comprendre le fonctionnement d'un météore Imaginez que nous ayons deux traductions de l'expression anglaise, le renard brun rapide saute par-dessus le chien paresseux Meteor obtiendrait une note supérieure à la traduction A par rapport à la traduction B. Bien que les deux traductions aient des significations similaires, traduction A conserve une structure plus précise et fluide avec une utilisation appropriée des synonymes, sauts pour les sauts et rapide pour Meteor évalue ces traductions en analysant l'ordre des mots, synonymie et la similitude sémantique globale avec le texte de référence de Cela met l'accent sur la fluidité et la compréhensibilité des traductions et la compréhensibilité des perplexité est une autre mesure utilisée pour évaluer les modèles linguistiques en évaluant dans quelle un modèle peut prédire un échantillon de texte Il est basé sur la distribution de probabilité, le modèle attribue à une séquence de mots des valeurs plus faibles indiquant que le modèle prédit la séquence avec valeurs plus faibles indiquant que plus La perplexité quantifie essentiellement incertitude du modèle quant Il fournit un indicateur de son efficacité dans les tâches de compréhension et de génération de langues. Regardons un exemple. Prenons l'exemple d'un modèle chargé prédire le mot suivant de la phrase, le chat assis sur le Supposons que notre modèle prédit quatre complétions possibles, Matt, window, car et moon, avec des probabilités respectives de 0,5, 0,2, 0,2 La perplexité du modèle pour cette prédiction peut être calculée en prenant l'inverse de la probabilité du mot correct, mat dans ce cas, augmentée à la puissance de moins Ici, la perplexité serait de deux, ce qui indique une incertitude relativement faible valeurs de perplexité plus faibles témoignent la confiance et de la précision du modèle dans ses prédictions, ce qui suggère une meilleure compréhension du contexte défini par le CAT sur la carte Nous disposons également de mesures d'évaluation de l'équité, qui sont des outils essentiels utilisés pour déterminer si les modèles d' IA fonctionnent de manière équitable dans les différents groupes démographiques Ces mesures aident à identifier les biais dans prédictions des modèles susceptibles désavantager certains groupes en fonction du sexe, la race, de l'âge ou d'autres facteurs Cela peut être fait en évaluant les différences entre les taux d'erreur, les proportions de prévisions positives et d'autres indicateurs de performance. Prenons l'exemple d'un modèle d'IA d'approbation de prêt qui utilise des données personnelles pour prédire la solvabilité Pour évaluer l'équité, nous pourrions analyser. Premièrement, différence entre les proportions positives dans les étiquettes prédites. Si 40 % des candidats du groupe A, par exemple, candidats de sexe masculin sont considérés comme solvables contre seulement 20 % des candidats du groupe B, dans cet exemple, candidates, cet indicateur mettra en évidence un biais potentiel dans les prédictions du modèle en faveur du groupe A, deux, rappel de la différence Si le modèle identifie 90 % des personnes solvables dans le groupe A, mais seulement 70 % dans le groupe B, l' indicateur de différence de rappel indiquera que le modèle est moins efficace pour le groupe B, ce qui peut entraîner un traitement injuste. Trois, une différence précise. En examinant dans quelle mesure le modèle évite les faux positifs entre les groupes, nous pourrions constater qu'il classe à tort les personnes non solvables comme étant nous pourrions constater qu'il classe à tort les personnes non solvables comme étant solvables à des taux différents selon les groupes, ce qui pourrait affecter l'équité du processus décisionnel. En conclusion, cette vidéo a démontré le rôle crucial que jouent les indicateurs d'évaluation de la performance et de l'équité dans le développement et le déploiement de modèles linguistiques. Nous avons vu comment des indicateurs tels que Meteor et Perplexity aident à garantir que les modèles fonctionnent de manière optimale, tandis que les indicateurs d' équité corrigent biais afin de promouvoir l'équité et 10. L3V2 - Modèles d'évaluation basés sur du texte partie2: Dans cette vidéo, nous allons approfondir notre exploration des modèles d'évaluation basés sur le texte pour les LLM, concentrant sur les indicateurs de diversité et l'évaluation zéro chance Vous avez probablement remarqué que le contenu généré par l'IA manque souvent de diversité, ce qui le rend moins engageant ou ennuyeux pour les utilisateurs. En appliquant des indicateurs de diversité, vous pouvez vous assurer que votre IA génère des réponses variées et intéressantes. Nous proposons également une évaluation zéro, qui permettra de tester davantage adaptabilité de vos modèles à des tâches nouvelles et imprévues À la fin de cette vidéo, vous serez en mesure de comprendre l'importance et l' application des indicateurs de diversité pour générer des résultats variés et créatifs. En outre, vous découvrirez comment l'évaluation « zero shot » permet d' évaluer la capacité du LLM à s'adapter à des tâches pour lesquelles il n'a pas reçu de formation explicite Les indicateurs de diversité évaluent l'étendue et caractère unique des réponses générées par un modèle linguistique Ces indicateurs sont particulièrement importants pour les applications nécessitant des résultats créatifs ou variés, tels que la génération de contenu ou les systèmes de dialogue. En mesurant des aspects tels que la richesse lexicale, la variation de la structure des phrases et la nouveauté des concepts introduits dans les réponses, les métriques de diversité garantissent que les résultats des modèles sont non seulement précis, mais également attrayants et reflètent un large éventail de points de vue Imaginons un scénario. Imaginez que vous avez un modèle d'IA chargé de générer des idées d'histoires basées sur une seule demande par jour à la plage. Supposons que le modèle génère les réponses suivantes. En évaluant ces réponses à l'aide de mesures de diversité, nous rechercherions la variété des thèmes, personnages impliqués et des activités décrites. La réponse B obtiendrait un score élevé en termes de diversité en proposant de multiples intrigues secondaires et des interactions variées Alors que la réponse C obtiendrait un score inférieur en raison de sa redondance avec la réponse A. La réponse D introduit un nouvel élément, qui améliore son score en cas d' introduction de contenu unique Ces indicateurs aident à évaluer la créativité et l'attrait des résultats des modèles, en garantissant qu'ils fournissent un contenu frais et engageant aux utilisateurs. Passons maintenant à l'évaluation zéro tir. L'évaluation Zero Shot mesure la capacité d'un modèle à gérer des tâches pour lesquelles il n'a pas été spécifiquement formé. Cette métrique est essentielle pour évaluer les capacités de généralisation des modèles linguistiques des loges Il révèle dans quelle mesure un modèle peut appliquer les connaissances acquises à nouveaux contextes ou à de nouveaux types de problèmes sans peaufinage ni formation supplémentaires. Il démontre l'adaptabilité et la flexibilité du modèle dans diverses applications. Regardons un exemple. Prenons l'exemple d'un modèle linguistique formé principalement à partir de textes littéraires en anglais. Si vous êtes confronté à une tâche dans un domaine complètement différent, telle que la génération de descriptions techniques pour de nouvelles applications logicielles. Une évaluation zéro permettrait d'évaluer dans quelle mesure le modèle exécute immédiatement cette tâche. Regardons cet exemple. Nous pouvons constater que même si ce modèle n'avait aucune formation préalable sur les descriptions de logiciels, génère une description cohérente et pertinente. Il démontre une bonne capacité de tir zéro. Cette capacité à généraliser de la littérature à la rédaction technique sans formation spécifique met en évidence la robustesse et l'utilité du modèle dans des scénarios du monde réel où les données de formation ne sont pas toujours complètes pour toutes les En conclusion, nous avons discuté de la façon dont les indicateurs de diversité et l'évaluation zéro jouent un rôle crucial dans l'évaluation des LLM Les indicateurs de diversité permettent de garantir que le contenu généré répond aux exigences créatives des applications du monde réel, tandis que l'évaluation initiale évalue l'adaptabilité de ces modèles à de nouvelles tâches, en démontrant leur robustesse et leur utilité dans utilité 11. L3V3 - Évaluation de modèles d'IA générative non textuels: Dans cette vidéo, nous expliquerons comment évaluer les modèles d' IA qui créent des images, des sons et des vidéos. Imaginez-vous en train de regarder un film généré par l'IA dans lequel les scènes semblent agitées ou où le son n'est pas agréable . Ce serait frustrant. Voyons comment évaluer ces modèles pour nous assurer que le contenu qu'ils génèrent est fluide, réaliste et engageant. À la fin de cette vidéo, vous saurez comment identifier les principales méthodes utilisées par les experts pour évaluer les modèles d'IA basés sur l'image, le son et la vidéo. Vous vous familiariserez avec les compétences nécessaires pour examiner et évaluer les médias générés par ces modèles d'IA générative. L'évaluation des modèles de génération d'images par IA fait appel à des méthodes à la fois subjectives et objectives. Les évaluations subjectives sont basées sur le jugement humain de facteurs tels que l' attrait visuel et l'impact émotionnel. Les évaluations objectives, en revanche, utilisent des outils spécialisés pour mesurer des aspects tels que la résolution de l'image , la précision des couleurs et la présence de problèmes ou de défauts visuels appelés artefacts Prenons l'exemple d'une image d'un paysage générée par l'IA. Pour l'évaluer, nous pouvons utiliser une métrique basée sur les pixels, telle que le PSNR, qui représente le rapport signal/bruit maximal Évaluez objectivement la clarté et la netteté de l'image. Dans le même temps, nous menons une enquête dans laquelle les participants évaluent l'image en fonction du réalisme, la beauté et de la résonance émotionnelle afin de recueillir des données subjectives. Cette évaluation complète permet déterminer le succès global du modèle de génération d'images dans création d'images visuellement attrayantes et précises. Passons maintenant au son. évaluer les modèles de génération de sons basés sur l'IA , il faut examiner de près la qualité, la précision et l'effet émotionnel des sons qu'ils créent. Vous pouvez utiliser des mesures objectives telles que la planéité des spectres et le taux de croisement nul pour évaluer techniquement la qualité du son Il est également important de recueillir des commentaires subjectifs de la part des auditeurs sur la façon dont réels et émotionnellement engageants sons générés par l'IA semblent réels et émotionnellement engageants pour les gens Imaginez que vous évaluez un morceau de musique généré par l' IA destiné à évoquer la relaxation L'analyse objective pourrait mesurer la cohérence du tempo et la clarté du son à l'aide d'outils tels qu'un sonomètre ou un analyseur de spectres À des fins d'évaluation subjective, un groupe d'auditeurs pourrait évaluer la musique en fonction de ses qualités apaisantes et de ses effets émotionnels De telles choses peuvent donner un aperçu l'efficacité de la musique pour atteindre l'objectif émotionnel visé. Que diriez-vous des vidéos ? Lorsque vous évaluez des modèles de génération vidéo basés sur l'IA, vous devez tenir compte de deux éléments principaux la qualité visuelle de la vidéo et manière dont les images circuleront ensemble au fil du temps, ce que l'on appelle également cohérence temporelle. Pour mesurer la qualité visuelle, vous pouvez utiliser des métriques telles que Ks et R dont nous avons parlé. Cette métrique permet de vérifier la netteté et le niveau de détail de la vidéo Il existe une autre métrique appelée SSIM, qui correspond à un indice de similarité structurelle Cette métrique examine les détails et compare la vidéo basée sur l'IA à une vidéo de référence. Pour évaluer la cohérence temporelle, vous devez voir avec quelle fluidité les images vidéo passent de l'une à l'autre. Cela permet de garantir que le mouvement de la vidéo semble naturel et logique. Un autre élément important à évaluer est la pertinence contextuelle Le contenu vidéo correspond-il réellement à l'histoire ou à la scène prévue ? La vidéo générée par l'IA doit refléter avec précision ce qui est censé être affiché. Par exemple, pensez à évaluer une vidéo générée par l'IA qui représente un plongeur dans l'océan Des indicateurs objectifs analyseraient la résolution de la vidéo et la cohérence image par image afin de garantir la fluidité des mouvements et la clarté des détails visuels Subjectivement, les spectateurs pourraient évaluer dans quelle mesure la vidéo capture l' essence du décor, tenant compte d'éléments tels que le réalisme des vagues de l'océan, le mouvement naturel du plongeur et l'ambiance générale Cette évaluation combinée permet déterminer si le modèle de génération vidéo reproduit efficacement une expérience de plongée réaliste et engageante Conclusion, l'évaluation modèles d' IA non génératifs de texte pour les images, les sons et les vidéos est essentielle pour faire progresser l'IA dans des applications créatives et pratiques. En combinant des mesures objectives avec des commentaires humains subjectifs, nous obtenons une vue complète des capacités d'un modèle d'IA. Cette approche garantit que le contenu généré par l'IA est techniquement solide et trouve un écho auprès des utilisateurs, ce qui est crucial pour développer des applications d'IA générative utiles et attrayantes 12. L3V4 - Notes finales Importance de l'évaluation humaine: Dans cette vidéo, nous allons résumer notre cours et souligner l'importance cruciale de l' évaluation humaine dans l'évaluation des modèles d'IA générative. Vous êtes-vous déjà demandé pourquoi certains contenus générés par l'IA sont trompeurs ou inexacts ? Nous verrons en quoi l'IA générative fonctionne bien, quoi elle ne fonctionne pas et pourquoi surveillance humaine est nécessaire pour détecter et corriger ces erreurs. Pour garantir que les résultats de ces modèles sont utiles et fiables. À la fin de cette vidéo, vous comprendrez les limites de l'IA générative, notamment sa tendance à produire fausses informations ou des hallucinations. Nous expliquerons pourquoi il est essentiel de reconnaître les failles pour utiliser efficacement l'IA et garantir qu'elle donne des résultats fiables et utiles. L'IA générative peut bien accomplir de nombreuses tâches, mais elle présente également de grandes faiblesses. L'un des principaux problèmes est qu'il peut générer de fausses informations ou des hallucinations. Cela signifie que le modèle fournit des informations erronées ou inventées. Ces modèles ne connaissent souvent pas les limites de leurs propres connaissances, c'est pourquoi il est si important de les évaluer avec soin. Pour utiliser efficacement l' IA générative, nous devons comprendre ses limites. Cela signifie qu'il faut être conscient que le modèle peut commettre des erreurs et trouver des moyens de réduire ces problèmes lors de son utilisation dans la vie réelle. Comme nous devons reconnaître les limites de l'IA générative et y remédier, nous introduisons un outil utile appelé le test IVO, qui signifie validation immédiate des résultats C'est un moyen simple mais efficace de vérifier si un modèle d' IA générative est fiable. Un modèle passe le test IVO si les utilisateurs peuvent vérifier facilement et rapidement que le résultat est correct et répond à leurs besoins Ainsi, même les utilisateurs qui ne sont pas des experts peuvent utiliser et valider efficacement le contenu créé par l'IA. Pour implémenter le test IVO, les utilisateurs évaluent le résultat généré par l' IA en le comparant à des ressources fiables, une méthode connue sous le nom de post-grounding Cela permet aux utilisateurs de vérifier l'exactitude des informations en examinant les faits établis. Cela garantit que les résultats de l'IA sont non seulement pertinents mais également fiables. Cette étape est essentielle pour les applications où la précision est primordiale. Il permet aux utilisateurs d'utiliser les outils en toute confiance. Supposons qu'un modèle d'IA soit conçu pour résumer des articles scientifiques. Pour utiliser le test IVO, les utilisateurs peuvent interagir avec le résumé généré par l'IA dans une application spéciale S'ils veulent vérifier une partie précise du résumé, ils peuvent cliquer dessus. L'application leur montre ensuite la section correspondante dans l'article d'origine. Cette fonctionnalité permet aux utilisateurs de comparer facilement le résumé avec la source, en s'assurant que le résultat de l'IA reflète fidèlement le contenu original. Cette méthode renforce la confiance dans l'IA et aide les utilisateurs à mieux comprendre en reconnectant le contenu généré par l' IA à ses sources fiables. En confiant à des humains la supervision des systèmes d'IA, nous pouvons nous assurer qu'ils ne sont pas uniquement évalués en termes de performance, mais également en termes d' équité et d'éthique. Cette approche permet d'arrêter la propagation des préjugés et garantit que l'IA est développée d'une manière qui respecte les valeurs humaines En conclusion, nous avons discuté de l'importance de faire évaluer par des humains des modèles d'IA générative ainsi que des méthodes automatisées. En combinant les connaissances humaines avec l'efficacité des algorithmes, nous pouvons évaluer des aspects tels que la créativité, le contexte et l'éthique que les ordinateurs peuvent manquer. Cette approche rend non seulement évaluations plus précises et fiables, mais garantit également que l' IA est développée conformément à nos valeurs et à nos attentes en tant que société. 13. Outro: Excellent travail. Tu l'as fait. Vous avez terminé l'évaluation des sorties de modèles linguistiques volumineux. Je ne suis pas là juste pour dire au revoir. Je veux que vous preniez un moment pour célébrer vos réussites tout au long de ce cours. Ensemble, nous avons exploré de nouveaux concepts, face à des tâches difficiles et nous avons connu une croissance significative. Regardez en arrière et voyez ce que vous savez maintenant et que vous ne saviez pas au début du cours. Votre engagement a permis de réaliser des progrès importants, et vous devriez être fiers de cette réalisation. Ce cours n'est qu'une étape de votre parcours d'apprentissage continu. Les concepts que vous avez appris ici serviront de base à votre croissance future. Assurez-vous de continuer à appliquer ces compétences et de maintenir votre curiosité. Pour poursuivre votre voyage, je vous recommande ce qui suit. Tout d'abord, revoyez les supports de cours pour vous rafraîchir la mémoire sur le contenu Ensuite, assurez-vous de communiquer avec vos pairs sur les forums communautaires. Troisièmement, assurez-vous de vous lancer dans de nouveaux projets stimulants afin de maintenir vos compétences à jour. Merci d'avoir participé à ce cours sur l' évaluation des résultats du LMS Votre engagement compte beaucoup pour moi et pour toute notre équipe. À la fin de notre cours, votre voyage ne fait que commencer. J'ai hâte de savoir ce que vous pensez de ce cours et ce que vous comptez accomplir à l'avenir. Continuez à avancer, restez curieux et profitez du voyage qui vous attend. Encore une fois, félicitations, et j'espère vous voir dans un autre cours. Je signe, professeur Reza.

Évaluer les modèles génératifs : méthodes, mesures et outils

Reza Moradinezhad, AI Scientist

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

Intro

3:25

2.

L1V1 Introduction aux LLMs et à leurs méthodes d'évaluation

5:46

3.

L1V2 - Avantages et défis des méthodes d'évaluation de LLM

5:11

4.

L1V3 LLM - Évaluation sur Vertex AI

5:11

5.

L2V1 - Mesures automatiques

4:59

6.

L2V2 - Démo de mesures automatiques

7:46

7.

L2V3 - AutoSxS

7:37

8.

L2V4 - Démo AutoSxS

8:29

9.

L3V1 - Modèles d'évaluation basés sur du texte partie1

6:07

10.

L3V2 - Modèles d'évaluation basés sur du texte partie2

4:42

11.

L3V3 - Évaluation de modèles d'IA générative non textuels

5:28

12.

L3V4 - Notes finales Importance de l'évaluation humaine

4:18

13.

Outro

1:48