Transcription
1. Intro: Bienvenue dans notre cours sur l'évaluation des résultats de grands modèles
linguistiques. Alors que l'IA et le traitement du
langage naturel influencent de
plus en plus la technologie, une compréhension approfondie
de l'évaluation de grands modèles linguistiques est essentielle pour tout développeur
moderne. Nous vous guiderons à travers les méthodes d'évaluation
fondamentales, les techniques
avancées
utilisant des outils tels que les mesures
automatiques et l'automatisation site par site, et les considérations éthiques liées
au développement de l'IA Ce cours met l'accent sur les applications
pratiques, intègre le jugement humain
aux méthodes automatiques et vous prépare aux tendances
futures en matière d'évaluation de l'
IA sur
différents supports Bonjour, je suis le professeur Reza avec plus de dix
ans d'
expérience dans l'enseignement dans le domaine de informatique et de l'intelligence
artificielle Dans le cadre de mon doctorat, j'ai collaboré
avec le MIT Media Lab, l'université
Carnegie Melon, le HCII, l'université
Harvard
et l'université de
Californie J'ai publié dans
des lieux prestigieux tels que l'IAE, Springer Nature et ACMKI Mon travail a été présenté
par de nombreux organes de presse, notamment le Neck
Web et CBS News. Ce cours est idéal
pour vous si
vous souhaitez acquérir les compétences nécessaires pour évaluer efficacement les résultats du
LLM
afin d'améliorer vos stratégies
commerciales
et votre innovation personnelle Les objectifs d'apprentissage
de ce cours sont comprendre les forces et les défis des outils d'
évaluation du LLM Découvrez certains des services d'évaluation de
modèles Vertex AI. Optimisez la sélection des modèles en fonction votre application et
préparez l'avenir en comprenant comment l'évolution des outils et des
services
d'évaluation peut avoir un impact sur
le développement et le déploiement de
grands modèles linguistiques. Pour réussir ce cours, vous devez avoir une connaissance de
base des concepts d'apprentissage automatique, y compris les métriques d'
évaluation des modèles, et une connaissance des réseaux locaux
et de leurs applications Ce cours vous est proposé
en trois leçons. Leçon 1, Notions de base sur les méthodes
d'évaluation des
grands modèles linguistiques. Leçon 2,
évaluation du LLM sur l'IA des sommets, et leçon trois, l'avenir des modèles d'
évaluation de l'IA générative À la fin de ce cours, vous aurez acquis une
compréhension approfondie de l'
évaluation des résultats des LLM Vous apprenez à évaluer l'efficacité et
la précision du
contenu généré par le LLM dans différents domaines Connaître ces compétences vous
aidera à évaluer la qualité des
différents modèles d'IA. Vous serez en mesure de sélectionner celui qui
répond le mieux à vos besoins. Cela vous permettra de
concevoir, de développer et de mettre en œuvre des
applications efficaces et éthiquement responsables à des fins personnelles, professionnelles et
commerciales Commençons donc par
découvrir comment l'évaluation des résultats du
LLM peut améliorer la fiabilité et
l'efficacité des solutions d'IA
2. L1V1 Introduction aux LLMs et à leurs méthodes d'évaluation: Dans cette vidéo, nous allons
explorer le concept des modèles linguistiques des lodges,
ou LNS en abrégé Imaginez un système d'intelligence artificielle si
avancé qu'il peut écrire des histoires, répondre à des questions complexes
et même tenir des conversations. N'est-ce pas fascinant ? comprendre le
fonctionnement de ces modèles et d'évaluer est essentiel de comprendre le
fonctionnement de ces modèles et d'évaluer
leurs résultats, car ces technologies sont en
train de transformer notre vie quotidienne À la fin de cette vidéo, vous comprendrez en quoi les grands modèles
linguistiques diffèrent des modèles
traditionnels de traitement du
langage naturel ou du traitement du langage naturel Nous allons les comparer
en termes d'échelle et de complexité. Nous aborderons également
l'importance de méthodes d'évaluation
fiables et les conséquences potentielles d' une évaluation incorrecte sur les applications du monde
réel. grands modèles linguistiques ou LLM constituent un grand pas en avant dans le domaine de l'intelligence
artificielle Ces modèles apprennent à partir d'
énormes quantités de données textuelles, ce qui leur permet de comprendre
et de créer un langage semblable à celui des humains. C'est presque comme s'ils pouvaient penser de la même
manière que les humains. Les LLM peuvent gérer des tâches beaucoup
plus complexes les modèles
linguistiques plus simples Ils peuvent mener
des conversations, résumer de longs textes et même créer du contenu
original. Ils font tout cela avec un niveau
impressionnant de fluidité et de précision qui
n'était pas possible auparavant Le véritable pouvoir des LLN
provient de leur profondeur et de leur échelle. Contrairement aux modèles
NLP traditionnels qui fonctionnent avec des données limitées, des règles
prédéfinies et se concentrent sur des tâches spécifiques, les LLN sont entraînés sur des ensembles de données très
divers Ces ensembles de données contiennent des
milliards de mots. Cela permet aux LLN de mieux
comprendre les nuances du langage et de gérer efficacement
diverses tâches Les LLN utilisent des techniques avancées
d'apprentissage en profondeur, telles que l'architecture des
transformateurs,
pour apprendre des modèles manière autonome sans être
programmés pour des tâches spécifiques En acquérant une compréhension approfondie du langage directement à partir des données, les LLN peuvent aller bien au-delà des capacités
des modèles
antérieurs qui reposaient sur techniques
plus simples
et des entrées structurées Les fonctionnalités avancées
des LLN leur permettent d'
effectuer simultanément diverses
tâches linguistiques, de la traduction d'une langue
à la
génération d'une écriture créative Ils peuvent s'adapter à
différents contextes et générer des réponses
pertinentes et cohérentes. Cela les distingue des technologies NLP
antérieures, qui géraient
généralement du texte
plus court Une autre différence essentielle est que les grands
réseaux neuronaux des
LLM
leur permettent de maintenir le contexte de longues conversations
ou de longs documents C'était assez difficile pour les modèles de PNL traditionnels
précédents Voyons maintenant pourquoi il est
important d' évaluer
le résultat d'evince Il est important d'évaluer
les résultats, car
ces modèles
sont de plus en plus
utilisés dans des domaines où l'obtention
d'informations riches est vraiment importante. Des domaines tels que les soins de santé, droit, le service client, les
actualités et l'éducation. Dans ces domaines, il est essentiel que les
résultats soient précis, justes et appropriés pour maintenir la confiance et rendre
ces outils utiles. De bonnes évaluations aident à garantir la fiabilité des informations
en vérifiant que les LLM comprennent correctement les
données saisies et en s'assurant que les réponses
sont correctes et pertinentes Protégez-vous également contre les effets négatifs
des résultats incorrects, tels que la diffusion d'informations erronées ou
trompeuses ou fausses nouvelles. Une autre raison pour laquelle l'évaluation des
LLM est cruciale est que les résultats de ces modèles représentent le biais des
données sur lesquelles ils ont été formés Nous voulons nous assurer que nous
respectons les normes éthiques. Les LLM peuvent amplifier les biais liés aux
données sur lesquelles nous
les formons, ce qui peut conduire
à des résultats injustes ou De bonnes évaluations peuvent identifier
et atténuer ces préjugés, garantissant l'équité et en empêchant de
nouvelles discriminations Grâce à l'évaluation, nous pouvons
également vérifier si les réponses sont appropriées et
conformes aux normes sociétales, en particulier dans
les interactions publiques. Des évaluations régulières
améliorent ces modèles encouragent l'utilisation
éthique de l' intelligence
artificielle
et contribuent à renforcer la confiance du public dans les technologies
interactives. En conclusion, dans cette vidéo, nous avons passé en revue les principes de base des grands modèles linguistiques
et leur différence modèles de PNL
traditionnels Nous avons également parlé de l'
importance de les
évaluer et
nous avons appris qu'il
est essentiel de s'
assurer que les sorties LM sont précises et éthiques pour garantir leur bon
fonctionnement dans
différentes applications.
3. L1V2 - Avantages et défis des méthodes d'évaluation de LLM: Dans cette vidéo, nous allons
explorer les
étapes de l'évaluation de
grands modèles linguistiques. Imaginez que votre agence de presse ait besoin de la meilleure intelligence artificielle pour générer des résumés d'
articles Comment choisir le bon ? Nous vous guiderons définition des objectifs, le
choix des méthodes, choix des ensembles de données
et l'interprétation résultats dans le cadre d'un scénario
réel À la fin de cette vidéo, vous comprendrez les
étapes et les défis associés à chaque étape de l'évaluation de grands modèles
linguistiques. Imaginez que vous travaillez dans une
agence de presse qui souhaite utiliser des LLM pour générer des résumés d'
une ligne pour ses articles de presse Pour intégrer avec succès les
LLM de cette manière, vous êtes chargé d'évaluer plusieurs modèles afin de déterminer
le plus approprié À première vue, l'évaluation des LLM peut sembler simple, plus ou moins similaire à l'évaluation d'un modèle d'IA
traditionnel Tout d'abord, vous définissez les objectifs de
l'évaluation. Ensuite, vous choisissez les méthodes
d'évaluation. La troisième étape consiste à sélectionner
les ensembles de données appropriés, puis à analyser
et à interpréter les résultats Découvrons donc
chacune de ces étapes. Dans un premier temps, vous
souhaitez poser des questions telles que quelle tâche spécifique
souhaitez-vous que le LLM effectue Vous voulez également savoir quels indicateurs sont les plus
importants pour vous, à fluidité
globale, la cohérence, la précision
factuelle
ou autre chose. Dans un deuxième temps, vous devez choisir la méthode
d'évaluation. Vous pouvez choisir parmi
différentes méthodes,
telles que les indicateurs spécifiques aux tâches, les benchmarks de
recherche, les évaluations basées sur le
LLM et les évaluations humaines basées
sur vos objectifs d'évaluation En ce qui concerne la sélection du jeu de données
approprié, vous devez définir
un ensemble de données idéal qui correspond à vos objectifs et à vos indicateurs
d'évaluation ensembles de données de référence spécialement conçus
pour
l'évaluation des
LLM sont un bon endroit à rechercher spécialement conçus
pour
l'évaluation des
LLM sont Pour analyser et
interpréter les résultats, vous souhaitez combiner les résultats
quantitatifs et
qualitatifs afin de fournir des
informations complètes pour votre évaluation. Assurez-vous de noter les
forces et les faiblesses de chaque méthode d'évaluation et de
justifier votre conclusion. J'espère donc que cela semble également être une bonne approche pour
évaluer les LLM. Cependant, ce processus présente également
plusieurs défis
, notamment en ce qui concerne l'évaluation des
résultats de ces LLS. Le premier défi consiste à
définir les objectifs de l'évaluation. Dans notre exemple, il est
difficile de définir des objectifs
d'évaluation pour les LLM dans le cadre de tâches
telles que la synthèse pour les LLM dans le cadre de tâches
telles que la synthèse d'articles de
presse en raison la nature subjective de ce qui
constitue un bon Il est difficile de se fier
à un nombre limité de mesures pour évaluer la
qualité d'un résultat. En outre, le choix des méthodes
d'évaluation des contraintes de temps et de
ressources. méthodes d'évaluation sera coûteux
en termes de calcul et Essayer
plusieurs méthodes d'évaluation sera coûteux
en termes de calcul et prendra beaucoup de
temps De plus, de nouvelles méthodes d'évaluation sont introduites
très fréquemment ce qui rend
difficile de décider quelle méthode convient le
mieux à notre cas d'utilisation. la sélection des ensembles de données
appropriés, la taille et la qualité des ensembles de données
disponibles
peuvent poser des défis Dans les modèles prédictifs,
nous savons que les grands ensembles de données avec un minimum de bruit se
traduisent par de meilleures performances Mais dans le monde des modèles
génératifs, nous ne savons toujours pas quelles sont la taille et la qualité des ensembles de données. Enfin, lors de l'analyse
et de l'interprétation des résultats, problèmes d'
explicabilité peuvent survenir, en particulier lorsqu'il s'agit de
nouvelles méthodes d'évaluation Nous n'avons toujours pas de méthode
standard pour interpréter les résultats ou évaluer la fiabilité de ces méthodes
d'évaluation. En conclusion, cette
vidéo décrit
les étapes essentielles
et les défis
liés à l'évaluation de
grands modèles linguistiques. Nous avons examiné ces
évaluations pour des tâches telles que la synthèse d'articles de
presse Nous avons étudié comment définir des objectifs d'évaluation
clairs, choisir les bonnes méthodes
d'évaluation, sélectionner les ensembles de données appropriés et
interpréter efficacement les résultats Chaque étape présente des défis
distincts qui doivent être gérés
avec soin pour garantir l'
intégration réussie de grands modèles linguistiques dans les applications du monde
réel.
4. L1V3 LLM - Évaluation sur Vertex AI: Dans cette vidéo, nous allons
explorer les outils proposés Vertex AI pour
évaluer les sorties de grands modèles de
langage Imaginez que vous évaluez des modèles d'
IA à l'aide d'outils qui mettent l'accent sur
la précision et l'équité. Ces outils vous permettent
de découvrir les biais
cachés et de comparer les performances
cachées
côte à côte. Nous explorons également quelques
pistes pour rendre vos modèles d'IA non seulement
efficaces mais aussi éthiques. À la fin de cette vidéo, vous saurez comment utiliser
efficacement Vertex AI pour évaluer le résultat de grands modèles
linguistiques Comme nous l'avons mentionné précédemment,
dans ce cours, nous allons utiliser Google
Cloud comme exemple de plate-forme fournissant des
outils pour l'évaluation du LLM IA vertex de Google
peut vous aider à évaluer le cycle de vie complet d' un grand modèle de langage,
du début à la fin Dans Vertex AI, vous pouvez
prototyper, personnaliser, évaluer et déployer des modèles de nombreuses tâches différentes et
selon différentes modalités Cependant, dans le cadre
de ce cours, nous nous concentrerons uniquement sur les capacités d'évaluation
fournies par Vertex AI Parmi les fonctionnalités
disponibles dans Vertex AI pour
rationaliser le processus
d'évaluation,
citons les métriques automatiques, qui utilisent des données de référence pour calculer des métriques
spécifiques aux tâches Auto site par site, qui imite l'
évaluation humaine en comparant les performances de deux modèles
avec un modèle d'arbitre Et le biais de sécurité,
qui met en évidence les biais du modèle à l'encontre
d'un certain groupe d'identité Dans la deuxième leçon, nous
aborderons plus en profondeur les métriques
automatiques et l'
automatique côte à côte. Dans la troisième leçon, nous
allons également aborder brièvement les biais liés à la sécurité. Pour le moment, examinons
chacune de ces trois méthodes
d'évaluation. métriques automatiques utilisées dans l'évaluation de l'
IA sont des mesures
quantitatives utilisées pour évaluer les performances
des modèles, en
particulier dans des tâches telles que génération de
texte ou la traduction
automatique. Ils sont généralement rapides, efficaces et peuvent faire partie d'
une méthode standardisée utilisée dans le monde universitaire et industriel pour
comparer différents romans. Parmi les indicateurs
automatiques les plus courants, citons doublure
d'évaluation
bleue ou bilingue, qui mesure le nombre de
mots et de phrases d'une traduction automatique
correspondant à une traduction de référence Nous avons également une doublure axée sur le rouge ou le
rappel
pour l'évaluation des chaînes, une autre métrique
utilisée pour évaluer le résumé
du texte en comptant les
unités
qui résumé
du texte en comptant se chevauchent, telles que
les grammes, séquences de
mots et les paires de
mots, entre le résumé généré par ordinateur et un ensemble de résumés de
référence Il existe également l'outil automatique côte à côte, qui est un outil utilisé pour évaluation côte à côte
automatique des modèles d'IA,
en particulier des modèles d'IA
génératifs
dans le registre des modèles d'IA des sommets Cet outil permet
de comparer les performances
de différents modèles, en
fournissant des informations sur le modèle plus
performant et dans
quelles circonstances. Auto side by side
vise à fournir des indicateurs de performance
cohérents qui correspondent aux évaluations humaines, tout en offrant les avantages
d'être
plus rapide, plus rentable et
disponible à la demande. Enfin, vertex AI fournit
également une évaluation des
biais de sécurité Cette évaluation vérifie
et modélise les résultats
pour détecter les biais à l'encontre de
groupes d'identité tels que le genre Cette analyse vise à garantir que les résultats
du LLN ne
perpétuent pas de
stéréotypes néfastes ni traitement
injuste
envers un groupe quelconque En conclusion, l'IA vertex de Google
Cloud fournit des outils complets pour
évaluer les modèles
linguistiques des loges, se concentrant sur les
indicateurs de performance et les biais de sécurité Les métriques automatiques telles que Blue
et rouge offrent des moyens standardisés, rapides et efficaces d'
évaluer les résultats du modèle par
rapport aux données de référence. Auto site par site compare
deux modèles côte à côte, imitant le
jugement humain, mais avec les avantages de la rapidité
et de la rentabilité En outre, les
biais de sécurité vérifient l'équité entre les groupes
d'identité, tels que le sexe, afin de garantir
que les LLN ne
renforcent pas les stéréotypes néfastes
ou la discrimination Cette approche holistique
de l'évaluation permet aux développeurs d'affiner les LLN alignant sur les normes
éthiques et attentes de la
société en matière d'
IA responsable
5. L2V1 - Mesures automatiques: Dans cette vidéo, nous
examinerons les métriques automatiques et comprendrons leur rôle dans l'évaluation des modèles
linguistiques des lodges. Imaginez un développeur aux prises avec les performances
de son modèle d'IA. Ils passent des heures à tester et à peaufiner le
modèle
sans avoir de feedback clair sur l'effet de leurs modifications
sur les résultats du LLM Je crois que la plupart d'
entre vous qui suivez ce cours savent déjà à quel point cela peut être
frustrant. Et si je vous disais qu'il
existe des outils qui nous fournissent des données de performance
précises et mettent en évidence les
domaines exacts à améliorer. À la fin de cette vidéo, vous découvrirez les
différentes métriques automatiques utilisées dans l'évaluation du LLM, pourquoi elles sont utilisées et
comment elles peuvent guider l'amélioration des
performances du modèle pour différentes tâches Il peut s'agir de classification, synthèse, de génération de texte
ou de quelque chose comme ça Les mesures automatiques constituent donc un moyen rapide et rentable d'
évaluer les performances de votre
modèle à évaluer les performances de votre
modèle l'aide d'une série de mesures
spécifiques aux tâches. Cette approche évalue les
modèles en fonction des paires
d'invite d'entrée et
de réponse de sortie, ce qui vous permet d'
évaluer rapidement leur efficacité Les métriques automatiques sont
une méthodologie standard largement utilisée dans la recherche universitaire et dans de nombreux benchmarks ouverts. Ils utilisent des indicateurs communément
acceptés pour plusieurs tâches générales d'IA, ce qui permet de comparer les résultats entre différentes études et plateformes. Le processus d'évaluation consiste à intégrer un ensemble de données d'évaluation dans le modèle afin de générer des résultats de
prédiction. Ces résultats sont
ensuite évalués à
l'aide des mesures d'évaluation sélectionnées pour mesurer les performances du modèle sur
la tâche spécifique à accomplir. En tirant parti des métriques automatiques, vous pouvez évaluer efficacement les capacités de
votre modèle
et identifier les domaines à améliorer sans avoir effectuer de révision
manuelle approfondie. À l'heure actuelle, les
modèles disponibles sur Vertex AI incluent des versions de base et optimisées de Palm
Takes Bison et Gemini Les tâches prises en charge incluent
la classification, résumé, la
réponse aux questions et la génération de texte Il existe au moins une métrique
pour chacune de ces tâches. Chaque tâche est associée à des
mesures spécifiques pour garantir la précision. scores du microphone et du microfon évaluent la
précision globale de la classification et le rappel Par classe F, on l'évalue
par catégorie. Rouge L évalue la
proximité du résumé par rapport à une référence, tandis que les résultats exacts évaluent la précision des réponses
. bleu mesure la précision de la génération de texte par rapport
à une norme humaine. L'utilisation de métriques automatiques est
assez simple. Tout d'abord, nous préparons l'ensemble de
données d'évaluation avec des paires d'entrées-sorties. Ensuite, nous téléchargeons l'ensemble de données
sur Google Clouds et dans le stockage. Enfin, nous effectuons l'évaluation du
modèle
en utilisant la
bibliothèque Python Vertex AI pour soumettre le travail Dans la vidéo suivante, je
vais vous présenter une démonstration expliquant comment effectuer
chacune de ces étapes. Mais pour l'instant, revoyons-le
rapidement. Pour le jeu de données,
vous devez fournir l'invite des
instructions et du contexte, ainsi qu'une vérité de base, qui sera utilisée avec les
réponses générées pour calculer les mesures relatives à
la tâche sélectionnée. Il est conseillé de proposer au moins dix exemples similaires à la façon dont l'
application sera utilisée. Lorsque vous avez
préparé votre ensemble de données et que vous l'avez chargé
sur Google Cloud Storage, vertex AI dispose d'un modèle pour le pipeline
d'évaluation du modèle Les paramètres d'exécution du pipeline d'évaluation incluent l'emplacement du jeu de données d'
évaluation , la tâche
à exécuter et le modèle
à utiliser pour la tâche. Avec ces paramètres, vous pouvez ensuite exécuter la tâche du pipeline
d'évaluation du modèle. Nous verrons une démonstration de l'exécution d' une tâche d'évaluation
dans la prochaine vidéo. En conclusion, dans cette vidéo, nous avons passé en revue
les métriques automatiques dans Vertex AI, une approche efficace et
standardisée pour évaluer les LLM Nous avons exploré les modèles et les tâches
pris en charge, compris l'application
de chaque métrique d'évaluation et décrit le processus de préparation et d'exécution
d'un pipeline d'évaluation. Grâce à ces indicateurs, vous pouvez mesurer et affiner
objectivement performances de
votre modèle
afin de vous
assurer qu'il répond aux exigences
des applications du monde réel
6. L2V2 - Démo de mesures automatiques: Dans cette vidéo,
nous allons
suivre une
démonstration en direct de l'utilisation du SDK d'évaluation
rapide pour évaluer
les résultats de Gemini et de
LLM développés par Google Dans le cadre de cette démonstration,
vous découvrirez par vous-même comment
appliquer des métriques automatiques pour évaluer résultats de
votre modèle
et comprendre
les forces et les faiblesses
des différents modèles d'IA À la fin de cette vidéo, vous saurez exactement comment utiliser le SDK d'évaluation rapide pour
évaluer le résultat d'un LLM Nous aborderons le chargement de
votre ensemble de données, lancement de l'évaluation du modèle , l'
application de
mesures automatiques et
l'interprétation des résultats pour
mieux comprendre les performances de votre
modèle. Passons à la démo. Le
lien vers ce didacticiel est fourni afin que vous puissiez exécuter
l'évaluation vous-même. Dans cette démo, nous verrons
comment utiliser
l'outil d' évaluation rapide pour analyser les
performances d'un LLM Cette démonstration utilisera bloc-notes
Google Callb pour vous
guider dans l'utilisation de
l'évaluation rapide Nous allons d'abord préparer les composants nécessaires
pour exécuter cet outil. Nous allons d'abord créer un compte
Google Cloud. Lors de la création du compte, il vous sera demandé de saisir votre compte
Google Gmail et votre mot de passe. Une fois que vous avez créé le compte, vous verrez un
écran d'accueil similaire à celui-ci. Ouvrez l'onglet de menu à
gauche et sélectionnez Facturation. À partir de là, vous
devrez activer la facturation. Vous devez saisir une carte de crédit
ou de débit
pour activer la facturation.
Mais ne t'inquiète pas. d'une valeur de 300$ sera Au début, un
crédit d'une valeur de 300$ sera accordé à
quiconque Vous n'avez donc pas à dépenser d'argent pour exécuter cette démo. Ensuite, vous
ouvrez à
nouveau l'onglet du menu et sélectionnez les API et
les services à l'écran. Vous allez cliquer sur le
menu déroulant intitulé
bibliothèque et rechercher
le mot Vertex AI API Vous cliquerez ensuite sur Activer
pour permettre à l'API de s'afficher. Enfin, vous allez
créer un projet dans Google Cloud dans ce
menu déroulant en haut à gauche Cliquez dessus et vous
sélectionnez un nouveau projet. À partir de là, Google
vous guidera dans la création
du premier projet. Après avoir créé
le premier projet, vous verrez qu'
un identifiant unique est associé au projet. Assurez-vous d'enregistrer l'ID, car
il est nécessaire pour la tâche
d'évaluation. Nous sommes maintenant prêts à
passer à la configuration. Commencez par lancer la
première cellule ici. Nous allons maintenant
exécuter le package pour exécuter l'évaluation rapide. Notez que vous
devrez peut-être redémarrer le noyau pour que le
package soit reconnu. Ensuite, nous allons exécuter cette
cellule pour nous authentifier. Utilisez l'ID de projet que vous avez vu précédemment et collez-le dans
la variable ID de projet. En ce qui concerne la localisation, cette démo
utilisera US Central V. Vous pouvez
rechercher les emplacements compatibles
pour cette variable. Vous recevrez une fenêtre contextuelle indiquant que vous devez vous connecter
à Google. Vous pouvez vous connecter ici à l'aide de
votre compte Google Cloud. Il
vous invitera ensuite à accéder à certaines fonctionnalités que vous
autoriserez et à continuer. Vous devriez vous retrouver avec une page indiquant que vous
vous êtes
authentifié avec succès auprès de
Google Cloud
, puis vous pouvez
retourner sur le réseau Ensuite, nous configurerons les informations du projet Google
Cloud et initialiserons le Vertex
AISDK à l'aide de l'ID du Après avoir configuré l'ID et l'emplacement de votre
projet, exécutez la cellule qui
initialisera le sommet AISDK à utiliser Ensuite, nous allons importer les bibliothèques
nécessaires. Exécutez la cellule pour obtenir toutes
les bibliothèques nécessaires. Notez que les principales
bibliothèques sont répertoriées ci-dessous, qui sont celles qui
traitent les informations. Ensuite, exécutez la cellule de
configuration de la bibliothèque et les fonctions d'
assistance. Notez que ces cellules servent à
formater les informations
et à ajuster les paramètres des avertissements et des journaux ainsi qu'à ajuster
les performances. Nous sommes maintenant prêts à exécuter
le travail d'évaluation. Avant cela, examinons
les exigences requises
pour exécuter cette évaluation. Tout d'abord, nous avons besoin
des données en cours d'évaluation. Pour formater correctement les données
pour la tâche d'évaluation, nous allons créer le bloc de données
Pandas l'aide de tableaux de données
stockés dans un dictionnaire Dans le dictionnaire, vous
pouvez avoir une instruction, un contexte, une référence, une prédiction et une réponse. Chaque valeur d'index correspond à l'autre tableau à
la même valeur d'index. Par exemple, l'index zéro
et le tableau de réponses correspondent à l'autre
tableau index zéro, et ainsi de suite. Dans cette démo, nous
utiliserons deux lignes de données. Insérez ces données sous forme de
tableau dans un dictionnaire, qui doit être converti en une trame
de données Pandas Ensuite, nous déciderons des métriques à choisir pour évaluer
les réponses. Les réponses sont mesurées par diverses mesures automatiques fournies par
l'
outil d'évaluation rapide. Ici, nous pouvons voir toutes
les métriques possibles dans la colonne centrale, ainsi que le type
de mesures dans la gauche et la saisie de
données requise sur la droite. Par exemple, la cohérence mesure la capacité du modèle à produire une réponse claire et précise. Fulfillment mesure
dans quelle mesure le modèle a répondu et exécuté les instructions données aide d'une prédiction prédéterminée, et Blue et Rouge comparent
la similitude entre la prédiction de référence
et la réponse données en termes de mots. Vous pouvez examiner ces statistiques vous-même si cela
vous intéresse. Après avoir sélectionné les métriques, vous souhaitez mesurer l'entrée, chacun des noms de métriques et
saisir les tableaux présentés ici Vous allez également insérer l'ensemble de données
d'évaluation dans l'argument de jeu de données requis et fournir un nom
pour l'expérience. Dans le dernier segment de la cellule, nous exécutons la tâche
d'évaluation proprement dite. Lorsque vous exécutez la cellule, vous devriez voir qu'une
expérience a été créée. En cliquant sur le bouton Afficher l'
expérience , vous
serez redirigé vers Google Cloud, où vous pourrez consulter l'état du pipeline
d'évaluation. Le temps nécessaire à la tâche
d'évaluation dépend du nombre de métriques, car
la réalisation d' plus grand nombre de métriques prend plus de
temps. En conclusion, nous avons vu
comment le
SDK d'évaluation rapide facilite l'évaluation
des modèles d'IA génératifs, en fournissant un
moyen efficace d'analyser les performances des
modèles grâce à des métriques
automatiques Cette approche permet d'identifier les
forces et les faiblesses, garantissant ainsi que votre modèle répond
aux normes attendues pour les applications du monde
réel.
7. L2V3 - AutoSxS: Dans cette vidéo, nous examinons de près
Auto side by side, un outil d'évaluation comparative
pour les grands modèles linguistiques. Imaginez que vous travaillez sur un projet d'
IA où vous devez choisir le meilleur
modèle de synthèse. Sans comparaisons claires, on a l'impression de
deviner chez le chien bonne nouvelle, c'est qu'avec l'
autost côte à côte, vous pouvez effectuer des évaluations
côte à côte des sorties
de deux modèles différents À la fin de cette vidéo, vous serez en mesure de comprendre
le fonctionnement de la fonction Auto side by side, le rôle de l'atorateur et comment l'utiliser pour
comparer les sorties des modèles Vous obtiendrez des informations sur
l'évaluation des LLM en comprenant clairement ce qui
fait que la réponse d' un modèle est
meilleure que celle d'un autre Auto side by side est un outil d'évaluation qui
compare deux LLM côte à côte. Il utilise un aérateur ou un modèle d'évaluation pour déterminer la meilleure
réponse à une invite À l'aide de cet outil, vous pouvez
évaluer les performances de n'importe quel modèle d'IA générative pour des cas d'utilisation
récapitulatifs et de
réponses aux questions. Auto site par site fournit également des explications et des
scores de certitude pour chaque décision. Au cœur d'
Autost by Side se trouve l'automate, ce qui permet cette
évaluation comparative L'automate est un réseau local spécialement conçu
pour évaluer la qualité des réponses générées par d'autres modèles lorsqu'une invite d'inférence
initiale est donnée Auto Side by Side peut évaluer n'importe quel modèle à l'aide de
prédictions prégénérées et peut
générer automatiquement des réponses
pour n'importe quel modèle du registre de modèles Vertex AI qui prend en charge la prédiction par lots Actuellement, il peut évaluer
les performances des modèles sur les tâches de synthèse et de réponse aux
questions Pour chaque évaluation côte à
côte, l'évaluation côte
automatique utilise des critères d'évaluation
prédéfinis. Par exemple, certains critères
de synthèse
incluent la mesure dans laquelle le modèle
suit les instructions rapides quelle mesure la réponse est-elle fondée sur
le contexte
et les instructions d'inférence quelle mesure le modèle
saisit-il les principaux détails
du résumé et dans quelle mesure la réponse elle-même est-elle
concise L'utilisation de l'automatique côte à côte est
assez simple. abord, nous préparons un ensemble
de données d'invites, de contextes et de réponses
générées correspondantes, uniquement si des invites de saisie Ensuite, nous stockons l'ensemble de données
d'évaluation Google Clouds of storage
ou dans une table Big Query. Ensuite, nous effectuons l'évaluation du modèle en exécutant la tâche du
pipeline d'évaluation. Dans la vidéo suivante, vous verrez une démonstration d'Autoste
by Side en action, comparant Gemini Pro un autre LLM pour une Mais avant cela, laissez-moi vous expliquer comment fonctionne chacune de
ces étapes. Auto site par site accepte un
seul jeu de données d'évaluation. L'ensemble de données doit inclure
au moins un exemple, mais pour une tâche d'évaluation
appropriée, environ 400 à 600
exemples sont recommandés. Chaque exemple unique possède un identifiant unique et inclut
du contenu et des réponses. Nous pouvons également ajouter une colonne
supplémentaire pour prendre
en compte les préférences humaines. Ensuite, nous devons définir les paramètres pour effectuer
l'évaluation du modèle. Par exemple, dans une évaluation de modèle
sans préférence humaine, paramètres peuvent spécifier
le jeu de données d'évaluation,
les
colonnes à utiliser, la
tâche (par exemple, le résumé ou la
réponse aux questions) et les paramètres d'
invite de l'opérateur tels que le contexte
d'inférence Nous devons également fournir
les colonnes contenant des prédictions
prédéfinies pour calculer la métrique
d'évaluation. Après avoir défini nos paramètres, nous pouvons lancer une tâche de pipeline
d'évaluation l'aide d'un modèle
fourni par Google. Les valeurs des paramètres sont transmises pour configurer
la tâche de pipeline. Auto side by side
utilise le SDK
Python Vertex AI pour effectuer ce Après avoir effectué avec succès une évaluation automatique côte à côte, vous pouvez consulter les résultats de l'
évaluation. Auto site by side génère trois types principaux de résultats d'
évaluation : une table de
jugements, des mesures
agrégées et une matrice d'alignement si les
préférences humaines sont fournies. tableau des jugements indique
la meilleure réponse et chaque choix est
accompagné d'un score de confiance, qui est une valeur de 0 à 1 Les
jugements côte à côte automatiques incluent une explication de chacun des choix
de l'aérateur Auto Side by Side peut générer et comparer plusieurs sorties pour une tâche donnée afin de
sélectionner la meilleure
réponse en fonction de
critères tels que la cohérence, flux
logique et la
capture des points clés. Par exemple, lorsqu'il choisit entre la réponse
A et la réponse B, l'aérateur peut expliquer que même si les deux réponses fournissent de
bons résumés, réponse B permet de
mieux saisir l'ensemble de l'histoire manière plus cohérente et
organisée, par rapport à la réponse A.
La mise en parallèle
automatique
fournit également des mesures agrégées Ces indicateurs de taux de victoire sont dérivés de
la table de jugement sous forme de pourcentage de fois où l'opérateur a préféré un
modèle par rapport à l'autre Ces indicateurs permettent d' identifier
rapidement
le meilleur modèle. De plus, comme je l'ai mentionné plus tôt, automatique côte à côte permet de valider
les jugements selon
les préférences humaines. Cela signifie qu'il est possible de fournir des informations et des
paramètres
supplémentaires dans le pipeline d'évaluation
côte à côte. Pour ce faire,
dans le jeu de données, une colonne doit être ajoutée selon
les préférences humaines. Nous devons également définir la colonne
des préférences humaines
dans les paramètres. Le reste du processus
reste le même. L'inclusion des
préférences humaines entraîne des mesures supplémentaires pour
l'alignement des préférences humaines. Le résultat inclut tous
les indicateurs habituels, mais il inclut également un taux de victoire par préférence
humaine,
le taux de victoire de l'
outérateur
et un score de Chenes Cape,
qui indique le niveau d'
accord entre l'opérateur et l'
évaluateur et un score de Chenes Cape, qui indique le niveau d'
accord entre l' humain Encore une fois, il s'agit d'une valeur de 0 à 1 zéro étant un choix aléatoire et
un étant un accord parfait En conclusion, Auto Side by Side se distingue comme un outil
innovant dans IA
vertex pour évaluer et comparer les performances
des modèles d'IA génératifs Nous avons vu comment il apporte précision au processus
d'évaluation grâce comparaisons
côte à côte et à des fonctionnalités d'
explication détaillées. Il rationalise l'évaluation
des LLN en veillant à ce que le modèle le plus performant puisse être identifié en fonction de critères spécifiques à la
tâche
8. L2V4 - Démo AutoSxS: Dans cette vidéo, nous
allons montrer comment utiliser Auto
site par site dans Vertex AI pour évaluer
le modèle Gemini par
rapport à un autre Ce guide pratique explique chaque étape de la configuration et de exécution d'une évaluation à
l'aide des outils fournis par
Google Cloud Platform. À la fin de cette vidéo, vous comprendrez comment utiliser l'
outil autoste
par site, configurer vos ensembles de données d'évaluation et interpréter les résultats de
l' analyse comparative autoste par site Cela vous permettra d'acquérir
les compétences nécessaires pour
évaluer efficacement les performances
des modèles d'IA générative. Passons maintenant à la démo. Le lien vers ce didacticiel est fourni afin que vous puissiez exécuter
l'évaluation vous-même. Dans cette démo, nous verrons comment
utiliser Auto côte à
côte pour évaluer et comparer les performances de
grands modèles linguistiques. Pour commencer, nous allons d'abord installer le package suivant en
exécutant cette commande. Nous utiliserons ce package pour appeler l'API depuis Google Club. Après avoir exécuté la commande, assurez-vous de
redémarrer le moteur d'exécution
afin d' utiliser le
nouveau package installé. Une cellule a été fournie pour permettre l'utilisateur de redémarrer le moteur d'exécution. Après avoir
exécuté la cellule avec succès, vous recevrez une fenêtre
contextuelle indiquant que le noyau est mort et
redémarrera automatiquement. Configurons maintenant les composants
nécessaires. Nous allons d'abord créer un compte
Google Cloud. Lors de la génération du compte, il vous sera demandé de saisir votre compte
Gmail et votre mot de passe. Une fois le compte
créé, vous serez accueilli par
un écran similaire à celui-ci. Ouvrez l'onglet du menu sur la
gauche et sélectionnez Facturation. À partir de là, vous
devrez activer la facturation. Vous devrez saisir une carte de crédit ou de débit
pour activer la facturation, mais un
crédit d'une valeur de 300$ vous sera fourni,
alors ne vous inquiétez pas Ensuite, vous
ouvrirez à
nouveau l'onglet du menu et sélectionnerez
les API et les services. Cliquez sur la bibliothèque et
recherchez l'API Vertex AI. Vous cliquerez ensuite sur Activer pour activer
l'utilisation de l'API. Vous allez ensuite créer un
projet dans Google Cloud. Cliquez sur le menu déroulant en haut
à gauche et
sélectionnez un nouveau projet. À partir de là, Google
vous guidera dans la création
du premier projet. Enfin, ouvrez à
nouveau l'onglet du menu et sélectionnez IAM et Admin. Vous verrez le projet nouvellement
créé. Cliquez sur Autoriser
l'accès et saisissez le nom du principal du projet que
vous avez créé
dans la liste déroulante des rouleaux, recherchez l'objet du filtre Ici, vous verrez
l'option pour l' administrateur de
l'environnement et des
objets de stockage. Ajoutez-le au
principal et enregistrez. Voici à quoi cela devrait
ressembler avec le rôle
d'administrateur d'objets de stockage.
Nous sommes maintenant prêts à partir. Puisque nous travaillons sur
Vertex AI Workbench, vous n'avez pas besoin d'effectuer d'étapes
supplémentaires Pour commencer, nous allons
définir l'identifiant du projet. Vous pouvez trouver l'ID du projet
en retournant dans le
menu déroulant du projet et en trouvant la
colonne où il affiche l'ID. Dans ce cas, il s'agit
de l'identifiant du projet. Exécutez la cellule après avoir remplacé l'ID par l'ID de
votre projet. Ensuite, nous allons définir la région. Dans cette démo, la région
est définie comme une obligation centrale américaine. Maintenant, lancez le bloc de cellules. Nous allons maintenant générer
un UUID aléatoire. Cela sera utilisé pour identifier
le projet de
manière unique et éviter d'
éventuelles collisions de noms. Nous allons maintenant utiliser l'UUID pour créer un nom d'URI de compartiment unique Nous allons maintenant passer à la
mise en place du processus. Nous allons d'abord importer les bibliothèques et
définir nos constantes. Nous définirons également nos assistants. Ensuite, nous allons initialiser le sommet AISDK en
fournissant notre ID de projet, notre région et l'URI de notre bucket Comme nous l'avons défini
dans nos constantes, nous comparerons un jeu de
données Gemini à un autre LLM, l'un produisant la réponse A
et l'autre la réponse B. Chaque ligne de données contient
un identifiant et un document à résumer. Les
deux versions de la réponse au
document s'y trouvent également Nous pouvons y jeter un coup d'
œil en utilisant Pandas pour lire le
JSON et le formater Ensuite, nous allons exécuter la tâche d'évaluation du
modèle. Voici les paramètres
requis par le pipeline. L'ensemble de données d'évaluation pour
indiquer l'emplacement des données, les colonnes d'
identification pour distinguer les exemples
d'évaluation uniques, qui sont des
champs d'identification et de document dans ce cas. Vient ensuite la tâche. La tâche que nous évaluons
est la synthèse. Et il y a les paramètres d'
invite de l'opérateur, qui sont utilisés pour
configurer le comportement de la tâche de l'opérateur, par exemple définir le contexte
et les instructions. Vous devrez ensuite fournir à la colonne de réponse A et colonne de
réponse B les noms des colonnes contenant des prédictions
prédéfinies
afin de calculer les mesures
d'évaluation. Dans ce cas, il s'agit de la
réponse A et de la réponse B. Après avoir défini les paramètres
d'évaluation du modèle, nous pouvons maintenant exécuter le travail du pipeline
d'évaluation du modèle avec ce modèle donné à
l'aide du SDK Vertex AI Python Laissez-le fonctionner car la fin du
pipeline peut prendre un certain temps. Vous pouvez cliquer sur le lien pour voir le pipeline en action sur la plateforme
Google Cloud. Voici à quoi ressemble votre
pipeline. Une fois le
cycle du pipeline terminé, vous pouvez utiliser le segment de code ci-dessous pour voir l'évaluation de chaque réponse et la
comparer en fonction
de l'aérateur Il fournit des informations
telles que des explications sur les préférences et le
score de confiance de l'aérateur Ensuite, nous pouvons également afficher les métriques agrégées à l'aide
des segments de code ci-dessous. Cela est plutôt
utile pour déterminer quel modèle est le meilleur dans le
contexte de la tâche donnée. L'aérateur prend également en compte les préférences
humaines pour valider
l'évaluation de l'aérateur. Nous allons maintenant utiliser l'autre URI, qui inclut une colonne de préférence
humaine supplémentaire. Dans le paramètre des
exigences du pipeline, nous allons maintenant inclure la
colonne des préférences humaines et exécuter la même tâche d'exécution du pipeline
avec la nouvelle colonne de données. Nous pouvons désormais obtenir les métriques agrégées
alignées sur l'humain. Encore une fois, voici à
quoi ressemble le pipeline dans Google Cloud. À l'aide des segments de code ci-dessous, nous obtenons les performances
de l'aérateur
côte à côte automatique en fonction des
préférences d'un humain. Enfin, nous allons nettoyer
les ressources de Google Cloud. Nous pouvons exécuter la cellule ci-dessous, et elle nettoiera toutes
les ressources que nous avons utilisées
dans ce projet. En conclusion, cette
démo a illustré les applications pratiques
d'Autoste par site pour évaluer le modèle
Gemini sur Vertex Nous avons parcouru
le processus de configuration, montré comment
configurer et exécuter l'évaluation et interprété
le résultat comparatif Cette
approche pratique vous
permet de
tirer parti efficacement de chaque
site pour évaluer et améliorer les performances des modèles d'IA
génératifs, ce qui vous permet de rendre vos solutions d'IA plus
robustes et plus fiables
9. L3V1 - Modèles d'évaluation basés sur du texte partie1: Dans cette vidéo, nous explorerons les modèles d'
évaluation
textuels fondamentaux pour LNS, tels que Meteor et
Perplexity, ainsi que Perplexity Saviez-vous que les
modèles d'IA biaisés peuvent avoir un impact négatif sur les candidatures dans des domaines critiques tels que l'approbation des prêts
et les décisions d'embauche ? En utilisant le météore et la perplexité, vous pouvez atténuer les
risques liés à ces biais en assurant que vos modèles sont à la fois
performants et équitables À la fin de cette vidéo, vous comprendrez comment fonctionnent différents indicateurs
d'évaluation tels que le
météore et la perplexité
et pourquoi ils sont importants Vous découvrirez également l'importance des
indicateurs de furness pour garantir
que les applications d'IA traitent tous les
groupes démographiques de manière équitable météore ou métrique d' évaluation de la traduction
avec un ordre explicite améliore les
indicateurs antérieurs tels que le bleu en tenant compte des synonymes, de la
paraphrase Il évalue la
qualité de la traduction en
fonction de l'exactitude littérale, de la fluidité
et de l'intention, ce qui en fait
un outil précieux pour les applications nécessitant une compréhension
nuancée Prenons un exemple
pratique pour comprendre le fonctionnement d'un météore Imaginez que nous ayons deux traductions
de l'expression anglaise, le renard brun rapide
saute par-dessus le chien paresseux Meteor obtiendrait
une note supérieure à la traduction A par rapport à la traduction B. Bien que les deux traductions
aient des significations similaires, traduction
A conserve une structure plus précise et
fluide avec une utilisation appropriée des synonymes, sauts pour les
sauts et
rapide pour Meteor évalue
ces traductions en analysant l'ordre des mots, synonymie et la similitude
sémantique globale avec le texte
de référence de Cela met l'accent sur la fluidité
et la compréhensibilité des
traductions et la compréhensibilité des perplexité est une autre
mesure utilisée pour évaluer les modèles
linguistiques en
évaluant dans quelle un modèle peut prédire
un échantillon de texte Il est basé sur la distribution de
probabilité, le modèle attribue à une
séquence de mots des valeurs
plus faibles indiquant que
le modèle prédit la
séquence avec valeurs
plus faibles indiquant que plus La perplexité
quantifie essentiellement incertitude
du modèle
quant Il fournit un indicateur
de son efficacité dans les tâches de compréhension
et de génération de langues. Regardons un exemple. Prenons l'exemple d'un modèle chargé prédire le
mot suivant de la phrase, le chat assis sur le Supposons que notre modèle prédit quatre
complétions possibles, Matt,
window, car et moon, avec des probabilités
respectives
de 0,5, 0,2, 0,2 La perplexité du modèle
pour cette prédiction peut être calculée en prenant l'inverse de la probabilité
du mot correct, mat dans ce cas, augmentée
à la puissance de moins Ici, la perplexité serait de deux, ce qui indique une incertitude relativement
faible valeurs de perplexité plus faibles témoignent la confiance et de la
précision du modèle dans ses prédictions, ce qui suggère une meilleure
compréhension
du contexte défini par le CAT
sur la carte Nous disposons également de mesures
d'évaluation de l'équité, qui sont des outils essentiels
utilisés pour déterminer si les modèles d'
IA fonctionnent de manière équitable dans les différents groupes
démographiques Ces mesures aident à
identifier les biais dans prédictions des
modèles susceptibles désavantager certains
groupes en fonction du sexe, la race, de l'âge ou d'autres facteurs Cela peut être fait en évaluant
les différences entre les taux d'erreur, les proportions de prévisions
positives et d'autres
indicateurs de performance. Prenons l'exemple d'un modèle d'IA d'approbation de
prêt qui utilise des données personnelles pour
prédire la solvabilité Pour évaluer l'équité,
nous pourrions analyser. Premièrement, différence entre les proportions
positives
dans les étiquettes prédites. Si 40 % des candidats du
groupe A, par exemple, candidats de
sexe masculin sont
considérés comme solvables contre seulement 20 % des candidats du
groupe B, dans cet exemple, candidates, cet
indicateur mettra en évidence un biais potentiel dans les prédictions du
modèle en faveur du groupe A, deux,
rappel de la différence Si le modèle identifie 90 % des
personnes solvables dans le groupe A, mais seulement 70 % dans le groupe B, l'
indicateur de différence de rappel
indiquera que le modèle est moins
efficace pour le groupe B, ce qui
peut entraîner un traitement injuste. Trois, une différence précise. En examinant
dans quelle mesure le modèle évite les faux positifs entre les groupes, nous pourrions constater qu'il classe à
tort les personnes
non solvables comme étant nous pourrions constater qu'il classe à
tort les personnes
non solvables comme étant
solvables à
des taux différents selon les groupes, ce qui pourrait affecter l'équité du processus décisionnel. En conclusion, cette vidéo a démontré le
rôle crucial que jouent les
indicateurs d'évaluation de la performance et de l'équité dans le développement et le déploiement
de modèles linguistiques. Nous avons vu comment des indicateurs
tels que Meteor et Perplexity aident à garantir que les
modèles fonctionnent de manière optimale, tandis que les indicateurs d'
équité corrigent biais afin de promouvoir l'équité et
10. L3V2 - Modèles d'évaluation basés sur du texte partie2: Dans cette vidéo, nous allons
approfondir notre exploration des
modèles d'évaluation basés sur le texte pour les LLM, concentrant sur les indicateurs de diversité
et l'évaluation zéro chance Vous avez probablement
remarqué que le
contenu généré par l'IA manque
souvent de diversité, ce qui le rend moins engageant
ou ennuyeux pour les utilisateurs. En appliquant des indicateurs de diversité, vous pouvez vous assurer que votre IA génère des réponses variées et
intéressantes. Nous proposons également une évaluation
zéro, qui permettra de tester davantage adaptabilité de
vos modèles à des tâches
nouvelles et imprévues À la fin de cette vidéo, vous serez en mesure de comprendre l'importance et l'
application des indicateurs de diversité pour générer des résultats
variés et créatifs. En outre, vous découvrirez comment l'évaluation
« zero shot » permet d' évaluer la capacité du LLM à
s'adapter à des tâches pour lesquelles il n'a pas reçu de formation
explicite Les indicateurs de diversité
évaluent l'étendue et caractère unique des réponses
générées par un modèle linguistique Ces indicateurs sont particulièrement importants pour les
applications nécessitant des résultats
créatifs ou variés,
tels que la génération de contenu
ou les systèmes de dialogue. En mesurant des aspects
tels que la richesse lexicale, la variation de la structure des phrases et la nouveauté des concepts
introduits dans les réponses, les métriques de
diversité garantissent que les résultats des modèles sont non seulement précis, mais également attrayants et reflètent un
large éventail de points de vue Imaginons un scénario. Imaginez que vous avez un
modèle d'IA chargé de
générer des idées d'histoires basées sur une seule demande
par jour à la plage. Supposons que le modèle génère
les réponses suivantes. En évaluant ces réponses
à l'aide de mesures de diversité, nous rechercherions la
variété des thèmes, personnages impliqués et
des activités décrites. La réponse B obtiendrait un score
élevé en termes de diversité en proposant de multiples intrigues secondaires
et des interactions variées Alors que la réponse C
obtiendrait un score inférieur en raison de sa redondance
avec la réponse A. La réponse D introduit
un nouvel élément, qui améliore son score en cas d'
introduction de contenu unique Ces indicateurs aident à évaluer la créativité et l'attrait
des résultats des modèles, en garantissant qu'ils fournissent un contenu
frais et engageant aux utilisateurs. Passons maintenant à l'évaluation
zéro tir. L'évaluation Zero Shot mesure la capacité
d'un modèle à gérer des tâches pour lesquelles il n'a pas été
spécifiquement formé. Cette métrique est
essentielle pour évaluer
les capacités de généralisation
des modèles linguistiques des loges Il révèle dans quelle mesure un modèle peut appliquer les connaissances acquises à nouveaux contextes ou à de nouveaux types de problèmes sans
peaufinage ni formation supplémentaires. Il démontre l'adaptabilité
et la flexibilité du
modèle dans
diverses applications. Regardons un exemple. Prenons l'exemple d'un
modèle linguistique formé principalement à partir de textes littéraires
en anglais. Si vous êtes confronté à une tâche dans un domaine complètement
différent, telle que la génération de descriptions
techniques pour de nouvelles applications logicielles. Une évaluation zéro
permettrait d'évaluer dans
quelle mesure le modèle exécute immédiatement
cette tâche. Regardons cet exemple. Nous pouvons constater que
même si ce modèle
n'avait aucune formation préalable sur les descriptions de
logiciels, génère une description cohérente
et pertinente. Il démontre une bonne capacité de tir
zéro. Cette capacité à généraliser
de la littérature
à la rédaction technique
sans formation spécifique met en évidence la robustesse
et l'utilité du modèle dans des scénarios
du monde réel où les données de formation ne sont pas toujours complètes
pour toutes les En conclusion, nous avons discuté de la
façon dont les indicateurs de diversité et l'évaluation
zéro jouent un rôle
crucial dans
l'évaluation des LLM Les indicateurs de diversité permettent de garantir que le contenu généré répond aux
exigences créatives des applications du monde
réel,
tandis que l'évaluation initiale évalue l'adaptabilité de ces
modèles à de nouvelles tâches, en démontrant leur robustesse et leur
utilité dans utilité
11. L3V3 - Évaluation de modèles d'IA générative non textuels: Dans cette vidéo, nous expliquerons
comment évaluer les modèles d' IA qui créent des
images, des sons et des vidéos. Imaginez-vous en train de regarder un
film généré par l'IA dans lequel les scènes semblent agitées ou où le son n'est pas agréable
. Ce serait frustrant. Voyons comment évaluer
ces modèles pour nous assurer que le contenu qu'ils génèrent est fluide, réaliste et engageant. À la fin de cette vidéo,
vous saurez comment identifier les principales méthodes utilisées par les
experts pour évaluer les modèles d'IA basés sur l'image, le
son et la vidéo. Vous vous familiariserez avec
les compétences nécessaires pour examiner et évaluer les médias générés par
ces
modèles d'IA générative. L'évaluation des modèles de
génération d'images par IA fait appel à des méthodes à la fois subjectives
et objectives. Les évaluations subjectives sont
basées sur le jugement humain de facteurs tels que l'
attrait visuel et l'impact émotionnel. Les évaluations objectives,
en revanche, utilisent des outils spécialisés pour mesurer des aspects
tels que la résolution de l'image ,
la précision des
couleurs et la présence de problèmes ou de défauts
visuels
appelés artefacts Prenons l'exemple d'une
image d'un paysage générée par l'IA. Pour l'évaluer, nous pouvons utiliser une métrique basée sur les pixels, telle que le PSNR, qui représente le rapport
signal/bruit maximal Évaluez objectivement la clarté et la
netteté de l'image. Dans le même temps, nous menons une enquête dans laquelle les participants
évaluent l'image en fonction du réalisme, la beauté et de la résonance émotionnelle afin de recueillir des données subjectives. Cette
évaluation complète permet déterminer le succès global
du modèle de génération d'images dans création d'images visuellement attrayantes
et précises. Passons maintenant au son. évaluer les modèles de
génération de sons
basés
sur l'IA , il faut examiner de près la qualité, la
précision et l'effet émotionnel
des sons qu'ils créent. Vous pouvez utiliser des mesures objectives
telles que la planéité des spectres et le taux de croisement nul pour évaluer techniquement
la qualité du son Il est également important de recueillir des commentaires
subjectifs de la part
des auditeurs sur la façon dont réels et émotionnellement engageants sons générés par
l'IA semblent
réels et émotionnellement engageants pour les gens Imaginez que vous évaluez un morceau de musique généré par l'
IA destiné
à évoquer la relaxation L'analyse objective pourrait mesurer la cohérence du
tempo et la clarté du son à l'aide
d'outils tels qu'un sonomètre ou
un analyseur de spectres À des fins d'évaluation subjective,
un groupe d'auditeurs pourrait évaluer la musique en fonction de ses qualités
apaisantes et de ses effets émotionnels De telles choses peuvent
donner un aperçu l'efficacité de la musique pour atteindre l'objectif
émotionnel visé. Que diriez-vous des vidéos ? Lorsque vous évaluez des modèles de
génération vidéo basés sur l'IA, vous devez tenir compte de
deux éléments principaux la qualité visuelle
de la vidéo et manière dont les images circuleront
ensemble au fil du temps, ce que l'on appelle également cohérence
temporelle. Pour mesurer la qualité visuelle, vous pouvez utiliser des métriques telles que Ks
et R dont nous avons parlé. Cette métrique permet de vérifier la netteté et le niveau de détail de
la vidéo Il existe une autre métrique
appelée SSIM,
qui correspond à un indice de
similarité structurelle Cette métrique examine les détails et compare la vidéo basée sur l'IA à une vidéo de
référence. Pour évaluer la cohérence
temporelle, vous devez voir avec quelle
fluidité les
images vidéo passent
de l'une à l'autre. Cela permet de garantir
que le mouvement de la vidéo semble
naturel et logique. Un autre élément
important à évaluer est la pertinence contextuelle Le contenu vidéo
correspond-il réellement à l'histoire ou à la scène
prévue ? La vidéo générée par l'IA doit refléter
avec précision ce qui est
censé être affiché. Par exemple, pensez à évaluer une vidéo générée par l'IA qui
représente un plongeur dans l'océan Des indicateurs objectifs analyseraient la résolution de la vidéo
et la
cohérence image par image afin de
garantir la fluidité des mouvements et la clarté
des détails visuels Subjectivement, les spectateurs
pourraient évaluer dans
quelle mesure la vidéo capture l'
essence du décor, tenant compte d'éléments tels que le réalisme des vagues de l'océan, le mouvement naturel
du plongeur et l'ambiance générale Cette évaluation combinée permet déterminer si le modèle de
génération vidéo reproduit
efficacement une expérience de
plongée réaliste et engageante Conclusion, l'évaluation modèles d'
IA
non génératifs de texte pour les images, les
sons et les vidéos
est essentielle pour faire progresser l'IA dans des applications créatives et
pratiques. En combinant
des mesures objectives avec des commentaires humains subjectifs, nous obtenons une vue complète
des capacités d'un modèle d'IA. Cette approche garantit que
le contenu généré par l'IA est techniquement solide et
trouve un écho auprès des utilisateurs, ce qui est crucial pour développer des applications d'IA
générative
utiles et attrayantes
12. L3V4 - Notes finales Importance de l'évaluation humaine: Dans cette vidéo, nous allons résumer
notre cours et souligner l'importance cruciale de l' évaluation
humaine dans l'évaluation des modèles d'IA
générative. Vous êtes-vous déjà demandé pourquoi certains contenus générés par l'IA sont
trompeurs ou inexacts ? Nous verrons en quoi l'IA
générative fonctionne bien, quoi elle ne fonctionne pas et pourquoi surveillance
humaine est nécessaire pour détecter et corriger
ces erreurs. Pour garantir que les résultats de ces modèles sont utiles
et fiables. À la fin de cette vidéo, vous comprendrez les
limites de l'IA générative, notamment sa
tendance à produire fausses informations
ou des hallucinations. Nous expliquerons pourquoi il est essentiel de reconnaître les failles pour utiliser
efficacement l'IA et garantir qu'elle donne des résultats fiables et
utiles. L'IA générative peut bien accomplir de nombreuses tâches, mais elle présente également de
grandes faiblesses. L'un des principaux problèmes est qu'il peut générer de fausses informations
ou des hallucinations. Cela signifie que le modèle fournit des informations
erronées ou inventées. Ces modèles ne
connaissent souvent pas les limites de
leurs propres connaissances, c'est
pourquoi il est si
important de les évaluer avec soin. Pour utiliser efficacement l'
IA générative, nous devons comprendre
ses limites. Cela signifie qu'il faut être conscient que le modèle peut commettre des
erreurs et trouver des moyens de réduire ces problèmes lors de son
utilisation dans la vie réelle. Comme nous devons reconnaître les limites
de l'IA générative et y
remédier, nous introduisons un
outil utile appelé le test IVO, qui signifie
validation immédiate des résultats C'est un moyen simple mais
efficace de vérifier si un modèle d'
IA générative est fiable. Un modèle passe le
test IVO si les utilisateurs peuvent vérifier facilement et rapidement que le résultat est correct
et répond à leurs besoins Ainsi, même les utilisateurs
qui ne sont pas des experts peuvent utiliser et valider
efficacement
le contenu créé par l'IA. Pour implémenter le test IVO, les utilisateurs évaluent le résultat généré
par l'
IA en le comparant à des ressources
fiables, une méthode connue sous le nom de
post-grounding Cela permet aux utilisateurs de vérifier l'exactitude des informations en examinant les faits établis. Cela garantit que les résultats de l'IA sont non seulement pertinents
mais également fiables. Cette étape est essentielle pour les applications où la précision
est primordiale. Il permet aux utilisateurs d'utiliser
les outils en toute confiance. Supposons qu'un modèle d'IA soit conçu pour résumer des articles
scientifiques. Pour utiliser le test IVO, les utilisateurs peuvent interagir avec le résumé
généré par l'IA dans une application spéciale S'ils veulent vérifier une partie précise du
résumé, ils peuvent cliquer dessus. L'application leur montre ensuite la section correspondante dans
l'article d'origine. Cette fonctionnalité permet aux
utilisateurs de comparer facilement le
résumé avec la source, en s'assurant que le résultat de l'IA reflète
fidèlement
le contenu original. Cette méthode renforce la confiance dans l'IA et aide
les utilisateurs à
mieux comprendre en
reconnectant le contenu généré par l'
IA à ses sources fiables. En confiant à des humains la
supervision des systèmes d'IA, nous pouvons nous assurer qu'ils ne sont pas uniquement évalués en termes de performance, mais également en termes d'
équité et d'éthique. Cette approche permet d'arrêter
la propagation des préjugés et garantit que l'IA est développée
d'une manière qui respecte les valeurs
humaines En conclusion, nous avons discuté de
l'importance de faire évaluer par des humains des modèles d'IA
générative ainsi que des méthodes automatisées. En combinant les connaissances humaines avec l'efficacité
des algorithmes, nous pouvons évaluer des aspects
tels que la créativité, le contexte et l'éthique que
les ordinateurs peuvent manquer. Cette approche rend non seulement évaluations plus
précises et fiables, mais garantit également que l'
IA est développée
conformément à nos valeurs et à nos
attentes en tant que société.
13. Outro: Excellent travail. Tu l'as fait. Vous avez terminé l'évaluation des sorties de modèles linguistiques
volumineux. Je ne suis pas là juste
pour dire au revoir. Je veux que vous preniez un moment pour célébrer vos réussites
tout au long de ce cours. Ensemble, nous avons
exploré de nouveaux concepts, face à des tâches difficiles
et nous avons connu une croissance significative. Regardez en arrière et voyez ce que vous savez maintenant et que vous ne saviez pas
au début du cours. Votre engagement a permis
de réaliser des progrès importants, et vous devriez être fiers
de cette réalisation. Ce cours n'est qu'une étape de votre parcours
d'apprentissage continu. Les concepts que vous avez
appris ici
serviront de base
à votre croissance future. Assurez-vous de continuer à appliquer ces compétences et de
maintenir votre curiosité. Pour poursuivre votre voyage, je vous recommande ce qui suit. Tout d'abord, revoyez les supports
de
cours pour vous rafraîchir la mémoire
sur le contenu Ensuite,
assurez-vous de communiquer avec vos pairs
sur les forums communautaires. Troisièmement, assurez-vous de vous lancer dans de nouveaux projets stimulants
afin de maintenir vos compétences à jour. Merci d'avoir
participé à ce cours
sur l' évaluation des résultats du LMS Votre engagement compte beaucoup
pour moi et pour toute notre équipe. À la fin de notre cours, votre voyage ne fait que commencer. J'ai hâte de
savoir ce que vous pensez de ce cours et ce que vous
comptez accomplir
à l'avenir. Continuez à avancer, restez curieux et profitez
du voyage qui vous attend. Encore une fois, félicitations, et j'espère vous voir
dans un autre cours. Je signe, professeur Reza.