Transkripte
1. Einführung: Willkommen zu unserem Kurs zur Bewertung der Ergebnisse großer
Sprachmodelle. Da KI und die Verarbeitung natürlicher
Sprache Technologie
zunehmend
beeinflussen, ein tiefes Verständnis
der Bewertung ist
ein tiefes Verständnis
der Bewertung
großer Sprachmodelle für jeden
modernen Entwickler von
entscheidender Bedeutung. Wir führen Sie durch
grundlegende Bewertungsmethoden,
fortgeschrittene
Techniken, bei denen Tools wie automatische Metriken und
automatische Analysen von Standort zu Standort verwendet werden,
sowie durch ethische Überlegungen
bei der KI-Entwicklung Dieser Kurs konzentriert sich auf
praktische Anwendungen, integriert menschliches Urteilsvermögen
mit automatischen Methoden und bereitet Sie auf
zukünftige Trends bei der
KI-Bewertung in verschiedenen Medien Hallo, ich bin Professor Reza mit mehr als zehn
Jahren
Unterrichtserfahrung im Bereich Informatik und
künstliche Intelligenz Während meiner Promotion
habe ich
mit dem MIT Media Lab, der
Carnegie Melon University, dem HCII, der
Harvard University
und der University of California San Diego zusammengearbeitet Carnegie Melon University, dem HCII, der
Harvard University und der University of California San Diego und Ich habe an renommierten
Orten wie IAE, Springer Nature und ACMKI veröffentlicht . Meine Arbeiten wurden in mehreren Nachrichtenagenturen
veröffentlicht, darunter im Neck
Web und CBS Dieser Kurs ist ideal
für Sie, wenn Sie daran interessiert
sind, die Fähigkeiten zu
erlernen, um die Ergebnisse von
LLMs effektiv zu
bewerten um Ihre
Geschäftsstrategien
und Ihre persönliche Innovation zu verbessern und Ihre persönliche Die Lernziele
dieses Kurses bestehen darin die Stärken und
Herausforderungen der
LLM-Bewertungstools zu
verstehen Herausforderungen der
LLM-Bewertungstools Entdecken Sie einige der Dienste zur Bewertung von
KI-Modellen von Vertex. Optimieren Sie die Modellauswahl entsprechend Ihrer Anwendung und
bereiten Sie sich auf die Zukunft vor, indem verstehen, wie sich die Weiterentwicklung von
Evaluierungstools und
-diensten auf
die Entwicklung
und den Einsatz umfangreicher Sprachmodelle auswirken kann und den Einsatz umfangreicher Sprachmodelle Um in diesem Kurs erfolgreich zu sein, sollten
Sie über
Grundkenntnisse
der Konzepte des maschinellen Lernens verfügen , einschließlich Kennzahlen
zur Modellbewertung, und Kenntnisse in LANs
und deren Anwendungen verfügen Dieser Kurs besteht aus
drei Lektionen. Lektion eins, Grundlagen der Bewertungsmethoden für
große Sprachmodelle. Lektion zwei,
LLM-Bewertung zu Vertex-KI, und Lektion drei, Die Zukunft generativer
KI-Evaluierungsmodelle Am Ende dieses Kurses werden
Sie ein gründliches
Verständnis für die
Bewertung der Ergebnisse von LLMs erlangen Bewertung der Ergebnisse von LLMs Sie lernen, wie Sie
die Effektivität und Genauigkeit von LLM-generierten
Inhalten in verschiedenen Bereichen Sie diese Fähigkeiten kennen, können Sie die Qualität
verschiedener KI-Modelle
beurteilen Sie können das
richtige für Ihre Bedürfnisse auswählen. Auf diese Weise können
Sie effektive
und
ethisch verantwortungsvolle
Anwendungen für persönliche,
berufliche und
geschäftliche Zwecke entwerfen, entwickeln und implementieren ethisch verantwortungsvolle
Anwendungen für persönliche,
berufliche und
geschäftliche Zwecke entwerfen, und Lassen Sie uns also beginnen und
untersuchen, wie die Bewertung von LLM-Ergebnissen
die Zuverlässigkeit und
Effektivität von KI-Lösungen verbessern kann die Zuverlässigkeit und
Effektivität von KI-Lösungen
2. L1V1 Einführung in LLMs und ihre Evaluierungsmethoden: In diesem Video werden
wir uns mit dem Konzept von Lodge Language Models, kurz LNS,
befassen Stellen Sie sich ein KI-System vor, das so
fortschrittlich ist, dass es Geschichten schreiben, komplexe Fragen
beantworten
und sogar Gespräche führen kann , komplexe Fragen
beantworten
und sogar Gespräche führen Ist das nicht faszinierend? zu verstehen, wie diese Modelle
funktionieren und wie
ihre Ergebnisse bewertet Es ist von entscheidender Bedeutung zu verstehen, wie diese Modelle
funktionieren und wie
ihre Ergebnisse bewertet werden können, da diese Technologien
unser tägliches Leben verändern Am Ende dieses Videos werden
Sie verstehen, wie sich große
Sprachmodelle von
herkömmlichen NLP-Modellen oder Modellen zur Verarbeitung natürlicher
Sprache unterscheiden herkömmlichen NLP-Modellen oder Modellen zur Verarbeitung natürlicher
Sprache Wir werden sie
in Bezug auf Umfang und Komplexität vergleichen. Wir werden auch
die Bedeutung
zuverlässiger Bewertungsmethoden und
die möglichen Folgen einer
unsachgemäßen Bewertung auf
reale Anwendungen erörtern zuverlässiger Bewertungsmethoden und die möglichen Folgen einer . Große Sprachmodelle oder LLMs sind ein großer Fortschritt in der
künstlichen Intelligenz Diese Modelle lernen aus
riesigen Mengen an Textdaten, wodurch sie menschenähnliche Sprache verstehen und erzeugen Es ist fast so, als könnten sie ähnlich
denken wie Menschen. LLMs können
im Vergleich zu einfacheren
Sprachmodellen viel
komplexere Aufgaben bewältigen im Vergleich zu einfacheren
Sprachmodellen Sie können
Konversationen führen, lange Textteile
zusammenfassen und sogar
Originalinhalte erstellen Sie tun das alles mit einem
beeindruckenden Maß Geläufigkeit und Genauigkeit, das zuvor nicht möglich
war Die wahre Stärke von LLNs liegt in ihrer Tiefe und ihrem Umfang. Im Gegensatz zu herkömmlichen
NLP-Modellen, die mit begrenzten Daten und
vordefinierten Regeln
arbeiten und sich auf bestimmte Aufgaben konzentrieren, werden
LLNs auf sehr unterschiedlichen Datensätzen trainiert
. Diese Datensätze enthalten
Milliarden von Wörtern. Dies ermöglicht es LLNs, die Nuancen der
Sprache besser zu
verstehen und
verschiedene Aufgaben effektiv zu bewältigen LLNs verwenden fortschrittliche
Deep-Learning-Techniken wie Transformatorarchitektur
, um Muster
selbstständig zu lernen , ohne für bestimmte Aufgaben
programmiert zu sein Durch den Aufbau eines tiefen
Sprachverständnisses direkt aus Daten können
LLNs weit über
die Fähigkeiten
früherer Modelle hinausgehen, die auf
einfacheren Techniken
und strukturiertem Input basieren einfacheren Techniken
und Die fortschrittlichen Fähigkeiten
von LLNs ermöglichen es ihnen, eine Vielzahl von
Sprachaufgaben gleichzeitig
auszuführen, von der Übersetzung
von Sprache bis hin zur
Erstellung kreativer Sie können sich an
unterschiedliche Kontexte anpassen und kohärente,
relevante Antworten liefern Dies unterscheidet sie von früheren NLP-Technologien, die in der Regel
kürzeren, isolierten Text verarbeiten Ein weiterer wesentlicher Unterschied besteht darin, dass die großen neuronalen
Netzwerke von
LLM es
ihnen ermöglichen , den Kontext
über lange Konversationen
oder Dokumente aufrechtzuerhalten über lange Konversationen Dies war für
frühere traditionelle NLP-Modelle eine ziemliche Herausforderung frühere traditionelle NLP-Modelle Lassen Sie uns nun sehen, warum es
wichtig ist ,
die Ergebnisse von Evince zu bewerten Es ist wichtig,
die Ergebnisse zu bewerten , da
diese Modelle immer häufiger
in Bereichen eingesetzt
werden , in denen es wirklich darauf ankommt, umfangreiche
Informationen Bereiche wie Gesundheitswesen, Recht, Kundenservice,
Nachrichten und Bildung. In diesen Bereichen ist es von entscheidender Bedeutung, dass die
Ergebnisse korrekt,
fair und angemessen sind , um das Vertrauen
aufrechtzuerhalten und
diese Tools nützlich zu machen. Gute Bewertungen tragen dazu bei,
die Zuverlässigkeit der Informationen zu gewährleisten ,
indem sie überprüfen, ob LLMs die
Eingaben richtig
verstehen, und sicherstellen, dass die Antworten korrekt und relevant
sind Schützen Sie sich auch vor den negativen Auswirkungen
falscher Ergebnisse, wie etwa der Verbreitung falscher oder
irreführender Informationen HA-Fake News Ein weiterer Grund, warum die Bewertung von
LLMs so wichtig ist, liegt darin die Ergebnisse dieser Modelle die Verzerrung der
Daten
widerspiegeln, auf denen sie trainiert wurden Wir möchten sicherstellen, dass wir ethische Standards einhalten LLMs können aufgrund der Daten, mit denen wir
sie trainieren, Vorurteile
verstärken , was
zu unfairen oder voreingenommenen Ergebnissen führen kann zu unfairen oder voreingenommenen Ergebnissen Gute Evaluierungen können diese Vorurteile identifizieren
und abmildern, gewährleistet Durch Evaluierungen können wir
auch überprüfen, ob die Antworten angemessen
sind und den gesellschaftlichen Normen entsprechen,
insbesondere bei Interaktionen
mit insbesondere Regelmäßige Evaluierungen
verbessern diese Modelle fördern den
ethischen Einsatz
künstlicher Intelligenz
und tragen dazu bei Vertrauen der Öffentlichkeit in
interaktive Technologien Abschließend
haben wir uns in diesem Video mit den Grundlagen umfangreicher Sprachmodelle befasst und erklärt, wie sie sich von
herkömmlichen NLP-Modellen
unterscheiden Wir haben auch darüber gesprochen,
wie wichtig es ist, sie zu
bewerten, und
wir haben gelernt, dass es entscheidend ist,
sicherzustellen, dass die LM-Ergebnisse korrekt und ethisch
korrekt
sind , um sicherzustellen, dass sie in
verschiedenen Anwendungen gut
funktionieren
3. L1V2 – Vorteile und Herausforderungen von LLM-Evaluierungsmethoden: In diesem Video werden wir die Schritte
untersuchen, die bei der Bewertung
großer
Sprachmodelle erforderlich sind Stellen Sie sich vor, Ihre Nachrichtenagentur benötigt die beste KI, um
Artikelzusammenfassungen zu erstellen Wie wählt man die richtige aus? Wir führen Sie durch die Definition von Zielen, die
Auswahl von Methoden, Auswahl von Datensätzen
und die Interpretation Ergebnisse anhand eines
realen Szenarios Am Ende dieses Videos werden
Sie die
Schritte und Herausforderungen verstehen, die mit den einzelnen Schritten der Bewertung umfangreicher
Sprachmodelle
verbunden der Bewertung umfangreicher
Sprachmodelle Stellen Sie sich vor, Sie arbeiten in einer
Nachrichtenagentur, die
LLMs verwenden möchte , um
einzeilige Zusammenfassungen
für ihre Nachrichtenartikel zu erstellen für ihre Nachrichtenartikel Um
LLMs auf diese Weise erfolgreich zu integrieren, müssen Sie
mehrere Modelle bewerten, um
das am besten geeignete Modell zu ermitteln Auf den ersten Blick mag die Bewertung von LLMs einfach erscheinen und mehr oder weniger ähnlich Bewertung eines
herkömmlichen Zunächst definieren Sie
Bewertungsziele. Dann wählen Sie die
Bewertungsmethoden aus. Der dritte Schritt besteht darin,
geeignete Datensätze auszuwählen und schließlich die Ergebnisse zu analysieren
und zu interpretieren Lassen Sie uns also
jeden dieser Schritte aufschlüsseln. Im ersten Schritt
möchten Sie Fragen stellen, z. B. welche spezifische Aufgabe das LLM ausführen soll? Sie möchten auch herausfinden, welche Kennzahlen für Sie
wichtiger sind:
allgemeine Sprachkompetenz, Kohärenz, sachliche Richtigkeit Im zweiten Schritt
müssen Sie die Bewertungsmethode auswählen Sie können aus
verschiedenen Methoden
wie aufgabenspezifischen Kennzahlen,
Forschungsbenchmarks,
LLM-basierten Bewertungen
und menschlichen Bewertungen
auf der Grundlage Ihrer Bewertungsziele wählen wie aufgabenspezifischen Kennzahlen, Forschungsbenchmarks,
LLM-basierten Bewertungen
und menschlichen Bewertungen auf der Grundlage Ihrer Bewertungsziele Was die Auswahl des
geeigneten Datensatzes angeht, sollten
Sie
einen zentralen Datensatz definieren , der Ihren
Bewertungszielen und Kennzahlen entspricht Ein guter Ort, nach dem Sie suchen sollten,
sind
die Benchmark-Datensätze, die speziell
für die Bewertung von LLMs entwickelt wurden Für die Analyse und
Interpretation der Ergebnisse sollten
Sie sowohl
quantitative als auch
qualitative Ergebnisse kombinieren, sollten
Sie sowohl
quantitative als auch
qualitative Ergebnisse kombinieren sowohl
quantitative als auch
qualitative Ergebnisse um umfassende
Erkenntnisse für Ihre Achten Sie darauf, die
Stärken und Schwächen der einzelnen Bewertungsmethoden zu notieren
und Ihre Schlussfolgerung zu
begründen. Hoffentlich klingt das auch einem guten Ansatz für die
Bewertung von LLMs. Allerdings gibt es auch
in diesem Prozess
mehrere Herausforderungen, insbesondere wenn es um
die Bewertung der
Ergebnisse dieser LLS geht die Bewertung der
Ergebnisse dieser LLS Die erste Herausforderung besteht in der
Definition der Bewertungsziele. In unserem Beispiel ist die Definition von
Bewertungszielen für LLMs bei Aufgaben
wie der Zusammenfassung von für LLMs bei Aufgaben
wie der Zusammenfassung von
Nachrichtenartikeln aufgrund
des subjektiven Charakters dessen, was eine gute Zusammenfassung
ausmacht, eine
Herausforderung des subjektiven Charakters dessen, was eine gute Zusammenfassung
ausmacht, eine Es ist schwierig, sich
auf eine begrenzte Anzahl von
Kennzahlen zu verlassen , um die
Qualität eines Outputs zu beurteilen Außerdem
gibt es bei der Auswahl der
Bewertungsmethoden Zeit- und
Ressourcenbeschränkungen. Es wird
rechenintensiv und
zeitaufwändig sein ,
mehrere Bewertungsmethoden auszuprobieren Außerdem
werden
sehr häufig
neue Bewertungsmethoden eingeführt es
schwierig macht, zu entscheiden welche Methode für unseren Anwendungsfall am
besten geeignet ist Bei der Auswahl
geeigneter Datensätze Größe und Qualität der können Größe und Qualität der
verfügbaren Datensätze zu Herausforderungen führen Bei Vorhersagemodellen wissen
wir, dass große Datensätze mit minimalem Rauschen zu
einer besseren Leistung führen In der Welt der
generativen Modelle sind
wir uns jedoch immer noch nicht sicher, welche Größe und Qualität der Datensätze Betten haben Und schließlich kann es bei der Analyse
und Interpretation von Ergebnissen zu
Schwierigkeiten bei der
Erklärbarkeit kommen, insbesondere wenn es sich um
neuere Bewertungsmethoden handelt Wir verfügen immer noch nicht über eine
Standardmethode zur Interpretation
der Ergebnisse oder zur Bewertung der Zuverlässigkeit dieser
Bewertungsmethoden Zusammenfassend lässt sich sagen, dass dieses
Video
die wesentlichen Schritte
und Herausforderungen bei
der Bewertung
großer Sprachmodelle behandelt hat die wesentlichen Schritte
und Herausforderungen . Wir haben uns diese
Bewertungen für
Aufgaben wie die Zusammenfassung von
Nachrichtenartikeln angesehen Aufgaben wie die Zusammenfassung von
Nachrichtenartikeln Wir haben untersucht, wie man
klare Bewertungsziele definiert, die richtigen
Bewertungsmethoden
auswählt, geeignete Datensätze und die Ergebnisse effektiv
interpretiert Jeder Schritt bringt
unterschiedliche Herausforderungen , die
sorgfältig bewältigt werden müssen, um die erfolgreiche
Integration
umfangreicher Sprachmodelle in
reale Anwendungen
sicherzustellen umfangreicher Sprachmodelle in
reale Anwendungen
4. L1V3 LLM – Evaluierung auf Vertex AI: In diesem Video werden wir die Tools
untersuchen, die Vertex AI zur
Bewertung der Ergebnisse großer Sprachmodelle bietet Bewertung Stellen Sie sich vor,
KI-Modelle mit
Tools zu bewerten , die
Genauigkeit und Fairness hervorheben Diese Tools geben Ihnen
die Möglichkeit,
versteckte Vorurteile aufzudecken und
versteckte Leistungen
Seite an Seite zu vergleichen versteckte Leistungen
Seite an Seite Wir untersuchen auch einige
Erkenntnisse darüber, wie Sie
Ihre KI-Modelle nicht nur
effektiv, sondern auch ethisch vertretbar machen Ihre KI-Modelle nicht nur
effektiv, sondern auch Am Ende dieses Videos werden Sie wissen, wie
Sie
Vertex AI
effektiv einsetzen können , um
die Ergebnisse umfangreicher
Sprachmodelle zu bewerten die Ergebnisse umfangreicher
Sprachmodelle Wie bereits erwähnt, werden
wir
in diesem Kurs Google
Cloud als Beispiel für
eine Plattform verwenden, die Tools für die LLM-Bewertung bereitstellt Die Vertex-KI von Google
kann Ihnen dabei helfen,
den gesamten Lebenszyklus
eines großen Sprachmodells
von Anfang bis Ende zu bewerten den gesamten Lebenszyklus
eines großen Sprachmodells
von Anfang bis Ende zu In Vertex AI können Sie Modelle für
viele verschiedene Aufgaben und Modalitäten
prototypisieren, anpassen ,
evaluieren und
bereitstellen ,
evaluieren und
bereitstellen Für die
Zwecke dieses Kurses werden
wir uns jedoch nur auf
die Bewertungsmöglichkeiten konzentrieren , die Vertex Zu den in Vertex AI
verfügbaren Funktionen zur
Optimierung des
Bewertungsprozesses
gehören automatische Metriken, bei Optimierung des
Bewertungsprozesses gehören automatische Metriken, denen Referenzdaten
zur Berechnung
aufgabenspezifischer Metriken verwendet zur Berechnung
aufgabenspezifischer Automatisieren Sie Standort für Standort, was die menschliche
Bewertung nachahmt, indem
die Leistung von zwei Modellen
mit einem Arbitermodell verglichen die Leistung von zwei Modellen
mit einem Und Sicherheitsverzerrung,
die hervorhebt das Modell Vorurteile gegenüber
einer bestimmten In Lektion zwei
werden wir uns eingehender automatischen Metriken und
automatischen Metriken befassen. In Lektion drei
werden wir uns auch kurz
mit Sicherheitsverzerrungen befassen. Lassen Sie uns zunächst
jede dieser drei
Bewertungsmethoden durchgehen . Automatische Metriken bei der
KI-Evaluierung sind quantitative Messgrößen, mit denen die Leistung
von Modellen
bewertet wird , insbesondere bei Aufgaben wie Textgenerierung oder
maschineller Übersetzung. Sie sind in der Regel schnell und
effizient und können Teil
einer standardisierten
Methode sein , die in
Wissenschaft und Industrie zum
Vergleich verschiedener Romane verwendet wird Wissenschaft und Industrie zum
Vergleich verschiedener Romane Zu den gängigsten
automatischen Messgrößen gehört die
blaue oder zweisprachige
Evaluierung im Rahmen von Unterstudium. Dabei wird gemessen
, wie viele
Wörter und Ausdrücke in einer maschinell generierten Übersetzung
mit einer Referenzübersetzung übereinstimmen Wir verwenden auch Rouge oder
Recall-Oriented Understudy
für die Stichbewertung. Dabei handelt es sich um eine weitere Kennzahl, die zur Bewertung von
Textzusammenfassungen
verwendet wird , indem
die sich überschneidenden
Einheiten wie Gramm,
Wortfolgen und
Wortpaare zwischen
der computergenerierten Zusammenfassung
und einer Reihe von Referenzzusammenfassungen gezählt die sich überschneidenden
Einheiten wie Gramm, Wortfolgen und
Wortpaare zwischen
der computergenerierten Zusammenfassung
und der computergenerierten Zusammenfassung und Es gibt auch Auto Side by Side, ein Tool, das für die
automatische parallele
Bewertung von KI-Modellen verwendet wird ,
insbesondere von
generativen KI-Modellen insbesondere von
generativen KI-Modellen in der Vertex-KI-Modellregistrierung Dieses Tool ermöglicht den Vergleich der Leistung
verschiedener Modelle und gibt
Aufschluss
darüber, welches Modell unter
welchen Umständen besser
abschneidet Auto side by side
zielt darauf ab,
konsistente
Leistungskennzahlen zu liefern ,
konsistente
Leistungskennzahlen , die sich an menschlichen Bewertungen
orientieren bietet
jedoch den Vorteil
,
dass es schneller , kostengünstiger und bei Bedarf
verfügbar ist. Nicht zuletzt ermöglicht die KI von Vertex auch die Bewertung von
Sicherheitsverzerrungen Diese Bewertung überprüft
und modelliert die Ergebnisse auf Vorurteile gegenüber
Identitätsgruppen wie dieser Analyse soll sichergestellt , dass die Ergebnisse
des LLN nicht schädlichen
Stereotypen oder
zu unfairen Behandlung Zusammenfassend lässt sich sagen, dass die Vertex-KI von Google
Cloud umfassende Tools
zur Bewertung von
Sprachmodellen für Unterkünfte
bietet , wobei der Schwerpunkt auf
Leistungskennzahlen Automatische Metriken wie Blue
und Rouge bieten standardisierte, schnelle und effiziente Möglichkeiten,
Modellergebnisse anhand von Referenzdaten zu bewerten Auto Site by Site vergleicht
zwei Modelle nebeneinander und
ahmt so menschliches
Urteilsvermögen nach , bietet jedoch die Vorteile von Geschwindigkeit
und Kosteneffizienz Darüber hinaus wird bei
Sicherheitsverzerrungen die
Fairness zwischen verschiedenen
Identitätsgruppen, wie z. B. dem
Geschlecht, überprüft Fairness zwischen verschiedenen
Identitätsgruppen, wie z. B. , um sicherzustellen
, dass LLNs keine schädlichen Stereotypen
oder Diskriminierung
verstärken Dieser ganzheitliche Bewertungsansatz
ermöglicht es Entwicklern, LLNs weiterzuentwickeln sie dabei an
ethischen Standards und
gesellschaftlichen Erwartungen an verantwortungsvolle KI
auszurichten gesellschaftlichen
5. L2V1 – Automatische Metriken: In diesem Video werden wir uns automatische Metriken
ansehen
und verstehen, welche Rolle sie bei der
Bewertung von
Sprachmodellen für Logen Stellen Sie sich einen Entwickler vor, der
mit der Leistung
seines KI-Modells zu kämpfen hat. Sie verbringen Stunden damit, das
Modell zu testen und zu optimieren,
ohne ein klares Feedback zu
den Auswirkungen ihrer Optimierungen
auf das Ergebnis des Ich glaube, die meisten von
Ihnen, die an
diesem Kurs teilnehmen , wissen bereits, wie Aber was wäre, wenn ich Ihnen sagen würde, dass es Tools
gibt, die uns
präzise Leistungsdaten liefern und die genauen
Verbesserungsbereiche
aufzeigen Am Ende dieses Videos werden
Sie die
verschiedenen automatischen Metriken verstehen, die bei der LLM-Bewertung
verwendet werden, warum sie verwendet werden und
wie sie bei
der Verfeinerung der
Modellleistung für verschiedene Aufgaben helfen können der Verfeinerung der
Modellleistung für verschiedene Sie können Klassifizierung,
Zusammenfassung, Textgenerierung
oder ähnliches Automatische Metriken bieten also eine schnelle und kostengünstige Möglichkeit, die Leistung Ihres
Modells
anhand einer Reihe von
aufgabenspezifischen Metriken zu
bewerten anhand einer Reihe von
aufgabenspezifischen Metriken diesem Ansatz werden
Modelle anhand von Paaren
zwischen Eingabeaufforderung und
Ausgangsantwort bewertet , sodass Sie ihre Effektivität schnell
beurteilen Automatische Metriken sind
eine Standardmethodik in der akademischen Forschung
und in vielen offenen Benchmarks
weit verbreitet und in vielen offenen Benchmarks Sie verwenden allgemein
anerkannte Metriken für verschiedene allgemeine KI-Aufgaben, sodass die Ergebnisse
verschiedener Studien und Plattformen vergleichbar verschiedener Studien und Plattformen Der Bewertungsprozess
beinhaltet die Anpassung eines Bewertungsdatensatzes in das Modell, um
Prognoseergebnisse zu generieren. Diese Ergebnisse werden
dann anhand
der ausgewählten
Bewertungsmetriken bewertet , um
die Leistung des Modells bei
der jeweiligen spezifischen Aufgabe zu messen . Durch die Nutzung automatischer Metriken können
Sie die Fähigkeiten
Ihres Modells effizient bewerten und
Verbesserungspotenziale identifizieren , ohne dass
eine umfangreiche
manuelle Überprüfung erforderlich Derzeit umfassen die auf
Vertex AI verfügbaren
Modelle Basisversionen und optimierte Versionen von Palm
Takes Bison unterstützten Aufgaben gehören
Klassifizierung,
Zusammenfassung, Beantwortung von Fragen und Textgenerierung Für jede dieser Aufgaben gibt es mindestens eine Metrik. Jede Aufgabe hat spezifische
Metriken, um die Genauigkeit zu gewährleisten. Ergebnisse von Mikrofonen und Mikrofonen messen die allgemeine
Genauigkeit und den Erinnerungswert der Klassifizierung Pro Klasse F wird
sie pro Kategorie bewertet. Rouge L bewertet die generelle
Nähe zu einer Referenz, während Exact Match die Genauigkeit bei der Beantwortung von Fragen bewertet Blue misst die Genauigkeit der
Textgenerierung anhand
eines Textgenerierung anhand
eines Die Verwendung automatischer Metriken ist
ziemlich einfach. Zunächst bereiten wir den
Bewertungsdatensatz mit Eingabe-/Ausgabepaaren vor. Dann laden wir den Datensatz in
Google Clouds und Speicher hoch. Schließlich führen wir die
Modellevaluierung durch,
indem wir die
Vertex-AI-Python-Bibliothek verwenden, um den Job einzureichen Im nächsten Video führe ich
Sie durch eine Demo, wie Sie
jeden dieser Schritte ausführen können Aber lassen Sie uns das vorerst
schnell überprüfen. Für den Datensatz müssen
Sie
die Eingabeaufforderung mit
Anweisungen und Kontext
sowie einer Grundwahrheit versehen die Eingabeaufforderung mit
Anweisungen und Kontext , die zusammen mit
den generierten
Antworten zur Berechnung von
Metriken für
die ausgewählte Aufgabe verwendet wird den generierten
Antworten zur Berechnung . Es ist eine gute Idee,
mindestens zehn Beispiele anzubieten mindestens zehn Beispiele , die der Verwendung der
Anwendung
ähneln. Wenn Sie Ihren Datensatz
vorbereitet
und in
Google Cloud Storage hochgeladen haben , verfügt
Vertex AI über eine Vorlage für die
Modellbewertungspipeline den Parametern für
den Betrieb der Evaluierungspipeline gehören der Speicherort des
Bewertungsdatensatzes, die Aufgabe, die ausgeführt werden
soll, und das Modell, das für die Aufgabe verwendet
werden soll Mit diesen Parametern können Sie dann den Pipeline-Job für die
Modellevaluierung ausführen. sehen wir
eine Demo zur Ausführung Im nächsten Video sehen wir
eine Demo zur Ausführung einer Evaluierungsaufgabe. Abschließend
haben wir uns in diesem Video mit automatischen
Metriken in Vertex AI befasst, einem effizienten und
standardisierten Ansatz zur Bewertung von LLMs Wir haben die
unterstützten Modelle und Aufgaben untersucht, die Anwendung
der einzelnen Bewertungskennzahlen
verstanden und den Prozess der
Vorbereitung
und Durchführung
einer Evaluierungspipeline skizziert Vorbereitung
und Durchführung
einer Evaluierungspipeline Anhand dieser Kennzahlen können Sie objektiv messen und verfeinern Leistung
Ihres Modells
objektiv messen und verfeinern, um
sicherzustellen, dass es den Anforderungen
realer Anwendungen
6. L2V2 – Demo mit automatischen Metriken: In diesem Video werden
wir eine
Live-Demonstration der Verwendung des
Rapid Evaluation SDK zur Evaluierung der Ergebnisse von Evaluierung Gemini und
LLM,
die von Google entwickelt wurden In dieser Demo erfahren
Sie aus erster Hand, wie
Sie automatische
Metriken anwenden können, um die Leistung
Ihres Modells zu bewerten und automatische
Metriken anwenden können, um die Leistung
Ihres Modells zu bewerten die Stärken
und Schwächen
verschiedener KI-Modelle zu verstehen die Stärken
und Schwächen
verschiedener Am Ende dieses Videos werden Sie genau wissen, wie
Sie das Rapid Evaluation SDK verwenden , um
die Ergebnisse eines LLM zu
bewerten Wir behandeln das Laden
Ihres Datensatzes, Initiierung der Modellevaluierung, Anwendung automatischer
Metriken und
die Interpretation der Ergebnisse, um
einen Einblick in die Leistung Ihres
Modells Kommen wir zur Demo. Der
Link zu diesem Tutorial wird bereitgestellt, damit Sie
die Evaluierung selbst durchführen können. In dieser Demo
gehen wir darauf ein, wie Sie
das Schnellbewertungstool verwenden können , um die
Leistung eines LLM zu analysieren In dieser Demo wird das
Google Callb-Notizbuch verwendet , um Sie bei
der Verwendung der Schnellbewertung Zunächst bereiten wir die Ausführung dieses Tools erforderlichen Komponenten Zunächst erstellen wir ein
Google Cloud-Konto. Bei der Kontoerstellung werden
Sie aufgefordert, Ihr
Google Gmail und Ihr Passwort einzugeben. Sobald Sie das Konto erstellt haben, wird ein ähnlicher
Begrüßungsbildschirm angezeigt. Öffnen Sie den Menü-Tab auf der
linken Seite und wählen Sie Abrechnung aus. Von dort aus
müssen Sie die Abrechnung aktivieren. Sie müssen eine Kredit-
oder Debitkarte angeben
, um die Abrechnung zu aktivieren.
Aber mach dir keine Sorgen. wird
jedem ein
Kredit im Wert von 300$ Am Anfang wird
jedem ein
Kredit im Wert von 300$ zur Verfügung gestellt Sie müssen also
kein Geld für die Ausführung dieser Demo ausgeben kein Geld für die Ausführung dieser Demo Anschließend
öffnen Sie
erneut den Menü-Tab und wählen auf dem Bildschirm APIs und
Dienste aus. Sie klicken auf das
Drop-down-Menü mit der Aufschrift Bibliothek und suchen nach
dem Wort Vertex AI API Anschließend klicken Sie auf Aktivieren,
um die API für Ansichten zu aktivieren. Schließlich
erstellen Sie in diesem
Drop-down-Menü hier oben links ein Projekt in Google Cloud Klicken Sie darauf und
wählen Sie ein neues Projekt aus. Von dort aus führt
Sie Google bei
der Erstellung des ersten Projekts. Nachdem Sie
das erste Projekt erstellt haben, werden
Sie feststellen, dass dem Projekt
eine eindeutige ID
zugeordnet ist . Stellen Sie sicher, dass Sie die ID speichern, da für die
Bewertungsaufgabe erforderlich
ist. Jetzt sind wir bereit, mit dem Setup
fortzufahren. Beginne damit, die
erste Zelle hier unten laufen zu lassen. Jetzt werden wir das Paket
ausführen, um die Schnellauswertung durchzuführen. Beachten Sie, dass Sie
möglicherweise
den Kernel neu starten müssen, damit das
Paket erkannt wird. Als Nächstes werden wir diese
Zelle zur Authentifizierung ausführen. Verwenden Sie die Projekt-ID, die Sie
zuvor gesehen haben , und fügen Sie sie in
die Projekt-ID-Variable Was den Standort betrifft, so
wird in dieser Demo US Central
V verwendet . Sie können die unterstützenden Standorte
für diese Variable
nachschlagen. Sie erhalten ein Popup-Fenster Hinweis, dass Sie
sich bei Google anmelden müssen. Hier können Sie sich mit
Ihrem Google Cloud-Konto anmelden. Anschließend werden
Sie aufgefordert, auf
bestimmte Funktionen zuzugreifen , die
Sie zulassen und fortsetzen. Am Ende sollte eine Seite angezeigt werden, auf der angegeben wird, dass Sie sich erfolgreich bei
Google Cloud
authentifiziert
haben , und dann können Sie zum Netzwerk
zurückkehren Anschließend richten wir die Google
Cloud-Projektinformationen und initialisieren das Vertex
AISDK mithilfe der Nachdem Sie Ihre
Projekt-ID und Ihren Standort eingerichtet haben,
führen Sie die Zelle aus, wodurch das zu verwendende Vertex-AISDK initialisiert
wird Vertex-AISDK Als Nächstes importieren wir die
erforderlichen Bibliotheken. Führen Sie die Zelle aus, um alle
erforderlichen Bibliotheken abzurufen. Beachten Sie, dass die wichtigsten
Bibliotheken unten aufgeführt sind, die die Informationen
verarbeiten. Führen Sie als Nächstes die
Bibliothekseinstellungszelle und die
Hilfsfunktionen aus. Beachten Sie, dass diese Zellen zur Formatierung von Informationen
und zur Anpassung der Einstellungen für Warnungen und Protokolle sowie zur
Leistungsanpassung dienen. Wir sind jetzt bereit,
den Evaluierungsjob auszuführen. Lassen Sie uns zuvor die Anforderungen durchgehen, die für
die Durchführung dieser Bewertung erforderlich sind. Zunächst benötigen wir die Daten
, die ausgewertet werden. Um die Daten
für die Bewertungsaufgabe richtig zu formatieren, erstellen
wir den
Pandas-Datenrahmen
mithilfe von Datenarrays , die in einem
Wörterbuch gespeichert sind Das Wörterbuch
kann eine Anweisung, einen Kontext, eine Referenz, eine Vorhersage und
eine Antwort Jeder Indexwert entspricht
dem anderen Array mit
demselben Indexwert. Beispiel: Index Null
und das Antwort-Array entspricht dem Index Null des anderen
Arrays usw. In dieser Demo werden wir zwei Datenzeilen
verwenden. Fügen Sie diese Daten als
Array in ein Wörterbuch ein, das in einen Pandas-Datenrahmen
konvertiert werden soll Als Nächstes entscheiden wir, welche Metriken für
die Auswertung der Antworten wählen Die Antworten werden anhand
verschiedener automatischer Metriken gemessen , die das
Tool zur schnellen Bewertung bereitstellt. Hier sehen wir alle
möglichen Metriken in der mittleren Spalte, zusammen mit der Art der Messungen auf
der linken Seite und
der erforderlichen
Datenrahmeneingabe auf der rechten Seite. Kohärenz wird beispielsweise Fähigkeit
des Modells gemessen,
eine klare und solide Reaktion zu erzeugen eine klare und solide Reaktion Erfüllung misst, wie gut
das Modell die gegebenen Anweisungen
mit einer vorher festgelegten Vorhersage beantwortet und
ausgeführt hat die gegebenen Anweisungen
mit einer vorher festgelegten Vorhersage beantwortet und
ausgeführt , und Blue und Rouge vergleichen
die Ähnlichkeit zwischen der gegebenen Referenzvorhersage und der Antwort in Worten Sie können sich diese Kennzahlen
selbst ansehen , wenn
Sie daran interessiert sind. Nachdem Sie die Metriken ausgewählt
haben, möchten Sie die Eingabe und die Namen der
einzelnen Metriken messen und die hier gezeigten Arrays
eingeben Außerdem fügen Sie den
Bewertungsdatensatz in das erforderliche Datensatzargument und geben einen Namen
für das Experiment an Im letzten Segment der Zelle führen
wir die eigentliche
Bewertungsaufgabe aus. Wenn Sie die Zelle ausführen, sollten
Sie sehen, dass ein
Experiment erstellt wurde. Wenn Sie auf die Schaltfläche „
Experiment anzeigen ,
werden Sie zu Google Cloud weitergeleitet, wo Sie
den Status der
Evaluierungspipeline einsehen können . Die Zeit, die für die
Bewertungsaufgabe benötigt wird, hängt von der Anzahl der Metriken ab, da
mehr Metriken mehr
Zeit in Anspruch nehmen, bis sie abgeschlossen sind. Zusammenfassend haben wir gesehen,
wie das Rapid Evaluation SDK die Bewertung
generativer KI-Modelle erleichtert eine effiziente
Methode zur Analyse der
Modellleistung mithilfe
automatischer Metriken
bietet . Dieser Ansatz hilft dabei,
Stärken und Schwächen zu identifizieren und
sicherzustellen, dass Ihr Modell
die erwarteten Standards für
reale Anwendungen erfüllt .
7. L2V3 – AutoSxS: In diesem Video schauen wir uns Auto Seite an Seite genauer an,
ein Tool
zur vergleichenden Bewertung umfangreicher Stellen Sie sich vor, Sie arbeiten an einem
KI-Projekt, bei dem Sie das beste
Modell für die Zusammenfassung auswählen
müssen. Ohne klare Vergleiche fühlt
es sich an, als würde man
beim Hund raten gute Nachricht ist, dass
Sie mit
Autost by Side in der Lage sind, die Ergebnisse
von zwei verschiedenen Modellen
Seite Am Ende dieses Videos werden
Sie verstehen, wie Auto Side by Side funktioniert, welche Rolle
der Atorator spielt und
wie Sie ihn verwenden können Rolle
der Atorator spielt und , um Modellausgaben zu
vergleichen Sie erhalten Einblicke in die
Bewertung von LLMs und verstehen genau, warum das eine Modell
besser reagiert als das andere Auto Side by Side ist ein Bewertungstool, das zwei LLMs nebeneinander
vergleicht Es verwendet einen Belüfter oder
ein Bewertungsmodell, um zu
ermitteln, wie besser auf eine Aufforderung
reagiert Mit diesem Tool können Sie die Leistung
jedes generativen KI-Modells für Anwendungsfälle mit
Zusammenfassungen und zur
Beantwortung von Fragen
bewerten jedes generativen KI-Modells für Anwendungsfälle mit
Zusammenfassungen und zur Beantwortung von Fragen Auto Site by Site bietet außerdem Erklärungen und
Sicherheitsbewertungen für jede Entscheidung. Im Mittelpunkt von
Autost by Side steht der Autoator, der
diese vergleichende
Bewertung ermöglicht diese vergleichende
Bewertung Der Autoator ist ein LAN speziell für
die Bewertung der Qualität
von Antworten entwickelt wurde, die von
anderen Modellen generiert wurden , wenn eine
ursprüngliche Inferenzaufforderung gegeben wurde Auto Side by Side kann
jedes Modell mit vorgenerierten
Vorhersagen auswerten und automatisch Antworten
für jedes Modell in
der Vertex-AI-Modellregistrierung
generieren , das , Derzeit kann es
die Leistung von
Modellen bei Zusammenfassungs- und
Fragenbeantwortungsaufgaben bewerten Modellen bei Zusammenfassungs- und
Fragenbeantwortungsaufgaben Bei jeder Bewertung
nebeneinander werden bei der
automatischen Parallelauswertung vordefinierte Bewertungskriterien Zu den Kriterien
für die Zusammenfassung
gehört beispielsweise, wie gut das Modell Anweisungen
befolgt, die direkt angezeigt Wie fundiert ist die Antwort im Kontext und in den Anweisungen der Inferenz? Wie gut
erfasst das Modell wichtige Details in der Zusammenfassung und wie
präzise ist Die Verwendung von Auto nebeneinander ist
ziemlich einfach. Zunächst bereiten wir einen Datensatz
mit Eingabeaufforderungen, Kontexten und den entsprechenden
generierten Antworten vor, nur wenn Eingabeaufforderungen erforderlich Anschließend speichern wir den
Bewertungsdatensatz in Google Clouds of Storage
oder einer Big Query-Tabelle Und dann führen wir die Modellevaluierung durch, indem den
Evaluierungspipeline-Job
ausführen. Im nächsten Video sehen Sie eine Demo von Autoste
by Side in Aktion, Gemini Pro mit
einem anderen LLM für eine
Zusammenfassungsaufgabe
verglichen einem anderen LLM für eine Lassen Sie mich zuvor jedoch
erklären, wie jeder dieser Auto Site by Site akzeptiert einen
einzigen Bewertungsdatensatz. Der Datensatz muss
mindestens ein Beispiel enthalten, aber für eine korrekte Bewertungsaufgabe werden
etwa 400 bis 600
Beispiele empfohlen. Jedes einzelne Beispiel hat eine eindeutige ID und umfasst
Inhalt und Antworten. Wir können auch eine
zusätzliche Spalte hinzufügen um auch menschliche Vorlieben
zu berücksichtigen. Als Nächstes müssen wir die
Parameter für
die Durchführung der Modellbewertung festlegen. Bei
einer Modellevaluierung
ohne menschliche Präferenz könnten
die Parameter beispielsweise einer Modellevaluierung
ohne menschliche Präferenz den Bewertungsdatensatz,
die zu verwendenden
Spalten, die
Aufgabe, z. B.
Zusammenfassung oder
Beantwortung von Fragen, und Parameter der
Bedieneraufforderung wie
den Inferenzkontext
und die Anweisungen spezifizieren zu verwendenden
Spalten, die
Aufgabe, z. B.
Zusammenfassung oder
Beantwortung von Fragen, und Parameter der
Bedieneraufforderung wie
den Inferenzkontext
und Parameter der
Bedieneraufforderung wie die Anweisungen Außerdem müssen wir
die Spalten mit
vordefinierten Prognosen angeben, um die
Bewertungsmetrik zu berechnen Nachdem wir unsere Parameter definiert
haben, können wir
mithilfe einer von Google
bereitgestellten Vorlage einen
Evaluierungspipeline-Job starten . Die Parameterwerte werden zur Konfiguration
des Pipeline-Jobs
übergeben. Auto side by side
verwendet das Vertex AI Python SDK, um
diese Aufgabe zu erledigen Nach erfolgreichem Abschluss einer automatischen Side-by-Side-Evaluierung können
Sie sich die
Evaluierungsergebnisse ansehen automatischen Bearbeitung werden
drei Haupttypen von
Bewertungsergebnissen generiert : eine Tabelle mit
Beurteilungen, aggregierte Kennzahlen und eine Alignment-Matrix, sofern dies vom Benutzer
gewünscht wird Tabelle mit den Urteilen wird
die bessere Antwort angegeben und für jede Auswahl wird ein
Konfidenzwert angegeben
, der zwischen 0 und 1 liegt Die automatische Gegenüberstellung
enthält
eine Erläuterung
der einzelnen Belüftungsoptionen der automatischen Side-by-Seite-Funktion können mehrere Ergebnisse für
eine bestimmte Aufgabe generiert und verglichen werden, um anhand von
Kriterien wie Kohärenz,
logischem Ablauf und
Erfassung der wichtigsten Punkte die Antwort
auszuwählen , die als besser
bewertet logischem Ablauf und
Erfassung Wenn Sie beispielsweise
zwischen Antwort
A und Antwort B wählen , könnte
der Prüfer erklären dass beide zwar
gute Zusammenfassungen liefern, Antwort B
die Gesamtgeschichte jedoch etwas
besser in
einer kohärenteren und
organisierteren Form erfasst die Gesamtgeschichte jedoch etwas
besser in einer kohärenteren und
organisierteren die stärker auf
Statistiken ausgerichtete Antwort A. Auto nebeneinander
liefert auch aggregierte Kennzahlen. Diese Kennzahlen zur Gewinnrate werden aus
der Beurteilungstabelle
als Prozentsatz der Fälle abgeleitet , in denen
der Operator ein Modell dem anderen vorgezogen hat Diese Kennzahlen helfen dabei, schnell
das überlegene Modell zu identifizieren Wie ich bereits erwähnt habe, ermöglicht
Auto Side by Side auch ermöglicht
Auto Side by Side die Validierung von Urteilen
, die von Menschen bevorzugt werden Das bedeutet, dass die Bereitstellung
zusätzlicher Informationen und Parameter im Rahmen der parallelen Evaluierungspipeline möglich ist Zu diesem Zweck muss
dem Datensatz
eine Spalte hinzugefügt werden, die
den menschlichen Vorlieben entspricht. Außerdem müssen wir
innerhalb der Parameter eine Spalte für
menschliche Präferenzen definieren . Der Rest des Prozesses
bleibt derselbe. Einbeziehung menschlicher
Präferenzen führt zu zusätzlichen Kennzahlen für die Abstimmung der
menschlichen Präferenzen. Das Ergebnis umfasst alle
regulären Kennzahlen, aber auch eine Gewinnrate nach
menschlichen Präferenzen
sowie die Gewinnrate des
Außenseiters und einen Chenes-Cape-Wert, der den Grad der
Übereinstimmung zwischen dem
Operator und dem menschlichen Prüfer angibt Übereinstimmung zwischen dem
Operator und dem menschlichen Prüfer Auch hier handelt es sich um einen Wert von 0-1, wobei Null für eine zufällige Wahl Zusammenfassend lässt sich sagen, dass Auto Side by
Side ein
innovatives Tool im Vertex-KI ist, mit dem die Leistung
generativer KI-Modelle bewertet und verglichen Wir haben gesehen, wie es den
Bewertungsprozess mit
direkten Vergleichen
und detaillierten
Erläuterungsfunktionen
präziser macht den
Bewertungsprozess mit
direkten Vergleichen
und detaillierten
Erläuterungsfunktionen
präziser Vergleichen
und detaillierten
Erläuterungsfunktionen und detaillierten
Erläuterungsfunktionen Es optimiert die Bewertung
von LLNs und stellt sicher, dass werden kann anhand
aufgabenspezifischer Kriterien
das Modell mit der besten Leistung
identifiziert
8. L2V4 – AutoSxS-Demo: In diesem Video zeigen wir
, wie Sie Auto
Site für Site innerhalb von
Vertex AI verwenden, um das Gemini-Modell anhand eines anderen Lodams zu bewerten Gemini-Modell Dieser praktische Leitfaden zeigt
Ihnen jeden Schritt bei der Einrichtung und Durchführung einer Evaluierung mithilfe der von der
Google Cloud Platform bereitgestellten Tools Am Ende dieses Videos werden Sie verstehen, wie
Sie dem Tool „Autoste
by Side“
navigieren, Ihre Bewertungsdatensätze
einrichten und die Ergebnisse
der
Autoste-by-Site-Vergleichsanalyse interpretieren der
Autoste-by-Site-Vergleichsanalyse Auf diese Weise werden Sie mit
den Fähigkeiten ausgestattet, um die Leistung generativer KI-Modelle effektiv beurteilen
zu Kommen wir nun zur Demo. Der Link zu diesem Tutorial wird bereitgestellt, damit Sie
die Evaluierung selbst durchführen können. In dieser Demo werden
wir uns ansehen, wie
Sie Auto
nebeneinander verwenden können , um
die Leistung
umfangreicher Sprachmodelle zu bewerten und zu vergleichen . Zunächst installieren wir das folgende Paket, indem wir diesen Befehl
ausführen. Wir werden dieses Paket verwenden, um die API vom Google Club aus
aufzurufen. Nachdem Sie den Befehl ausgeführt haben, stellen Sie sicher, dass Sie die Runtime
neu starten , um das
neu installierte Paket verwenden zu können. wurde eine Zelle zur Verfügung gestellt Benutzer wurde eine Zelle zur Verfügung gestellt, um
die Runtime neu zu starten. Nachdem Sie die Zelle erfolgreich
ausgeführt
haben, erhalten Sie ein
Popup-Fenster, das darauf hinweist, dass der Kernel ausgefallen ist, und der Kernel
wird automatisch neu gestartet. Lassen Sie uns nun die
notwendigen Komponenten einrichten. Wir werden zunächst ein
Google Cloud-Konto erstellen. Bei der Kontogenerierung werden
Sie nach Ihrem
Gmail und Ihrem Passwort gefragt. Sobald Sie das Konto
erstellt haben, werden
Sie mit
einem ähnlichen Bildschirm begrüßt Öffnen Sie den Menü-Tab auf der
linken Seite und wählen Sie Abrechnung. Von dort aus
müssen Sie die Abrechnung aktivieren. Sie müssten
eine Kredit- oder Debitkarte eingeben ,
um die Abrechnung zu aktivieren. Sie erhalten
jedoch eine
Gutschrift im Wert von 300 USD . Machen Sie sich
also keine Sorgen Anschließend
öffnen Sie
erneut den Menü-Tab und wählen
APIs und Dienste Klicken Sie auf die Bibliothek und
suchen Sie nach der Vertex AI API. Anschließend klicken Sie auf Aktivieren, um die Verwendung
der API zu Als Nächstes erstellen Sie ein
Projekt in Google Cloud. Klicken Sie oben links auf das Drop-down-Menü und
wählen Sie ein neues Projekt aus. Von dort aus führt
Sie Google bei
der Erstellung des ersten Projekts. Öffnen Sie abschließend
erneut den Menü-Tab und wählen Sie IAM und Admin aus. Sie werden das neu
erstellte Projekt sehen. Klicken Sie auf Grant Access und geben Sie
im Principal den Namen des Principals Ihres erstellten Projekts ein.
Suchen Sie dann
in der Dropdownliste mit den Rollen nach dem Filterobjekt Hier sehen Sie
die Option für den Umgebungs- und
Speicherobjekt-Administrator Fügen Sie dies dem
Prinzipal hinzu und speichern Sie es. So sollte es
aussehen, wenn die Rolle
einen Speicherobjekt-Administrator hat.
Jetzt sind wir bereit zu gehen. Da wir an der
Vertex AI Workbench arbeiten, müssen
Sie
keine zusätzlichen Schritte ausführen Zunächst legen wir die
Projekt-ID fest. Sie können die Projekt-ID finden,
indem Sie zum
Projekt-Drop-down-Menü zurückkehren und die
Spalte suchen, in der die ID angezeigt wird. In diesem Fall ist dies
die ID für das Projekt. Führen Sie die Zelle aus, nachdem Sie die ID in
Ihre Projekt-ID
geändert haben . Als Nächstes legen wir die Region fest. In dieser Demo
ist die Region auf US-Zentralanleihen eingestellt. Führen Sie jetzt den Zellenblock aus. Jetzt werden wir
eine zufällige UUID generieren. Dies wird verwendet, um das Projekt
eindeutig zu identifizieren und
mögliche Namenskollisionen zu vermeiden Wir werden nun die UUID verwenden, um einen eindeutigen Bucket-URI-Namen zu erstellen Jetzt werden wir mit der
Einrichtung des Prozesses fortfahren. Wir werden zuerst
die Bibliotheken importieren und unsere Konstanten
definieren Wir werden auch unsere Helfer definieren. Als Nächstes initialisieren wir das Vertex-AISDK,
indem wir unsere Projekt-ID,
Region und unseren ,
Region und unseren Wie wir
in unseren Konstanten definiert haben, vergleichen
wir einen
Gemini-Datensatz mit einem anderen LLM-Datensatz, eine Antwort A
und die andere Antwort B erzeugt. Jede Zeile der Daten enthält
eine ID und ein Dokument zum
Zusammenfassen, und die
beiden Versionen der Antwort auf
das Antwort auf
das Wir können uns das
ansehen, indem wir
Pandas verwenden , um die JSON-Datei zu lesen und zu formatieren Als Nächstes werden wir den
Modellevaluierungsjob ausführen. Hier sind die Parameter, die von der Pipeline
benötigt werden. Der Bewertungsdatensatz zur
Angabe des Datenstandorts, ID-Spalten zur Unterscheidung eindeutiger
Bewertungsbeispiele
, in diesem Fall ID- und
Dokumentenfelder. Als Nächstes folgt die Aufgabe. Die Aufgabe, die wir evaluieren,
ist die Zusammenfassung. Und es gibt die Parameter für die
Bedieneraufforderung, denen das Verhalten von
Bedieneraufgaben
konfiguriert wird , z. B. Einstellen des Kontextes
und der Anweisungen Anschließend müssen Sie in
der Antwortspalte A und in der
Antwortspalte B die Namen
der Spalten angeben der Antwortspalte A und Antwortspalte B die Namen , die
vordefinierte Prognosen enthalten , um die
Bewertungskennzahlen zu berechnen. In diesem Fall handelt es sich um
Antwort A und Antwort B. Nachdem wir die
Modellbewertungsparameter definiert
haben, können wir nun den Pipeline-Job für die
Modellauswertung
mit dieser angegebenen Vorlage mithilfe
des Vertex AI Python SDK ausführen mit dieser angegebenen Vorlage mithilfe
des Vertex AI Python SDK Lassen Sie dies laufen, da es eine Weile
dauern kann , bis die
Pipeline fertig Sie können auf den Link klicken, um
die Pipeline in Aktion auf der
Google Cloud-Plattform zu sehen . So sieht Ihre
Pipeline aus. Nachdem der
Pipeline-Lauf abgeschlossen ist, können
Sie das
folgende Codesegment verwenden , um zu sehen, wie die einzelnen Antworten bewertet wurden und wie sie Vergleich
zum Belüfter Es bietet Informationen
wie Erläuterungen zu
den Präferenzen und dem Vertrauenswert des Belüfters Als Nächstes können wir
die aggregierten Metriken auch mithilfe
der folgenden Codesegmente anzeigen die aggregierten Metriken auch mithilfe
der folgenden Codesegmente Dies ist sehr
nützlich, um festzustellen , welches Modell im
Kontext der jeweiligen Aufgabe besser ist Der Belüfter unterstützt auch Präferenz
des Menschen, die Bewertung
des Belüfters zu validieren Wir werden nun den anderen URI verwenden
, der eine zusätzliche Spalte für
menschliche Präferenzen enthält Im Parameter „
Pipeline-Anforderungen“ fügen
wir nun die
Spalte „Benutzerpräferenz“ hinzu und führen dieselbe Pipeline-Ausführungsaufgabe
mit der neuen Datenspalte aus. Wir können jetzt die auf den Menschen
abgestimmten aggregierten Metriken abrufen. Auch hier
sieht die Pipeline in Google Cloud so aus Anhand der folgenden Codesegmente erhalten
wir die Leistung
des automatischen
Side-by-Side-Belüfters , je nachdem,
was ein Mensch bevorzugt Abschließend werden wir
die Google Cloud-Ressourcen bereinigen. Wir können die folgende Zelle ausführen
und sie bereinigt alle Ressourcen, die wir
in diesem Projekt verwendet haben Zusammenfassend lässt sich sagen, dass diese
Demo
die praktischen Anwendungen
von Autoste nach
Standort bei der Evaluierung des
Gemini-Modells auf Vertex AR veranschaulicht hat die praktischen Anwendungen
von Autoste nach Standort bei der Evaluierung des
Gemini-Modells auf Vertex Wir haben uns durch
den Einrichtungsprozess bewegt,
gezeigt, wie die Evaluierung
konfiguriert und durchgeführt wird, und das Vergleichsergebnis interpretiert Dieser praxisnahe
Ansatz stellt sicher, dass Sie Autoste by
Site effektiv
nutzen
können , um
die Leistung
generativer KI-Modelle zu bewerten und zu verbessern , was Ihnen wiederum dabei hilft,
Ihre KI-Lösungen
robuster und zuverlässiger zu machen Ihre KI-Lösungen
robuster und zuverlässiger
9. L3V1 – Textbasierte Evaluierungsmodelle Teil1: In diesem Video werden wir
grundlegende textbasierte
Bewertungsmodelle für
LNS wie Meteor und
Perplexity sowie Kennzahlen zur Fairness-Evaluierung untersuchen grundlegende textbasierte
Bewertungsmodelle für
LNS wie Meteor und
Perplexity sowie Kennzahlen zur LNS wie Meteor und
Perplexity sowie . Wussten Sie, dass voreingenommene
KI-Modelle
Anträge in kritischen Bereichen
wie Kreditgenehmigungen und Einstellungsentscheidungen negativ beeinflussen können? Anträge in kritischen Bereichen
wie Kreditgenehmigungen und Einstellungsentscheidungen Wussten Sie, dass voreingenommene
KI-Modelle
Anträge in kritischen Bereichen
wie Kreditgenehmigungen und Einstellungsentscheidungen negativ beeinflussen können? Durch den Einsatz von Meteor und Perplexity können
Sie die
Risiken dieser Verzerrungen mindern, indem sicherstellen, dass Ihre Modelle Am Ende dieses Videos werden
Sie verstehen, wie verschiedene
Bewertungsmetriken wie
Meteor und Perplexität funktionieren und warum Außerdem erfahren Sie, wie wichtig
Furness-Metriken sind, wenn es darum geht , sicherzustellen , dass KI-Anwendungen
alle demografischen Gruppen gleich behandeln alle Meteor oder Metrik zur Bewertung von Übersetzungen
mit expliziter Reihenfolge verbessert frühere
Metriken wie Blau, indem Synonyme,
Paraphrasierungen und Flecken
berücksichtigt werden Synonyme,
Paraphrasierungen und Flecken
berücksichtigt Es bewertet die
Qualität von Übersetzungen
auf der Grundlage der wörtlichen Richtigkeit, Sprachgewandtheit und Zielstrebigkeit
und eignet sich daher besonders für Anwendungen, die ein nuanciertes Sprachverständnis
erfordern . Schauen wir uns ein
praktisches Beispiel an,
um zu verstehen, wie Meteor funktioniert Stellen Sie sich vor, wir haben zwei Übersetzungen
des englischen Ausdrucks, der schnelle braune Fuchs
springt über den faulen Hund Meteor würde Übersetzung A höher bewerten als Übersetzung B. Obwohl beide Übersetzungen ähnliche Bedeutungen
haben, behält
Übersetzung A eine genauere und
flüssigere Struktur bei, wobei die Synonyme angemessen verwendet werden,
sprunghaft und schnell für schnell Meteor bewertet
diese Übersetzungen indem es die Wortreihenfolge, die
Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext analysiert Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext ,
indem es die Wortreihenfolge, die
Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext analysiert. Dies unterstreicht die Flüchtigkeit und Verständlichkeit der Übersetzungen . Ratlosigkeit ist ein weiterer
Maßstab, der zur Bewertung von
Sprachmodellen verwendet wird , indem
bewertet wird, wie gut ein Modell eine Textprobe vorhersagen
kann Sie basiert auf der
Wahrscheinlichkeitsverteilung, die das Modell einer
Wortfolge mit
niedrigeren Werten zuordnet , was darauf hindeutet, dass das Modell
die Reihenfolge genauer vorhersagt Ratlosigkeit
quantifiziert im Wesentlichen des Modells Sie dient als Maßstab für die Wirksamkeit
des Systems bei Aufgaben des Sprachverständnisses
und der Sprachgenerierung Schauen wir uns ein Beispiel an. Stellen Sie sich ein Modell vor das das nächste
Wort im Satz
vorhersagen soll.
Die Katze sitzt auf
dem. Nehmen wir an, Die Katze sitzt auf
dem unser Modell sagt vier mögliche
Vollendungen voraus: Matt,
Fenster, Auto und Mond mit entsprechenden Wahrscheinlichkeiten
von 0,5 Wie verwirrend das Modell
für diese Vorhersage ist, lässt berechnen, indem die Umkehrung der Wahrscheinlichkeit
des richtigen Wortes, in diesem Fall
mat, in diesem Fall
mat diesem Fall wäre die Ratlosigkeit
gleich zwei, was auf eine relativ geringe Unsicherheit gleich zwei Niedrigere
Perplexitätswerte belegen die Zuverlässigkeit und
Genauigkeit des Modells in Bezug auf seine Vorhersagen,
was auf ein besseres
Verständnis des Kontextes hindeutet, was auf ein besseres
Verständnis des Kontextes hindeutet den die CAT auf der Karte
festlegt Wir verfügen auch über Kennzahlen
zur Bewertung der Fairness. Dabei handelt es sich um wichtige Instrumente, anhand
derer beurteilt
werden kann, ob KI-Modelle in verschiedenen demografischen Gruppen gleichermaßen abschneiden. KI-Modelle in verschiedenen demografischen Gruppen gleichermaßen abschneiden. Diese Kennzahlen helfen dabei, Verzerrungen in
Modellvorhersagen zu
identifizieren , die bestimmte
Gruppen aufgrund von Geschlecht,
Rasse, Alter oder anderen Faktoren
benachteiligen könnten bestimmte
Gruppen aufgrund von Geschlecht,
Rasse, Alter oder anderen Faktoren
benachteiligen Rasse, Alter Dies kann durch die Bewertung von
Unterschieden in den Fehlerquoten, positiven Prognoseanteilen und anderen
Leistungsindikatoren Stellen Sie sich zum Beispiel ein KI-Modell für die
Kreditgenehmigung , das personenbezogene Daten verwendet, um die Kreditwürdigkeit
vorherzusagen Um die Fairness zu beurteilen, könnten
wir Analysen durchführen. Erstens: Unterschied in den positiven Proportionen
der vorhergesagten Kennzeichnungen Wenn beispielsweise 40% der Bewerber aus
Gruppe A als kreditwürdig
eingeschätzt werden
,
während es in diesem Beispiel nur 20% der Bewerber aus
Gruppe B (in diesem Beispiel)
weibliche Bewerber sind, würde diese
Kennzahl auf
eine mögliche Verzerrung der
Modellvorhersagen
hinweisen eine mögliche Verzerrung der
Modellvorhersagen Gruppe A, zwei,
erinnern Sie sich an den Unterschied Wenn das Modell 90%
der tatsächlich kreditwürdigen
Personen in Gruppe A identifiziert ,
aber nur 70% in Gruppe B, aber nur 70% in Gruppe B, würde die
Kennzahl
der Erinnerungsdifferenz darauf hindeuten, dass das Modell für Gruppe B weniger
wirksam ist, was
möglicherweise
zu einer unfairen Behandlung führen könnte. Drittens, spezifischer Unterschied. untersuchen, wie gut das Modell Fehlalarme
in allen Gruppen
vermeidet, könnten
wir feststellen, dass es
fälschlicherweise nicht kreditwürdige Personen als kreditwürdig einstuft, und zwar zu unterschiedlichen
Raten zwischen den Gruppen, was die Fairness
des Entscheidungsprozesses beeinträchtigen könnte des Entscheidungsprozesses Zusammenfassend lässt sich sagen, dass dieses Video die entscheidende
Rolle
aufgezeigt hat , die sowohl Leistungs - als auch
Fairnessbewertungskennzahlen bei
der Entwicklung und Einführung
von Sprachmodellen spielen der Entwicklung und Einführung
von Sprachmodellen Wir haben gesehen,
wie Meteor und Perplexity dazu beitragen, dass Modelle optimal funktionieren, während
Fairness-Metriken
Vorurteile ausräumen, um Gerechtigkeit und Vertrauen in KI-Technologien zu fördern
10. L3V2 – Textbasierte Evaluierungsmodelle Teil2: In diesem Video werden wir unsere Untersuchung
textbasierter
Bewertungsmodelle für LLMs
erweitern textbasierter
Bewertungsmodelle für LLMs Diversitätsmetriken
und Zero-shot-Evaluation
konzentrieren Höchstwahrscheinlich ist Ihnen
aufgefallen, dass KI-generierten
Inhalten
oft an Vielfalt mangelt, was sie für Nutzer weniger interessant
oder langweilig macht Durch die Anwendung von Diversitätsmetriken können
Sie sicherstellen, dass Ihre KI vielfältige und
interessante Antworten
generiert. Wir kümmern uns auch um die
Zero-shot-Evaluierung, bei der die Anpassungsfähigkeit
Ihrer Modelle an
neue und unvorhergesehene Aufgaben weiter getestet Anpassungsfähigkeit
Ihrer Modelle an
neue und unvorhergesehene Am Ende dieses Videos werden
Sie in der Lage sein, die Bedeutung und
Anwendung von
Diversitätskennzahlen bei der Generierung
abwechslungsreicher und kreativer Ergebnisse zu verstehen die Bedeutung und
Anwendung von
Diversitätskennzahlen bei der Generierung abwechslungsreicher und kreativer Darüber hinaus erfahren Sie, wie
Zero Shot Evaluation dabei hilft Fähigkeit von LLMs
einzuschätzen, sich an Aufgaben anzupassen, für die sie nicht
explizit geschult wurden Diversitätskennzahlen
bewerten die Bandbreite und Einzigartigkeit der Antworten, die durch ein Sprachmodell
generiert werden Diese Kennzahlen sind besonders wichtig für
Anwendungen, die
kreative oder abwechslungsreiche Ergebnisse erfordern ,
wie z. B. Inhaltsgenerierung
oder Dialogsysteme Durch die Messung von Aspekten
wie dem lexikalischen Reichtum, Variation in der Satzstruktur
und der Neuartigkeit von Konzepten, die in Antworten
eingeführt werden, Diversitätsmetriken sicher, dass die Ergebnisse des Modells nicht nur
korrekt, sondern auch ansprechend sind und eine Vielzahl von Perspektiven
widerspiegeln. Stellen wir uns ein Szenario vor. Stellen Sie sich vor, Sie haben ein
KI-Modell, das die Aufgabe hat anhand
einer einzigen Aufforderung
pro Tag am Strand Ideen für Geschichten zu
generieren einer einzigen Aufforderung
pro Tag am Strand Angenommen, das Modell generiert
die folgenden Antworten. Bei der Auswertung dieser Antworten
anhand von Diversitätsmetriken würden
wir auf die
Vielfalt der Themen, beteiligten
Charaktere und beschriebenen
Aktivitäten achten . Antwort B würde in Bezug auf Diversität
sehr gut abschneiden mehrere Nebenhandlungen
und vielfältige Interaktionen
bietet Antwort C
würde
aufgrund ihrer Redundanz
mit Antwort A schlechter abschneiden .
Antwort D führt
ein neues Element ein, wodurch die Punktzahl für die
Einführung einzigartiger Inhalte verbessert Diese Kennzahlen helfen bei
der Bewertung der Kreativität und Attraktivität
der Ergebnisse der Modelle und stellen
so sicher, dass sie den Nutzern
frische und ansprechende
Inhalte bieten Nutzern
frische und ansprechende
Inhalte Schauen wir uns nun die
Zero-Shot-Bewertung an. Zero-Shot-Bewertung misst die Fähigkeit
eines Modells, Aufgaben zu bewältigen, für die es nicht
explizit trainiert wurde. Diese Kennzahl ist
entscheidend für
die Bewertung der Generalisierungsfähigkeit
von Lodge-Sprachmodellen. Sie zeigt, wie gut ein Modell erlerntes Wissen
ohne zusätzliche
Feinabstimmung oder Schulung auf
neue Kontexte oder Problemtypen anwenden
kann Problemtypen ohne zusätzliche
Feinabstimmung oder Schulung auf
neue Kontexte oder Es zeigt die Anpassungsfähigkeit
und Flexibilität des
Modells für
verschiedene Anwendungen Schauen wir uns ein Beispiel an. Stellen Sie sich ein
Sprachmodell vor, das
überwiegend auf
englischem literarischem Text trainiert wurde . Wenn Sie mit einer Aufgabe
in einem völlig
anderen Bereich konfrontiert werden, z. B. der Generierung von
technischen Beschreibungen für neue Softwareanwendungen. Null-Shot-Evaluierung
würde sofort bewertet, wie gut das Modell
diese Aufgabe erfüllt. Schauen wir uns dieses Beispiel an. Wir können sehen, dass dieses Modell,
obwohl
es keine vorherige Ausbildung zu
Softwarebeschreibungen hatte , eine kohärente
und relevante Beschreibung generiert. Es weist eine gute
Zero-shot-Fähigkeit auf. Diese Fähigkeit,
ohne spezielle Schulung
von der Literatur
auf technische Texte zu verallgemeinern ohne spezielle Schulung
von der Literatur
auf technische Texte zu zeigt die Robustheit
und Nützlichkeit des Modells in
realen Szenarien, in denen Trainingsdaten möglicherweise nicht immer
für jede mögliche Aufgabe umfassend sind Abschließend erörterten
wir, dass Diversitätsmetriken und Zero-shot-Evaluation eine
entscheidende Rolle bei der Bewertung von LLMs spielen entscheidende Rolle bei der Bewertung von LLMs Diversitätskennzahlen tragen dazu bei, dass die generierten Inhalte
den kreativen Anforderungen
realer Anwendungen entsprechen, während Zero-shot-Bewertung
die Anpassungsfähigkeit dieser
Modelle an neue Aufgaben bewertet und die Robustheit und Nützlichkeit in verschiedenen Szenarien unter Beweis stellt die generierten Inhalte
den kreativen Anforderungen
realer Anwendungen entsprechen, während die
Zero-shot-Bewertung
die Anpassungsfähigkeit dieser
Modelle an neue Aufgaben bewertet und die Robustheit und Nützlichkeit
in verschiedenen Szenarien unter Beweis stellt.
11. L3V3 – Evaluierung von generativen KI-Modellen: In diesem Video werden wir
darüber sprechen, wie
KI-Modelle evaluiert werden können, die
Bilder, Sounds und Videos erzeugen Stellen Sie sich vor, Sie sehen sich einen KI-generierten
Film an, in dem Szenen
abgehackt aussehen oder sich der Ton schlecht anfühlt
. Es wäre frustrierend. Lassen Sie uns untersuchen, wie
diese Modelle bewertet werden können, um sicherzustellen, dass die von ihnen generierten Inhalte reibungslos, realistisch und ansprechend Am Ende dieses Videos werden Sie wissen, wie
Sie
die wichtigen Methoden erkennen , mit denen
Experten Bild-,
Ton- und Video-KI-Modelle bewerten . Sie werden sich mit
den Fähigkeiten zur Untersuchung und
Bewertung der Medien vertraut machen , die diese generativen
KI-Modelle generieren. Bewertung von
KI-Bilderzeugungsmodellen umfasst
sowohl subjektive als auch objektive Methoden. Subjektive Bewertungen
basieren auf der menschlichen Beurteilung von Faktoren wie visueller
Attraktivität und emotionaler Wirkung. Bei objektiven Bewertungen werden dagegen spezielle Tools
verwendet, um Aspekte
wie Bildauflösung,
Farbgenauigkeit und
das Vorhandensein von
visuellen Störungen oder Fehlern,
sogenannten Artefakten, zu
messen Farbgenauigkeit und
das Vorhandensein von
visuellen Störungen oder Fehlern, sogenannten Artefakten Stellen Sie sich ein von KI generiertes
Bild einer Landschaft vor. Um es auszuwerten, könnten wir
eine pixelbasierte Metrik wie PSNR verwenden , was für Peak
Signal to Noise Ratio steht Beurteilen Sie die Bildschärfe und
-schärfe objektiv. Gleichzeitig führen wir
eine Umfrage durch, bei der die Teilnehmer das Bild nach Realismus,
Schönheit und emotionaler Resonanz
bewerten , um subjektive Daten
zu sammeln zu Diese umfassende
Bewertung hilft dabei, den Gesamterfolg des Bilderzeugungsmodells bei
der
Erstellung visuell ansprechender
und genauer Bilder zu
bestimmen Bilderzeugungsmodells bei
der Erstellung visuell ansprechender
und genauer Bilder Gehen wir nun zum Sound über. KI-Modelle
zur
Klangerzeugung
zu bewerten , müssen Qualität,
Genauigkeit und emotionale Wirkung
der von ihnen erzeugten Geräusche genau untersucht werden. Sie können objektive Messungen
wie die Ebenheit der Spektren
und die Nulldurchgangsrate verwenden und die Nulldurchgangsrate , um
die Klangqualität technisch zu beurteilen Es ist auch wichtig,
von den Zuhörern
subjektives Feedback darüber einzuholen, wie
real und emotional ansprechend
die von der KI generierten
Klänge auf real und emotional ansprechend die Menschen wirken Stellen Sie sich vor, Sie bewerten ein von
KI generiertes Musikstück , das Entspannung hervorrufen soll Eine objektive Analyse könnte
die Konsistenz des
Tempos und die Klarheit des Klangs mithilfe
von Tools wie
einem Lautheitsmesser oder
einem Spektrenanalysator messen die Konsistenz des
Tempos und die Klarheit des Klangs mithilfe
von Tools wie einem Lautheitsmesser oder
einem Spektrenanalysator Zur subjektiven Bewertung könnte
eine Hörergruppe
die Musik nach ihren
beruhigenden Eigenschaften
und emotionalen Wirkungen bewerten die Musik nach ihren
beruhigenden Eigenschaften und Solche Dinge können Aufschluss darüber
geben, wie effektiv
die Musik bei der
Erreichung des beabsichtigten
emotionalen Ziels Wie wäre es mit Videos? Bei der Bewertung von KI-Modellen zur
Videogenerierung müssen
Sie vor allem auf
zwei Dinge achten:
die visuelle Qualität
des Videos und darauf, die visuelle Qualität
des Videos und wie die Bilder im Laufe der Zeit
zusammenfließen werden, was auch als
zeitliche Kohärenz bezeichnet wird Um die visuelle Qualität zu messen, können
Sie Metriken wie Ks
und R verwenden, über die wir gesprochen haben Diese Metrik überprüft die Schärfe und den Detailgrad des
Videos Es gibt eine weitere Metrik
namens SSIM,
die für einen strukturellen
Ähnlichkeitsindex steht die für einen strukturellen
Ähnlichkeitsindex Diese Metrik betrachtet die Details und vergleicht das KI-Video mit einem
Referenzvideo. Um die
zeitliche Kohärenz zu bewerten, möchten
Sie sehen, wie
reibungslos die
Videoframes von einem zum nächsten übergehen Dadurch wird sichergestellt
, dass die Bewegung
im Video
natürlich und logisch aussieht Ein weiterer wichtiger
Aspekt, den es zu beurteilen
gilt, ist die kontextuelle Relevanz Stimmt der Videoinhalt tatsächlich mit der
beabsichtigten Geschichte oder Szene
überein Das von KI generierte Video sollte genau wiedergeben, was gezeigt werden
soll. Erwägen Sie beispielsweise,
ein von KI generiertes Video auszuwerten , das einen Taucher im Meer
zeigt Objektive Messwerte würden
die Auflösung des Videos
und die
Konsistenz von Bild zu Bild analysieren die Auflösung des Videos
und die
Konsistenz von Bild zu Bild , um
eine gleichmäßige
Bewegung und klare
visuelle Details zu gewährleisten Bewegung und klare Subjektiv
könnten die Zuschauer beurteilen, wie gut das Video die
Essenz der Umgebung einfängt, Elemente wie
den Realismus der Meereswellen,
die natürliche Bewegung
des Tauchers
und das allgemeine Ambiente
berücksichtigen den Realismus der Meereswellen,
die natürliche Bewegung
des Tauchers
und das allgemeine und dieser kombinierten Bewertung kann festgestellt werden, ob das Modell der
Videogenerierung effektiv nachbildet ein realistisches und Fazit: Die Evaluierung nicht-textgenerativer
KI-Modelle für Bilder, Töne und Videos
ist unerlässlich, um KI in kreativen und
praktischen Anwendungen
voranzubringen Durch die Kombination objektiver
Messungen mit subjektivem menschlichem Feedback erhalten
wir einen umfassenden Überblick
über die Leistungsfähigkeit eines KI-Modells. Dieser Ansatz stellt sicher, dass
die von KI generierten Inhalte technisch einwandfrei sind und
bei den Menschen ankommen, was für die Entwicklung
nützlicher und ansprechender
generativer KI-Anwendungen von entscheidender Bedeutung ist nützlicher und ansprechender
generativer KI-Anwendungen
12. L3V4 – Schlussbemerkungen Die Bedeutung der menschlichen Evaluation: In diesem Video werden wir
unseren Kurs zusammenfassen und
die entscheidende Bedeutung der
menschlichen Bewertung bei der Bewertung
generativer KI-Modelle hervorheben die entscheidende Bedeutung der
menschlichen Bewertung bei der Bewertung
generativer Haben Sie sich jemals gefragt, warum einige KI-generierte Inhalte
irreführend oder Wir werden untersuchen, was
generative KI gut macht, wo sie falsch läuft und warum
menschliche Aufsicht notwendig ist, menschliche Aufsicht notwendig ist zu erkennen und zu korrigieren Um sicherzustellen, dass die Ergebnisse
dieser Modelle nützlich
und vertrauenswürdig sind Am Ende dieses Videos werden
Sie die
Grenzen der generativen KI verstehen,
insbesondere ihre
Tendenz, falsche Informationen
oder Halluzinationen zu erzeugen falsche Informationen
oder Halluzinationen Wir werden erläutern, warum
das Erkennen der Fehler entscheidend für den
effektiven Einsatz von KI und die Sicherstellung zuverlässiger und
nützlicher Ergebnisse ist zuverlässiger und
nützlicher Generative KI kann
viele Aufgaben gut erledigen, hat
aber auch einige
große Schwächen. Ein großes Problem besteht darin, dass sie falsche Informationen
oder Halluzinationen
erzeugen kann falsche Informationen
oder Halluzinationen
erzeugen Das bedeutet, dass das Modell
falsche oder erfundene falsche oder erfundene Diese Modelle
kennen oft nicht die Grenzen
ihres eigenen Wissens, weshalb es so
wichtig ist ,
sie sorgfältig zu bewerten. Um generative
KI effektiv nutzen zu können, müssen
wir
ihre Grenzen verstehen. Das bedeutet, sich bewusst zu sein, dass das Modell Fehler machen kann
, und Wege zu finden,
diese Probleme zu reduzieren , wenn es im wirklichen Leben
verwendet wird. Da wir die Grenzen
der generativen KI erkennen und
angehen müssen , führen
wir ein nützliches
Tool ein, den IVO-Test
, der für sofort
validierte Ergebnisse steht Es ist eine einfache, aber
effektive Methode, um zu
überprüfen, ob ein generatives
KI-Modell zuverlässig ist Ein Modell besteht den
IVO-Test, wenn Benutzer einfach
und schnell überprüfen können , ob
die Ausgabe korrekt ist
und ihren Anforderungen entspricht Auf diese Weise können auch Benutzer
, die keine Experten von KI erstellte
Inhalte
effektiv nutzen und validieren Um den IVO-Test zu implementieren, bewerten
Benutzer die von der
KI generierten Ergebnisse, indem sie sie mit
zuverlässigen Ressourcen vergleichen Diese Methode wird
als
Post-Grounding bezeichnet Auf diese Weise können Benutzer anhand etablierter Fakten überprüfen, ob die Informationen korrekt sind etablierter Dadurch
wird sichergestellt, dass die Ergebnisse der KI nicht nur relevant,
sondern auch zuverlässig sind. Dieser Schritt ist entscheidend für Anwendungen, bei denen Genauigkeit sehr wichtig
ist. Es ermöglicht Benutzern,
Tools vertrauensvoll zu verwenden. Nehmen wir an, ein KI-Modell wird erstellt, um
wissenschaftliche Artikel zusammenzufassen Um den IVO-Test zu verwenden, können
Benutzer in einer speziellen App mit der von der KI
generierten Zusammenfassung interagieren speziellen App mit der von der KI
generierten Zusammenfassung Wenn sie
einen bestimmten Teil der
Zusammenfassung überprüfen möchten , können sie darauf klicken Die App zeigt ihnen dann den passenden Abschnitt
im Originalartikel. Diese Funktion erleichtert es Benutzern, die
Zusammenfassung mit der Quelle zu vergleichen,
sodass sichergestellt wird, dass die KI-Ausgabe den ursprünglichen Inhalt
genau wiedergibt. Diese Methode schafft Vertrauen in die KI und hilft den
Benutzern, sie
besser zu verstehen , indem sie die von der
KI generierten Inhalte
wieder mit ihren zuverlässigen Quellen verbindet . Indem wir KI-Systeme von Menschen
beaufsichtigen lassen, können
wir sicherstellen, dass sie nicht nur nach ihrer Leistung,
sondern auch nach
Fairness und Ethik bewertet werden sondern auch nach
Fairness und Dieser Ansatz trägt dazu bei,
die Ausbreitung von Vorurteilen zu stoppen und stellt sicher, dass KI so entwickelt wird , dass
menschliche Werte respektiert Abschließend haben wir erörtert
, wie wichtig es ist, dass Menschen
generative KI-Modelle
zusammen mit automatisierten Methoden evaluieren zusammen mit automatisierten Methoden Durch die Kombination menschlicher Erkenntnisse mit der Effizienz
von Algorithmen können
wir Aspekte
wie Kreativität,
Kontext und Ethik bewerten , die
Computern möglicherweise entgehen. Dieser Ansatz macht
Bewertungen nicht nur genauer und zuverlässiger, sondern stellt auch sicher, dass
KI im
Einklang mit unseren Werten und
Erwartungen als Gesellschaft entwickelt wird .
13. Outro: Tolle Arbeit. Du hast es geschafft. Sie haben die Auswertung der Ergebnisse
großer Sprachmodelle abgeschlossen. Ich bin nicht nur hier
, um mich zu verabschieden. Ich möchte, dass Sie sich einen Moment Zeit nehmen und Ihre Leistung
während dieses Kurses
feiern. Gemeinsam haben wir neue Konzepte
erforscht, herausfordernden Aufgaben gestellt
und sind deutlich gewachsen. Schauen Sie zurück und finden Sie heraus, was Sie
jetzt wissen , was Sie zu Beginn
des Kurses nicht wussten. Ihr Engagement hat
zu erheblichen Fortschritten geführt, und Sie sollten
stolz auf diese Leistung Dieser Kurs ist nur ein Schritt auf Ihrer kontinuierlichen
Lernreise Die Konzepte, die Sie hier
gelernt haben, werden als Grundlage
für Ihr zukünftiges Wachstum
dienen. Stellen Sie sicher, dass Sie
diese Fähigkeiten weiterhin anwenden und Ihre Neugier
bewahren. Um Ihre Reise fortzusetzen, empfehle
ich Folgendes. Lesen Sie sich zunächst die
Kursmaterialien noch , um Ihr Gedächtnis
an die Inhalte aufzufrischen Stellen Sie zweitens sicher,
dass Sie in den Community-Foren
mit Ihren Kollegen in
Kontakt treten Community-Foren
mit Ihren Kollegen in Stellen Sie drittens sicher, dass Sie
neue herausfordernde Projekte annehmen , um Ihre Fähigkeiten zu verbessern. Vielen Dank, dass Sie an diesem Kurs
zur Bewertung von LMS-Ergebnissen
teilgenommen zur Bewertung von LMS-Ergebnissen Ihr Engagement bedeutet mir und unserem gesamten Team sehr viel
. unseres Kurses Ihre Reise gerade erst an. Ich freue mich darauf zu hören,
was Sie von diesem Kurs halten und was Sie in Zukunft erreichen
möchten. Sie weiter Fortschritte, bleiben neugierig und genießen Sie
die bevorstehende Reise. Nochmals herzlichen Glückwunsch
und ich hoffe, wir sehen uns
in einem anderen Kurs. Ich melde mich ab, Professor Reza.