Generative Modelle evaluieren: Methoden, Metriken und Tools

Reza Moradinezhad, AI Scientist

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

- 1.
  
  Einführung
  
  3:25
- 2.
  
  L1V1 Einführung in LLMs und ihre Evaluierungsmethoden
  
  5:46
- 3.
  
  L1V2 – Vorteile und Herausforderungen von LLM-Evaluierungsmethoden
  
  5:11
- 4.
  
  L1V3 LLM – Evaluierung auf Vertex AI
  
  5:11
- 5.
  
  L2V1 – Automatische Metriken
  
  4:59
- 6.
  
  L2V2 – Automatische Metriken-Demo
  
  7:46
- 7.
  
  L2V3 – AutoSxS
  
  7:37
- 8.
  
  L2V4 – AutoSxS-Demo
  
  8:29
- 9.
  
  L3V1 - Textbasierte Evaluierungsmodelle Teil1
  
  6:07
- 10.
  
  L3V2 - Textbasierte Evaluierungsmodelle Teil2
  
  4:42
- 11.
  
  L3V3 – Evaluierung von generativen KI-Modellen ohne Text
  
  5:28
- 12.
  
  L3V4 – Schlussbemerkungen Bedeutung der menschlichen Evaluation
  
  4:18
- 13.
  
  Outro
  
  1:48

Anfänger-Niveau

Fortgeschrittenes Niveau

Jedes Niveau

Teilnehmer:innen

Projekt

Über diesen Kurs

In diesem Kurs beherrschst du fortgeschrittene Bewertungstechniken für große Sprachmodelle (LLMs) mit Tools wie Automatische Metriken und AutoSxS. Diese Evaluierungsmethoden sind entscheidend für die Optimierung von KI-Modellen und die Sicherstellung ihrer Effektivität in realen Anwendungen. Mit diesem Kurs erhältst du wertvolles Wissen und praktische Fähigkeiten, darunter:

Praktische Erfahrung mit Vertex AI von Google Cloud zur Bewertung von LLMs mit leistungsstarken und branchenüblichen Bewertungstools.
Lerne die Verwendung automatischer Metriken, um die Modellausgabequalität für Aufgaben wie Textgenerierung, Zusammenfassung und Fragenbeantwortung zu bewerten.
AutoSxS beherrscht, um mehrere Modelle nebeneinander zu vergleichen, tiefere Einblicke in die Modellleistung zu erhalten und die am besten geeigneten Modelle für deine Aufgaben auszuwählen.
Evaluierungstechniken anwenden, um KI-Anwendungen in verschiedenen Branchen wie Gesundheitswesen, Finanzen und Kundenservice zu verbessern.
Fairness-Bewertungsmetriken verstehen, um sicherzustellen, dass KI-Modelle faire und unvoreingenommene Ergebnisse erzielen und kritische Herausforderungen in der KI-Entscheidungsfindung bewältigen.
Bereite dich auf zukünftige KI-Trends vor, indem du mehr über die sich entwickelnden Bewertungstools und Services im Kontext der generativen KI lernst.
Modellauswahl- und Bereitstellungsstrategien optimieren und die Leistung, Effizienz und Fairness der KI-Lösung verbessern.

Am Ende dieses Kurses wirst du die Möglichkeit haben:

LLMs effektiv bewerten, um ihre Leistung zu optimieren.
Datenbasierte Entscheidungen für die Auswahl der besten Modelle für deine Anwendungen.
Fairness in KI-Systemen gewährleisten, Verzerrungen reduzieren und Ergebnisse verbessern
Bleib den KI-Bewertungstrends voraus, um deine Fähigkeiten in einem sich schnell entwickelnden Bereich zukunftssicher zu machen.

Egal, ob du ein KI-Produktmanager, Datenwissenschaftler oder KI-Ethiker bist, dieser Kurs vermittelt die Tools und das Wissen, um KI-Modelle für wirkungsvolle Anwendungen zu bewerten und zu verbessern.

Triff deine:n Kursleiter:in

Reza Moradinezhad

AI Scientist

Kursleiter:in

Hello, I'm Reza.

I am passionate about designing trustworthy and effective interaction techniques for Human-AI collaboration. I am an Assistant Teaching Professor at Drexel University College of Computing and Informatics (CCI), teaching both undergraduate and graduate level courses. I am also an AI Scientist at TulipAI, leading teams of young students, pushing the mission of empowering media creators through ethical and responsible use of Generative AI.

I received my PhD in Computer Science from Drexel CCI. My PhD dissertation focused on how humans build trust toward Embodied Virtual Agents (EVAs). I have collaborated with MIT Media Lab, CMU HCII, Harvard University, and UCSD, publishing and presenting in venues such as Springer Nature, ACM CHI, and ACM C&C. I have been re... Vollständiges Profil ansehen

Skills dieses Kurses

KI und Innovation KI für Entwicklung KI-Werkzeuge Entwicklung Programmiersprachen Python Tools für die Entwicklung

Level: Intermediate

Praxisnahes Kursprojekt

Modellbewertung mit automatischen Metriken:
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/intro_to_gen_ai_evaluation_service_sdk.ipynb

Modellbewertung mit AutoSxS:
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/legacy/evaluate_gemini_with_autosxs.ipynb

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Willkommen zu unserem Kurs zur Bewertung der Ergebnisse großer Sprachmodelle. Da KI und die Verarbeitung natürlicher Sprache Technologie zunehmend beeinflussen, ein tiefes Verständnis der Bewertung ist ein tiefes Verständnis der Bewertung großer Sprachmodelle für jeden modernen Entwickler von entscheidender Bedeutung. Wir führen Sie durch grundlegende Bewertungsmethoden, fortgeschrittene Techniken, bei denen Tools wie automatische Metriken und automatische Analysen von Standort zu Standort verwendet werden, sowie durch ethische Überlegungen bei der KI-Entwicklung Dieser Kurs konzentriert sich auf praktische Anwendungen, integriert menschliches Urteilsvermögen mit automatischen Methoden und bereitet Sie auf zukünftige Trends bei der KI-Bewertung in verschiedenen Medien Hallo, ich bin Professor Reza mit mehr als zehn Jahren Unterrichtserfahrung im Bereich Informatik und künstliche Intelligenz Während meiner Promotion habe ich mit dem MIT Media Lab, der Carnegie Melon University, dem HCII, der Harvard University und der University of California San Diego zusammengearbeitet Carnegie Melon University, dem HCII, der Harvard University und der University of California San Diego und Ich habe an renommierten Orten wie IAE, Springer Nature und ACMKI veröffentlicht . Meine Arbeiten wurden in mehreren Nachrichtenagenturen veröffentlicht, darunter im Neck Web und CBS Dieser Kurs ist ideal für Sie, wenn Sie daran interessiert sind, die Fähigkeiten zu erlernen, um die Ergebnisse von LLMs effektiv zu bewerten um Ihre Geschäftsstrategien und Ihre persönliche Innovation zu verbessern und Ihre persönliche Die Lernziele dieses Kurses bestehen darin die Stärken und Herausforderungen der LLM-Bewertungstools zu verstehen Herausforderungen der LLM-Bewertungstools Entdecken Sie einige der Dienste zur Bewertung von KI-Modellen von Vertex. Optimieren Sie die Modellauswahl entsprechend Ihrer Anwendung und bereiten Sie sich auf die Zukunft vor, indem verstehen, wie sich die Weiterentwicklung von Evaluierungstools und -diensten auf die Entwicklung und den Einsatz umfangreicher Sprachmodelle auswirken kann und den Einsatz umfangreicher Sprachmodelle Um in diesem Kurs erfolgreich zu sein, sollten Sie über Grundkenntnisse der Konzepte des maschinellen Lernens verfügen , einschließlich Kennzahlen zur Modellbewertung, und Kenntnisse in LANs und deren Anwendungen verfügen Dieser Kurs besteht aus drei Lektionen. Lektion eins, Grundlagen der Bewertungsmethoden für große Sprachmodelle. Lektion zwei, LLM-Bewertung zu Vertex-KI, und Lektion drei, Die Zukunft generativer KI-Evaluierungsmodelle Am Ende dieses Kurses werden Sie ein gründliches Verständnis für die Bewertung der Ergebnisse von LLMs erlangen Bewertung der Ergebnisse von LLMs Sie lernen, wie Sie die Effektivität und Genauigkeit von LLM-generierten Inhalten in verschiedenen Bereichen Sie diese Fähigkeiten kennen, können Sie die Qualität verschiedener KI-Modelle beurteilen Sie können das richtige für Ihre Bedürfnisse auswählen. Auf diese Weise können Sie effektive und ethisch verantwortungsvolle Anwendungen für persönliche, berufliche und geschäftliche Zwecke entwerfen, entwickeln und implementieren ethisch verantwortungsvolle Anwendungen für persönliche, berufliche und geschäftliche Zwecke entwerfen, und Lassen Sie uns also beginnen und untersuchen, wie die Bewertung von LLM-Ergebnissen die Zuverlässigkeit und Effektivität von KI-Lösungen verbessern kann die Zuverlässigkeit und Effektivität von KI-Lösungen 2. L1V1 Einführung in LLMs und ihre Evaluierungsmethoden: In diesem Video werden wir uns mit dem Konzept von Lodge Language Models, kurz LNS, befassen Stellen Sie sich ein KI-System vor, das so fortschrittlich ist, dass es Geschichten schreiben, komplexe Fragen beantworten und sogar Gespräche führen kann , komplexe Fragen beantworten und sogar Gespräche führen Ist das nicht faszinierend? zu verstehen, wie diese Modelle funktionieren und wie ihre Ergebnisse bewertet Es ist von entscheidender Bedeutung zu verstehen, wie diese Modelle funktionieren und wie ihre Ergebnisse bewertet werden können, da diese Technologien unser tägliches Leben verändern Am Ende dieses Videos werden Sie verstehen, wie sich große Sprachmodelle von herkömmlichen NLP-Modellen oder Modellen zur Verarbeitung natürlicher Sprache unterscheiden herkömmlichen NLP-Modellen oder Modellen zur Verarbeitung natürlicher Sprache Wir werden sie in Bezug auf Umfang und Komplexität vergleichen. Wir werden auch die Bedeutung zuverlässiger Bewertungsmethoden und die möglichen Folgen einer unsachgemäßen Bewertung auf reale Anwendungen erörtern zuverlässiger Bewertungsmethoden und die möglichen Folgen einer . Große Sprachmodelle oder LLMs sind ein großer Fortschritt in der künstlichen Intelligenz Diese Modelle lernen aus riesigen Mengen an Textdaten, wodurch sie menschenähnliche Sprache verstehen und erzeugen Es ist fast so, als könnten sie ähnlich denken wie Menschen. LLMs können im Vergleich zu einfacheren Sprachmodellen viel komplexere Aufgaben bewältigen im Vergleich zu einfacheren Sprachmodellen Sie können Konversationen führen, lange Textteile zusammenfassen und sogar Originalinhalte erstellen Sie tun das alles mit einem beeindruckenden Maß Geläufigkeit und Genauigkeit, das zuvor nicht möglich war Die wahre Stärke von LLNs liegt in ihrer Tiefe und ihrem Umfang. Im Gegensatz zu herkömmlichen NLP-Modellen, die mit begrenzten Daten und vordefinierten Regeln arbeiten und sich auf bestimmte Aufgaben konzentrieren, werden LLNs auf sehr unterschiedlichen Datensätzen trainiert . Diese Datensätze enthalten Milliarden von Wörtern. Dies ermöglicht es LLNs, die Nuancen der Sprache besser zu verstehen und verschiedene Aufgaben effektiv zu bewältigen LLNs verwenden fortschrittliche Deep-Learning-Techniken wie Transformatorarchitektur , um Muster selbstständig zu lernen , ohne für bestimmte Aufgaben programmiert zu sein Durch den Aufbau eines tiefen Sprachverständnisses direkt aus Daten können LLNs weit über die Fähigkeiten früherer Modelle hinausgehen, die auf einfacheren Techniken und strukturiertem Input basieren einfacheren Techniken und Die fortschrittlichen Fähigkeiten von LLNs ermöglichen es ihnen, eine Vielzahl von Sprachaufgaben gleichzeitig auszuführen, von der Übersetzung von Sprache bis hin zur Erstellung kreativer Sie können sich an unterschiedliche Kontexte anpassen und kohärente, relevante Antworten liefern Dies unterscheidet sie von früheren NLP-Technologien, die in der Regel kürzeren, isolierten Text verarbeiten Ein weiterer wesentlicher Unterschied besteht darin, dass die großen neuronalen Netzwerke von LLM es ihnen ermöglichen , den Kontext über lange Konversationen oder Dokumente aufrechtzuerhalten über lange Konversationen Dies war für frühere traditionelle NLP-Modelle eine ziemliche Herausforderung frühere traditionelle NLP-Modelle Lassen Sie uns nun sehen, warum es wichtig ist , die Ergebnisse von Evince zu bewerten Es ist wichtig, die Ergebnisse zu bewerten , da diese Modelle immer häufiger in Bereichen eingesetzt werden , in denen es wirklich darauf ankommt, umfangreiche Informationen Bereiche wie Gesundheitswesen, Recht, Kundenservice, Nachrichten und Bildung. In diesen Bereichen ist es von entscheidender Bedeutung, dass die Ergebnisse korrekt, fair und angemessen sind , um das Vertrauen aufrechtzuerhalten und diese Tools nützlich zu machen. Gute Bewertungen tragen dazu bei, die Zuverlässigkeit der Informationen zu gewährleisten , indem sie überprüfen, ob LLMs die Eingaben richtig verstehen, und sicherstellen, dass die Antworten korrekt und relevant sind Schützen Sie sich auch vor den negativen Auswirkungen falscher Ergebnisse, wie etwa der Verbreitung falscher oder irreführender Informationen HA-Fake News Ein weiterer Grund, warum die Bewertung von LLMs so wichtig ist, liegt darin die Ergebnisse dieser Modelle die Verzerrung der Daten widerspiegeln, auf denen sie trainiert wurden Wir möchten sicherstellen, dass wir ethische Standards einhalten LLMs können aufgrund der Daten, mit denen wir sie trainieren, Vorurteile verstärken , was zu unfairen oder voreingenommenen Ergebnissen führen kann zu unfairen oder voreingenommenen Ergebnissen Gute Evaluierungen können diese Vorurteile identifizieren und abmildern, gewährleistet Durch Evaluierungen können wir auch überprüfen, ob die Antworten angemessen sind und den gesellschaftlichen Normen entsprechen, insbesondere bei Interaktionen mit insbesondere Regelmäßige Evaluierungen verbessern diese Modelle fördern den ethischen Einsatz künstlicher Intelligenz und tragen dazu bei Vertrauen der Öffentlichkeit in interaktive Technologien Abschließend haben wir uns in diesem Video mit den Grundlagen umfangreicher Sprachmodelle befasst und erklärt, wie sie sich von herkömmlichen NLP-Modellen unterscheiden Wir haben auch darüber gesprochen, wie wichtig es ist, sie zu bewerten, und wir haben gelernt, dass es entscheidend ist, sicherzustellen, dass die LM-Ergebnisse korrekt und ethisch korrekt sind , um sicherzustellen, dass sie in verschiedenen Anwendungen gut funktionieren 3. L1V2 – Vorteile und Herausforderungen von LLM-Evaluierungsmethoden: In diesem Video werden wir die Schritte untersuchen, die bei der Bewertung großer Sprachmodelle erforderlich sind Stellen Sie sich vor, Ihre Nachrichtenagentur benötigt die beste KI, um Artikelzusammenfassungen zu erstellen Wie wählt man die richtige aus? Wir führen Sie durch die Definition von Zielen, die Auswahl von Methoden, Auswahl von Datensätzen und die Interpretation Ergebnisse anhand eines realen Szenarios Am Ende dieses Videos werden Sie die Schritte und Herausforderungen verstehen, die mit den einzelnen Schritten der Bewertung umfangreicher Sprachmodelle verbunden der Bewertung umfangreicher Sprachmodelle Stellen Sie sich vor, Sie arbeiten in einer Nachrichtenagentur, die LLMs verwenden möchte , um einzeilige Zusammenfassungen für ihre Nachrichtenartikel zu erstellen für ihre Nachrichtenartikel Um LLMs auf diese Weise erfolgreich zu integrieren, müssen Sie mehrere Modelle bewerten, um das am besten geeignete Modell zu ermitteln Auf den ersten Blick mag die Bewertung von LLMs einfach erscheinen und mehr oder weniger ähnlich Bewertung eines herkömmlichen Zunächst definieren Sie Bewertungsziele. Dann wählen Sie die Bewertungsmethoden aus. Der dritte Schritt besteht darin, geeignete Datensätze auszuwählen und schließlich die Ergebnisse zu analysieren und zu interpretieren Lassen Sie uns also jeden dieser Schritte aufschlüsseln. Im ersten Schritt möchten Sie Fragen stellen, z. B. welche spezifische Aufgabe das LLM ausführen soll? Sie möchten auch herausfinden, welche Kennzahlen für Sie wichtiger sind: allgemeine Sprachkompetenz, Kohärenz, sachliche Richtigkeit Im zweiten Schritt müssen Sie die Bewertungsmethode auswählen Sie können aus verschiedenen Methoden wie aufgabenspezifischen Kennzahlen, Forschungsbenchmarks, LLM-basierten Bewertungen und menschlichen Bewertungen auf der Grundlage Ihrer Bewertungsziele wählen wie aufgabenspezifischen Kennzahlen, Forschungsbenchmarks, LLM-basierten Bewertungen und menschlichen Bewertungen auf der Grundlage Ihrer Bewertungsziele Was die Auswahl des geeigneten Datensatzes angeht, sollten Sie einen zentralen Datensatz definieren , der Ihren Bewertungszielen und Kennzahlen entspricht Ein guter Ort, nach dem Sie suchen sollten, sind die Benchmark-Datensätze, die speziell für die Bewertung von LLMs entwickelt wurden Für die Analyse und Interpretation der Ergebnisse sollten Sie sowohl quantitative als auch qualitative Ergebnisse kombinieren, sollten Sie sowohl quantitative als auch qualitative Ergebnisse kombinieren sowohl quantitative als auch qualitative Ergebnisse um umfassende Erkenntnisse für Ihre Achten Sie darauf, die Stärken und Schwächen der einzelnen Bewertungsmethoden zu notieren und Ihre Schlussfolgerung zu begründen. Hoffentlich klingt das auch einem guten Ansatz für die Bewertung von LLMs. Allerdings gibt es auch in diesem Prozess mehrere Herausforderungen, insbesondere wenn es um die Bewertung der Ergebnisse dieser LLS geht die Bewertung der Ergebnisse dieser LLS Die erste Herausforderung besteht in der Definition der Bewertungsziele. In unserem Beispiel ist die Definition von Bewertungszielen für LLMs bei Aufgaben wie der Zusammenfassung von für LLMs bei Aufgaben wie der Zusammenfassung von Nachrichtenartikeln aufgrund des subjektiven Charakters dessen, was eine gute Zusammenfassung ausmacht, eine Herausforderung des subjektiven Charakters dessen, was eine gute Zusammenfassung ausmacht, eine Es ist schwierig, sich auf eine begrenzte Anzahl von Kennzahlen zu verlassen , um die Qualität eines Outputs zu beurteilen Außerdem gibt es bei der Auswahl der Bewertungsmethoden Zeit- und Ressourcenbeschränkungen. Es wird rechenintensiv und zeitaufwändig sein , mehrere Bewertungsmethoden auszuprobieren Außerdem werden sehr häufig neue Bewertungsmethoden eingeführt es schwierig macht, zu entscheiden welche Methode für unseren Anwendungsfall am besten geeignet ist Bei der Auswahl geeigneter Datensätze Größe und Qualität der können Größe und Qualität der verfügbaren Datensätze zu Herausforderungen führen Bei Vorhersagemodellen wissen wir, dass große Datensätze mit minimalem Rauschen zu einer besseren Leistung führen In der Welt der generativen Modelle sind wir uns jedoch immer noch nicht sicher, welche Größe und Qualität der Datensätze Betten haben Und schließlich kann es bei der Analyse und Interpretation von Ergebnissen zu Schwierigkeiten bei der Erklärbarkeit kommen, insbesondere wenn es sich um neuere Bewertungsmethoden handelt Wir verfügen immer noch nicht über eine Standardmethode zur Interpretation der Ergebnisse oder zur Bewertung der Zuverlässigkeit dieser Bewertungsmethoden Zusammenfassend lässt sich sagen, dass dieses Video die wesentlichen Schritte und Herausforderungen bei der Bewertung großer Sprachmodelle behandelt hat die wesentlichen Schritte und Herausforderungen . Wir haben uns diese Bewertungen für Aufgaben wie die Zusammenfassung von Nachrichtenartikeln angesehen Aufgaben wie die Zusammenfassung von Nachrichtenartikeln Wir haben untersucht, wie man klare Bewertungsziele definiert, die richtigen Bewertungsmethoden auswählt, geeignete Datensätze und die Ergebnisse effektiv interpretiert Jeder Schritt bringt unterschiedliche Herausforderungen , die sorgfältig bewältigt werden müssen, um die erfolgreiche Integration umfangreicher Sprachmodelle in reale Anwendungen sicherzustellen umfangreicher Sprachmodelle in reale Anwendungen 4. L1V3 LLM – Evaluierung auf Vertex AI: In diesem Video werden wir die Tools untersuchen, die Vertex AI zur Bewertung der Ergebnisse großer Sprachmodelle bietet Bewertung Stellen Sie sich vor, KI-Modelle mit Tools zu bewerten , die Genauigkeit und Fairness hervorheben Diese Tools geben Ihnen die Möglichkeit, versteckte Vorurteile aufzudecken und versteckte Leistungen Seite an Seite zu vergleichen versteckte Leistungen Seite an Seite Wir untersuchen auch einige Erkenntnisse darüber, wie Sie Ihre KI-Modelle nicht nur effektiv, sondern auch ethisch vertretbar machen Ihre KI-Modelle nicht nur effektiv, sondern auch Am Ende dieses Videos werden Sie wissen, wie Sie Vertex AI effektiv einsetzen können , um die Ergebnisse umfangreicher Sprachmodelle zu bewerten die Ergebnisse umfangreicher Sprachmodelle Wie bereits erwähnt, werden wir in diesem Kurs Google Cloud als Beispiel für eine Plattform verwenden, die Tools für die LLM-Bewertung bereitstellt Die Vertex-KI von Google kann Ihnen dabei helfen, den gesamten Lebenszyklus eines großen Sprachmodells von Anfang bis Ende zu bewerten den gesamten Lebenszyklus eines großen Sprachmodells von Anfang bis Ende zu In Vertex AI können Sie Modelle für viele verschiedene Aufgaben und Modalitäten prototypisieren, anpassen , evaluieren und bereitstellen , evaluieren und bereitstellen Für die Zwecke dieses Kurses werden wir uns jedoch nur auf die Bewertungsmöglichkeiten konzentrieren , die Vertex Zu den in Vertex AI verfügbaren Funktionen zur Optimierung des Bewertungsprozesses gehören automatische Metriken, bei Optimierung des Bewertungsprozesses gehören automatische Metriken, denen Referenzdaten zur Berechnung aufgabenspezifischer Metriken verwendet zur Berechnung aufgabenspezifischer Automatisieren Sie Standort für Standort, was die menschliche Bewertung nachahmt, indem die Leistung von zwei Modellen mit einem Arbitermodell verglichen die Leistung von zwei Modellen mit einem Und Sicherheitsverzerrung, die hervorhebt das Modell Vorurteile gegenüber einer bestimmten In Lektion zwei werden wir uns eingehender automatischen Metriken und automatischen Metriken befassen. In Lektion drei werden wir uns auch kurz mit Sicherheitsverzerrungen befassen. Lassen Sie uns zunächst jede dieser drei Bewertungsmethoden durchgehen . Automatische Metriken bei der KI-Evaluierung sind quantitative Messgrößen, mit denen die Leistung von Modellen bewertet wird , insbesondere bei Aufgaben wie Textgenerierung oder maschineller Übersetzung. Sie sind in der Regel schnell und effizient und können Teil einer standardisierten Methode sein , die in Wissenschaft und Industrie zum Vergleich verschiedener Romane verwendet wird Wissenschaft und Industrie zum Vergleich verschiedener Romane Zu den gängigsten automatischen Messgrößen gehört die blaue oder zweisprachige Evaluierung im Rahmen von Unterstudium. Dabei wird gemessen , wie viele Wörter und Ausdrücke in einer maschinell generierten Übersetzung mit einer Referenzübersetzung übereinstimmen Wir verwenden auch Rouge oder Recall-Oriented Understudy für die Stichbewertung. Dabei handelt es sich um eine weitere Kennzahl, die zur Bewertung von Textzusammenfassungen verwendet wird , indem die sich überschneidenden Einheiten wie Gramm, Wortfolgen und Wortpaare zwischen der computergenerierten Zusammenfassung und einer Reihe von Referenzzusammenfassungen gezählt die sich überschneidenden Einheiten wie Gramm, Wortfolgen und Wortpaare zwischen der computergenerierten Zusammenfassung und der computergenerierten Zusammenfassung und Es gibt auch Auto Side by Side, ein Tool, das für die automatische parallele Bewertung von KI-Modellen verwendet wird , insbesondere von generativen KI-Modellen insbesondere von generativen KI-Modellen in der Vertex-KI-Modellregistrierung Dieses Tool ermöglicht den Vergleich der Leistung verschiedener Modelle und gibt Aufschluss darüber, welches Modell unter welchen Umständen besser abschneidet Auto side by side zielt darauf ab, konsistente Leistungskennzahlen zu liefern , konsistente Leistungskennzahlen , die sich an menschlichen Bewertungen orientieren bietet jedoch den Vorteil , dass es schneller , kostengünstiger und bei Bedarf verfügbar ist. Nicht zuletzt ermöglicht die KI von Vertex auch die Bewertung von Sicherheitsverzerrungen Diese Bewertung überprüft und modelliert die Ergebnisse auf Vorurteile gegenüber Identitätsgruppen wie dieser Analyse soll sichergestellt , dass die Ergebnisse des LLN nicht schädlichen Stereotypen oder zu unfairen Behandlung Zusammenfassend lässt sich sagen, dass die Vertex-KI von Google Cloud umfassende Tools zur Bewertung von Sprachmodellen für Unterkünfte bietet , wobei der Schwerpunkt auf Leistungskennzahlen Automatische Metriken wie Blue und Rouge bieten standardisierte, schnelle und effiziente Möglichkeiten, Modellergebnisse anhand von Referenzdaten zu bewerten Auto Site by Site vergleicht zwei Modelle nebeneinander und ahmt so menschliches Urteilsvermögen nach , bietet jedoch die Vorteile von Geschwindigkeit und Kosteneffizienz Darüber hinaus wird bei Sicherheitsverzerrungen die Fairness zwischen verschiedenen Identitätsgruppen, wie z. B. dem Geschlecht, überprüft Fairness zwischen verschiedenen Identitätsgruppen, wie z. B. , um sicherzustellen , dass LLNs keine schädlichen Stereotypen oder Diskriminierung verstärken Dieser ganzheitliche Bewertungsansatz ermöglicht es Entwicklern, LLNs weiterzuentwickeln sie dabei an ethischen Standards und gesellschaftlichen Erwartungen an verantwortungsvolle KI auszurichten gesellschaftlichen 5. L2V1 – Automatische Metriken: In diesem Video werden wir uns automatische Metriken ansehen und verstehen, welche Rolle sie bei der Bewertung von Sprachmodellen für Logen Stellen Sie sich einen Entwickler vor, der mit der Leistung seines KI-Modells zu kämpfen hat. Sie verbringen Stunden damit, das Modell zu testen und zu optimieren, ohne ein klares Feedback zu den Auswirkungen ihrer Optimierungen auf das Ergebnis des Ich glaube, die meisten von Ihnen, die an diesem Kurs teilnehmen , wissen bereits, wie Aber was wäre, wenn ich Ihnen sagen würde, dass es Tools gibt, die uns präzise Leistungsdaten liefern und die genauen Verbesserungsbereiche aufzeigen Am Ende dieses Videos werden Sie die verschiedenen automatischen Metriken verstehen, die bei der LLM-Bewertung verwendet werden, warum sie verwendet werden und wie sie bei der Verfeinerung der Modellleistung für verschiedene Aufgaben helfen können der Verfeinerung der Modellleistung für verschiedene Sie können Klassifizierung, Zusammenfassung, Textgenerierung oder ähnliches Automatische Metriken bieten also eine schnelle und kostengünstige Möglichkeit, die Leistung Ihres Modells anhand einer Reihe von aufgabenspezifischen Metriken zu bewerten anhand einer Reihe von aufgabenspezifischen Metriken diesem Ansatz werden Modelle anhand von Paaren zwischen Eingabeaufforderung und Ausgangsantwort bewertet , sodass Sie ihre Effektivität schnell beurteilen Automatische Metriken sind eine Standardmethodik in der akademischen Forschung und in vielen offenen Benchmarks weit verbreitet und in vielen offenen Benchmarks Sie verwenden allgemein anerkannte Metriken für verschiedene allgemeine KI-Aufgaben, sodass die Ergebnisse verschiedener Studien und Plattformen vergleichbar verschiedener Studien und Plattformen Der Bewertungsprozess beinhaltet die Anpassung eines Bewertungsdatensatzes in das Modell, um Prognoseergebnisse zu generieren. Diese Ergebnisse werden dann anhand der ausgewählten Bewertungsmetriken bewertet , um die Leistung des Modells bei der jeweiligen spezifischen Aufgabe zu messen . Durch die Nutzung automatischer Metriken können Sie die Fähigkeiten Ihres Modells effizient bewerten und Verbesserungspotenziale identifizieren , ohne dass eine umfangreiche manuelle Überprüfung erforderlich Derzeit umfassen die auf Vertex AI verfügbaren Modelle Basisversionen und optimierte Versionen von Palm Takes Bison unterstützten Aufgaben gehören Klassifizierung, Zusammenfassung, Beantwortung von Fragen und Textgenerierung Für jede dieser Aufgaben gibt es mindestens eine Metrik. Jede Aufgabe hat spezifische Metriken, um die Genauigkeit zu gewährleisten. Ergebnisse von Mikrofonen und Mikrofonen messen die allgemeine Genauigkeit und den Erinnerungswert der Klassifizierung Pro Klasse F wird sie pro Kategorie bewertet. Rouge L bewertet die generelle Nähe zu einer Referenz, während Exact Match die Genauigkeit bei der Beantwortung von Fragen bewertet Blue misst die Genauigkeit der Textgenerierung anhand eines Textgenerierung anhand eines Die Verwendung automatischer Metriken ist ziemlich einfach. Zunächst bereiten wir den Bewertungsdatensatz mit Eingabe-/Ausgabepaaren vor. Dann laden wir den Datensatz in Google Clouds und Speicher hoch. Schließlich führen wir die Modellevaluierung durch, indem wir die Vertex-AI-Python-Bibliothek verwenden, um den Job einzureichen Im nächsten Video führe ich Sie durch eine Demo, wie Sie jeden dieser Schritte ausführen können Aber lassen Sie uns das vorerst schnell überprüfen. Für den Datensatz müssen Sie die Eingabeaufforderung mit Anweisungen und Kontext sowie einer Grundwahrheit versehen die Eingabeaufforderung mit Anweisungen und Kontext , die zusammen mit den generierten Antworten zur Berechnung von Metriken für die ausgewählte Aufgabe verwendet wird den generierten Antworten zur Berechnung . Es ist eine gute Idee, mindestens zehn Beispiele anzubieten mindestens zehn Beispiele , die der Verwendung der Anwendung ähneln. Wenn Sie Ihren Datensatz vorbereitet und in Google Cloud Storage hochgeladen haben , verfügt Vertex AI über eine Vorlage für die Modellbewertungspipeline den Parametern für den Betrieb der Evaluierungspipeline gehören der Speicherort des Bewertungsdatensatzes, die Aufgabe, die ausgeführt werden soll, und das Modell, das für die Aufgabe verwendet werden soll Mit diesen Parametern können Sie dann den Pipeline-Job für die Modellevaluierung ausführen. sehen wir eine Demo zur Ausführung Im nächsten Video sehen wir eine Demo zur Ausführung einer Evaluierungsaufgabe. Abschließend haben wir uns in diesem Video mit automatischen Metriken in Vertex AI befasst, einem effizienten und standardisierten Ansatz zur Bewertung von LLMs Wir haben die unterstützten Modelle und Aufgaben untersucht, die Anwendung der einzelnen Bewertungskennzahlen verstanden und den Prozess der Vorbereitung und Durchführung einer Evaluierungspipeline skizziert Vorbereitung und Durchführung einer Evaluierungspipeline Anhand dieser Kennzahlen können Sie objektiv messen und verfeinern Leistung Ihres Modells objektiv messen und verfeinern, um sicherzustellen, dass es den Anforderungen realer Anwendungen 6. L2V2 – Demo mit automatischen Metriken: In diesem Video werden wir eine Live-Demonstration der Verwendung des Rapid Evaluation SDK zur Evaluierung der Ergebnisse von Evaluierung Gemini und LLM, die von Google entwickelt wurden In dieser Demo erfahren Sie aus erster Hand, wie Sie automatische Metriken anwenden können, um die Leistung Ihres Modells zu bewerten und automatische Metriken anwenden können, um die Leistung Ihres Modells zu bewerten die Stärken und Schwächen verschiedener KI-Modelle zu verstehen die Stärken und Schwächen verschiedener Am Ende dieses Videos werden Sie genau wissen, wie Sie das Rapid Evaluation SDK verwenden , um die Ergebnisse eines LLM zu bewerten Wir behandeln das Laden Ihres Datensatzes, Initiierung der Modellevaluierung, Anwendung automatischer Metriken und die Interpretation der Ergebnisse, um einen Einblick in die Leistung Ihres Modells Kommen wir zur Demo. Der Link zu diesem Tutorial wird bereitgestellt, damit Sie die Evaluierung selbst durchführen können. In dieser Demo gehen wir darauf ein, wie Sie das Schnellbewertungstool verwenden können , um die Leistung eines LLM zu analysieren In dieser Demo wird das Google Callb-Notizbuch verwendet , um Sie bei der Verwendung der Schnellbewertung Zunächst bereiten wir die Ausführung dieses Tools erforderlichen Komponenten Zunächst erstellen wir ein Google Cloud-Konto. Bei der Kontoerstellung werden Sie aufgefordert, Ihr Google Gmail und Ihr Passwort einzugeben. Sobald Sie das Konto erstellt haben, wird ein ähnlicher Begrüßungsbildschirm angezeigt. Öffnen Sie den Menü-Tab auf der linken Seite und wählen Sie Abrechnung aus. Von dort aus müssen Sie die Abrechnung aktivieren. Sie müssen eine Kredit- oder Debitkarte angeben , um die Abrechnung zu aktivieren. Aber mach dir keine Sorgen. wird jedem ein Kredit im Wert von 300$ Am Anfang wird jedem ein Kredit im Wert von 300$ zur Verfügung gestellt Sie müssen also kein Geld für die Ausführung dieser Demo ausgeben kein Geld für die Ausführung dieser Demo Anschließend öffnen Sie erneut den Menü-Tab und wählen auf dem Bildschirm APIs und Dienste aus. Sie klicken auf das Drop-down-Menü mit der Aufschrift Bibliothek und suchen nach dem Wort Vertex AI API Anschließend klicken Sie auf Aktivieren, um die API für Ansichten zu aktivieren. Schließlich erstellen Sie in diesem Drop-down-Menü hier oben links ein Projekt in Google Cloud Klicken Sie darauf und wählen Sie ein neues Projekt aus. Von dort aus führt Sie Google bei der Erstellung des ersten Projekts. Nachdem Sie das erste Projekt erstellt haben, werden Sie feststellen, dass dem Projekt eine eindeutige ID zugeordnet ist . Stellen Sie sicher, dass Sie die ID speichern, da für die Bewertungsaufgabe erforderlich ist. Jetzt sind wir bereit, mit dem Setup fortzufahren. Beginne damit, die erste Zelle hier unten laufen zu lassen. Jetzt werden wir das Paket ausführen, um die Schnellauswertung durchzuführen. Beachten Sie, dass Sie möglicherweise den Kernel neu starten müssen, damit das Paket erkannt wird. Als Nächstes werden wir diese Zelle zur Authentifizierung ausführen. Verwenden Sie die Projekt-ID, die Sie zuvor gesehen haben , und fügen Sie sie in die Projekt-ID-Variable Was den Standort betrifft, so wird in dieser Demo US Central V verwendet . Sie können die unterstützenden Standorte für diese Variable nachschlagen. Sie erhalten ein Popup-Fenster Hinweis, dass Sie sich bei Google anmelden müssen. Hier können Sie sich mit Ihrem Google Cloud-Konto anmelden. Anschließend werden Sie aufgefordert, auf bestimmte Funktionen zuzugreifen , die Sie zulassen und fortsetzen. Am Ende sollte eine Seite angezeigt werden, auf der angegeben wird, dass Sie sich erfolgreich bei Google Cloud authentifiziert haben , und dann können Sie zum Netzwerk zurückkehren Anschließend richten wir die Google Cloud-Projektinformationen und initialisieren das Vertex AISDK mithilfe der Nachdem Sie Ihre Projekt-ID und Ihren Standort eingerichtet haben, führen Sie die Zelle aus, wodurch das zu verwendende Vertex-AISDK initialisiert wird Vertex-AISDK Als Nächstes importieren wir die erforderlichen Bibliotheken. Führen Sie die Zelle aus, um alle erforderlichen Bibliotheken abzurufen. Beachten Sie, dass die wichtigsten Bibliotheken unten aufgeführt sind, die die Informationen verarbeiten. Führen Sie als Nächstes die Bibliothekseinstellungszelle und die Hilfsfunktionen aus. Beachten Sie, dass diese Zellen zur Formatierung von Informationen und zur Anpassung der Einstellungen für Warnungen und Protokolle sowie zur Leistungsanpassung dienen. Wir sind jetzt bereit, den Evaluierungsjob auszuführen. Lassen Sie uns zuvor die Anforderungen durchgehen, die für die Durchführung dieser Bewertung erforderlich sind. Zunächst benötigen wir die Daten , die ausgewertet werden. Um die Daten für die Bewertungsaufgabe richtig zu formatieren, erstellen wir den Pandas-Datenrahmen mithilfe von Datenarrays , die in einem Wörterbuch gespeichert sind Das Wörterbuch kann eine Anweisung, einen Kontext, eine Referenz, eine Vorhersage und eine Antwort Jeder Indexwert entspricht dem anderen Array mit demselben Indexwert. Beispiel: Index Null und das Antwort-Array entspricht dem Index Null des anderen Arrays usw. In dieser Demo werden wir zwei Datenzeilen verwenden. Fügen Sie diese Daten als Array in ein Wörterbuch ein, das in einen Pandas-Datenrahmen konvertiert werden soll Als Nächstes entscheiden wir, welche Metriken für die Auswertung der Antworten wählen Die Antworten werden anhand verschiedener automatischer Metriken gemessen , die das Tool zur schnellen Bewertung bereitstellt. Hier sehen wir alle möglichen Metriken in der mittleren Spalte, zusammen mit der Art der Messungen auf der linken Seite und der erforderlichen Datenrahmeneingabe auf der rechten Seite. Kohärenz wird beispielsweise Fähigkeit des Modells gemessen, eine klare und solide Reaktion zu erzeugen eine klare und solide Reaktion Erfüllung misst, wie gut das Modell die gegebenen Anweisungen mit einer vorher festgelegten Vorhersage beantwortet und ausgeführt hat die gegebenen Anweisungen mit einer vorher festgelegten Vorhersage beantwortet und ausgeführt , und Blue und Rouge vergleichen die Ähnlichkeit zwischen der gegebenen Referenzvorhersage und der Antwort in Worten Sie können sich diese Kennzahlen selbst ansehen , wenn Sie daran interessiert sind. Nachdem Sie die Metriken ausgewählt haben, möchten Sie die Eingabe und die Namen der einzelnen Metriken messen und die hier gezeigten Arrays eingeben Außerdem fügen Sie den Bewertungsdatensatz in das erforderliche Datensatzargument und geben einen Namen für das Experiment an Im letzten Segment der Zelle führen wir die eigentliche Bewertungsaufgabe aus. Wenn Sie die Zelle ausführen, sollten Sie sehen, dass ein Experiment erstellt wurde. Wenn Sie auf die Schaltfläche „ Experiment anzeigen , werden Sie zu Google Cloud weitergeleitet, wo Sie den Status der Evaluierungspipeline einsehen können . Die Zeit, die für die Bewertungsaufgabe benötigt wird, hängt von der Anzahl der Metriken ab, da mehr Metriken mehr Zeit in Anspruch nehmen, bis sie abgeschlossen sind. Zusammenfassend haben wir gesehen, wie das Rapid Evaluation SDK die Bewertung generativer KI-Modelle erleichtert eine effiziente Methode zur Analyse der Modellleistung mithilfe automatischer Metriken bietet . Dieser Ansatz hilft dabei, Stärken und Schwächen zu identifizieren und sicherzustellen, dass Ihr Modell die erwarteten Standards für reale Anwendungen erfüllt . 7. L2V3 – AutoSxS: In diesem Video schauen wir uns Auto Seite an Seite genauer an, ein Tool zur vergleichenden Bewertung umfangreicher Stellen Sie sich vor, Sie arbeiten an einem KI-Projekt, bei dem Sie das beste Modell für die Zusammenfassung auswählen müssen. Ohne klare Vergleiche fühlt es sich an, als würde man beim Hund raten gute Nachricht ist, dass Sie mit Autost by Side in der Lage sind, die Ergebnisse von zwei verschiedenen Modellen Seite Am Ende dieses Videos werden Sie verstehen, wie Auto Side by Side funktioniert, welche Rolle der Atorator spielt und wie Sie ihn verwenden können Rolle der Atorator spielt und , um Modellausgaben zu vergleichen Sie erhalten Einblicke in die Bewertung von LLMs und verstehen genau, warum das eine Modell besser reagiert als das andere Auto Side by Side ist ein Bewertungstool, das zwei LLMs nebeneinander vergleicht Es verwendet einen Belüfter oder ein Bewertungsmodell, um zu ermitteln, wie besser auf eine Aufforderung reagiert Mit diesem Tool können Sie die Leistung jedes generativen KI-Modells für Anwendungsfälle mit Zusammenfassungen und zur Beantwortung von Fragen bewerten jedes generativen KI-Modells für Anwendungsfälle mit Zusammenfassungen und zur Beantwortung von Fragen Auto Site by Site bietet außerdem Erklärungen und Sicherheitsbewertungen für jede Entscheidung. Im Mittelpunkt von Autost by Side steht der Autoator, der diese vergleichende Bewertung ermöglicht diese vergleichende Bewertung Der Autoator ist ein LAN speziell für die Bewertung der Qualität von Antworten entwickelt wurde, die von anderen Modellen generiert wurden , wenn eine ursprüngliche Inferenzaufforderung gegeben wurde Auto Side by Side kann jedes Modell mit vorgenerierten Vorhersagen auswerten und automatisch Antworten für jedes Modell in der Vertex-AI-Modellregistrierung generieren , das , Derzeit kann es die Leistung von Modellen bei Zusammenfassungs- und Fragenbeantwortungsaufgaben bewerten Modellen bei Zusammenfassungs- und Fragenbeantwortungsaufgaben Bei jeder Bewertung nebeneinander werden bei der automatischen Parallelauswertung vordefinierte Bewertungskriterien Zu den Kriterien für die Zusammenfassung gehört beispielsweise, wie gut das Modell Anweisungen befolgt, die direkt angezeigt Wie fundiert ist die Antwort im Kontext und in den Anweisungen der Inferenz? Wie gut erfasst das Modell wichtige Details in der Zusammenfassung und wie präzise ist Die Verwendung von Auto nebeneinander ist ziemlich einfach. Zunächst bereiten wir einen Datensatz mit Eingabeaufforderungen, Kontexten und den entsprechenden generierten Antworten vor, nur wenn Eingabeaufforderungen erforderlich Anschließend speichern wir den Bewertungsdatensatz in Google Clouds of Storage oder einer Big Query-Tabelle Und dann führen wir die Modellevaluierung durch, indem den Evaluierungspipeline-Job ausführen. Im nächsten Video sehen Sie eine Demo von Autoste by Side in Aktion, Gemini Pro mit einem anderen LLM für eine Zusammenfassungsaufgabe verglichen einem anderen LLM für eine Lassen Sie mich zuvor jedoch erklären, wie jeder dieser Auto Site by Site akzeptiert einen einzigen Bewertungsdatensatz. Der Datensatz muss mindestens ein Beispiel enthalten, aber für eine korrekte Bewertungsaufgabe werden etwa 400 bis 600 Beispiele empfohlen. Jedes einzelne Beispiel hat eine eindeutige ID und umfasst Inhalt und Antworten. Wir können auch eine zusätzliche Spalte hinzufügen um auch menschliche Vorlieben zu berücksichtigen. Als Nächstes müssen wir die Parameter für die Durchführung der Modellbewertung festlegen. Bei einer Modellevaluierung ohne menschliche Präferenz könnten die Parameter beispielsweise einer Modellevaluierung ohne menschliche Präferenz den Bewertungsdatensatz, die zu verwendenden Spalten, die Aufgabe, z. B. Zusammenfassung oder Beantwortung von Fragen, und Parameter der Bedieneraufforderung wie den Inferenzkontext und die Anweisungen spezifizieren zu verwendenden Spalten, die Aufgabe, z. B. Zusammenfassung oder Beantwortung von Fragen, und Parameter der Bedieneraufforderung wie den Inferenzkontext und Parameter der Bedieneraufforderung wie die Anweisungen Außerdem müssen wir die Spalten mit vordefinierten Prognosen angeben, um die Bewertungsmetrik zu berechnen Nachdem wir unsere Parameter definiert haben, können wir mithilfe einer von Google bereitgestellten Vorlage einen Evaluierungspipeline-Job starten . Die Parameterwerte werden zur Konfiguration des Pipeline-Jobs übergeben. Auto side by side verwendet das Vertex AI Python SDK, um diese Aufgabe zu erledigen Nach erfolgreichem Abschluss einer automatischen Side-by-Side-Evaluierung können Sie sich die Evaluierungsergebnisse ansehen automatischen Bearbeitung werden drei Haupttypen von Bewertungsergebnissen generiert : eine Tabelle mit Beurteilungen, aggregierte Kennzahlen und eine Alignment-Matrix, sofern dies vom Benutzer gewünscht wird Tabelle mit den Urteilen wird die bessere Antwort angegeben und für jede Auswahl wird ein Konfidenzwert angegeben , der zwischen 0 und 1 liegt Die automatische Gegenüberstellung enthält eine Erläuterung der einzelnen Belüftungsoptionen der automatischen Side-by-Seite-Funktion können mehrere Ergebnisse für eine bestimmte Aufgabe generiert und verglichen werden, um anhand von Kriterien wie Kohärenz, logischem Ablauf und Erfassung der wichtigsten Punkte die Antwort auszuwählen , die als besser bewertet logischem Ablauf und Erfassung Wenn Sie beispielsweise zwischen Antwort A und Antwort B wählen , könnte der Prüfer erklären dass beide zwar gute Zusammenfassungen liefern, Antwort B die Gesamtgeschichte jedoch etwas besser in einer kohärenteren und organisierteren Form erfasst die Gesamtgeschichte jedoch etwas besser in einer kohärenteren und organisierteren die stärker auf Statistiken ausgerichtete Antwort A. Auto nebeneinander liefert auch aggregierte Kennzahlen. Diese Kennzahlen zur Gewinnrate werden aus der Beurteilungstabelle als Prozentsatz der Fälle abgeleitet , in denen der Operator ein Modell dem anderen vorgezogen hat Diese Kennzahlen helfen dabei, schnell das überlegene Modell zu identifizieren Wie ich bereits erwähnt habe, ermöglicht Auto Side by Side auch ermöglicht Auto Side by Side die Validierung von Urteilen , die von Menschen bevorzugt werden Das bedeutet, dass die Bereitstellung zusätzlicher Informationen und Parameter im Rahmen der parallelen Evaluierungspipeline möglich ist Zu diesem Zweck muss dem Datensatz eine Spalte hinzugefügt werden, die den menschlichen Vorlieben entspricht. Außerdem müssen wir innerhalb der Parameter eine Spalte für menschliche Präferenzen definieren . Der Rest des Prozesses bleibt derselbe. Einbeziehung menschlicher Präferenzen führt zu zusätzlichen Kennzahlen für die Abstimmung der menschlichen Präferenzen. Das Ergebnis umfasst alle regulären Kennzahlen, aber auch eine Gewinnrate nach menschlichen Präferenzen sowie die Gewinnrate des Außenseiters und einen Chenes-Cape-Wert, der den Grad der Übereinstimmung zwischen dem Operator und dem menschlichen Prüfer angibt Übereinstimmung zwischen dem Operator und dem menschlichen Prüfer Auch hier handelt es sich um einen Wert von 0-1, wobei Null für eine zufällige Wahl Zusammenfassend lässt sich sagen, dass Auto Side by Side ein innovatives Tool im Vertex-KI ist, mit dem die Leistung generativer KI-Modelle bewertet und verglichen Wir haben gesehen, wie es den Bewertungsprozess mit direkten Vergleichen und detaillierten Erläuterungsfunktionen präziser macht den Bewertungsprozess mit direkten Vergleichen und detaillierten Erläuterungsfunktionen präziser Vergleichen und detaillierten Erläuterungsfunktionen und detaillierten Erläuterungsfunktionen Es optimiert die Bewertung von LLNs und stellt sicher, dass werden kann anhand aufgabenspezifischer Kriterien das Modell mit der besten Leistung identifiziert 8. L2V4 – AutoSxS-Demo: In diesem Video zeigen wir , wie Sie Auto Site für Site innerhalb von Vertex AI verwenden, um das Gemini-Modell anhand eines anderen Lodams zu bewerten Gemini-Modell Dieser praktische Leitfaden zeigt Ihnen jeden Schritt bei der Einrichtung und Durchführung einer Evaluierung mithilfe der von der Google Cloud Platform bereitgestellten Tools Am Ende dieses Videos werden Sie verstehen, wie Sie dem Tool „Autoste by Side“ navigieren, Ihre Bewertungsdatensätze einrichten und die Ergebnisse der Autoste-by-Site-Vergleichsanalyse interpretieren der Autoste-by-Site-Vergleichsanalyse Auf diese Weise werden Sie mit den Fähigkeiten ausgestattet, um die Leistung generativer KI-Modelle effektiv beurteilen zu Kommen wir nun zur Demo. Der Link zu diesem Tutorial wird bereitgestellt, damit Sie die Evaluierung selbst durchführen können. In dieser Demo werden wir uns ansehen, wie Sie Auto nebeneinander verwenden können , um die Leistung umfangreicher Sprachmodelle zu bewerten und zu vergleichen . Zunächst installieren wir das folgende Paket, indem wir diesen Befehl ausführen. Wir werden dieses Paket verwenden, um die API vom Google Club aus aufzurufen. Nachdem Sie den Befehl ausgeführt haben, stellen Sie sicher, dass Sie die Runtime neu starten , um das neu installierte Paket verwenden zu können. wurde eine Zelle zur Verfügung gestellt Benutzer wurde eine Zelle zur Verfügung gestellt, um die Runtime neu zu starten. Nachdem Sie die Zelle erfolgreich ausgeführt haben, erhalten Sie ein Popup-Fenster, das darauf hinweist, dass der Kernel ausgefallen ist, und der Kernel wird automatisch neu gestartet. Lassen Sie uns nun die notwendigen Komponenten einrichten. Wir werden zunächst ein Google Cloud-Konto erstellen. Bei der Kontogenerierung werden Sie nach Ihrem Gmail und Ihrem Passwort gefragt. Sobald Sie das Konto erstellt haben, werden Sie mit einem ähnlichen Bildschirm begrüßt Öffnen Sie den Menü-Tab auf der linken Seite und wählen Sie Abrechnung. Von dort aus müssen Sie die Abrechnung aktivieren. Sie müssten eine Kredit- oder Debitkarte eingeben , um die Abrechnung zu aktivieren. Sie erhalten jedoch eine Gutschrift im Wert von 300 USD . Machen Sie sich also keine Sorgen Anschließend öffnen Sie erneut den Menü-Tab und wählen APIs und Dienste Klicken Sie auf die Bibliothek und suchen Sie nach der Vertex AI API. Anschließend klicken Sie auf Aktivieren, um die Verwendung der API zu Als Nächstes erstellen Sie ein Projekt in Google Cloud. Klicken Sie oben links auf das Drop-down-Menü und wählen Sie ein neues Projekt aus. Von dort aus führt Sie Google bei der Erstellung des ersten Projekts. Öffnen Sie abschließend erneut den Menü-Tab und wählen Sie IAM und Admin aus. Sie werden das neu erstellte Projekt sehen. Klicken Sie auf Grant Access und geben Sie im Principal den Namen des Principals Ihres erstellten Projekts ein. Suchen Sie dann in der Dropdownliste mit den Rollen nach dem Filterobjekt Hier sehen Sie die Option für den Umgebungs- und Speicherobjekt-Administrator Fügen Sie dies dem Prinzipal hinzu und speichern Sie es. So sollte es aussehen, wenn die Rolle einen Speicherobjekt-Administrator hat. Jetzt sind wir bereit zu gehen. Da wir an der Vertex AI Workbench arbeiten, müssen Sie keine zusätzlichen Schritte ausführen Zunächst legen wir die Projekt-ID fest. Sie können die Projekt-ID finden, indem Sie zum Projekt-Drop-down-Menü zurückkehren und die Spalte suchen, in der die ID angezeigt wird. In diesem Fall ist dies die ID für das Projekt. Führen Sie die Zelle aus, nachdem Sie die ID in Ihre Projekt-ID geändert haben . Als Nächstes legen wir die Region fest. In dieser Demo ist die Region auf US-Zentralanleihen eingestellt. Führen Sie jetzt den Zellenblock aus. Jetzt werden wir eine zufällige UUID generieren. Dies wird verwendet, um das Projekt eindeutig zu identifizieren und mögliche Namenskollisionen zu vermeiden Wir werden nun die UUID verwenden, um einen eindeutigen Bucket-URI-Namen zu erstellen Jetzt werden wir mit der Einrichtung des Prozesses fortfahren. Wir werden zuerst die Bibliotheken importieren und unsere Konstanten definieren Wir werden auch unsere Helfer definieren. Als Nächstes initialisieren wir das Vertex-AISDK, indem wir unsere Projekt-ID, Region und unseren , Region und unseren Wie wir in unseren Konstanten definiert haben, vergleichen wir einen Gemini-Datensatz mit einem anderen LLM-Datensatz, eine Antwort A und die andere Antwort B erzeugt. Jede Zeile der Daten enthält eine ID und ein Dokument zum Zusammenfassen, und die beiden Versionen der Antwort auf das Antwort auf das Wir können uns das ansehen, indem wir Pandas verwenden , um die JSON-Datei zu lesen und zu formatieren Als Nächstes werden wir den Modellevaluierungsjob ausführen. Hier sind die Parameter, die von der Pipeline benötigt werden. Der Bewertungsdatensatz zur Angabe des Datenstandorts, ID-Spalten zur Unterscheidung eindeutiger Bewertungsbeispiele , in diesem Fall ID- und Dokumentenfelder. Als Nächstes folgt die Aufgabe. Die Aufgabe, die wir evaluieren, ist die Zusammenfassung. Und es gibt die Parameter für die Bedieneraufforderung, denen das Verhalten von Bedieneraufgaben konfiguriert wird , z. B. Einstellen des Kontextes und der Anweisungen Anschließend müssen Sie in der Antwortspalte A und in der Antwortspalte B die Namen der Spalten angeben der Antwortspalte A und Antwortspalte B die Namen , die vordefinierte Prognosen enthalten , um die Bewertungskennzahlen zu berechnen. In diesem Fall handelt es sich um Antwort A und Antwort B. Nachdem wir die Modellbewertungsparameter definiert haben, können wir nun den Pipeline-Job für die Modellauswertung mit dieser angegebenen Vorlage mithilfe des Vertex AI Python SDK ausführen mit dieser angegebenen Vorlage mithilfe des Vertex AI Python SDK Lassen Sie dies laufen, da es eine Weile dauern kann , bis die Pipeline fertig Sie können auf den Link klicken, um die Pipeline in Aktion auf der Google Cloud-Plattform zu sehen . So sieht Ihre Pipeline aus. Nachdem der Pipeline-Lauf abgeschlossen ist, können Sie das folgende Codesegment verwenden , um zu sehen, wie die einzelnen Antworten bewertet wurden und wie sie Vergleich zum Belüfter Es bietet Informationen wie Erläuterungen zu den Präferenzen und dem Vertrauenswert des Belüfters Als Nächstes können wir die aggregierten Metriken auch mithilfe der folgenden Codesegmente anzeigen die aggregierten Metriken auch mithilfe der folgenden Codesegmente Dies ist sehr nützlich, um festzustellen , welches Modell im Kontext der jeweiligen Aufgabe besser ist Der Belüfter unterstützt auch Präferenz des Menschen, die Bewertung des Belüfters zu validieren Wir werden nun den anderen URI verwenden , der eine zusätzliche Spalte für menschliche Präferenzen enthält Im Parameter „ Pipeline-Anforderungen“ fügen wir nun die Spalte „Benutzerpräferenz“ hinzu und führen dieselbe Pipeline-Ausführungsaufgabe mit der neuen Datenspalte aus. Wir können jetzt die auf den Menschen abgestimmten aggregierten Metriken abrufen. Auch hier sieht die Pipeline in Google Cloud so aus Anhand der folgenden Codesegmente erhalten wir die Leistung des automatischen Side-by-Side-Belüfters , je nachdem, was ein Mensch bevorzugt Abschließend werden wir die Google Cloud-Ressourcen bereinigen. Wir können die folgende Zelle ausführen und sie bereinigt alle Ressourcen, die wir in diesem Projekt verwendet haben Zusammenfassend lässt sich sagen, dass diese Demo die praktischen Anwendungen von Autoste nach Standort bei der Evaluierung des Gemini-Modells auf Vertex AR veranschaulicht hat die praktischen Anwendungen von Autoste nach Standort bei der Evaluierung des Gemini-Modells auf Vertex Wir haben uns durch den Einrichtungsprozess bewegt, gezeigt, wie die Evaluierung konfiguriert und durchgeführt wird, und das Vergleichsergebnis interpretiert Dieser praxisnahe Ansatz stellt sicher, dass Sie Autoste by Site effektiv nutzen können , um die Leistung generativer KI-Modelle zu bewerten und zu verbessern , was Ihnen wiederum dabei hilft, Ihre KI-Lösungen robuster und zuverlässiger zu machen Ihre KI-Lösungen robuster und zuverlässiger 9. L3V1 – Textbasierte Evaluierungsmodelle Teil1: In diesem Video werden wir grundlegende textbasierte Bewertungsmodelle für LNS wie Meteor und Perplexity sowie Kennzahlen zur Fairness-Evaluierung untersuchen grundlegende textbasierte Bewertungsmodelle für LNS wie Meteor und Perplexity sowie Kennzahlen zur LNS wie Meteor und Perplexity sowie . Wussten Sie, dass voreingenommene KI-Modelle Anträge in kritischen Bereichen wie Kreditgenehmigungen und Einstellungsentscheidungen negativ beeinflussen können? Anträge in kritischen Bereichen wie Kreditgenehmigungen und Einstellungsentscheidungen Wussten Sie, dass voreingenommene KI-Modelle Anträge in kritischen Bereichen wie Kreditgenehmigungen und Einstellungsentscheidungen negativ beeinflussen können? Durch den Einsatz von Meteor und Perplexity können Sie die Risiken dieser Verzerrungen mindern, indem sicherstellen, dass Ihre Modelle Am Ende dieses Videos werden Sie verstehen, wie verschiedene Bewertungsmetriken wie Meteor und Perplexität funktionieren und warum Außerdem erfahren Sie, wie wichtig Furness-Metriken sind, wenn es darum geht , sicherzustellen , dass KI-Anwendungen alle demografischen Gruppen gleich behandeln alle Meteor oder Metrik zur Bewertung von Übersetzungen mit expliziter Reihenfolge verbessert frühere Metriken wie Blau, indem Synonyme, Paraphrasierungen und Flecken berücksichtigt werden Synonyme, Paraphrasierungen und Flecken berücksichtigt Es bewertet die Qualität von Übersetzungen auf der Grundlage der wörtlichen Richtigkeit, Sprachgewandtheit und Zielstrebigkeit und eignet sich daher besonders für Anwendungen, die ein nuanciertes Sprachverständnis erfordern . Schauen wir uns ein praktisches Beispiel an, um zu verstehen, wie Meteor funktioniert Stellen Sie sich vor, wir haben zwei Übersetzungen des englischen Ausdrucks, der schnelle braune Fuchs springt über den faulen Hund Meteor würde Übersetzung A höher bewerten als Übersetzung B. Obwohl beide Übersetzungen ähnliche Bedeutungen haben, behält Übersetzung A eine genauere und flüssigere Struktur bei, wobei die Synonyme angemessen verwendet werden, sprunghaft und schnell für schnell Meteor bewertet diese Übersetzungen indem es die Wortreihenfolge, die Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext analysiert Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext , indem es die Wortreihenfolge, die Synonyme und die allgemeine semantische Ähnlichkeit mit dem Referenztext analysiert. Dies unterstreicht die Flüchtigkeit und Verständlichkeit der Übersetzungen . Ratlosigkeit ist ein weiterer Maßstab, der zur Bewertung von Sprachmodellen verwendet wird , indem bewertet wird, wie gut ein Modell eine Textprobe vorhersagen kann Sie basiert auf der Wahrscheinlichkeitsverteilung, die das Modell einer Wortfolge mit niedrigeren Werten zuordnet , was darauf hindeutet, dass das Modell die Reihenfolge genauer vorhersagt Ratlosigkeit quantifiziert im Wesentlichen des Modells Sie dient als Maßstab für die Wirksamkeit des Systems bei Aufgaben des Sprachverständnisses und der Sprachgenerierung Schauen wir uns ein Beispiel an. Stellen Sie sich ein Modell vor das das nächste Wort im Satz vorhersagen soll. Die Katze sitzt auf dem. Nehmen wir an, Die Katze sitzt auf dem unser Modell sagt vier mögliche Vollendungen voraus: Matt, Fenster, Auto und Mond mit entsprechenden Wahrscheinlichkeiten von 0,5 Wie verwirrend das Modell für diese Vorhersage ist, lässt berechnen, indem die Umkehrung der Wahrscheinlichkeit des richtigen Wortes, in diesem Fall mat, in diesem Fall mat diesem Fall wäre die Ratlosigkeit gleich zwei, was auf eine relativ geringe Unsicherheit gleich zwei Niedrigere Perplexitätswerte belegen die Zuverlässigkeit und Genauigkeit des Modells in Bezug auf seine Vorhersagen, was auf ein besseres Verständnis des Kontextes hindeutet, was auf ein besseres Verständnis des Kontextes hindeutet den die CAT auf der Karte festlegt Wir verfügen auch über Kennzahlen zur Bewertung der Fairness. Dabei handelt es sich um wichtige Instrumente, anhand derer beurteilt werden kann, ob KI-Modelle in verschiedenen demografischen Gruppen gleichermaßen abschneiden. KI-Modelle in verschiedenen demografischen Gruppen gleichermaßen abschneiden. Diese Kennzahlen helfen dabei, Verzerrungen in Modellvorhersagen zu identifizieren , die bestimmte Gruppen aufgrund von Geschlecht, Rasse, Alter oder anderen Faktoren benachteiligen könnten bestimmte Gruppen aufgrund von Geschlecht, Rasse, Alter oder anderen Faktoren benachteiligen Rasse, Alter Dies kann durch die Bewertung von Unterschieden in den Fehlerquoten, positiven Prognoseanteilen und anderen Leistungsindikatoren Stellen Sie sich zum Beispiel ein KI-Modell für die Kreditgenehmigung , das personenbezogene Daten verwendet, um die Kreditwürdigkeit vorherzusagen Um die Fairness zu beurteilen, könnten wir Analysen durchführen. Erstens: Unterschied in den positiven Proportionen der vorhergesagten Kennzeichnungen Wenn beispielsweise 40% der Bewerber aus Gruppe A als kreditwürdig eingeschätzt werden , während es in diesem Beispiel nur 20% der Bewerber aus Gruppe B (in diesem Beispiel) weibliche Bewerber sind, würde diese Kennzahl auf eine mögliche Verzerrung der Modellvorhersagen hinweisen eine mögliche Verzerrung der Modellvorhersagen Gruppe A, zwei, erinnern Sie sich an den Unterschied Wenn das Modell 90% der tatsächlich kreditwürdigen Personen in Gruppe A identifiziert , aber nur 70% in Gruppe B, aber nur 70% in Gruppe B, würde die Kennzahl der Erinnerungsdifferenz darauf hindeuten, dass das Modell für Gruppe B weniger wirksam ist, was möglicherweise zu einer unfairen Behandlung führen könnte. Drittens, spezifischer Unterschied. untersuchen, wie gut das Modell Fehlalarme in allen Gruppen vermeidet, könnten wir feststellen, dass es fälschlicherweise nicht kreditwürdige Personen als kreditwürdig einstuft, und zwar zu unterschiedlichen Raten zwischen den Gruppen, was die Fairness des Entscheidungsprozesses beeinträchtigen könnte des Entscheidungsprozesses Zusammenfassend lässt sich sagen, dass dieses Video die entscheidende Rolle aufgezeigt hat , die sowohl Leistungs - als auch Fairnessbewertungskennzahlen bei der Entwicklung und Einführung von Sprachmodellen spielen der Entwicklung und Einführung von Sprachmodellen Wir haben gesehen, wie Meteor und Perplexity dazu beitragen, dass Modelle optimal funktionieren, während Fairness-Metriken Vorurteile ausräumen, um Gerechtigkeit und Vertrauen in KI-Technologien zu fördern 10. L3V2 – Textbasierte Evaluierungsmodelle Teil2: In diesem Video werden wir unsere Untersuchung textbasierter Bewertungsmodelle für LLMs erweitern textbasierter Bewertungsmodelle für LLMs Diversitätsmetriken und Zero-shot-Evaluation konzentrieren Höchstwahrscheinlich ist Ihnen aufgefallen, dass KI-generierten Inhalten oft an Vielfalt mangelt, was sie für Nutzer weniger interessant oder langweilig macht Durch die Anwendung von Diversitätsmetriken können Sie sicherstellen, dass Ihre KI vielfältige und interessante Antworten generiert. Wir kümmern uns auch um die Zero-shot-Evaluierung, bei der die Anpassungsfähigkeit Ihrer Modelle an neue und unvorhergesehene Aufgaben weiter getestet Anpassungsfähigkeit Ihrer Modelle an neue und unvorhergesehene Am Ende dieses Videos werden Sie in der Lage sein, die Bedeutung und Anwendung von Diversitätskennzahlen bei der Generierung abwechslungsreicher und kreativer Ergebnisse zu verstehen die Bedeutung und Anwendung von Diversitätskennzahlen bei der Generierung abwechslungsreicher und kreativer Darüber hinaus erfahren Sie, wie Zero Shot Evaluation dabei hilft Fähigkeit von LLMs einzuschätzen, sich an Aufgaben anzupassen, für die sie nicht explizit geschult wurden Diversitätskennzahlen bewerten die Bandbreite und Einzigartigkeit der Antworten, die durch ein Sprachmodell generiert werden Diese Kennzahlen sind besonders wichtig für Anwendungen, die kreative oder abwechslungsreiche Ergebnisse erfordern , wie z. B. Inhaltsgenerierung oder Dialogsysteme Durch die Messung von Aspekten wie dem lexikalischen Reichtum, Variation in der Satzstruktur und der Neuartigkeit von Konzepten, die in Antworten eingeführt werden, Diversitätsmetriken sicher, dass die Ergebnisse des Modells nicht nur korrekt, sondern auch ansprechend sind und eine Vielzahl von Perspektiven widerspiegeln. Stellen wir uns ein Szenario vor. Stellen Sie sich vor, Sie haben ein KI-Modell, das die Aufgabe hat anhand einer einzigen Aufforderung pro Tag am Strand Ideen für Geschichten zu generieren einer einzigen Aufforderung pro Tag am Strand Angenommen, das Modell generiert die folgenden Antworten. Bei der Auswertung dieser Antworten anhand von Diversitätsmetriken würden wir auf die Vielfalt der Themen, beteiligten Charaktere und beschriebenen Aktivitäten achten . Antwort B würde in Bezug auf Diversität sehr gut abschneiden mehrere Nebenhandlungen und vielfältige Interaktionen bietet Antwort C würde aufgrund ihrer Redundanz mit Antwort A schlechter abschneiden . Antwort D führt ein neues Element ein, wodurch die Punktzahl für die Einführung einzigartiger Inhalte verbessert Diese Kennzahlen helfen bei der Bewertung der Kreativität und Attraktivität der Ergebnisse der Modelle und stellen so sicher, dass sie den Nutzern frische und ansprechende Inhalte bieten Nutzern frische und ansprechende Inhalte Schauen wir uns nun die Zero-Shot-Bewertung an. Zero-Shot-Bewertung misst die Fähigkeit eines Modells, Aufgaben zu bewältigen, für die es nicht explizit trainiert wurde. Diese Kennzahl ist entscheidend für die Bewertung der Generalisierungsfähigkeit von Lodge-Sprachmodellen. Sie zeigt, wie gut ein Modell erlerntes Wissen ohne zusätzliche Feinabstimmung oder Schulung auf neue Kontexte oder Problemtypen anwenden kann Problemtypen ohne zusätzliche Feinabstimmung oder Schulung auf neue Kontexte oder Es zeigt die Anpassungsfähigkeit und Flexibilität des Modells für verschiedene Anwendungen Schauen wir uns ein Beispiel an. Stellen Sie sich ein Sprachmodell vor, das überwiegend auf englischem literarischem Text trainiert wurde . Wenn Sie mit einer Aufgabe in einem völlig anderen Bereich konfrontiert werden, z. B. der Generierung von technischen Beschreibungen für neue Softwareanwendungen. Null-Shot-Evaluierung würde sofort bewertet, wie gut das Modell diese Aufgabe erfüllt. Schauen wir uns dieses Beispiel an. Wir können sehen, dass dieses Modell, obwohl es keine vorherige Ausbildung zu Softwarebeschreibungen hatte , eine kohärente und relevante Beschreibung generiert. Es weist eine gute Zero-shot-Fähigkeit auf. Diese Fähigkeit, ohne spezielle Schulung von der Literatur auf technische Texte zu verallgemeinern ohne spezielle Schulung von der Literatur auf technische Texte zu zeigt die Robustheit und Nützlichkeit des Modells in realen Szenarien, in denen Trainingsdaten möglicherweise nicht immer für jede mögliche Aufgabe umfassend sind Abschließend erörterten wir, dass Diversitätsmetriken und Zero-shot-Evaluation eine entscheidende Rolle bei der Bewertung von LLMs spielen entscheidende Rolle bei der Bewertung von LLMs Diversitätskennzahlen tragen dazu bei, dass die generierten Inhalte den kreativen Anforderungen realer Anwendungen entsprechen, während Zero-shot-Bewertung die Anpassungsfähigkeit dieser Modelle an neue Aufgaben bewertet und die Robustheit und Nützlichkeit in verschiedenen Szenarien unter Beweis stellt die generierten Inhalte den kreativen Anforderungen realer Anwendungen entsprechen, während die Zero-shot-Bewertung die Anpassungsfähigkeit dieser Modelle an neue Aufgaben bewertet und die Robustheit und Nützlichkeit in verschiedenen Szenarien unter Beweis stellt. 11. L3V3 – Evaluierung von generativen KI-Modellen: In diesem Video werden wir darüber sprechen, wie KI-Modelle evaluiert werden können, die Bilder, Sounds und Videos erzeugen Stellen Sie sich vor, Sie sehen sich einen KI-generierten Film an, in dem Szenen abgehackt aussehen oder sich der Ton schlecht anfühlt . Es wäre frustrierend. Lassen Sie uns untersuchen, wie diese Modelle bewertet werden können, um sicherzustellen, dass die von ihnen generierten Inhalte reibungslos, realistisch und ansprechend Am Ende dieses Videos werden Sie wissen, wie Sie die wichtigen Methoden erkennen , mit denen Experten Bild-, Ton- und Video-KI-Modelle bewerten . Sie werden sich mit den Fähigkeiten zur Untersuchung und Bewertung der Medien vertraut machen , die diese generativen KI-Modelle generieren. Bewertung von KI-Bilderzeugungsmodellen umfasst sowohl subjektive als auch objektive Methoden. Subjektive Bewertungen basieren auf der menschlichen Beurteilung von Faktoren wie visueller Attraktivität und emotionaler Wirkung. Bei objektiven Bewertungen werden dagegen spezielle Tools verwendet, um Aspekte wie Bildauflösung, Farbgenauigkeit und das Vorhandensein von visuellen Störungen oder Fehlern, sogenannten Artefakten, zu messen Farbgenauigkeit und das Vorhandensein von visuellen Störungen oder Fehlern, sogenannten Artefakten Stellen Sie sich ein von KI generiertes Bild einer Landschaft vor. Um es auszuwerten, könnten wir eine pixelbasierte Metrik wie PSNR verwenden , was für Peak Signal to Noise Ratio steht Beurteilen Sie die Bildschärfe und -schärfe objektiv. Gleichzeitig führen wir eine Umfrage durch, bei der die Teilnehmer das Bild nach Realismus, Schönheit und emotionaler Resonanz bewerten , um subjektive Daten zu sammeln zu Diese umfassende Bewertung hilft dabei, den Gesamterfolg des Bilderzeugungsmodells bei der Erstellung visuell ansprechender und genauer Bilder zu bestimmen Bilderzeugungsmodells bei der Erstellung visuell ansprechender und genauer Bilder Gehen wir nun zum Sound über. KI-Modelle zur Klangerzeugung zu bewerten , müssen Qualität, Genauigkeit und emotionale Wirkung der von ihnen erzeugten Geräusche genau untersucht werden. Sie können objektive Messungen wie die Ebenheit der Spektren und die Nulldurchgangsrate verwenden und die Nulldurchgangsrate , um die Klangqualität technisch zu beurteilen Es ist auch wichtig, von den Zuhörern subjektives Feedback darüber einzuholen, wie real und emotional ansprechend die von der KI generierten Klänge auf real und emotional ansprechend die Menschen wirken Stellen Sie sich vor, Sie bewerten ein von KI generiertes Musikstück , das Entspannung hervorrufen soll Eine objektive Analyse könnte die Konsistenz des Tempos und die Klarheit des Klangs mithilfe von Tools wie einem Lautheitsmesser oder einem Spektrenanalysator messen die Konsistenz des Tempos und die Klarheit des Klangs mithilfe von Tools wie einem Lautheitsmesser oder einem Spektrenanalysator Zur subjektiven Bewertung könnte eine Hörergruppe die Musik nach ihren beruhigenden Eigenschaften und emotionalen Wirkungen bewerten die Musik nach ihren beruhigenden Eigenschaften und Solche Dinge können Aufschluss darüber geben, wie effektiv die Musik bei der Erreichung des beabsichtigten emotionalen Ziels Wie wäre es mit Videos? Bei der Bewertung von KI-Modellen zur Videogenerierung müssen Sie vor allem auf zwei Dinge achten: die visuelle Qualität des Videos und darauf, die visuelle Qualität des Videos und wie die Bilder im Laufe der Zeit zusammenfließen werden, was auch als zeitliche Kohärenz bezeichnet wird Um die visuelle Qualität zu messen, können Sie Metriken wie Ks und R verwenden, über die wir gesprochen haben Diese Metrik überprüft die Schärfe und den Detailgrad des Videos Es gibt eine weitere Metrik namens SSIM, die für einen strukturellen Ähnlichkeitsindex steht die für einen strukturellen Ähnlichkeitsindex Diese Metrik betrachtet die Details und vergleicht das KI-Video mit einem Referenzvideo. Um die zeitliche Kohärenz zu bewerten, möchten Sie sehen, wie reibungslos die Videoframes von einem zum nächsten übergehen Dadurch wird sichergestellt , dass die Bewegung im Video natürlich und logisch aussieht Ein weiterer wichtiger Aspekt, den es zu beurteilen gilt, ist die kontextuelle Relevanz Stimmt der Videoinhalt tatsächlich mit der beabsichtigten Geschichte oder Szene überein Das von KI generierte Video sollte genau wiedergeben, was gezeigt werden soll. Erwägen Sie beispielsweise, ein von KI generiertes Video auszuwerten , das einen Taucher im Meer zeigt Objektive Messwerte würden die Auflösung des Videos und die Konsistenz von Bild zu Bild analysieren die Auflösung des Videos und die Konsistenz von Bild zu Bild , um eine gleichmäßige Bewegung und klare visuelle Details zu gewährleisten Bewegung und klare Subjektiv könnten die Zuschauer beurteilen, wie gut das Video die Essenz der Umgebung einfängt, Elemente wie den Realismus der Meereswellen, die natürliche Bewegung des Tauchers und das allgemeine Ambiente berücksichtigen den Realismus der Meereswellen, die natürliche Bewegung des Tauchers und das allgemeine und dieser kombinierten Bewertung kann festgestellt werden, ob das Modell der Videogenerierung effektiv nachbildet ein realistisches und Fazit: Die Evaluierung nicht-textgenerativer KI-Modelle für Bilder, Töne und Videos ist unerlässlich, um KI in kreativen und praktischen Anwendungen voranzubringen Durch die Kombination objektiver Messungen mit subjektivem menschlichem Feedback erhalten wir einen umfassenden Überblick über die Leistungsfähigkeit eines KI-Modells. Dieser Ansatz stellt sicher, dass die von KI generierten Inhalte technisch einwandfrei sind und bei den Menschen ankommen, was für die Entwicklung nützlicher und ansprechender generativer KI-Anwendungen von entscheidender Bedeutung ist nützlicher und ansprechender generativer KI-Anwendungen 12. L3V4 – Schlussbemerkungen Die Bedeutung der menschlichen Evaluation: In diesem Video werden wir unseren Kurs zusammenfassen und die entscheidende Bedeutung der menschlichen Bewertung bei der Bewertung generativer KI-Modelle hervorheben die entscheidende Bedeutung der menschlichen Bewertung bei der Bewertung generativer Haben Sie sich jemals gefragt, warum einige KI-generierte Inhalte irreführend oder Wir werden untersuchen, was generative KI gut macht, wo sie falsch läuft und warum menschliche Aufsicht notwendig ist, menschliche Aufsicht notwendig ist zu erkennen und zu korrigieren Um sicherzustellen, dass die Ergebnisse dieser Modelle nützlich und vertrauenswürdig sind Am Ende dieses Videos werden Sie die Grenzen der generativen KI verstehen, insbesondere ihre Tendenz, falsche Informationen oder Halluzinationen zu erzeugen falsche Informationen oder Halluzinationen Wir werden erläutern, warum das Erkennen der Fehler entscheidend für den effektiven Einsatz von KI und die Sicherstellung zuverlässiger und nützlicher Ergebnisse ist zuverlässiger und nützlicher Generative KI kann viele Aufgaben gut erledigen, hat aber auch einige große Schwächen. Ein großes Problem besteht darin, dass sie falsche Informationen oder Halluzinationen erzeugen kann falsche Informationen oder Halluzinationen erzeugen Das bedeutet, dass das Modell falsche oder erfundene falsche oder erfundene Diese Modelle kennen oft nicht die Grenzen ihres eigenen Wissens, weshalb es so wichtig ist , sie sorgfältig zu bewerten. Um generative KI effektiv nutzen zu können, müssen wir ihre Grenzen verstehen. Das bedeutet, sich bewusst zu sein, dass das Modell Fehler machen kann , und Wege zu finden, diese Probleme zu reduzieren , wenn es im wirklichen Leben verwendet wird. Da wir die Grenzen der generativen KI erkennen und angehen müssen , führen wir ein nützliches Tool ein, den IVO-Test , der für sofort validierte Ergebnisse steht Es ist eine einfache, aber effektive Methode, um zu überprüfen, ob ein generatives KI-Modell zuverlässig ist Ein Modell besteht den IVO-Test, wenn Benutzer einfach und schnell überprüfen können , ob die Ausgabe korrekt ist und ihren Anforderungen entspricht Auf diese Weise können auch Benutzer , die keine Experten von KI erstellte Inhalte effektiv nutzen und validieren Um den IVO-Test zu implementieren, bewerten Benutzer die von der KI generierten Ergebnisse, indem sie sie mit zuverlässigen Ressourcen vergleichen Diese Methode wird als Post-Grounding bezeichnet Auf diese Weise können Benutzer anhand etablierter Fakten überprüfen, ob die Informationen korrekt sind etablierter Dadurch wird sichergestellt, dass die Ergebnisse der KI nicht nur relevant, sondern auch zuverlässig sind. Dieser Schritt ist entscheidend für Anwendungen, bei denen Genauigkeit sehr wichtig ist. Es ermöglicht Benutzern, Tools vertrauensvoll zu verwenden. Nehmen wir an, ein KI-Modell wird erstellt, um wissenschaftliche Artikel zusammenzufassen Um den IVO-Test zu verwenden, können Benutzer in einer speziellen App mit der von der KI generierten Zusammenfassung interagieren speziellen App mit der von der KI generierten Zusammenfassung Wenn sie einen bestimmten Teil der Zusammenfassung überprüfen möchten , können sie darauf klicken Die App zeigt ihnen dann den passenden Abschnitt im Originalartikel. Diese Funktion erleichtert es Benutzern, die Zusammenfassung mit der Quelle zu vergleichen, sodass sichergestellt wird, dass die KI-Ausgabe den ursprünglichen Inhalt genau wiedergibt. Diese Methode schafft Vertrauen in die KI und hilft den Benutzern, sie besser zu verstehen , indem sie die von der KI generierten Inhalte wieder mit ihren zuverlässigen Quellen verbindet . Indem wir KI-Systeme von Menschen beaufsichtigen lassen, können wir sicherstellen, dass sie nicht nur nach ihrer Leistung, sondern auch nach Fairness und Ethik bewertet werden sondern auch nach Fairness und Dieser Ansatz trägt dazu bei, die Ausbreitung von Vorurteilen zu stoppen und stellt sicher, dass KI so entwickelt wird , dass menschliche Werte respektiert Abschließend haben wir erörtert , wie wichtig es ist, dass Menschen generative KI-Modelle zusammen mit automatisierten Methoden evaluieren zusammen mit automatisierten Methoden Durch die Kombination menschlicher Erkenntnisse mit der Effizienz von Algorithmen können wir Aspekte wie Kreativität, Kontext und Ethik bewerten , die Computern möglicherweise entgehen. Dieser Ansatz macht Bewertungen nicht nur genauer und zuverlässiger, sondern stellt auch sicher, dass KI im Einklang mit unseren Werten und Erwartungen als Gesellschaft entwickelt wird . 13. Outro: Tolle Arbeit. Du hast es geschafft. Sie haben die Auswertung der Ergebnisse großer Sprachmodelle abgeschlossen. Ich bin nicht nur hier , um mich zu verabschieden. Ich möchte, dass Sie sich einen Moment Zeit nehmen und Ihre Leistung während dieses Kurses feiern. Gemeinsam haben wir neue Konzepte erforscht, herausfordernden Aufgaben gestellt und sind deutlich gewachsen. Schauen Sie zurück und finden Sie heraus, was Sie jetzt wissen , was Sie zu Beginn des Kurses nicht wussten. Ihr Engagement hat zu erheblichen Fortschritten geführt, und Sie sollten stolz auf diese Leistung Dieser Kurs ist nur ein Schritt auf Ihrer kontinuierlichen Lernreise Die Konzepte, die Sie hier gelernt haben, werden als Grundlage für Ihr zukünftiges Wachstum dienen. Stellen Sie sicher, dass Sie diese Fähigkeiten weiterhin anwenden und Ihre Neugier bewahren. Um Ihre Reise fortzusetzen, empfehle ich Folgendes. Lesen Sie sich zunächst die Kursmaterialien noch , um Ihr Gedächtnis an die Inhalte aufzufrischen Stellen Sie zweitens sicher, dass Sie in den Community-Foren mit Ihren Kollegen in Kontakt treten Community-Foren mit Ihren Kollegen in Stellen Sie drittens sicher, dass Sie neue herausfordernde Projekte annehmen , um Ihre Fähigkeiten zu verbessern. Vielen Dank, dass Sie an diesem Kurs zur Bewertung von LMS-Ergebnissen teilgenommen zur Bewertung von LMS-Ergebnissen Ihr Engagement bedeutet mir und unserem gesamten Team sehr viel . unseres Kurses Ihre Reise gerade erst an. Ich freue mich darauf zu hören, was Sie von diesem Kurs halten und was Sie in Zukunft erreichen möchten. Sie weiter Fortschritte, bleiben neugierig und genießen Sie die bevorstehende Reise. Nochmals herzlichen Glückwunsch und ich hoffe, wir sehen uns in einem anderen Kurs. Ich melde mich ab, Professor Reza.

Generative Modelle evaluieren: Methoden, Metriken und Tools

Reza Moradinezhad, AI Scientist

Schau dir diesen Kurs und Tausende anderer Kurse an

Schau dir diesen Kurs und Tausende anderer Kurse an

Einheiten dieses Kurses

1.

Einführung

3:25

2.

L1V1 Einführung in LLMs und ihre Evaluierungsmethoden

5:46

3.

L1V2 – Vorteile und Herausforderungen von LLM-Evaluierungsmethoden

5:11

4.

L1V3 LLM – Evaluierung auf Vertex AI

5:11

5.

L2V1 – Automatische Metriken

4:59

6.

L2V2 – Automatische Metriken-Demo

7:46

7.

L2V3 – AutoSxS

7:37

8.

L2V4 – AutoSxS-Demo

8:29

9.

L3V1 - Textbasierte Evaluierungsmodelle Teil1

6:07

10.

L3V2 - Textbasierte Evaluierungsmodelle Teil2

4:42

11.

L3V3 – Evaluierung von generativen KI-Modellen ohne Text

5:28

12.

L3V4 – Schlussbemerkungen Bedeutung der menschlichen Evaluation

4:18

13.

Outro

1:48