Evaluación de modelos generativos: métodos, métricas y herramientas

Reza Moradinezhad, AI Scientist

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

- 1.
  
  Introduccion
  
  3:25
- 2.
  
  L1V1 Introducción a los LLM y sus métodos de evaluación
  
  5:46
- 3.
  
  L1V2: beneficios y desafíos de los métodos de evaluación en LLM
  
  5:11
- 4.
  
  LLM L1V3: evaluación en IA de Vertex
  
  5:11
- 5.
  
  L2V1: métricas automáticas
  
  4:59
- 6.
  
  L2V2: demostración de métricas automáticas
  
  7:46
- 7.
  
  L2V3: AutoSxS
  
  7:37
- 8.
  
  L2V4: demostración de AutoSxS
  
  8:29
- 9.
  
  L3V1: modelos de evaluación basados en texto parte 1
  
  6:07
- 10.
  
  L3V2: modelos de evaluación basados en texto parte 2
  
  4:42
- 11.
  
  L3V3: evaluación de modelos de IA generativa sin texto
  
  5:28
- 12.
  
  L3V4: notas finales y la importancia de la evaluación humana
  
  4:18
- 13.
  
  Conclusión
  
  1:48

Nivel principiante

Nivel intermedio

Nivel avanzado

Todos los niveles

Estudiantes

Proyecto

Acerca de esta clase

En este curso, dominarás técnicas avanzadas de evaluación para modelos de lenguaje grande (LLM) con herramientas como Métricas automáticas y AutoSxS. Estos métodos de evaluación son fundamentales para optimizar los modelos de IA y garantizar su efectividad en aplicaciones del mundo real. Al tomar este curso, recibirás conocimientos valiosos y habilidades prácticas, que incluyen:

Experiencia práctica con la IA de Vertex de Google Cloud para evaluar LLMs con herramientas de evaluación poderosas y estándar en la industria.
Aprende a usar métricas automáticas para evaluar la calidad de la salida de modelos para tareas como generación de texto, resumen y respuesta a preguntas.
Domina AutoSxS para comparar varios modelos lado a lado, obtener información más profunda sobre el rendimiento de los modelos y seleccionar los modelos más adecuados para tus tareas.
Aplica técnicas de evaluación para mejorar las aplicaciones de IA en diversas industrias, como la salud, las finanzas y el servicio al cliente.
Comprende las métricas de evaluación de la imparcialidad para garantizar que los modelos de IA produzcan resultados equitativos e imparciales, abordando desafíos críticos en la toma de decisiones en IA.
Prepárate para las futuras tendencias en IA al aprender sobre la evolución de las herramientas y los servicios de evaluación en el contexto de la IA generativa.
Optimiza tus estrategias de selección e implementación de modelos y mejora el rendimiento, la eficiencia y la equidad de las soluciones de IA.

Al final de este curso, tendrás la capacidad de:

Evalúa los LLM de manera efectiva para optimizar su rendimiento.
Toma decisiones basadas en datos para seleccionar los mejores modelos para tus aplicaciones.
Garantiza la justicia en los sistemas de IA, mitiga los sesgos y mejora los resultados.
Mantente a la vanguardia de las tendencias de evaluación de IA para preparar tus habilidades en el futuro en un campo en rápida evolución.

Tanto si eres un gerente de productos de IA, un científico de datos o un especialista en ética de IA, este curso te proporciona las herramientas y los conocimientos para sobresalir en la evaluación y mejora de los modelos de IA para aplicaciones reales impactantes.

Conoce a tu profesor(a)

Reza Moradinezhad

AI Scientist

Profesor(a)

Hello, I'm Reza.

I am passionate about designing trustworthy and effective interaction techniques for Human-AI collaboration. I am an Assistant Teaching Professor at Drexel University College of Computing and Informatics (CCI), teaching both undergraduate and graduate level courses. I am also an AI Scientist at TulipAI, leading teams of young students, pushing the mission of empowering media creators through ethical and responsible use of Generative AI.

I received my PhD in Computer Science from Drexel CCI. My PhD dissertation focused on how humans build trust toward Embodied Virtual Agents (EVAs). I have collaborated with MIT Media Lab, CMU HCII, Harvard University, and UCSD, publishing and presenting in venues such as Springer Nature, ACM CHI, and ACM C&C. I have been re... Ver perfil completo

Habilidades relacionadas

IA e innovación IA para el desarrollo Herramientas de IA Desarrollo Lenguajes de programación Python Herramientas de desarrollo

Level: Intermediate

Proyecto de clase práctica

Haz una evaluación de modelos con métricas automáticas:
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/intro_to_gen_ai_evaluation_service_sdk.ipynb

Haz una evaluación de modelos con AutoSxS:
https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/legacy/evaluate_gemini_with_autosxs.ipynb

Valoración de la clase

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introduccion: Bienvenido a nuestro curso de evaluación de resultados de modelos de idiomas grandes. A medida que la IA y el procesamiento del lenguaje natural influyen cada vez más en la tecnología, una comprensión profunda de la evaluación de modelos de lenguaje grande es crucial para cualquier desarrollador moderno. Te guiaremos a través de métodos de evaluación fundamentales, técnicas avanzadas utilizando herramientas como métricas automáticas y auto sitio por sitio, y consideraciones éticas en el desarrollo de IA Este curso enfatiza las aplicaciones prácticas, integrando el juicio humano con métodos automáticos, y te prepara para las tendencias futuras en la evaluación de IA en diversos medios Hola, soy el Profesor Reza con más de diez años de experiencia docente en el campo de informática y la inteligencia artificial. Al cursar mi doctorado, he colaborado con MIT Media Lab, Carnegie Melon University, HCII, Harvard University y University of California He publicado en prestigiosas sedes como IAE, Springer Nature y Mi trabajo ha sido presentado por múltiples medios de comunicación, entre ellos Neck Web y CBS News Este curso es ideal para ti si tienes interés en aprender las habilidades para evaluar los resultados de las LLM de manera efectiva con el fin de potenciar tus estrategias de negocio e innovación personal Los objetivos de aprendizaje para este curso son comprender las fortalezas y desafíos de las herramientas de evaluación LLM Descubre algunos de los servicios de evaluación de modelos Vertex AI. Optimice la selección de modelos para adaptarse a su aplicación y prepárese para el futuro entendiendo cómo las herramientas y servicios de evaluación en evolución pueden afectar el desarrollo y la implementación de modelos de lenguaje grande. Para tener éxito en este curso, debes tener un conocimiento básico los conceptos de aprendizaje automático, incluyendo métricas de evaluación de modelos y una familiaridad con las LAN y sus aplicaciones Este curso se le brinda en tres lecciones. Lección uno, conceptos básicos de los métodos de evaluación de modelos de lenguaje grande. Lección dos, evaluación LLM sobre IA de vértice, y Lección tres, el futuro de los modelos de evaluación generativa de IA Al final de este curso, obtendrá una comprensión profunda de la evaluación de los resultados de las LLM Aprenderá a evaluar la efectividad y precisión del contenido generado por LLM en varios dominios Conocer estas habilidades te ayudará a evaluar la calidad de diferentes modelos de IA. Podrás seleccionar el que mejor se adapte a tus necesidades. Esto le permitirá diseñar, desarrollar e implementar aplicaciones efectivas y éticamente responsables para fines personales, profesionales y comerciales Así que comencemos y exploremos cómo evaluar los resultados de LLM puede mejorar la confiabilidad y efectividad de las soluciones de IA 2. L1V1 Introducción a los LLM y sus métodos de evaluación: En este video, exploraremos el concepto de modelos de lenguaje lodge o LNS para abreviar Imagine un sistema de IA tan avanzado que puede escribir historias, responder preguntas complejas e incluso mantener conversaciones. ¿No es esto fascinante? Comprender cómo funcionan estos modelos y cómo evaluar su producción es crucial ya que estas tecnologías están remodelando nuestra vida diaria Al final de este video, comprenderás en qué se diferencian los modelos de lenguaje grandes de los modelos tradicionales de procesamiento de lenguaje natural o PNL Vamos a compararlos en escala y complejidad. También discutiremos la importancia de los métodos de evaluación confiables y las posibles consecuencias de una evaluación inadecuada en aplicaciones del mundo real. Los modelos de lenguaje grande o LLM son un gran paso adelante en inteligencia artificial Estos modelos aprenden de enormes cantidades de datos de texto, lo que les permite comprender y crear un lenguaje similar al humano. Es casi como si pudieran pensar de manera similar a los humanos. Los LLM pueden manejar tareas mucho más complejas en comparación con los modelos de lenguaje más simples Pueden llevar a cabo conversaciones, resumir largos fragmentos de texto e incluso crear contenido original Lo hacen todo con un impresionante nivel de fluidez y precisión que antes no era posible El verdadero poder de los LLN proviene de su profundidad y escala. A diferencia de los modelos tradicionales de PNL que funcionan con datos limitados, reglas predefinidas y se centran en tareas específicas, las LLN se capacitan en conjuntos de datos masivos y diversos Estos conjuntos de datos contienen miles de millones de palabras. Esto permite a los LLN comprender mejor los matices del lenguaje y manejar diversas tareas de manera efectiva Los LLN utilizan técnicas avanzadas de aprendizaje profundo como arquitectura de transformadores para aprender patrones forma autónoma sin ser programados para tareas específicas Al construir una comprensión profunda del lenguaje directamente a partir de los datos, LLN pueden ir mucho más allá de las capacidades de modelos anteriores que se basan en técnicas más simples y entrada estructurada Las capacidades avanzadas de los LLN les permiten realizar una variedad de tareas lingüísticas simultáneamente, desde traducir el lenguaje hasta generar escritura creativa Pueden adaptarse a diferentes contextos y generar respuestas coherentes y relevantes. Esto los distingue de las tecnologías anteriores de PNL que normalmente manejan texto isated más corto Otra diferencia clave es que grandes redes neuronales LLM les permiten mantener el contexto durante largas conversaciones o documentos Esto fue bastante desafiante para los modelos tradicionales de PNL anteriores Ahora veamos por qué es importante evaluar la salida de evince Es importante evaluar los resultados porque estos modelos se están utilizando cada vez más en áreas donde obtener la información Rich realmente importa. Áreas como salud, derecho, atención al cliente, noticias y educación. En estos campos, es crucial que los resultados sean precisos, justos y apropiados para mantener la confianza y hacer que estas herramientas sean útiles. Las buenas evaluaciones ayudan a mantener la información confiable al verificar que los LLM comprendan la entrada correctamente y asegurando que las respuestas sean correctas y relevantes También proteja contra los efectos negativos de salidas incorrectas, como difundir información incorrecta o engañosa, noticias falsas de HA. Otra razón por la que evaluar los LLM es crucial es porque la salida de estos modelos representa el sesgo en los datos en los que fueron entrenados Queremos asegurarnos de que estamos siguiendo estándares éticos. Los LLM pueden amplificar los sesgos de los datos en los que los entrenamos y que pueden conducir a resultados injustos o Las buenas evaluaciones pueden identificar y mitigar estos sesgos, asegurando la equidad y evitando una mayor discriminación A través de la evaluación, también podemos verificar si las respuestas son apropiadas y alineadas con las normas sociales, especialmente en las interacciones públicas Las evaluaciones periódicas mejoran estos modelos y fomentan el uso ético de la inteligencia artificial y ayudan a generar confianza pública en las tecnologías interactivas. Entonces, en conclusión, en este video, repasamos los conceptos básicos de los modelos de lenguaje grande y en qué se diferencian de los modelos tradicionales de PNL También hablamos sobre lo importante que es evaluarlos y aprendimos que asegurarnos de que los resultados de LM sean precisos y éticos es clave para garantizar que funcionen bien en diferentes aplicaciones. 3. L1V2: beneficios y desafíos de los métodos de evaluación en LLM: En este video, exploraremos los pasos involucrados en la evaluación de modelos de lenguaje grande. Imagina que tu agencia de noticias necesita la mejor IA para generar resúmenes de artículos ¿Cómo eliges la correcta? Le guiaremos a través definición de objetivos, la selección de métodos, elección de conjuntos de datos y la interpretación de los resultados a través de un escenario del mundo real Al final de este video, comprenderás los pasos y desafíos asociados con cada paso de evaluar modelos de lenguaje grande. Imagina que trabajas en una agencia de noticias que quiere utilizar LLM para generar resúmenes de una línea para sus artículos de noticias Para incorporar con éxito LLM de esta manera, se le asigna la tarea de evaluar múltiples modelos para determinar el más apropiado A primera vista, evaluar LLM puede parecer sencillo, más o menos similar a evaluar un modelo de IA tradicional En primer lugar, se definen los objetivos de evaluación. Después eliges los métodos de evaluación. El tercer paso es seleccionar conjuntos de datos apropiados y, finalmente, analizar e interpretar los resultados. Entonces, desglosemos cada uno de estos pasos. En el primer paso, quieres hacer preguntas como ¿qué tarea específica quieres que realice el LLM? También quieres ver qué métricas son más importantes para ti, fluidez general, coherencia, precisión fáctica o cualquier otra cosa En el segundo paso, es necesario escoger el método de evaluación. Puede elegir entre diferentes métodos como métricas específicas de tareas, referencia de investigación, evaluaciones basadas en LLM y evaluaciones humanas basadas en sus objetivos de evaluación En cuanto a seleccionar el conjunto de datos apropiado, desea definir un dataset dorado que se alinee con sus metas y métricas de evaluación Un buen lugar para buscar son los conjuntos de datos de referencia que están diseñados específicamente para la evaluación de LLM Para analizar e interpretar los resultados, desea combinar resultados cuantitativos y cualitativos para proporcionar información integral para su evaluación Asegúrese de anotar las fortalezas y debilidades de cada método de evaluación y proporcionar justificación para su conclusión. Entonces, ojalá esto suene como un buen enfoque para evaluar los LLM también. Sin embargo, también hay varios desafíos en este proceso, especialmente cuando se trata de la evaluación de los resultados de estos LLS. El primer reto es definir los objetivos de evaluación. En nuestro ejemplo, definir metas de evaluación para los LLM en tareas como resumir artículos de noticias es un desafío debido a la naturaleza subjetiva de lo que constituye un buen Es difícil confiar en un número limitado de métricas para evaluar la calidad de una salida. Además, al elegir los métodos de evaluación, existen limitaciones de tiempo y recursos. Va a ser computacionalmente costoso y llevar mucho tiempo probar múltiples métodos de evaluación Además, se están introduciendo con mucha frecuencia nuevos métodos de evaluación se están introduciendo con mucha frecuencia y eso dificulta decidir qué método es el mejor para nuestro caso de uso. Al seleccionar conjuntos de datos apropiados, el tamaño y la calidad de los conjuntos de datos disponibles pueden plantear desafíos. En los modelos predictivos, sabemos que los grandes conjuntos de datos con ruido mínimo conducen a un mejor rendimiento. Pero en el mundo de los modelos generativos, todavía no estamos seguros de qué tamaño y calidad del conjunto de datos son las camas Y finalmente, al analizar e interpretar los resultados, pueden surgir desafíos en la explicabilidad, especialmente cuando se trata de métodos de evaluación más nuevos Todavía no tenemos una forma estándar de interpretar los resultados o evaluar la confiabilidad de estos métodos de evaluación En conclusión, este video ha cubierto los pasos y desafíos esenciales involucrados en la evaluación de modelos de lenguaje grande. Analizamos estas evaluaciones para tareas como resumir artículos de noticias Hemos explorado cómo definir objetivos claros de evaluación, elegir los métodos de evaluación adecuados, seleccionar conjuntos de datos apropiados e interpretar eficazmente los resultados. Cada paso presenta distintos desafíos que deben manejarse cuidadosamente para garantizar la integración exitosa de modelos de lenguaje grande en aplicaciones del mundo real. 4. LLM L1V3: evaluación en IA de Vertex: En este video, exploraremos las herramientas que ofrece Vertex AI para evaluar salidas de modelos de lenguaje grande Imagine evaluar modelos de IA con herramientas que resalten la precisión y la equidad. Estas herramientas te dan la capacidad de descubrir sesgos ocultos y comparar actuaciones ocultas lado a lado También exploramos algunas ideas para hacer que sus modelos de IA no solo sean efectivos sino también éticos. Al final de este video, sabrás cómo usar de manera efectiva Vertex AI para evaluar la salida de modelos de lenguaje grande Como mencionamos anteriormente, en este curso, vamos a utilizar Google Cloud como ejemplo de una plataforma que proporciona herramientas para la evaluación de LLM IA de vértices de Google puede ayudarte a evaluar todo el ciclo de vida de un modelo de lenguaje grande de principio a fin En la IA de vértice, puede crear prototipos, personalizar , evaluar e implementar modelos de muchas tareas diferentes y en diferentes modalidades No obstante, para los fines de este curso, nos centraremos únicamente en las capacidades de evaluación que proporciona la IA de vértice Algunas de las capacidades disponibles en la IA de vértices para ayudar a agilizar el proceso de evaluación incluyen métricas automáticas, que utilizan datos de referencia para calcular métricas específicas de tareas Auto sitio por sitio, que imita la evaluación humana comparando el desempeño de dos modelos con un modelo de árbitro Y sesgo de seguridad, que resalta los sesgos de los modelos contra cierto grupo de identidad En la lección dos, profundizaremos las métricas automáticas y las automáticas lado a lado. En la lección tres, también vamos a cubrir brevemente el sesgo de seguridad. Por ahora, repasemos cada uno de estos tres métodos de evaluación. Las métricas automáticas en la evaluación de IA son medidas cuantitativas utilizadas para evaluar el desempeño de los modelos, especialmente en tareas como generación de texto o la traducción automática. Por lo general, son rápidos, eficientes y pueden formar parte de un método estandarizado utilizado en academia y la industria para comparar diferentes novelas. Algunas de las métricas automáticas más comunes incluyen suplente de evaluación azul o bilingüe, que mide cuántas palabras y frases en una traducción generada por máquina coinciden con una traducción de referencia También tenemos Rouge o suplente orientado al recuerdo para la evaluación de picaduras, que es otra métrica utilizada para evaluar resumen de texto contando las unidades superpuestas como gramos, secuencias de palabras y pares de palabras entre el resumen generado por computadora y un conjunto de resúmenes de referencia También hay auto lado a lado, que es una herramienta utilizada para evaluación automática lado a lado de modelos de IA, particularmente modelos de IA generativos en el registro de modelos de IA de vértice Esta herramienta permite comparar el desempeño de diferentes modelos, aportando conocimientos sobre qué modelo se desempeña mejor y bajo qué circunstancias. Auto lado a lado tiene como objetivo ofrecer métricas de rendimiento consistentes que se alineen con las evaluaciones humanas, pero ofrece las ventajas de ser más rápido, más rentable y disponible bajo demanda. Por último, pero no menos importante, la IA de vértice también proporciona una evaluación del sesgo de seguridad Esta evaluación verifica y modela resultados de sesgos contra grupos de identidad como el género Este análisis tiene como objetivo garantizar que la salida del LLN no perpetre estereotipos nocivos ni trato injusto hacia ningún grupo En conclusión, la IA de vértice de Google Cloud proporciona herramientas integrales para evaluar modelos de lenguaje de lodge, centrándose en las métricas de rendimiento y el sesgo de seguridad Métricas automáticas como Blue y rouge ofrecen formas estandarizadas, rápidas y eficientes de evaluar los resultados del modelo con respecto a los datos de referencia. Auto sitio por sitio compara dos modelos uno al lado del otro, imitando el juicio humano, pero con los beneficios de la velocidad y la rentabilidad Además, el sesgo de seguridad verifica la equidad entre los grupos de identidad, como género, para garantizar que las LLN no refuercen los estereotipos dañinos o Este enfoque holístico de evaluación permite a los desarrolladores refinar las LLN alineándolas con estándares éticos y expectativas sociales para una IA responsable 5. L2V1: métricas automáticas: En este video, vamos a echar un vistazo a las métricas automáticas y entender su papel en evaluación de los modelos de lenguaje lodge. Imagínese a un desarrollador luchando con el rendimiento de su modelo de IA. Pasan horas probando y ajustando el modelo sin tener ningún feedback claro sobre el efecto de sus ajustes en el resultado del LLM Creo que la mayoría de ustedes que están tomando este curso ya saben lo frustrante que puede ser eso Pero y si te dijera que hay herramientas que nos proporcionan datos precisos de rendimiento y resaltan las áreas exactas para mejorar. Al final de este video, comprenderá las diversas métricas automáticas utilizadas en la evaluación LLM, por qué se utilizan y cómo pueden guiar el refinamiento del rendimiento del modelo para diferentes tareas Pueden ser clasificación, resumen, generación de texto, o cualquier cosa por el estilo Por lo tanto, las métricas automáticas proporcionan una forma rápida y rentable de evaluar el rendimiento de su modelo utilizando una gama de métricas específicas de tareas. Este enfoque evalúa modelos basados en pares de respuesta de entrada y salida, lo que le permite medir rápidamente su efectividad Las métricas automáticas son una metodología estándar ampliamente utilizada en la investigación académica y muchos puntos de referencia abiertos. Utilizan métricas comúnmente aceptadas para varias tareas generales de IA, lo que hace que los resultados sean comparables en diferentes estudios y plataformas. El proceso de evaluación implica ajustar un conjunto de datos de evaluación en el modelo para generar resultados de predicción. Estos resultados se evalúan utilizando las métricas de evaluación seleccionadas para medir el desempeño del modelo en la tarea específica en cuestión. Al aprovechar las métricas automáticas, puede evaluar de manera eficiente las capacidades de su modelo e identificar áreas de mejora sin la necesidad de una revisión manual exhaustiva Por el momento, los modelos disponibles en vértice AI incluyen versiones base y afinadas de Palm takes Bison y Las tareas soportadas incluyen clasificación, resumen, respuesta a preguntas y generación de texto Hay al menos una métrica para cada una de estas tareas. Cada tarea tiene una métrica específica para garantizar la precisión. puntuaciones de micrófono y microfon miden la precisión de clasificación general y Por clase F uno lo evalúa por categoría. Rouge L evalúa la cercanía del resumen a una referencia, mientras que las puntuaciones de coincidencia exactas cuestionan azul mide la precisión de la generación de texto contra un estándar humano. El uso de métricas automáticas es bastante sencillo. Primero, preparamos el conjunto de datos de evaluación con pares de entrada y salida. Después subimos el conjunto de datos a Google Clouds y almacenamos. Finalmente, realizamos la evaluación del modelo utilizando la biblioteca Vertex AI Python para enviar el trabajo El siguiente video, te guiaré a través una demo sobre cómo hacer cada uno de estos pasos. Pero por ahora, vamos a revisarlo rápidamente. Para el conjunto de datos, debe proporcionar al prompt instrucciones y contexto, así como una verdad básica, que se utilizará junto con las respuestas generadas para calcular métricas relacionadas con la tarea seleccionada. Es una buena idea ofrecer al menos diez ejemplos similares a cómo se utilizará la aplicación. Cuando hayas preparado tu conjunto de datos y lo hayas subido a Google Cloud Storage, IA de vértices tiene una plantilla para la canalización de evaluación del modelo Los parámetros para ejecutar la canalización de evaluación incluyen la ubicación del conjunto de datos de evaluación, la tarea que se va a realizar y el modelo que se debe utilizar para la tarea. Con esos parámetros, puede ejecutar el trabajo de canalización de evaluación del modelo. Veremos una demo de ejecución de una tarea de evaluación en el siguiente video. En conclusión, en este video, repasamos métricas automáticas en IA de vértice, un enfoque eficiente y estandarizado para evaluar LLM Hemos explorado los modelos y tareas compatibles, entendido la aplicación de cada métrica de evaluación y esbozado el proceso de preparación y ejecución de un pipeline de evaluación. A través de estas métricas, puede medir y refinar objetivamente rendimiento de su modelo para asegurarse de que cumpla con las demandas de las aplicaciones del mundo real 6. L2V2: demostración de métricas automáticas: En este video, vamos a recorrer una demostración en vivo del uso de SDK de evaluación rápida para evaluar la salida de Gemini y LLM desarrollados por Google A través de esta demostración, verás de primera mano cómo aplicar métricas automáticas para evaluar resultado de tu modelo y comprender la fortaleza y debilidad de los diferentes modelos de IA Al final de este video, sabrá exactamente cómo usar el SDK de evaluación rápida para evaluar el resultado de un LLM Cubriremos la carga de su conjunto de datos, inicio de la evaluación del modelo , la aplicación de métricas automáticas y la interpretación de los resultados para obtener información sobre el rendimiento de su modelo Vamos a llegar a la demo. Se proporciona el enlace a este tutorial para que puedas ejecutar la evaluación tú mismo. En esta demostración, vamos a repasar cómo utilizar la herramienta de evaluación rápida para analizar el desempeño de un LLM Esta demostración utilizará el cuaderno Google Callb para guiarlo en el uso de la evaluación rápida Primero comenzaremos preparando los componentes necesarios para ejecutar esta herramienta. Primero, crearemos una cuenta de Google Cloud. En la creación de la cuenta, te avisará a tu Google Gmail y contraseña. Una vez que hayas creado la cuenta, verás una pantalla de saludo similar a esta. Abre la pestaña de menú a la izquierda y selecciona Facturación. A partir de ahí, tendrás que habilitar la facturación. Tienes que poner una tarjeta de crédito o débito para activar la facturación. Pero no te preocupes. Habrá $300 crédito proporcionado a cualquier persona al principio. Así que no tienes que gastar dinero para ejecutar esta demo. Después, vuelve a abrir la pestaña del menú y seleccionar API y servicios en la pantalla. Harás clic en el menú desplegable que dice biblioteca y buscarás la palabra Vertex AI API A continuación, hará clic en Habilitar para habilitar la API a las vistas. Por último, crearás un proyecto en Google Cloud en este menú desplegable aquí en la parte superior izquierda Da clic en eso y seleccionas nuevo proyecto. A partir de ahí, Google te guiará en la creación del primer proyecto. Después de haber creado el primer proyecto, verá que hay un ID único asociado con el proyecto. Asegúrese de guardar el ID ya que esto es necesario para la tarea de evaluación. Ahora estamos listos para ir a la configuración. Comience por ejecutar la primera celda aquí abajo. Ahora vamos a ejecutar el paquete para ejecutar la evaluación rápida. Tenga en cuenta que es posible que deba reiniciar el kernel para que se reconozca el paquete. A continuación, ejecutaremos esta celda para autenticarnos. Usa el ID de proyecto que has visto anteriormente y pégalo en la variable ID del proyecto. En cuanto a la ubicación, esta demostración utilizará US Central V. Puede buscar las ubicaciones de apoyo para esta variable. Recibirás una ventana emergente que indica que tienes que iniciar sesión en Google. Aquí puedes iniciar sesión usando tu cuenta de Google Cloud. Luego le solicitará acceder a ciertas funciones que permitirá y continuará. Deberías terminar con una página que indique que te has autenticado correctamente en Google Cloud y luego puedes volver a la Red Luego configuraremos la información del proyecto de Google Cloud e inicializaremos el Vertex AISDK usando el ID del Después de configurar tu ID de proyecto y ubicación, ejecuta la celda, que inicializará el vértice AISDK que se va a usar A continuación, importaremos las bibliotecas necesarias. Ejecute la celda para obtener todas las bibliotecas necesarias. Tenga en cuenta que a continuación se listan las bibliotecas principales, que son las que procesan la información. A continuación, ejecute la celda de configuración de la biblioteca y las funciones auxiliares. Tenga en cuenta que estas celdas son para dar formato a la información y ajustar la configuración de advertencias y registros, así como para ajustar el rendimiento. Ya estamos listos para ejecutar el trabajo de evaluación. Antes de eso, repasemos los requisitos necesarios para ejecutar esta evaluación. Primero, necesitamos los datos que se están evaluando. Para formatear correctamente los datos para la tarea de evaluación, crearemos el marco de datos pandas utilizando matrices de datos almacenados en un diccionario En el diccionario, se puede tener una instrucción, un contexto, una referencia, una predicción y una respuesta. Cada valor de índice corresponde a la otra matriz en el mismo valor de índice. Por ejemplo, índice cero y la matriz de respuesta corresponde a la otra matriz índice cero, y así sucesivamente. En esta demo, usaremos dos filas de datos. Inserte estos datos como una matriz en un diccionario, que se va a convertir en un marco de datos pandas A continuación, decidiremos qué métricas elegir para evaluar las respuestas. Las respuestas se miden mediante diversas métricas automáticas que proporciona la herramienta de evaluación rápida. Aquí podemos ver todas las métricas posibles en la columna central, junto con el tipo de mediciones la izquierda y la entrada de marco de datos requerida a la derecha. Por ejemplo, la coherencia mide la capacidad del modelo para producir una respuesta clara y sólida. cumplimiento mide qué tan bien ha respondido el modelo y completado las instrucciones dadas con una predicción predeterminada, y Blue y Rouge comparan la similitud entre la predicción de referencia dada y la respuesta en términos de palabras. Puedes investigar estas métricas por tu cuenta si te interesa. Después de seleccionar las métricas, desea medir la entrada, cada uno de los nombres de métricas e ingresar las matrices que se muestran aquí. También insertará el conjunto de datos de evaluación en el argumento de conjunto de datos requerido y proporcionará un nombre para el experimento. El último segmento de la celda, ejecutamos la tarea de evaluación real. Al ejecutar la celda, deberías ver que se ha creado un experimento. Al hacer clic en el botón Ver Experimento , se redirigirá a Google Cloud, donde podrás ver el estado de la canalización de evaluación. El tiempo que lleva la tarea de evaluación depende del número de métricas, ya que más métricas tardan más en completarse. En conclusión, hemos visto cómo el SDK de evaluación rápida facilita la evaluación de modelos generativos de IA, proporcionando una manera eficiente de analizar el rendimiento del modelo a través de métricas automáticas Este enfoque ayuda a identificar fortalezas y debilidades, asegurando que su modelo cumpla con los estándares esperados para aplicaciones del mundo real. 7. L2V3: AutoSxS: En este video, estamos analizando de cerca Auto lado a lado, una herramienta de evaluación comparativa para modelos de lenguaje de gran tamaño. Imagina trabajar en un proyecto de IA donde necesites elegir el mejor modelo para resumir. Sin comparaciones claras, se siente como adivinar en el perro buena noticia es con autost by side, eres capaz de realizar evaluaciones lado a lado de las salidas de dos modelos diferentes Al final de este video, podrás entender cómo funciona Auto lado a lado, el papel del atorator y cómo usarlo para comparar las salidas del modelo Obtendrá información sobre la evaluación de LLM con una comprensión clara de lo que hace que la respuesta de un modelo sea mejor que la del otro Auto lado a lado es una herramienta de evaluación que compara dos LLM uno al lado del Utiliza un aireador o un modelo de evaluación para determinar la mejor respuesta a un aviso Mediante esta herramienta, puede evaluar el desempeño de cualquier modelo generativo de IA para casos de uso de resumen y respuesta a preguntas Auto sitio por sitio también proporciona explicaciones y puntajes de certeza para cada decisión. En el núcleo de autost by side se encuentra el autoator lo que hace posible esta evaluación comparativa El autoator es una LAN específicamente diseñada para evaluar la calidad de las respuestas generadas por otros modelos cuando se les da un prompt de inferencia original Auto lado a lado puede evaluar cualquier modelo con predicciones pregeneradas y puede generar automáticamente respuestas para cualquier modelo en el registro de modelos de IA de vértices que admita la predicción por lotes Actualmente, puede evaluar el desempeño de modelos en tareas de resumen y respuesta a preguntas Para cada evaluación lado a lado, auto lado a lado emplea criterios de evaluación predefinidos. Por ejemplo, algunos criterios para resumir incluyen ¿ qué tan bien el modelo sigue instrucciones rápidas ¿Qué tan fundamentada está la respuesta en el contexto de inferencia y las instrucciones ¿Qué tan bien capta el modelo los detalles clave en el resumen y qué tan concisa es la respuesta en sí Usar auto uno al lado del otro es bastante sencillo. Primero, preparamos un conjunto de datos de indicaciones, contextos y respuestas generadas correspondientes, solo si se requieren indicaciones de entrada Luego almacenamos el conjunto de datos de evaluación Google Clouds de almacenamiento o una tabla Big Query. Y luego realizamos la evaluación del modelo ejecutando el trabajo de canalización de evaluación. En el siguiente video, verás una demo de autoste a lado en acción, comparando Gemini Pro con otro LLM para una tarea de resumen Pero antes de eso, permítanme explicarles cómo funcionan cada uno de estos pasos. Auto sitio por sitio acepta un único conjunto de datos de evaluación. El conjunto de datos debe incluir al menos un ejemplo, pero para una tarea de evaluación adecuada , se recomiendan alrededor de 400 a 600 ejemplos. Cada ejemplo único tiene un ID único e incluye contenido y respuestas. También podemos agregar una columna adicional para tener en cuenta las preferencias humanas también. A continuación, debemos establecer parámetros para realizar la evaluación del modelo. Por ejemplo, en una evaluación de modelo sin preferencia humana, parámetros podrían especificar el conjunto de datos de evaluación, las columnas a usar, la tarea, por ejemplo, resumen o respuesta a preguntas y parámetros de solicitud de Oerator como el contexto de inferencia y las instrucciones También debemos proporcionar las columnas que contienen predicciones predefinidas para calcular la métrica de evaluación. Después de definir nuestros parámetros, podemos iniciar un trabajo de canalización de evaluación utilizando una plantilla proporcionada por Google. Los valores de los parámetros se pasan para configurar el trabajo de canalización. Auto lado a lado utiliza Vertex AI Python SDK para hacer este trabajo Después de completar con éxito una evaluación auto lado a lado, puede ver los resultados de la evaluación. Auto site by side genera tres tipos primarios de resultados de evaluación, tabla de juicios, métricas agregadas y matriz de alineación si se proporciona preferencia humana. tabla de juicios indica la respuesta superior y cada elección va acompañada de un puntaje de confianza, que es un valor 0-1 Los juicios auto uno al lado del otro incluyen una explicación de cada una de las opciones de aireadores Auto lado a lado puede generar y comparar múltiples salidas para una tarea determinada para seleccionar la respuesta juzgada como mejor en función de criterios como coherencia, flujo lógico y captura de los puntos clave. Por ejemplo, al elegir entre la respuesta A y la respuesta B, el aireador podría explicar que si bien ambas proporcionan buenos resúmenes, respuesta B hace un trabajo ligeramente mejor al capturar la historia general en una materia más coherente y organizada, comparación con la respuesta más centrada en las estadísticas A. Auto lado a lado también proporciona métricas agregadas Estas métricas de tasa de ganancias se derivan de la tabla de juicios como un porcentaje de veces que el operador prefirió un modelo sobre el Estas métricas ayudan a identificar rápidamente el modelo superior. También, como mencioné anteriormente, auto lado a lado permite la validación de juicios con preferencia humana. Esto significa que es posible proporcionar información y parámetros adicionales dentro de la tubería de evaluación lado a lado. Para ello, en el conjunto de datos, se debe agregar una columna para preferencia humana. También necesitamos definir la columna de preferencia humana dentro de los parámetros. El resto del proceso sigue siendo el mismo. Incluir la preferencia humana da como resultado métricas adicionales para el alineamiento de preferencias humanas. El resultado incluye todas las métricas regulares, pero también incluye una tasa de ganancia de preferencia humana junto con la tasa de victorias externas y una puntuación de Chenes Cape, que denota el nivel de acuerdo entre el oerator y el calificador y una puntuación de Chenes Cape, que denota el nivel de acuerdo entre el oerator y el Nuevamente, este es un valor 0-1 con cero siendo elección aleatoria y uno siendo perfecto acuerdo En conclusión, Auto Side by Side destaca como una herramienta innovadora en IA de vértice para evaluar y comparar el desempeño de modelos generativos de IA Hemos visto cómo aporta precisión al proceso de evaluación con comparaciones lado a lado y características explicativas detalladas. Agiliza la evaluación de las LLN asegurando que se pueda identificar el modelo de mejor desempeño en función de criterios específicos de la tarea 8. L2V4: demostración de AutoSxS: En este video, demostraremos cómo usar Auto sitio por sitio dentro vértice AI para evaluar el modelo Gemini frente a otro lodam Esta guía práctica te mostrará cada paso para configurar y ejecutar una evaluación utilizando las herramientas proporcionadas por Google Cloud Platform. Al final de este video, entenderás cómo navegar por la herramienta autoste by side, configurar tus conjuntos de datos de evaluación e interpretar los resultados del análisis comparativo autoste por sitio Esto te equipará con las habilidades para evaluar de manera efectiva el desempeño de los modelos generativos de IA Ahora vamos a llegar a la demo. el enlace a este tutorial proporciona el enlace a este tutorial para que puedas ejecutar la evaluación tú mismo. En esta demostración, vamos a repasar cómo usar Auto lado a lado para evaluar y comparar el rendimiento de los modelos de lenguaje grande. Para comenzar, primero instalaremos el siguiente paquete ejecutando este comando. Utilizaremos este paquete para llamar a la API desde Google Club. Después de ejecutar el comando, asegúrese de reiniciar el tiempo de ejecución para utilizar el paquete recién instalado. ha proporcionado una celda para que el usuario reinicie el tiempo de ejecución. Después de ejecutar correctamente la celda, recibirá una ventana emergente que indica que el kernel ha muerto y se reiniciará automáticamente. Ahora vamos a configurar los componentes necesarios. Primero crearemos una cuenta de Google Cloud. En la generación de cuentas, te solicitará tu Gmail y contraseña. Una vez que hayas creado la cuenta, serás recibido con una pantalla similar a esta Abre la pestaña de menú de la izquierda y selecciona Facturación. A partir de ahí, tendrás que habilitar la facturación. Tendrías que ingresar una tarjeta de crédito o débito para activar la facturación, pero se te proporcionará $300 en crédito, así que no te preocupes por ello. Después, volverá a abrir la pestaña del menú y seleccionará API y servicios. Da click en la biblioteca y busca Vertex AI API. A continuación, hará clic en Habilitar para habilitar la API que se va a usar. A continuación, crearás un proyecto en Google Cloud. Haga clic en el menú desplegable en la parte superior izquierda y seleccione nuevo proyecto. A partir de ahí, Google te guiará en la creación del primer proyecto. Por último, vuelve a abrir la pestaña del menú y selecciona IAM y Admin. Verás el proyecto recién creado. Haga clic en Otorgar acceso y en el principal ingrese el nombre del director de su proyecto creado y en el menú desplegable de rollos, busque en el objeto de filtro Aquí, verá la opción para el administrador de entorno y objetos de almacenamiento. Agrega esto al principal y ahorra. Así es como debería verse con el rol teniendo un administrador de objetos de almacenamiento. Ahora ya estamos listos para irnos. Ya que estamos trabajando en el banco de trabajo de IA de vértice, no es necesario realizar ningún paso adicional Para comenzar, estableceremos el ID del proyecto. Puede encontrar el ID del proyecto volviendo al menú desplegable del proyecto y encontrar la columna donde muestra ID. En este caso, esta es la identificación del proyecto. Ejecute la celda después de haber cambiado el ID a tu ID de proyecto. A continuación, estableceremos la región. En esta demostración, la región se fija al bono central de Estados Unidos. Ahora, ejecuta el bloque de celdas. Ahora vamos a generar un UUID aleatorio. Esto se utilizará para identificar de manera única el proyecto y evitar posibles colisiones de nombres Ahora usaremos el UUID para crear un nombre URI de bucket único Ahora pasaremos a configurar el proceso. Primero importaremos las bibliotecas y definiremos nuestras constantes. También definiremos a nuestros ayudantes. A continuación, inicializaremos el vértice AISDK proporcionando nuestro ID de proyecto, región y nuestro Como hemos definido en nuestras constantes, estaremos comparando un conjunto de datos Gemini con otro LLM, uno produciendo la respuesta A y la otra respuesta B. Cada fila de los datos contiene un ID y un documento para resumir y las dos versiones de la respuesta al documento también están ahí Podemos echar un vistazo a esto usando Pandas para leer el JSON y formatearlo A continuación, ejecutaremos el trabajo de evaluación del modelo. Aquí están los parámetros requeridos por la tubería. El conjunto de datos de evaluación para indicar la ubicación de los datos, columnas ID para distinguir ejemplos de evaluación que son únicos, que son campos ID y documentos en este caso. Siguiente es la tarea. La tarea que estamos evaluando es el resumen. Y ahí está el operador prompt parámetros, que se utiliza para configurar el comportamiento de la tarea del operador como establecer el contexto y las instrucciones. A continuación, deberá proporcionar a la columna de respuesta A y columna de respuesta B los nombres de las columnas que contienen predicciones predefinidas para calcular las métricas de evaluación. En este caso, es la respuesta A y la respuesta B. Después de definir los parámetros de evaluación del modelo, ahora podemos ejecutar el trabajo de canalización de evaluación del modelo con esta plantilla dada usando el Vertex AI Python SDK Deja que esto corra ya que puede tardar un tiempo en terminar la tubería. Puede hacer clic en el enlace para ver el pipeline en acción en la plataforma Google Cloud. Así es como se ve tu gasoducto. Después de que se haya completado el recorrido de la tubería, puede usar el segmento de código a continuación para ver el juicio de cada respuesta y cómo se compara de acuerdo con el aireador Ofrece información como explicaciones sobre las preferencias y puntuación de confianza del aireador A continuación, también podemos mostrar las métricas agregadas usando los segmentos de código a continuación. Esto es bastante útil para determinar qué modelo es mejor en el contexto de la tarea dada. El aireador también apoya preferencia humana para validar la evaluación del aireador Ahora usaremos el otro URI, que incluye una columna adicional de preferencia humana. En el parámetro de requisitos de canalización, ahora incluiremos la columna de preferencia humana y realizaremos la columna de preferencia humana y realizaremos la misma tarea de ejecución de canalización con la nueva columna de datos. Ahora podemos obtener las métricas agregadas alineadas humanas. Nuevamente, así es como se ve el pipeline en Google Cloud. Usando los segmentos de código a continuación, obtenemos el rendimiento del aireador auto lado a lado basado en cómo prefiere un ser humano Por último, limpiaremos los recursos de Google Floud. Podemos ejecutar la celda de abajo, y limpiará todos los recursos que utilizamos en este proyecto. En conclusión, esta demostración ha ilustrado las aplicaciones prácticas de autoste por sitio en la evaluación del modelo gemini en vertex AR Hemos navegado por el proceso de configuración, demostrado cómo configurar y ejecutar la evaluación e interpretado el resultado comparativo Este enfoque práctico garantiza que pueda aprovechar de manera efectiva autoste por sitio para evaluar y mejorar el rendimiento de los modelos generativos de IA, lo que a su vez le ayuda a hacer que sus soluciones de IA sean más robustas y confiables 9. L3V1: modelos de evaluación basados en texto parte 1: En este video, exploraremos modelos de evaluación basados en texto fundacionales para LNS como meteoritos y perplejidad ¿Sabías que los modelos de IA sesgados pueden impactar negativamente en aplicaciones en áreas críticas como la aprobación de préstamos y las decisiones de contratación Al usar meteoritos y perplejidad, puede mitigar los riesgos de estos sesgos asegurando que sus modelos sean de alto Al final de este video, comprenderás cómo funcionan las diferentes métricas de evaluación como el meteorito y la perplejidad y por qué son importantes También aprenderá sobre la importancia de las métricas de furness para garantizar que las aplicaciones de IA traten que las aplicaciones de IA traten todos los grupos demográficos de manera equitativa Meteoro o métrica para la evaluación de la traducción con ordenamiento explícito mejora métricas anteriores como el azul al considerar sinónimos, parafrasear y teñir Evalúa la calidad de la traducción en función de la precisión literal, la fluidez y la intención, lo que la hace valiosa para aplicaciones que requieren una comprensión matizada Consideremos un ejemplo práctico para entender cómo funciona el meteoro Imagina que tenemos dos traducciones de la frase en inglés, el rápido zorro marrón salta sobre el perro perezoso. Meteor calificaría la traducción A más alta que la traducción B. Aunque ambas traducciones transmiten significados similares, traducción A mantiene una estructura más precisa y fluida con el uso apropiado de sinónimos, saltos para saltos y rápido para rápido Meteor evalúa estas traducciones analizando el orden de las palabras, sinonimia y la similitud semántica general con el analizando el orden de las palabras, la sinonimia y la similitud semántica general con el texto de referencia. Esto enfatiza la fluidez y la comprensibilidad de las traducciones y la comprensibilidad de las perplejidad es otra medida utilizada para evaluar modelos de lenguaje al evaluar qué tan bien un modelo puede predecir una muestra de Se basa en la distribución de probabilidad, el modelo asigna a una secuencia de palabras con valores más bajos que indican que el modelo predice la secuencia con mayor precisión La perplejidad cuantifica esencialmente incertidumbre del modelo sobre sus predicciones Proporciona un indicador de su efectividad en la comprensión del lenguaje y las tareas de generación. Veamos un ejemplo. Considera un modelo encargado predecir la siguiente palabra en la oración, el gato se sentó en el Supongamos que nuestro modelo predice cuatro posibles terminaciones, Matt, ventana, auto, y luna con probabilidades respectivas de 0.5 La perplejidad del modelo para esta predicción se puede calcular tomando la inversa de la probabilidad de la palabra correcta, mat en este caso, elevada a la potencia de menos uno Aquí, la perplejidad sería dos indicando una incertidumbre relativamente baja Los valores de perplejidad más bajos demuestran la confianza y precisión del modelo en sus predicciones, lo que sugiere una mejor comprensión del contexto que el CAT establece en el mapa También contamos con métricas de evaluación de equidad, que son herramientas críticas que se utilizan para evaluar si los modelos de IA funcionan equitativamente en diferentes grupos demográficos Estas métricas ayudan a identificar sesgos en predicciones del modelo que podrían poner desventaja a ciertos grupos en función del género, raza, la edad u otros factores Se puede hacer evaluando diferencias en las tasas de error, proporciones de predicción positiva y otros indicadores de desempeño. Por ejemplo, considere un modelo de IA de aprobación de préstamo que utilice datos personales para predecir la solvencia crediticia Para evaluar la equidad, podríamos analizar. Uno, diferencia en proporciones positivas en etiquetas predichas. Si el 40% de los aspirantes del grupo A, por ejemplo, los aspirantes masculinos se pronostican como dignos de crédito comparación con solo 20% del grupo B, en este ejemplo, aspirantes mujeres, esta métrica destacaría un sesgo potencial en las predicciones del modelo favoreciendo al grupo A, dos, diferencia de recuerdo Si el modelo identifica 90% de individuos dignos de crédito reales en el grupo A, pero solo 70% en el grupo B, la métrica de diferencia de recuerdo indicaría que el modelo es menos efectivo para el grupo B, podría conducir a un trato injusto. Tres, diferencia específica. Al examinar qué tan bien el modelo evita los falsos positivos entre grupos, podemos encontrar que incorrectamente etiqueta individuos no dignos de crédito como dignos de crédito a diferentes tasas entre grupos, lo que podría afectar la equidad del proceso de toma de decisiones En conclusión, este video ha demostrado los papeles cruciales que desempeñan tanto las métricas de evaluación de desempeño como de equidad en el desarrollo y despliegue de modelos de lenguaje Hemos visto cómo métricas como meteor y Perplexity ayudan a garantizar que los modelos funcionen de manera óptima, mientras que las métricas de equidad abordan los sesgos para promover la equidad 10. L3V2: modelos de evaluación basados en texto parte 2: En este video, ampliaremos nuestra exploración de modelos de evaluación basados en texto para LLM, enfocándonos en métricas de diversidad y evaluación de tomas cero Lo más probable es que hayas notado que muchas veces el contenido generado por IA carece de diversidad, que lo hace menos atractivo o aburrido para los usuarios. Al aplicar métricas de diversidad, puede asegurarse de que su IA genere respuestas variadas e interesantes. También cubrimos la evaluación de tiro cero, que pondrá a prueba aún más adaptabilidad de sus modelos a tareas nuevas e imprevistas Al final de este video, podrás entender la importancia y aplicación de las métricas de diversidad en la generación salidas variadas y creativas. Además, aprenderá cómo la evaluación de tiro cero ayuda a medir la capacidad de los LLM para adaptarse a tareas para las que no se ha entrenado explícitamente Las métricas de diversidad evalúan el rango y la singularidad de las respuestas generadas por un modelo de lenguaje Estas métricas son particularmente importantes para aplicaciones que requieren salidas creativas o variadas, como la generación de contenido o los sistemas de diálogo. Al medir aspectos como la riqueza léxica, la variación en la estructura de la oración y la novedad de los conceptos introducidos en las respuestas, las métricas de diversidad aseguran que los resultados de los modelos no solo sean precisos sino también atractivos y reflejen una variedad de perspectivas Imaginemos un escenario. Piensa que tienes un modelo de IA que tiene la tarea generar ideas de historias basadas en un solo prompt al día en la playa Supongamos que el modelo genera las siguientes respuestas. Al evaluar estas respuestas usando métricas de diversidad, buscaríamos variedad en temas, personajes involucrados y actividades descritas. La respuesta B obtendría una puntuación alta en diversidad por ofrecer múltiples subparcelas e interacciones variadas Mientras que la respuesta C puntuaría más baja debido a su redundancia con la respuesta A. respuesta D introduce un elemento novedoso, que mejora su puntuación para introducir contenido único Estas métricas ayudan a evaluar la creatividad y el atractivo de los resultados de los modelos, asegurando que proporcionen contenido fresco y atractivo para los usuarios. Ahora veamos la evaluación de tiro cero. La evaluación de tiro cero mide la capacidad de un modelo para manejar tareas para las que no ha sido entrenado explícitamente. Esta métrica es crítica para evaluar las capacidades de generalización de los modelos de lenguaje lodge Revela qué tan bien un modelo puede aplicar los conocimientos aprendidos a nuevos contextos o tipos de problemas sin afinación o entrenamiento adicional. Demuestra la adaptabilidad y flexibilidad del modelo en diversas aplicaciones. Veamos un ejemplo. Considerar un modelo lingüístico formado predominantemente en texto literario inglés. Si se te presenta una tarea en un dominio completamente diferente, como generar descripciones técnicas para nuevas aplicaciones de software. La evaluación de tiro cero evaluaría qué tan bien el modelo realiza esta tarea de manera inmediata. Veamos este ejemplo. Podemos ver que a pesar de que este modelo no tenía formación previa en descripciones de software, el modelo genera una descripción coherente y relevante. Demuestra una buena capacidad de tiro cero. Esta capacidad de generalizar desde la literatura hasta la escritura técnica sin ninguna capacitación específica muestra la robustez y utilidad del modelo en escenarios del mundo real donde los datos de capacitación pueden no ser siempre integrales para En conclusión, discutimos cómo las métricas de diversidad y evaluación de tiro cero juegan papel crucial en la evaluación de LLM Las métricas de diversidad ayudan a garantizar que el contenido generado satisfaga las demandas creativas de las aplicaciones del mundo real, mientras que evaluación de tiro cero evalúa la adaptabilidad de estos modelos a nuevas tareas, mostrando la robustez y el contenido generado satisfaga las demandas creativas de las aplicaciones del mundo real, mientras que la evaluación de tiro cero evalúa la adaptabilidad de estos modelos a nuevas tareas, mostrando la robustez y utilidad en varios escenarios. 11. L3V3: evaluación de modelos de IA generativa sin texto: En este video, hablaremos sobre cómo evaluar modelos de IA que crean imágenes, sonidos y videos. Imagina ver una película generada por IA donde las escenas se ven entrecortadas o el sonido se siente apagado. Sería frustrante. Exploremos cómo evaluar estos modelos para asegurarnos de que el contenido que generan sea fluido, realista y atractivo. Al final de este video, sabrás cómo detectar las importantes formas en que los expertos evalúan los modelos de IA de imagen, sonido y video. Te familiarizarás con las habilidades para examinar y evaluar los medios que estos modelos generativos de IA evaluación de modelos de generación de imágenes de IA implica métodos subjetivos y objetivos. Las evaluaciones subjetivas se basan en el juicio humano de factores como el atractivo visual y el impacto emocional. Las evaluaciones objetivas en contraste, utilizan herramientas especializadas para medir aspectos como la resolución de la imagen, precisión del color y la presencia de fallas visuales o fallas conocidas como artefactos. Considera una imagen generada por IA de un paisaje. Para evaluarlo, podríamos usar una métrica basada en píxeles como PSNR, que significa relación señal pico a ruido Evaluar objetivamente la claridad y nitidez de la imagen. Al mismo tiempo, realizamos una encuesta donde los participantes califican la imagen sobre realismo, belleza y resonancia emocional para recopilar datos subjetivos. Esta evaluación integral ayuda a determinar el éxito general del modelo de generación de imágenes en la creación de imágenes visualmente atractivas y precisas. Ahora pasemos al sonido. Evaluar modelos de generación de sonido de IA significa observar de cerca la calidad, precisión y efecto emocional de los sonidos que crean. Puede utilizar mediciones objetivas como la planitud de los espectros y la tasa de cruce por cero para evaluar técnicamente la calidad del sonido También es importante recopilar comentarios subjetivos de los oyentes sobre cuán reales y emocionalmente atractivos parecen a las personas los sonidos generados por la IA Imagina evaluar una pieza de música generada por IA destinada a evocar la relajación. El análisis objetivo podría medir la consistencia del tempo y la claridad del sonido usando herramientas como un medidor de sonoridad o un analizador de espectros Para la evaluación subjetiva, un grupo de oyentes podría calificar la música por sus cualidades calmantes y efectos emocionales Cosas como esa pueden proporcionar información sobre la efectividad de la música para lograr su objetivo emocional previsto. ¿Qué tal los videos? Al evaluar los modelos de generación de video de IA, es necesario observar dos cosas principales, la calidad visual del video y cómo fluirán los fotogramas juntos a lo largo del tiempo, lo que también se llama coherencia temporal. Para medir la calidad visual, puedes usar métricas como Ks y R de las que hablamos. Esta métrica comprueba la nitidez y cantidad de detalles en el video Hay otra métrica que se llama SSIM, que en cuanto a un índice de similitud estructural Esta métrica analiza los detalles y compara el video de IA con un video de referencia. Para evaluar la coherencia temporal, desea ver con qué fluidez transitan los fotogramas de video de uno a otro. Esto ayuda a asegurar que el movimiento en el video se vea natural y lógico. Otra cosa importante a evaluar es la relevancia contextual. ¿El contenido del video realmente coincide con la historia o escena prevista? El video generado por IA debe reflejar con precisión lo que se supone que está mostrando. Por ejemplo, considere evaluar un video generado por IA que represente a un buceador en el océano. Las métricas objetivas analizarían la resolución del video y la consistencia fotograma a fotograma para garantizar la suavidad en el movimiento y la claridad en los detalles visuales Subjetivamente, los espectadores pudieron evaluar qué tan bien capta el video la esencia del escenario, considerando elementos como el realismo de las olas del océano, el movimiento natural del buceador y el ambiente general Esta evaluación combinada ayuda a determinar si el modelo de generación de video replica efectivamente una experiencia de buceo realista y atractiva Conclusión: evaluar modelos de IA no generativos de texto para imágenes, sonidos y videos es esencial para avanzar en la IA en aplicaciones creativas y prácticas Al combinar mediciones objetivas con retroalimentación humana subjetiva, obtenemos una visión integral de la capacidad de un modelo de IA. Este enfoque garantiza que el contenido generado por IA sea técnicamente sólido y resuene con las personas, lo cual es crucial para desarrollar aplicaciones generativas de IA útiles y atractivas 12. L3V4: notas finales y la importancia de la evaluación humana: En este video, resumiremos nuestro curso y enfatizaremos importancia crítica de la evaluación humana en la evaluación de modelos generativos de IA ¿Alguna vez te has preguntado por qué algún contenido generado por IA es engañoso o inexacto Nos sumergiremos en qué hace bien la IA generativa, dónde sale mal y por qué es necesaria la supervisión humana para atrapar y corregir estos errores Para garantizar que la salida de estos modelos sea útil y confiable. Al final de este video, comprenderás las limitaciones de la IA generativa, especialmente su tendencia a producir información falsa o alucinaciones Discutiremos por qué reconocer las fallas es clave para usar la IA manera efectiva y garantizar que brinde resultados confiables y útiles. IA generativa puede hacer muchas tareas bien, pero también tiene algunas grandes debilidades Un problema importante es que puede generar información falsa o alucinaciones Esto significa que el modelo genera información incorrecta o inventada. Estos modelos a menudo no conocen los límites de su propio conocimiento, por lo que es tan importante evaluarlos cuidadosamente. Para utilizar la IA generativa de manera efectiva, necesitamos entender sus limitaciones Esto significa ser consciente de que el modelo puede cometer errores y encontrar formas de reducir estos problemas a la hora de usarlo en la vida real. Dado que necesitamos reconocer y abordar las limitaciones de la IA generativa, introducimos una herramienta útil llamada prueba IVO, que significa validar inmediatamente salidas Es una forma sencilla pero efectiva de verificar si un modelo generativo de IA es confiable Un modelo pasa la prueba IVO si los usuarios pueden verificar fácil y rápidamente que la salida es correcta y satisface sus necesidades. De esta manera, incluso los usuarios que no son expertos pueden usar y validar de manera efectiva el contenido creado por la IA. Para implementar la prueba IVO, los usuarios evalúan la salida generada por IA comparándola con recursos confiables, un método conocido como post conexión a tierra Esto permite a los usuarios verificar que la información es precisa al observar hechos establecidos. Esto asegura que la salida de la IA no solo sea relevante sino también confiable. Este paso es clave para aplicaciones donde la precisión es súper importante. Permite a los usuarios usar herramientas con confianza. Digamos que se hace un modelo de IA para resumir artículos científicos Para utilizar la prueba IVO, los usuarios pueden interactuar con el resumen generado por IA en una app especial. Si quieren verificar una parte específica del resumen, pueden dar click sobre ella. Luego, la aplicación les muestra la sección coincidente en el artículo original. Esta función facilita a los usuarios comparar el resumen con la fuente, asegurándose de que la salida de la IA refleje con precisión el contenido original. Este método genera confianza en la IA y ayuda a los usuarios a comprender mejor conectando el contenido generado por IA a sus fuentes confiables. Al hacer que los humanos supervisen los sistemas de IA, podemos asegurarnos de que no solo sean evaluados para su rendimiento, sino también para la equidad y la ética. Este enfoque ayuda a detener la propagación de sesgos y garantiza que la IA se desarrolle de una manera que respete los valores humanos Entonces, en conclusión, discutimos la importancia de que los humanos evalúen modelos generativos de IA junto con métodos automatizados Al combinar los conocimientos humanos con la eficiencia de los algoritmos, podemos evaluar aspectos como la creatividad, el contexto y la ética que las computadoras podrían perder. Este enfoque no solo hace que las evaluaciones sean más precisas y confiables, sino que también garantiza que la IA se desarrolle en línea con nuestros valores y expectativas como sociedad. 13. Conclusión: Gran trabajo. Ya lo has hecho. Has terminado de evaluar las salidas del modelo de lenguaje grande. No estoy aquí solo para despedirme. Quiero que tomes un momento y celebres tu logro a lo largo de este curso. Juntos, hemos explorado nuevos conceptos, enfrentamos tareas desafiantes y hemos crecido significativamente. Mira hacia atrás y mira lo que sabes ahora que no sabías al inicio del curso. Su compromiso ha llevado a un progreso significativo, y debe estar orgulloso de este logro. Este curso es solo un paso en tu viaje de aprendizaje continuo. Los conceptos que has aprendido aquí te servirán de base para tu crecimiento futuro. Asegúrate de seguir aplicando estas habilidades y mantén tu curiosidad. Para continuar tu viaje, te recomiendo lo siguiente. Primero, revisando los materiales del curso para refrescar tu memoria sobre los contenidos Segundo, asegúrate de relacionarte con tus compañeros en los foros de la comunidad. Tercero, asegúrate de asumir nuevos proyectos desafiantes para mantener tus habilidades afiladas. Gracias por ser parte de este curso de evaluación de los resultados de LMS Tu compromiso significa mucho para mí y para todo nuestro equipo. Al concluir nuestro curso, su viaje apenas comienza. Tengo muchas ganas de escuchar lo que pensaste de este curso y lo que planeas lograr en el futuro. Sigue avanzando, mantente curioso y disfruta del viaje por delante. Enhorabuena de nuevo, y ojalá te vea en un curso diferente. Firmando, profesor Reza.

Evaluación de modelos generativos: métodos, métricas y herramientas

Reza Moradinezhad, AI Scientist

Ve esta clase y miles más

Ve esta clase y miles más

Lecciones en esta clase

1.

Introduccion

3:25

2.

L1V1 Introducción a los LLM y sus métodos de evaluación

5:46

3.

L1V2: beneficios y desafíos de los métodos de evaluación en LLM

5:11

4.

LLM L1V3: evaluación en IA de Vertex

5:11

5.

L2V1: métricas automáticas

4:59

6.

L2V2: demostración de métricas automáticas

7:46

7.

L2V3: AutoSxS

7:37

8.

L2V4: demostración de AutoSxS

8:29

9.

L3V1: modelos de evaluación basados en texto parte 1

6:07

10.

L3V2: modelos de evaluación basados en texto parte 2

4:42

11.

L3V3: evaluación de modelos de IA generativa sin texto

5:28

12.

L3V4: notas finales y la importancia de la evaluación humana

4:18

13.

Conclusión

1:48