Transcripciones
1. Introduccion: Bienvenido a nuestro curso de
evaluación de resultados de modelos de
idiomas grandes. A medida que la IA y el procesamiento del
lenguaje natural influyen
cada vez más en la tecnología, una comprensión profunda
de la evaluación de modelos de lenguaje
grande es crucial para cualquier desarrollador
moderno. Te guiaremos a través de métodos de evaluación
fundamentales, técnicas
avanzadas
utilizando herramientas como métricas
automáticas y
auto sitio por sitio, y consideraciones éticas
en el desarrollo de IA Este curso enfatiza las aplicaciones
prácticas, integrando el juicio humano
con métodos automáticos, y te prepara para las tendencias
futuras en la evaluación de
IA en diversos medios Hola, soy el Profesor Reza con más de diez
años de
experiencia docente en el campo de informática y la inteligencia
artificial. Al cursar mi doctorado, he colaborado
con MIT Media Lab, Carnegie Melon University, HCII, Harvard University y University of
California He publicado en prestigiosas
sedes como IAE, Springer Nature y Mi trabajo ha sido presentado
por múltiples medios de comunicación, entre ellos Neck
Web y CBS News Este curso es ideal
para ti si
tienes interés en
aprender las habilidades para
evaluar los resultados de las
LLM de manera efectiva con el
fin de potenciar tus estrategias
de
negocio e innovación personal Los objetivos de aprendizaje
para este curso son comprender las fortalezas y desafíos de las herramientas de
evaluación LLM Descubre algunos de los servicios de evaluación de
modelos Vertex AI. Optimice la selección de modelos para adaptarse a su aplicación y
prepárese para el futuro
entendiendo cómo las herramientas y
servicios de
evaluación en evolución pueden afectar
el desarrollo y la implementación de modelos de lenguaje
grande. Para tener éxito en este curso, debes tener un conocimiento
básico los conceptos
de aprendizaje automático, incluyendo métricas de
evaluación de modelos y una familiaridad con las LAN
y sus aplicaciones Este curso se
le brinda en tres lecciones. Lección uno, conceptos básicos de los métodos de
evaluación de modelos de lenguaje
grande. Lección dos,
evaluación LLM sobre IA de vértice,
y Lección tres, el futuro
de los modelos de evaluación generativa de IA Al final de este curso, obtendrá una
comprensión profunda de la
evaluación de los resultados de las LLM Aprenderá a evaluar
la efectividad y precisión del
contenido generado por LLM en varios dominios Conocer estas habilidades te
ayudará a evaluar la calidad de
diferentes modelos de IA. Podrás seleccionar el que mejor se
adapte a tus necesidades. Esto le permitirá
diseñar, desarrollar e implementar
aplicaciones efectivas y éticamente responsables para fines personales, profesionales y
comerciales Así que comencemos y
exploremos cómo evaluar los resultados de
LLM puede mejorar la confiabilidad y
efectividad de las soluciones de IA
2. L1V1 Introducción a los LLM y sus métodos de evaluación: En este video,
exploraremos el concepto de modelos de lenguaje
lodge
o LNS para abreviar Imagine un sistema de IA tan
avanzado que puede escribir historias, responder preguntas complejas
e incluso mantener conversaciones. ¿No es esto fascinante? Comprender cómo
funcionan estos modelos y cómo evaluar su producción es crucial ya que estas tecnologías están
remodelando nuestra vida diaria Al final de este video, comprenderás en qué se diferencian los modelos de
lenguaje grandes de los modelos
tradicionales de procesamiento de
lenguaje natural o PNL Vamos a compararlos
en escala y complejidad. También discutiremos
la importancia de los métodos de evaluación
confiables y las posibles consecuencias de una evaluación inadecuada en aplicaciones del mundo
real. Los modelos de lenguaje grande o LLM son un gran paso adelante en inteligencia
artificial Estos modelos aprenden de
enormes cantidades de datos de texto, lo que les permite comprender y crear un lenguaje similar al humano. Es casi como si pudieran pensar de
manera similar a los humanos. Los LLM pueden manejar tareas mucho
más complejas en comparación con los modelos de
lenguaje más simples Pueden llevar a cabo
conversaciones, resumir largos fragmentos de texto e incluso crear contenido
original Lo hacen todo con un
impresionante nivel de fluidez y precisión que antes no
era posible El verdadero poder de los LLN
proviene de su profundidad y escala. A diferencia de los modelos tradicionales de
PNL que funcionan con datos limitados, reglas
predefinidas y se centran en tareas específicas, las LLN se capacitan en conjuntos de datos
masivos y diversos Estos conjuntos de datos contienen
miles de millones de palabras. Esto permite a los LLN
comprender mejor los matices del lenguaje y manejar
diversas tareas de manera efectiva Los LLN utilizan técnicas avanzadas de
aprendizaje profundo como arquitectura de
transformadores
para aprender patrones forma autónoma sin ser
programados para tareas específicas Al construir una comprensión profunda del lenguaje directamente a partir de los datos, LLN pueden ir mucho más allá de
las capacidades de modelos
anteriores que se basan en técnicas
más simples
y entrada estructurada Las capacidades avanzadas
de los LLN les permiten
realizar una variedad de
tareas lingüísticas simultáneamente, desde traducir el lenguaje hasta
generar escritura creativa Pueden adaptarse a
diferentes contextos y generar respuestas coherentes y
relevantes. Esto los distingue de las tecnologías
anteriores de PNL que normalmente manejan texto isated
más corto Otra diferencia clave es que grandes
redes neuronales
LLM
les permiten mantener el contexto durante largas conversaciones
o documentos Esto fue bastante desafiante para los modelos tradicionales de PNL
anteriores Ahora veamos por qué es importante evaluar
la salida de evince Es importante evaluar los resultados porque
estos modelos se
están utilizando cada vez más
en áreas donde obtener la
información Rich realmente importa. Áreas como salud,
derecho, atención al cliente,
noticias y educación. En estos campos, es crucial que los
resultados sean precisos, justos y apropiados para mantener la confianza y hacer que
estas herramientas sean útiles. Las buenas evaluaciones ayudan a mantener la información confiable
al verificar que los LLM comprendan la
entrada correctamente y asegurando que las respuestas
sean correctas y relevantes También proteja contra los efectos negativos
de salidas incorrectas, como difundir información incorrecta o
engañosa, noticias falsas de
HA. Otra razón por la que evaluar
los LLM es crucial es porque la salida de estos modelos representa el sesgo en
los datos en los que fueron entrenados Queremos asegurarnos de que
estamos siguiendo estándares éticos. Los LLM pueden amplificar los sesgos
de los datos en los que
los entrenamos y que pueden conducir a resultados injustos o Las buenas evaluaciones pueden identificar
y mitigar estos sesgos, asegurando la equidad y evitando una
mayor discriminación A través de la evaluación,
también podemos verificar si las respuestas son apropiadas y alineadas
con las normas sociales, especialmente en las
interacciones públicas Las evaluaciones periódicas
mejoran estos modelos y fomentan el uso
ético de la inteligencia
artificial
y ayudan a generar confianza pública en las tecnologías
interactivas. Entonces, en conclusión, en este video, repasamos los conceptos básicos de los modelos de lenguaje
grande
y en qué se
diferencian de los modelos
tradicionales de PNL También hablamos sobre
lo importante que es
evaluarlos y
aprendimos que
asegurarnos de que los resultados de LM
sean precisos y éticos es clave para garantizar que funcionen bien en
diferentes aplicaciones.
3. L1V2: beneficios y desafíos de los métodos de evaluación en LLM: En este video,
exploraremos los pasos
involucrados en la evaluación de modelos de lenguaje
grande. Imagina que tu agencia de noticias necesita la mejor IA para generar resúmenes de
artículos ¿Cómo eliges la correcta? Le guiaremos a través definición de objetivos, la
selección de métodos, elección de conjuntos de datos
y la interpretación de los
resultados a través de un escenario del mundo
real Al final de este video, comprenderás los
pasos y desafíos asociados con cada paso de evaluar modelos de
lenguaje grande. Imagina que trabajas en una
agencia de noticias que quiere utilizar LLM para generar resúmenes de
una línea para sus artículos de noticias Para incorporar con éxito
LLM de esta manera, se
le asigna la tarea de evaluar múltiples modelos para determinar
el más apropiado A primera vista, evaluar LLM puede parecer sencillo, más o menos similar a evaluar un modelo de IA
tradicional En primer lugar, se definen los objetivos de
evaluación. Después eliges los métodos
de evaluación. El tercer paso es seleccionar conjuntos de datos
apropiados
y, finalmente, analizar
e interpretar los resultados. Entonces, desglosemos
cada uno de estos pasos. En el primer paso,
quieres hacer preguntas como ¿qué tarea específica
quieres que realice el LLM? También quieres ver qué métricas son más
importantes para ti, fluidez
general, coherencia, precisión
fáctica
o cualquier otra cosa En el segundo paso, es necesario escoger el método
de evaluación. Puede elegir entre
diferentes métodos como métricas específicas de tareas, referencia de
investigación, evaluaciones basadas en
LLM y evaluaciones humanas
basadas en sus objetivos de evaluación En cuanto a seleccionar el conjunto de datos
apropiado, desea definir
un dataset dorado que se alinee con sus metas y métricas de
evaluación Un buen lugar para buscar son
los conjuntos de datos de referencia que están diseñados específicamente
para la evaluación de LLM Para analizar e
interpretar los resultados, desea combinar resultados
cuantitativos y
cualitativos para proporcionar
información integral para su evaluación Asegúrese de anotar las
fortalezas y debilidades de cada método de evaluación y proporcionar justificación
para su conclusión. Entonces, ojalá esto suene como un buen enfoque para
evaluar los LLM también. Sin embargo, también hay varios desafíos
en este proceso, especialmente cuando se trata de
la evaluación de los
resultados de estos LLS. El primer reto es
definir los objetivos de evaluación. En nuestro ejemplo, definir metas de
evaluación
para los LLM en tareas
como resumir artículos de
noticias es
un desafío debido a la naturaleza subjetiva de lo que
constituye un buen Es difícil confiar
en un número limitado de métricas para evaluar la
calidad de una salida. Además, al elegir los métodos de
evaluación, existen limitaciones de tiempo y
recursos. Va a ser
computacionalmente costoso y llevar mucho
tiempo probar
múltiples métodos de evaluación Además,
se están introduciendo con
mucha frecuencia nuevos métodos de evaluación se están introduciendo con
mucha frecuencia y eso
dificulta decidir
qué método es el
mejor para nuestro caso de uso. Al seleccionar conjuntos de datos
apropiados, el tamaño y la calidad de los conjuntos de datos
disponibles
pueden plantear desafíos. En los modelos predictivos,
sabemos que los grandes conjuntos de datos con ruido mínimo
conducen a un mejor rendimiento. Pero en el mundo de los modelos
generativos, todavía no
estamos seguros de qué tamaño y calidad del conjunto de datos son las camas Y finalmente, al analizar
e interpretar los resultados, pueden surgir
desafíos en la
explicabilidad, especialmente cuando se trata de métodos de evaluación
más nuevos Todavía no tenemos una forma
estándar de interpretar los resultados o evaluar
la confiabilidad de estos métodos de
evaluación En conclusión, este
video ha cubierto los pasos
y desafíos esenciales involucrados en la evaluación de modelos de lenguaje
grande. Analizamos estas
evaluaciones para tareas como resumir artículos de
noticias Hemos explorado cómo definir objetivos
claros de evaluación, elegir los métodos de
evaluación adecuados, seleccionar conjuntos de datos apropiados e interpretar eficazmente los resultados. Cada paso presenta
distintos desafíos que deben manejarse
cuidadosamente para garantizar la
integración exitosa de modelos de lenguaje
grande en aplicaciones del mundo
real.
4. LLM L1V3: evaluación en IA de Vertex: En este video,
exploraremos las herramientas que ofrece
Vertex AI para evaluar salidas de modelos de
lenguaje grande Imagine evaluar modelos de
IA con herramientas que resalten
la precisión y la equidad. Estas herramientas te dan
la capacidad de descubrir sesgos
ocultos y comparar actuaciones
ocultas lado a
lado También exploramos algunas
ideas para hacer que sus modelos de IA no solo
sean efectivos sino también éticos. Al final de este video, sabrás cómo usar de
manera efectiva Vertex AI para evaluar la salida de modelos de
lenguaje grande Como mencionamos anteriormente,
en este curso, vamos a utilizar Google
Cloud como ejemplo de
una plataforma que proporciona
herramientas para la evaluación de LLM IA de vértices de Google
puede ayudarte a evaluar todo
el ciclo de vida de un modelo
de lenguaje grande de principio a fin En la IA de vértice, puede
crear prototipos, personalizar ,
evaluar e implementar modelos de muchas tareas diferentes y
en diferentes modalidades No obstante, para los
fines de este curso, nos centraremos únicamente en las capacidades de evaluación
que proporciona la IA de vértice Algunas de las capacidades
disponibles en la IA de vértices para ayudar a agilizar el proceso de
evaluación incluyen métricas automáticas, que utilizan datos de referencia para calcular métricas
específicas de tareas Auto sitio por sitio, que imita la
evaluación humana comparando el desempeño de dos modelos
con un modelo de árbitro Y sesgo de seguridad,
que resalta los sesgos de los modelos contra
cierto grupo de identidad En la lección dos,
profundizaremos las métricas
automáticas y las
automáticas lado a lado. En la lección tres, también
vamos a
cubrir brevemente el sesgo de seguridad. Por ahora, repasemos cada uno de estos tres métodos de
evaluación. Las métricas automáticas en la evaluación de
IA son medidas
cuantitativas utilizadas para evaluar el desempeño
de los modelos, especialmente en tareas como generación de
texto o
la traducción automática. Por lo general, son rápidos, eficientes y pueden formar parte de un
método estandarizado utilizado en academia y la industria para
comparar diferentes novelas. Algunas de las métricas
automáticas más comunes incluyen suplente de
evaluación
azul o bilingüe, que mide cuántas
palabras y frases en una traducción generada por máquina
coinciden con una traducción de referencia También tenemos Rouge o suplente orientado al
recuerdo
para la evaluación de picaduras, que es otra métrica
utilizada para evaluar resumen de
texto contando las
unidades superpuestas como gramos, secuencias de
palabras y pares de
palabras entre el resumen generado por computadora y un conjunto de resúmenes de
referencia También hay auto lado a lado, que es una herramienta utilizada para evaluación
automática lado a lado de modelos de IA,
particularmente modelos de IA
generativos
en el registro de modelos de IA de vértice Esta herramienta permite comparar el desempeño
de diferentes modelos, aportando conocimientos sobre qué modelo se desempeña mejor y bajo
qué circunstancias. Auto lado a lado
tiene como objetivo ofrecer métricas de rendimiento
consistentes que se alineen con las evaluaciones humanas, pero ofrece las ventajas
de ser
más rápido, más rentable y
disponible bajo demanda. Por último, pero no menos importante, la IA de vértice también proporciona una evaluación del
sesgo de seguridad Esta evaluación verifica
y modela resultados de sesgos contra
grupos de identidad como el género Este análisis tiene como objetivo garantizar que la salida
del LLN no perpetre
estereotipos nocivos ni trato injusto
hacia ningún grupo En conclusión, la IA de vértice de Google
Cloud proporciona herramientas integrales para evaluar modelos de
lenguaje de lodge, centrándose en
las métricas de rendimiento y el sesgo de seguridad Métricas automáticas como Blue
y rouge ofrecen formas estandarizadas, rápidas y eficientes de
evaluar los resultados del modelo con
respecto a los datos de referencia. Auto sitio por sitio compara
dos modelos uno al lado del otro, imitando el
juicio humano, pero con los beneficios de
la velocidad
y la rentabilidad Además, el
sesgo de seguridad verifica la equidad entre los grupos de
identidad, como género, para garantizar
que las LLN no refuercen los estereotipos dañinos
o Este enfoque
holístico de evaluación permite a los desarrolladores refinar las LLN alineándolas con estándares
éticos y expectativas
sociales para una IA
responsable
5. L2V1: métricas automáticas: En este video, vamos a echar un
vistazo a las métricas automáticas y entender su papel en evaluación de los modelos de
lenguaje lodge. Imagínese a un desarrollador luchando con el rendimiento
de su modelo de IA. Pasan horas probando y ajustando el
modelo sin tener ningún feedback claro sobre el efecto de sus ajustes
en el resultado del LLM Creo que la mayoría de
ustedes que están tomando este curso ya saben lo
frustrante que puede ser eso Pero y si te dijera que
hay herramientas que nos proporcionan datos
precisos de rendimiento y resaltan las
áreas exactas para mejorar. Al final de este video, comprenderá las
diversas métricas automáticas utilizadas en la evaluación LLM, por qué se utilizan y
cómo pueden guiar el refinamiento del
rendimiento del modelo para diferentes tareas Pueden ser clasificación,
resumen, generación de texto,
o cualquier cosa por el estilo Por lo tanto, las métricas automáticas proporcionan una forma rápida y rentable de
evaluar el rendimiento de su
modelo utilizando una gama de métricas
específicas de tareas. Este enfoque evalúa
modelos basados en pares de respuesta de
entrada y
salida, lo que le permite
medir rápidamente su efectividad Las métricas automáticas son
una metodología estándar ampliamente utilizada en la investigación académica y muchos puntos de referencia abiertos. Utilizan métricas comúnmente
aceptadas para varias tareas generales de IA, lo que hace que los resultados sean comparables en diferentes estudios y plataformas. El proceso de evaluación implica ajustar un conjunto de datos de evaluación en el modelo para generar resultados de
predicción. Estos resultados
se evalúan utilizando las
métricas de evaluación seleccionadas para medir el desempeño del modelo en
la tarea específica en cuestión. Al aprovechar las métricas automáticas, puede evaluar de manera eficiente las capacidades de
su modelo
e identificar áreas de mejora sin la necesidad de una revisión
manual exhaustiva Por el momento, los
modelos disponibles en vértice AI incluyen versiones base y afinadas de Palm
takes Bison y Las tareas soportadas incluyen
clasificación,
resumen, respuesta a preguntas y generación de texto Hay al menos una métrica
para cada una de estas tareas. Cada tarea tiene una
métrica específica para garantizar la precisión. puntuaciones de micrófono y microfon
miden la precisión de clasificación general y Por clase F uno
lo evalúa por categoría. Rouge L evalúa la
cercanía del resumen a una referencia, mientras que las puntuaciones de coincidencia exactas
cuestionan azul mide la precisión de la generación de texto contra
un estándar humano. El uso de métricas automáticas es
bastante sencillo. Primero, preparamos el
conjunto de datos de evaluación con pares de entrada y salida. Después subimos el conjunto de datos a
Google Clouds y almacenamos. Finalmente, realizamos la evaluación del
modelo
utilizando la
biblioteca Vertex AI Python para enviar el trabajo El siguiente video, te
guiaré a través una demo sobre cómo hacer
cada uno de estos pasos. Pero por ahora, vamos a revisarlo
rápidamente. Para el conjunto de datos,
debe proporcionar al prompt
instrucciones y contexto, así
como una verdad básica, que se utilizará junto con las
respuestas generadas para calcular métricas relacionadas con
la tarea seleccionada. Es una buena idea ofrecer al menos diez ejemplos similares a cómo se utilizará la
aplicación. Cuando hayas
preparado tu conjunto de datos y lo hayas subido a
Google Cloud Storage, IA de
vértices tiene una plantilla para la canalización de
evaluación del modelo Los parámetros para ejecutar la canalización de evaluación incluyen la ubicación del conjunto de datos de
evaluación, la tarea que se va
a realizar y el modelo que
se debe utilizar para la tarea. Con esos parámetros, puede ejecutar el trabajo de canalización de
evaluación del modelo. Veremos una demo de ejecución de una tarea de evaluación
en el siguiente video. En conclusión, en este video, repasamos
métricas automáticas en IA de vértice, un enfoque eficiente y
estandarizado para evaluar LLM Hemos explorado los modelos y tareas
compatibles, entendido la aplicación
de cada métrica de evaluación y esbozado el proceso de preparación y ejecución de
un pipeline de evaluación. A través de estas métricas, puede medir y refinar
objetivamente rendimiento
de
su modelo para
asegurarse de que cumpla con las demandas
de las aplicaciones del mundo real
6. L2V2: demostración de métricas automáticas: En este video,
vamos a
recorrer una
demostración en vivo del uso de SDK de evaluación
rápida para evaluar la salida de Gemini y
LLM desarrollados por Google A través de esta demostración,
verás de primera mano cómo aplicar
métricas automáticas
para evaluar resultado de
tu modelo
y comprender
la fortaleza y debilidad
de los diferentes modelos de IA Al final de este video, sabrá exactamente cómo usar el SDK de evaluación rápida para
evaluar el resultado de un LLM Cubriremos la carga de
su conjunto de datos, inicio de la evaluación del modelo , la
aplicación de
métricas automáticas y
la interpretación de los resultados para obtener información sobre el rendimiento de su
modelo Vamos a llegar a la demo. Se proporciona el
enlace a este tutorial para que puedas ejecutar
la evaluación tú mismo. En esta demostración,
vamos a repasar cómo utilizar la herramienta de evaluación rápida para analizar el
desempeño de un LLM Esta demostración utilizará el cuaderno
Google Callb para
guiarlo en el uso de
la evaluación rápida Primero comenzaremos preparando los componentes necesarios
para ejecutar esta herramienta. Primero, crearemos una cuenta de
Google Cloud. En la creación de la
cuenta, te avisará a tu
Google Gmail y contraseña. Una vez que hayas creado la cuenta, verás una
pantalla de saludo similar a esta. Abre la pestaña de menú a la
izquierda y selecciona Facturación. A partir de ahí,
tendrás que habilitar la facturación. Tienes que poner una tarjeta de crédito
o débito
para activar la facturación.
Pero no te preocupes. Habrá $300 crédito proporcionado a
cualquier persona al principio. Así que no tienes que gastar dinero para ejecutar esta demo. Después,
vuelve a
abrir la pestaña del menú y seleccionar API y
servicios en la pantalla. Harás clic en el
menú desplegable que dice biblioteca y buscarás
la palabra Vertex AI API A continuación, hará clic en Habilitar
para habilitar la API a las vistas. Por último,
crearás un proyecto en Google Cloud en este
menú desplegable aquí en la parte superior izquierda Da clic en eso y
seleccionas nuevo proyecto. A partir de ahí, Google
te guiará en
la creación del primer proyecto. Después de haber creado
el primer proyecto, verá que hay un ID único asociado
con el proyecto. Asegúrese de guardar el ID ya que esto es necesario para la tarea de
evaluación. Ahora estamos listos para
ir a la configuración. Comience por ejecutar la
primera celda aquí abajo. Ahora vamos a
ejecutar el paquete para ejecutar la evaluación rápida. Tenga en cuenta que es posible que
deba reiniciar el kernel para que se reconozca el
paquete. A continuación, ejecutaremos esta
celda para autenticarnos. Usa el ID de proyecto que has visto anteriormente y pégalo en
la variable ID del proyecto. En cuanto a la ubicación, esta demostración
utilizará US Central V. Puede
buscar las ubicaciones de apoyo
para esta variable. Recibirás una ventana emergente que
indica que tienes que
iniciar sesión en Google. Aquí puedes iniciar sesión usando
tu cuenta de Google Cloud. Luego
le solicitará acceder a ciertas funciones que
permitirá y continuará. Deberías terminar con una página que
indique que te
has
autenticado correctamente en
Google Cloud y luego puedes
volver a la Red Luego configuraremos la información del proyecto de Google
Cloud e inicializaremos el Vertex
AISDK usando el ID del Después de configurar tu ID de
proyecto y ubicación,
ejecuta la celda, que
inicializará el vértice AISDK que se va a usar A continuación, importaremos las bibliotecas
necesarias. Ejecute la celda para obtener todas
las bibliotecas necesarias. Tenga en cuenta que a continuación se listan
las bibliotecas principales, que son las que
procesan la información. A continuación, ejecute la celda de
configuración de la biblioteca y las funciones
auxiliares. Tenga en cuenta que estas celdas son para dar formato a la información
y ajustar la configuración de advertencias
y registros, así como para ajustar
el rendimiento. Ya estamos listos para ejecutar
el trabajo de evaluación. Antes de eso, repasemos los requisitos necesarios
para ejecutar esta evaluación. Primero, necesitamos los datos
que se están evaluando. Para formatear correctamente los datos
para la tarea de evaluación, crearemos el marco de datos
pandas utilizando matrices de datos
almacenados en un diccionario En el diccionario,
se puede tener una instrucción, un contexto, una referencia, una predicción y una respuesta. Cada valor de índice corresponde a la otra matriz en
el mismo valor de índice. Por ejemplo, índice cero
y la matriz de respuesta corresponde a la otra
matriz índice cero, y así sucesivamente. En esta demo,
usaremos dos filas de datos. Inserte estos datos como una
matriz en un diccionario, que se va
a convertir en un marco de datos pandas A continuación, decidiremos qué métricas elegir
para evaluar
las respuestas. Las respuestas se miden mediante diversas métricas automáticas que proporciona
la
herramienta de evaluación rápida. Aquí podemos ver todas
las métricas posibles en la columna central, junto con el tipo
de mediciones la izquierda y la entrada de
marco de datos requerida a la derecha. Por ejemplo, la coherencia mide la capacidad del modelo para producir una respuesta clara y sólida. cumplimiento mide qué tan bien ha respondido
el modelo y completado las instrucciones dadas con una predicción predeterminada, y Blue y Rouge comparan
la similitud entre la predicción de referencia dada y la respuesta en términos de palabras. Puedes investigar estas métricas por tu cuenta si
te interesa. Después de seleccionar las métricas, desea medir la entrada, cada uno de los nombres de métricas e
ingresar las matrices que se muestran aquí. También insertará el conjunto de datos de
evaluación en el argumento de conjunto de datos requerido y proporcionará un nombre
para el experimento. El último segmento de la celda, ejecutamos la tarea de
evaluación real. Al ejecutar la celda, deberías ver que se ha creado un
experimento. Al hacer clic en el botón Ver
Experimento ,
se redirigirá a Google Cloud, donde podrás ver el estado de la canalización de
evaluación. El tiempo que lleva la tarea de
evaluación depende
del número de métricas, ya que más métricas
tardan más en completarse. En conclusión, hemos visto
cómo el
SDK de evaluación rápida facilita la evaluación
de modelos generativos de IA, proporcionando una
manera eficiente de analizar el rendimiento del
modelo a través de métricas
automáticas Este enfoque ayuda a identificar
fortalezas y debilidades, asegurando que su modelo cumpla con los estándares esperados para aplicaciones del mundo
real.
7. L2V3: AutoSxS: En este video, estamos analizando de cerca
Auto lado a lado, una herramienta de evaluación comparativa
para modelos de lenguaje de gran tamaño. Imagina trabajar en un proyecto de
IA donde
necesites elegir el mejor
modelo para resumir. Sin comparaciones claras, se siente como
adivinar en el perro buena noticia es con
autost by side, eres capaz de realizar evaluaciones lado a lado de las salidas
de dos modelos diferentes Al final de este video, podrás entender
cómo funciona Auto lado a lado, el papel del atorator y cómo usarlo para
comparar las salidas del modelo Obtendrá información sobre la
evaluación de LLM con una comprensión clara de lo que hace que la respuesta de un modelo sea
mejor que la del otro Auto lado a lado es una herramienta de evaluación que
compara dos LLM uno al lado del Utiliza un aireador o un modelo de evaluación para determinar la mejor
respuesta a un aviso Mediante esta herramienta, puede
evaluar el desempeño de
cualquier modelo generativo de IA para casos de uso de
resumen y
respuesta a preguntas Auto sitio por sitio también proporciona explicaciones y
puntajes de certeza para cada decisión. En el núcleo de
autost by side se encuentra el autoator lo que hace posible esta
evaluación comparativa El autoator es una LAN específicamente diseñada
para evaluar la calidad de las respuestas generadas por otros modelos cuando se les da un prompt de inferencia
original Auto lado a lado puede evaluar cualquier modelo con
predicciones pregeneradas y puede
generar automáticamente respuestas
para cualquier modelo en el registro de modelos de IA de vértices que admita la predicción por lotes Actualmente, puede evaluar
el desempeño de modelos en tareas de resumen y respuesta a
preguntas Para cada evaluación lado a
lado, auto lado a lado emplea criterios de evaluación
predefinidos. Por ejemplo, algunos criterios
para resumir
incluyen ¿ qué tan bien el modelo
sigue instrucciones rápidas ¿Qué tan fundamentada está la respuesta en el contexto de inferencia
y las instrucciones ¿Qué tan bien
capta el modelo los detalles clave en el resumen y qué tan
concisa es la respuesta en sí Usar auto uno al lado del otro es
bastante sencillo. Primero, preparamos un conjunto
de datos de indicaciones, contextos y respuestas
generadas correspondientes, solo si se requieren indicaciones de entrada Luego almacenamos el conjunto de datos de
evaluación Google Clouds de almacenamiento
o una tabla Big Query. Y luego realizamos la evaluación del modelo
ejecutando el trabajo de
canalización de evaluación. En el siguiente video, verás una demo de autoste
a lado en acción, comparando Gemini Pro con otro LLM para una tarea de
resumen Pero antes de eso, permítanme explicarles cómo funcionan cada uno de
estos pasos. Auto sitio por sitio acepta un
único conjunto de datos de evaluación. El conjunto de datos debe incluir al
menos un ejemplo, pero para una tarea de evaluación adecuada
, se recomiendan alrededor de 400 a 600
ejemplos. Cada ejemplo único tiene un ID único e incluye
contenido y respuestas. También podemos agregar una columna
adicional para tener
en cuenta las preferencias humanas también. A continuación, debemos establecer parámetros para realizar
la evaluación del modelo. Por ejemplo, en una evaluación de modelo
sin preferencia humana, parámetros podrían especificar
el conjunto de datos de evaluación, las columnas a usar, la
tarea, por ejemplo, resumen o
respuesta a preguntas y parámetros de
solicitud de Oerator como el contexto de inferencia y las instrucciones También debemos proporcionar
las columnas que contienen predicciones
predefinidas para calcular la métrica de
evaluación. Después de definir nuestros parámetros, podemos iniciar un trabajo de canalización de
evaluación utilizando una plantilla
proporcionada por Google. Los valores de los parámetros se pasan para configurar
el trabajo de canalización. Auto lado a lado
utiliza Vertex AI Python SDK para
hacer este trabajo Después de completar con éxito una evaluación auto lado a lado, puede ver los resultados de la
evaluación. Auto site by side genera tres tipos primarios de resultados de
evaluación, tabla de
juicios, métricas
agregadas y matriz de alineación si se proporciona
preferencia humana. tabla de juicios indica
la respuesta superior y cada elección va
acompañada de un puntaje de confianza, que es un valor 0-1 Los
juicios auto uno al lado del otro incluyen una explicación de cada una
de las opciones de aireadores Auto lado a lado puede generar y comparar múltiples salidas para una tarea determinada para
seleccionar la respuesta juzgada como mejor en función de
criterios como coherencia, flujo
lógico y
captura de los puntos clave. Por ejemplo, al elegir entre la respuesta
A y la respuesta B, el aireador podría explicar que si bien ambas proporcionan
buenos resúmenes, respuesta B hace un trabajo ligeramente
mejor al capturar
la historia general en una materia más coherente y
organizada, comparación con la respuesta más centrada en
las estadísticas A.
Auto lado a lado también
proporciona métricas agregadas Estas métricas de tasa de ganancias se derivan de
la tabla de juicios como un porcentaje de veces que el operador prefirió un
modelo sobre el Estas métricas ayudan a identificar
rápidamente
el modelo superior. También, como mencioné anteriormente, auto lado a lado permite la validación de juicios
con preferencia humana. Esto significa que es posible proporcionar información y
parámetros
adicionales dentro de la tubería de evaluación
lado a lado. Para ello,
en el conjunto de datos, se debe agregar
una columna
para preferencia humana. También necesitamos definir la columna de preferencia
humana
dentro de los parámetros. El resto del proceso
sigue siendo el mismo. Incluir la preferencia humana da como resultado métricas
adicionales para el alineamiento de preferencias
humanas. El resultado incluye todas
las métricas regulares, pero también incluye una tasa de ganancia de preferencia
humana
junto con la tasa de victorias
externas
y una puntuación de Chenes Cape,
que denota el nivel de
acuerdo entre el
oerator y el calificador y una puntuación de Chenes Cape, que denota el nivel de
acuerdo entre el oerator y el Nuevamente, este es un valor 0-1 con cero siendo elección aleatoria y
uno siendo perfecto acuerdo En conclusión, Auto Side by Side destaca como una herramienta
innovadora en IA de
vértice para evaluar y comparar el desempeño
de modelos generativos de IA Hemos visto cómo aporta precisión al proceso de
evaluación con comparaciones
lado a lado y características
explicativas detalladas. Agiliza la evaluación
de las LLN asegurando que se pueda
identificar
el modelo de mejor desempeño en función de criterios específicos de la
tarea
8. L2V4: demostración de AutoSxS: En este video,
demostraremos cómo usar Auto
sitio por sitio dentro vértice AI para evaluar
el modelo Gemini
frente a otro lodam Esta guía práctica
te mostrará cada paso para configurar y ejecutar una evaluación utilizando las herramientas proporcionadas por
Google Cloud Platform. Al final de este video, entenderás cómo navegar por la herramienta autoste
by side, configurar tus conjuntos de datos de evaluación e interpretar los resultados
del análisis
comparativo autoste por sitio Esto te equipará con
las habilidades para
evaluar de manera efectiva el desempeño
de los modelos generativos de IA Ahora vamos a llegar a la demo. el enlace a este tutorial proporciona el enlace a este tutorial para que puedas ejecutar
la evaluación tú mismo. En esta demostración,
vamos a repasar cómo
usar Auto lado a
lado para evaluar y comparar el rendimiento de los modelos de lenguaje
grande. Para comenzar, primero instalaremos el siguiente paquete
ejecutando este comando. Utilizaremos este paquete para
llamar a la API desde Google Club. Después de ejecutar el comando, asegúrese de
reiniciar el tiempo
de ejecución para utilizar el paquete
recién instalado. ha proporcionado una celda para que el usuario reinicie el tiempo de ejecución. Después de
ejecutar correctamente la celda, recibirá una ventana
emergente que indica que el kernel ha muerto y
se reiniciará automáticamente. Ahora vamos a configurar los componentes
necesarios. Primero crearemos una cuenta de
Google Cloud. En la generación de cuentas, te solicitará tu
Gmail y contraseña. Una vez que hayas
creado la cuenta, serás recibido con
una pantalla similar a esta Abre la pestaña de menú de la
izquierda y selecciona Facturación. A partir de ahí,
tendrás que habilitar la facturación. Tendrías que ingresar una tarjeta de crédito o débito
para activar la facturación, pero se te proporcionará $300 en
crédito,
así que no te preocupes por ello. Después, volverá a
abrir la pestaña
del menú y seleccionará
API y servicios. Da click en la biblioteca y
busca Vertex AI API. A continuación, hará clic en Habilitar para habilitar
la API que se va a usar. A continuación, crearás un
proyecto en Google Cloud. Haga clic en el menú desplegable en la parte superior izquierda y
seleccione nuevo proyecto. A partir de ahí, Google
te guiará en
la creación del primer proyecto. Por último,
vuelve a abrir la pestaña del menú y selecciona IAM y Admin. Verás el proyecto recién
creado. Haga clic en Otorgar acceso y
en el principal ingrese el nombre del director de su proyecto creado y
en el menú desplegable de rollos, busque en el objeto de filtro Aquí, verá
la opción para el administrador de
entorno y
objetos de almacenamiento. Agrega esto al
principal y ahorra. Así es
como debería verse con el rol teniendo un administrador de objetos de almacenamiento.
Ahora ya estamos listos para irnos. Ya que estamos trabajando en el banco de trabajo de IA de
vértice, no es necesario realizar
ningún paso adicional Para comenzar,
estableceremos el ID del proyecto. Puede encontrar el ID del proyecto volviendo
al
menú desplegable del proyecto y encontrar la
columna donde muestra ID. En este caso, esta es
la identificación del proyecto. Ejecute la celda después de haber cambiado el ID a
tu ID de proyecto. A continuación, estableceremos la región. En esta demostración, la región
se fija al bono central de Estados Unidos. Ahora, ejecuta el bloque de celdas. Ahora vamos a generar
un UUID aleatorio. Esto se utilizará para identificar de
manera única el proyecto y evitar
posibles colisiones de nombres Ahora usaremos el UUID para crear un nombre URI de bucket único Ahora pasaremos a
configurar el proceso. Primero importaremos las bibliotecas y
definiremos nuestras constantes. También definiremos a nuestros ayudantes. A continuación, inicializaremos el vértice AISDK
proporcionando nuestro ID de proyecto, región y nuestro Como hemos definido
en nuestras constantes, estaremos comparando un
conjunto de datos Gemini con otro LLM, uno produciendo la respuesta A
y la otra respuesta B. Cada fila de los datos contiene
un ID y un documento para resumir y las
dos versiones de la respuesta al
documento también están ahí Podemos echar un
vistazo a esto usando Pandas para leer el
JSON y formatearlo A continuación, ejecutaremos el trabajo de evaluación del
modelo. Aquí están los parámetros
requeridos por la tubería. El conjunto de datos de evaluación para
indicar la ubicación de los datos, columnas
ID para distinguir ejemplos de
evaluación
que son únicos, que son
campos ID y documentos en este caso. Siguiente es la tarea. La tarea que estamos evaluando
es el resumen. Y ahí está el operador
prompt parámetros, que se utiliza para
configurar el comportamiento de la tarea del operador como establecer el contexto
y las instrucciones. A continuación, deberá proporcionar a la columna de respuesta A y columna de
respuesta B los nombres de las columnas que contienen predicciones
predefinidas
para calcular las métricas de
evaluación. En este caso, es la
respuesta A y la respuesta B. Después de definir los parámetros de
evaluación del modelo, ahora
podemos ejecutar el trabajo de canalización de
evaluación del modelo con esta plantilla dada usando
el Vertex AI Python SDK Deja que esto corra ya que puede tardar un tiempo en terminar la
tubería. Puede hacer clic en el enlace para ver el pipeline en acción en la plataforma
Google Cloud. Así es como se ve tu
gasoducto. Después de que se haya completado el
recorrido de la tubería, puede usar el segmento de código a
continuación para ver el juicio de cada respuesta y cómo se compara de
acuerdo con el aireador Ofrece información
como explicaciones sobre
las preferencias y
puntuación de confianza del aireador A continuación, también podemos mostrar las métricas agregadas usando
los segmentos de código a continuación. Esto es bastante
útil para determinar
qué modelo es mejor en el
contexto de la tarea dada. El aireador también apoya preferencia
humana para validar
la evaluación del aireador Ahora usaremos el otro URI, que incluye una columna adicional de preferencia
humana. En el parámetro de
requisitos de canalización, ahora incluiremos
la
columna de preferencia humana y
realizaremos la
columna de preferencia humana y
realizaremos la misma tarea de ejecución de canalización
con la nueva columna de datos. Ahora podemos obtener las métricas
agregadas alineadas humanas. Nuevamente, así es como
se ve el pipeline en Google Cloud. Usando los segmentos de código a continuación, obtenemos el rendimiento
del aireador auto
lado a lado basado en
cómo prefiere un ser humano Por último, limpiaremos
los recursos de Google Floud. Podemos ejecutar la celda de abajo, y limpiará todos
los recursos que utilizamos
en este proyecto. En conclusión, esta
demostración ha ilustrado las aplicaciones prácticas
de autoste por sitio en la evaluación del modelo
gemini en vertex AR Hemos navegado por
el proceso de configuración, demostrado cómo
configurar y ejecutar la evaluación e interpretado
el resultado comparativo Este
enfoque práctico garantiza que pueda
aprovechar de manera efectiva autoste por sitio para evaluar y mejorar el rendimiento de los modelos
generativos de IA, lo que a su vez le ayuda a hacer que sus soluciones de IA sean más
robustas y confiables
9. L3V1: modelos de evaluación basados en texto parte 1: En este video, exploraremos modelos de
evaluación basados en texto
fundacionales para LNS como meteoritos y perplejidad ¿Sabías que los
modelos de IA sesgados pueden impactar negativamente en
aplicaciones en áreas críticas como la aprobación de préstamos
y las decisiones de contratación Al usar meteoritos y perplejidad, puede mitigar los
riesgos de estos sesgos
asegurando que sus modelos sean de
alto Al final de este video, comprenderás cómo funcionan las diferentes métricas de
evaluación como el
meteorito y la perplejidad
y por qué son importantes También aprenderá sobre la importancia de las
métricas de furness para garantizar
que las aplicaciones de IA traten que las aplicaciones de IA traten todos los
grupos demográficos de manera equitativa Meteoro o métrica para la
evaluación de la traducción
con ordenamiento explícito mejora
métricas anteriores como el azul al considerar sinónimos,
parafrasear y teñir Evalúa la
calidad de la traducción
en función de la precisión literal, la fluidez
y la intención, lo que la hace valiosa para aplicaciones que requieren una comprensión matizada Consideremos un ejemplo
práctico para entender cómo funciona el meteoro Imagina que tenemos dos traducciones
de la frase en inglés, el rápido zorro marrón
salta sobre el perro perezoso. Meteor calificaría la traducción A más alta que la traducción B. Aunque ambas traducciones
transmiten significados similares, traducción A mantiene una estructura más precisa y
fluida con el uso apropiado de sinónimos, saltos para saltos y
rápido para rápido Meteor evalúa
estas traducciones analizando el orden de las palabras, sinonimia y la similitud
semántica general con el analizando el orden de las palabras, la
sinonimia y la similitud
semántica general con el texto de referencia. Esto enfatiza la fluidez
y la comprensibilidad de las
traducciones y la comprensibilidad de las perplejidad es otra
medida utilizada para evaluar modelos de
lenguaje al
evaluar qué tan bien un modelo puede predecir
una muestra de Se basa en la distribución de
probabilidad, el modelo asigna a una
secuencia de palabras con valores
más bajos que indican que el modelo predice la
secuencia con mayor precisión La perplejidad
cuantifica esencialmente incertidumbre
del modelo
sobre sus predicciones Proporciona un indicador
de su efectividad
en la comprensión del lenguaje
y las tareas de generación. Veamos un ejemplo. Considera un modelo encargado predecir la siguiente
palabra en la oración, el gato se sentó en
el Supongamos que nuestro modelo predice cuatro posibles
terminaciones, Matt,
ventana, auto, y luna con probabilidades
respectivas
de 0.5 La perplejidad del modelo
para esta predicción se puede calcular tomando la inversa
de la probabilidad
de la palabra correcta, mat en este caso, elevada
a la potencia de menos uno Aquí, la perplejidad sería dos indicando una incertidumbre relativamente
baja Los valores de perplejidad más bajos demuestran la confianza y
precisión del modelo en sus predicciones, lo que sugiere una mejor
comprensión del contexto que el CAT
establece en el mapa También contamos con métricas de
evaluación de equidad, que son herramientas críticas que
se utilizan para evaluar si los modelos de
IA funcionan equitativamente en diferentes
grupos demográficos Estas métricas ayudan a
identificar sesgos en predicciones del
modelo que podrían poner desventaja a ciertos
grupos en función del género, raza, la edad u otros factores Se puede hacer evaluando
diferencias en las tasas de error, proporciones de predicción
positiva y otros
indicadores de desempeño. Por ejemplo, considere un modelo de IA de aprobación de
préstamo que utilice datos personales para
predecir la solvencia crediticia Para evaluar la equidad,
podríamos analizar. Uno, diferencia en proporciones
positivas
en etiquetas predichas. Si el 40% de los aspirantes del
grupo A, por ejemplo, los aspirantes
masculinos se
pronostican como dignos de crédito comparación con solo 20% del
grupo B, en este ejemplo, aspirantes
mujeres, esta
métrica destacaría un sesgo potencial en las predicciones del
modelo favoreciendo al grupo A, dos, diferencia de
recuerdo Si el modelo identifica 90% de
individuos dignos de crédito reales en el grupo A, pero solo 70% en el grupo B, la
métrica de diferencia de recuerdo
indicaría que el modelo es menos
efectivo para el grupo B, podría conducir
a un trato injusto. Tres, diferencia específica. Al examinar qué tan bien el modelo evita los falsos positivos
entre grupos, podemos encontrar que
incorrectamente etiqueta individuos
no dignos de crédito como dignos de
crédito a diferentes
tasas entre grupos, lo que podría afectar la equidad del proceso de toma de decisiones En conclusión, este video ha demostrado los
papeles cruciales que desempeñan tanto
las métricas de evaluación de desempeño
como de equidad en el desarrollo y despliegue
de modelos de lenguaje Hemos visto cómo métricas
como meteor y Perplexity ayudan a garantizar que los
modelos funcionen de manera óptima, mientras que las métricas de
equidad abordan los
sesgos para promover la equidad
10. L3V2: modelos de evaluación basados en texto parte 2: En este video,
ampliaremos nuestra exploración de
modelos de evaluación basados en texto para LLM, enfocándonos en métricas de diversidad
y evaluación de tomas cero Lo más probable es que hayas
notado que muchas
veces el
contenido generado por IA carece de diversidad, que lo hace menos atractivo
o aburrido para los usuarios. Al aplicar métricas de diversidad, puede asegurarse de que su IA genere respuestas variadas e
interesantes. También cubrimos la evaluación de
tiro cero, que pondrá a prueba aún más adaptabilidad de
sus modelos a tareas
nuevas e imprevistas Al final de este video, podrás entender la importancia y
aplicación de las métricas de diversidad en la generación salidas
variadas y creativas. Además, aprenderá cómo la evaluación de tiro
cero ayuda a medir la capacidad de los LLM para
adaptarse a tareas para las que no se ha entrenado
explícitamente Las métricas de diversidad
evalúan el rango y la singularidad de las respuestas
generadas por un modelo de lenguaje Estas métricas son particularmente importantes para
aplicaciones que requieren salidas
creativas o variadas,
como la generación de contenido
o los sistemas de diálogo. Al medir aspectos
como la riqueza léxica, la variación en la estructura de la oración y la novedad de los conceptos
introducidos en las respuestas, las métricas de
diversidad aseguran que los resultados de los modelos no solo sean precisos sino también atractivos y reflejen una
variedad de perspectivas Imaginemos un escenario. Piensa que tienes un
modelo de IA que tiene la tarea generar ideas de historias basadas en un solo prompt al
día en la playa Supongamos que el modelo genera
las siguientes respuestas. Al evaluar estas respuestas
usando métricas de diversidad, buscaríamos
variedad en temas, personajes involucrados y
actividades descritas. La respuesta B obtendría
una puntuación alta en diversidad por ofrecer múltiples subparcelas
e interacciones variadas Mientras que la respuesta C
puntuaría más baja debido a su redundancia
con la respuesta A. respuesta D introduce
un elemento novedoso, que mejora su puntuación para
introducir contenido único Estas métricas ayudan a evaluar la creatividad y el atractivo
de los resultados de los modelos, asegurando que proporcionen contenido
fresco y atractivo para los usuarios. Ahora veamos la evaluación de tiro
cero. La evaluación de tiro cero mide la capacidad de
un modelo para manejar tareas para las que no ha sido entrenado
explícitamente. Esta métrica es
crítica para evaluar
las capacidades de generalización de los modelos
de lenguaje lodge Revela qué tan bien un modelo puede aplicar los conocimientos aprendidos a nuevos contextos o tipos de problemas sin
afinación o entrenamiento adicional. Demuestra la adaptabilidad
y flexibilidad del
modelo en
diversas aplicaciones. Veamos un ejemplo. Considerar un
modelo lingüístico formado predominantemente en texto literario
inglés. Si se te presenta una tarea en un dominio completamente
diferente, como generar descripciones
técnicas para nuevas aplicaciones de software. La evaluación de tiro cero
evaluaría qué tan bien el modelo realiza
esta tarea de manera inmediata. Veamos este ejemplo. Podemos ver que
a pesar de que este modelo
no tenía formación previa en descripciones de
software, el modelo genera una descripción coherente
y relevante. Demuestra una buena capacidad de tiro
cero. Esta capacidad de generalizar
desde la literatura hasta la escritura técnica sin
ninguna capacitación específica muestra la robustez
y utilidad del modelo en escenarios del
mundo real
donde los datos de capacitación pueden no ser
siempre integrales
para En conclusión, discutimos
cómo las métricas de diversidad y evaluación de tiro
cero juegan papel
crucial en la
evaluación de LLM Las métricas de diversidad ayudan a garantizar que el contenido generado satisfaga
las demandas creativas de las aplicaciones del mundo
real, mientras que evaluación de tiro
cero evalúa la adaptabilidad de estos
modelos a nuevas tareas, mostrando la robustez y el contenido generado satisfaga
las demandas creativas de las aplicaciones del mundo
real, mientras que la evaluación de tiro
cero evalúa
la adaptabilidad de estos
modelos a nuevas tareas,
mostrando la robustez y
utilidad en varios escenarios.
11. L3V3: evaluación de modelos de IA generativa sin texto: En este video, hablaremos
sobre cómo evaluar modelos de
IA que crean
imágenes, sonidos y videos. Imagina ver una
película generada por IA donde las escenas se ven entrecortadas o el sonido se siente
apagado. Sería frustrante. Exploremos cómo evaluar estos modelos para asegurarnos de que el contenido que generan sea fluido, realista y atractivo. Al final de este video, sabrás cómo detectar
las importantes formas en que los
expertos evalúan los modelos de IA de imagen, sonido y video. Te familiarizarás con
las habilidades para examinar y evaluar los medios que estos
modelos generativos de IA evaluación de modelos
de generación de imágenes de IA implica métodos subjetivos
y objetivos. Las evaluaciones subjetivas se
basan en el juicio humano de factores como el
atractivo visual y el impacto emocional. Las evaluaciones objetivas
en contraste, utilizan herramientas especializadas para medir aspectos
como la resolución de la imagen, precisión del
color y
la presencia de fallas
visuales o fallas
conocidas como artefactos. Considera una
imagen generada por IA de un paisaje. Para evaluarlo, podríamos usar una métrica basada en píxeles como PSNR, que significa relación
señal pico a ruido Evaluar objetivamente la claridad y
nitidez de la imagen. Al mismo tiempo, realizamos una encuesta donde los participantes
califican la imagen sobre realismo, belleza y resonancia emocional para recopilar datos subjetivos. Esta
evaluación integral ayuda a determinar el éxito general del modelo de generación de imágenes en
la creación de imágenes visualmente atractivas
y precisas. Ahora pasemos al sonido. Evaluar modelos de
generación de sonido de IA significa observar de cerca
la calidad, precisión y efecto emocional
de los sonidos que crean. Puede utilizar mediciones objetivas
como la planitud de los espectros
y la tasa de cruce por cero para evaluar técnicamente
la calidad del sonido También es importante recopilar comentarios
subjetivos
de los oyentes sobre cuán reales y emocionalmente atractivos parecen a
las personas los
sonidos generados por la IA Imagina evaluar una pieza de música generada por
IA destinada
a evocar la relajación. El análisis objetivo podría medir la consistencia del
tempo y la claridad del sonido usando herramientas como un medidor de sonoridad o
un analizador de espectros Para la evaluación subjetiva,
un grupo de oyentes podría calificar la música por sus cualidades
calmantes y efectos emocionales Cosas como esa pueden
proporcionar información sobre
la efectividad de la música para lograr su objetivo
emocional previsto. ¿Qué tal los videos? Al evaluar los modelos de
generación de video de IA, es
necesario observar
dos cosas principales, la calidad visual
del video y cómo fluirán los fotogramas
juntos a lo largo del tiempo, lo que también se llama coherencia
temporal. Para medir la calidad visual, puedes usar métricas como Ks
y R de las que hablamos. Esta métrica comprueba la nitidez y cantidad de detalles
en el video Hay otra métrica
que se llama SSIM, que en cuanto a un índice de
similitud estructural Esta métrica analiza los detalles y compara el video de IA con un video de
referencia. Para evaluar la coherencia
temporal, desea ver con qué
fluidez transitan los
fotogramas
de video de uno a otro. Esto ayuda a asegurar
que el movimiento en el video se vea
natural y lógico. Otra
cosa importante a evaluar es la relevancia contextual. ¿El contenido del video realmente coincide con la historia o escena
prevista? El video generado por IA debe reflejar
con precisión lo
que se supone que está mostrando. Por ejemplo, considere evaluar un video generado por IA que
represente a un buceador en el océano. Las métricas objetivas analizarían la resolución del video
y la
consistencia fotograma a fotograma para
garantizar la suavidad en el movimiento y la claridad
en los detalles visuales Subjetivamente, los espectadores
pudieron evaluar qué tan bien capta el video la
esencia del escenario, considerando elementos como el realismo de las olas del océano, el movimiento natural
del buceador y el ambiente general Esta evaluación combinada ayuda a determinar si el modelo de
generación de video replica
efectivamente una experiencia de
buceo realista y atractiva Conclusión: evaluar modelos de
IA
no generativos de texto para imágenes, sonidos y videos
es esencial para avanzar en la IA en aplicaciones creativas y
prácticas Al combinar
mediciones objetivas con retroalimentación humana subjetiva, obtenemos una visión integral de la capacidad
de un modelo de IA. Este enfoque garantiza que
el contenido generado por IA sea técnicamente sólido y
resuene con las personas, lo cual es crucial para desarrollar aplicaciones generativas de IA
útiles y atractivas
12. L3V4: notas finales y la importancia de la evaluación humana: En este video, resumiremos
nuestro curso y enfatizaremos importancia crítica de
la evaluación
humana en la evaluación de modelos
generativos de IA ¿Alguna vez te has preguntado por qué algún contenido generado por IA es
engañoso o inexacto Nos sumergiremos en qué hace bien la IA
generativa, dónde sale mal y por qué es necesaria la supervisión
humana para atrapar y corregir
estos errores Para garantizar que la salida de estos modelos sea útil
y confiable. Al final de este video, comprenderás
las limitaciones de la IA generativa, especialmente su
tendencia a producir información
falsa
o alucinaciones Discutiremos por qué reconocer las fallas es clave para usar la IA manera efectiva y garantizar que brinde resultados confiables y
útiles. IA generativa puede hacer
muchas tareas bien, pero también tiene algunas
grandes debilidades Un problema importante es que puede generar información falsa
o alucinaciones Esto significa que el modelo genera información
incorrecta o inventada. Estos modelos a menudo no conocen los límites de
su propio conocimiento, por lo
que es tan importante
evaluarlos cuidadosamente. Para utilizar la
IA generativa de manera efectiva, necesitamos entender
sus limitaciones Esto significa ser consciente de que el modelo puede cometer errores y encontrar formas de reducir
estos problemas a la hora de
usarlo en la vida real. Dado que necesitamos reconocer y abordar las limitaciones
de la IA generativa, introducimos una
herramienta útil llamada prueba IVO, que significa
validar inmediatamente salidas Es una forma sencilla pero
efectiva de
verificar si un modelo generativo de
IA es confiable Un modelo pasa la
prueba IVO si los usuarios pueden verificar fácil y rápidamente que la salida es correcta
y satisface sus necesidades. De esta manera, incluso los usuarios
que no son expertos pueden usar y validar de
manera efectiva
el contenido creado por la IA. Para implementar la prueba IVO, los usuarios evalúan la salida generada
por
IA comparándola con recursos
confiables, un método conocido como
post conexión a tierra Esto permite a los usuarios verificar que la información es precisa al observar hechos establecidos. Esto asegura que la salida
de la IA no solo sea relevante
sino también confiable. Este paso es clave para aplicaciones donde la precisión
es súper importante. Permite a los usuarios usar
herramientas con confianza. Digamos que se
hace un modelo de IA para resumir artículos
científicos Para utilizar la prueba IVO, los usuarios pueden interactuar con el resumen
generado por IA en una app especial. Si quieren verificar una parte específica del
resumen, pueden dar click sobre ella. Luego, la aplicación les muestra la sección coincidente en
el artículo original. Esta función facilita a los usuarios comparar el
resumen con la fuente, asegurándose de que la salida de la IA refleje
con precisión
el contenido original. Este método genera confianza en la IA y ayuda a
los usuarios a comprender mejor conectando el contenido generado por
IA a sus fuentes confiables. Al hacer que los humanos
supervisen los sistemas de IA, podemos asegurarnos de que no
solo sean evaluados para su rendimiento, sino también para
la equidad y la ética. Este enfoque ayuda a detener
la propagación de sesgos y garantiza que la IA se desarrolle de
una manera que respete los valores
humanos Entonces, en conclusión, discutimos
la importancia de que los humanos evalúen modelos
generativos de IA junto con métodos automatizados Al combinar los conocimientos humanos con la eficiencia
de los algoritmos, podemos evaluar aspectos
como la creatividad, el contexto y la ética que
las computadoras podrían perder. Este enfoque no solo hace que las evaluaciones
sean más precisas y confiables, sino que también garantiza que la
IA se desarrolle en línea con nuestros valores y
expectativas como sociedad.
13. Conclusión: Gran trabajo. Ya lo has hecho. Has terminado de evaluar las salidas del modelo de lenguaje
grande. No estoy aquí solo
para despedirme. Quiero que tomes un momento y celebres tu logro a
lo largo de este curso. Juntos, hemos
explorado nuevos conceptos, enfrentamos tareas desafiantes
y hemos crecido significativamente. Mira hacia atrás y mira lo que sabes ahora que no sabías
al inicio del curso. Su compromiso ha llevado
a un progreso significativo, y debe estar orgulloso
de este logro. Este curso es solo un paso en tu viaje de
aprendizaje continuo. Los conceptos que has
aprendido aquí te
servirán de base
para tu crecimiento futuro. Asegúrate de seguir aplicando estas habilidades y
mantén tu curiosidad. Para continuar tu viaje, te
recomiendo lo siguiente. Primero, revisando los materiales del
curso para refrescar tu memoria
sobre los contenidos Segundo, asegúrate de
relacionarte con tus compañeros en
los foros de la comunidad. Tercero, asegúrate de asumir nuevos proyectos desafiantes
para mantener tus habilidades afiladas. Gracias por ser
parte de este curso de evaluación de
los resultados de LMS Tu compromiso significa mucho
para mí y para todo nuestro equipo. Al concluir nuestro curso, su viaje apenas comienza. Tengo muchas ganas de escuchar lo que
pensaste de este curso y lo que
planeas lograr
en el futuro. Sigue avanzando, mantente curioso y disfruta
del viaje por delante. Enhorabuena de nuevo, y ojalá te vea
en un curso diferente. Firmando, profesor Reza.