Transcripciones
1. Introducción: Hola, soy Chris Hermione, soy de Berlín, Alemania, trabajo para Microsoft en este momento. He sido desarrollador web desde hace 20 años, y en este momento me estoy metiendo en todo
el espacio de aprendizaje automático de IA para ver cómo las computadoras pueden ayudarnos aún más. La inteligencia artificial y el aprendizaje automático es, para mí, la siguiente evolución de la computación tan
revolucionaria como lo fue la primera fábrica al mercado laboral. En esta clase, vas a aprender sobre el aprendizaje automático y la IA, pero no desde el punto de vista de la ciencia de datos, sino desde el punto de vista de la interfaz. Te ayudaré a entender dónde obtener información, dónde encontrar herramientas para usar, y cómo usar estas herramientas para construir tus propias interfaces para hacerlas más humanas. Entonces, no necesitas ser una persona técnica para tomar este curso, solo
necesitas ser una persona interesada y alguien que quiera aprender más sobre inteligencia artificial. aprendizaje automático puede hacer cosas increíbles para las personas, y creo que hay una gran oportunidad de construir interfaces que sean comprensibles por los humanos y que bajen la barrera para la entrada a sus sistemas. Donde alguien en el pasado solo podía usar tus sitios web cuando usa un teclado o un ratón, hoy en día, la gente puede hacerlo por voz o puede hacerlo simplemente mirando a una cámara e iniciando sesión de esa manera. Esa es una emocionante idea casi de ciencia ficción que podemos usar hoy en día pero todavía no hay suficiente gente. Espero que esto te inspire a hacer preguntas, hacerme
preguntas, hacerle preguntas a otras personas, y también cuestionar los titulares que verán sobre machine learning y la inteligencia artificial y los sistemas que utilizas. Quiero que uses el aprendizaje automático y inteligencia
artificial para hacer interfaces humanas y
ponerlas a disposición de personas que necesariamente no están demasiado entusiasmadas con la tecnología. Entonces, cuando construyas algo fresco con lo que aprendes aquí, por favor cuéntanos al respecto. Bueno, me emociona dar esta clase y empecemos.
2. Qué es el aprendizaje automático: El aprendizaje automático es una forma de decirle
a una computadora que haga las cosas repetitivamente una y otra vez, hasta que encuentre diferencias, hasta que encuentre patrones y hasta que realmente vea de qué se trata los datos. El aprendizaje automático no es aprender mágicamente de. Algo una y otra vez. Tienes que hacerle a la computadora una pregunta muy detallada y muy precisa para obtener buenas respuestas. No podemos tener como información mágica sale de las computadoras porque las computadoras no pueden pensar. Simplemente pueden simular cómo funcionan los procesos de pensamiento. Hay dos escuelas de pensamiento, hay algunas más, pero dos grandes. Una de ellas es como The Terminator, donde la gente tiene miedo a la inteligencia artificial, donde la gente tiene miedo de que nos vayan a quitar nuestros trabajos, donde tienen miedo de que
nos estén espiando y están en realidad matándonos al final, que son solo películas realmente si lo piensas. El otro lado es el tipo de cosa Star Trek de Steve Jet donde tenemos esta ubicua computadora con la que hablamos, eso es súper emocionante para nosotros, ese es nuestro amigo, eso es justo ahí en necesidad. Ella es un gran ejemplo como película para esa donde la gente se
enamora de una Inteligencia Artificial porque es como atenderles, es la pareja perfecta con la que hablar y es la máquina perfecta para hacer las cosas por ti. No estamos en ninguno de estos espacios. Por supuesto que hay gente terrible usando Machine Learning para cosas malas y hay gente que lo está haciendo mucho más fácil para deberes tipo de- para usar computadoras y para usar tu teléfono móvil. Simplemente toma la última generación de teléfonos móviles ahora haciendo tomas automatizadas para ti, asegurándote de que tu selfie se vea genial, asegurándote de que el fondo esté sincronizado y enfocado sin que hagas nada. Mucho de esto es Machine Learning y Deep Learning, pero ya no hablamos con la gente de ello, sólo los usamos sociológicamente y también desde el punto de vista de la psicología, estamos en un lugar muy interesante ahí. Tenemos gente que o tiene miedo o gente que en realidad está prefiriendo las computadoras a la gente. Creo que necesitamos volver un
poco atrás en el medio y entender que todas estas cosas son herramientas para nosotros,
para que los humanos sean más creativos. Entonces si a la escuela de pensamiento Terminator le
preocupa que los trabajos sean quitados por las computadoras, la escuela de pensamiento Star Trek debería estar feliz de que algunos trabajos estén siendo quitados por computadoras y robots, porque son insalubres para los humanos y no tienen sentido que lo hagan los humanos. Ahora hay una gran oportunidad con la automatización y las computadoras haciendo cosas por nosotros que podemos liberarnos de cosas que nunca pensábamos que podríamos. Al igual que mis padres por ejemplo, eran de clase trabajadora. Siempre trabajaban en fábricas, trabajaban en minas de carbón. Tenían que trabajar para vivir porque no había robot que pudiera llevarse los trabajos. Los trabajos poco saludables, repetitivos, aburridos que tenían, que podrían hacerlo por ellos. Entonces con estos trabajos yendo y se van a ir porque va ser mucho más rentable para robots y máquinas hacer eso, tenemos la libertad como especie humana de volverse más creativos y de conocer los próximos nuevos trabajos que nosotros ni siquiera lo saben todavía. El trabajo no tiene que ser algo donde sólo vivimos y lo hacemos porque tenemos que conseguir dinero para ello. El trabajo podría ser algo que ni siquiera ha estado ahí todavía. Podríamos liberarnos de los grilletes de la producción entendiendo que las computadoras pueden hacer estas cosas. Simplemente necesitamos entender que desde algún lugar, necesitamos distribuir la riqueza y necesitamos distribuir la inteligencia y distribuir mejor la educación. Espero que este sea un comienzo en el que te entusiasmes por aprender más sobre esto y ya no te sientas miedo del aprendizaje
automático y de la Inteligencia Artificial. Hay algunas cosas como puedo ayudar a los humanos. El primero es la automatización, esa es la grande ahora mismo. Hay prevención de errores, que una computadora puede decirnos esto en realidad está mal, ¿por qué estás haciendo esto otra vez? Hay reducción de datos y amortiguando el ruido cuando tienes muchos datos y solo quieres encontrar esa cosa que es diferente entre todas las demás. Las computadoras son geniales para encontrar esas diferencias. Hay predicción basada en datos históricos. ¿ Cuántas veces has usado tu computadora y qué puede hacer mejor por ti? Un gran ejemplo para eso sería tu teclado que estás usando en tu smartphone. Se dio cuenta de lo que escribiste y te dan palabras automatizadas ya escribiendo las dos primeras letras porque sabe que estas son las palabras que estás usando todo el tiempo. Eso es arar a través de cantidades masivas de datos, como si la información es mucha información de sensores, datos de
imagen, una grabación de audio es mucha información y nosotros como humanos no lo pensamos así. Pero encontrar emoción en un reconocimiento de audio por ejemplo, es una tarea realmente difícil. Por lo que las computadoras son buenas en arar esa cantidad de datos y devolverte sólo los resultados, lugar de tener que mirar todos esos datos tú mismo. El último bit es, por supuesto, crear más interfaces humanas. Permitiéndonos hablar con una computadora como le haríamos a una persona humana y recuperar información que sea apta para el consumo humano y no sólo una lista de impuestos o una lista de resultados. En esta primera sección, quiero que te quites que la Inteligencia Artificial no es magia. No pasa nada que las computadoras puedan pensar, computadoras pueden ser creativas y llenar vacíos que no conocen. Eres responsable de lo que le dices a la máquina y eres responsable de lo que saques de ella. Las Máquinas Inteligentes sólo pueden ser tan inteligentes como las preguntas que les hacemos. Te puedes beneficiar de mucha información
grabada y patrones que
ya están encontrando otras personas pero tienes que asegurarte de que pensamiento de la
computadora es solo una ilusión de pensar. No es otro ser humano y no reemplazará a los seres humanos. Tenemos la oportunidad de ser tan creativos como siempre quisiéramos ser si sólo entendemos para conseguir que las aburridas computadoras de tareas repetitivas hagan.
3. Cómo enseñamos a las máquinas: Bienvenido a esta sección del curso donde vamos a ver la magia que sucede cómo las computadoras saben aparecer pensando. De dónde viene la información, qué está pasando ahí. No voy a hablar de todos los detalles, claro, pero espero que te haga entender que hay algo ahí que no es tan fascinante y no es tan obvio en la primera carrera cuando lo piensas. Entonces, cuando se trata de películas y cuando se trata de interfaces y estrellas de cine, siempre este momento mágico donde la información sale de la nada. El mejor ejemplo es el trope de cualquier película cuando tienes el zoom y el realce de cualquier episodio como CSI donde es como, oh solo este pequeño metraje granulado y me gusta, realzar esto, realzar esto, y siempre hay genial información en aquellas en las que encuentras como, acercas un tornillo de una matrícula y luego ves el reflejo de un asesino de fondo ahí. Tristemente, el mundo no funciona de esa manera. Si la información está ahí y tienes datos que están corruptos o datos que son mala calidad no hay mucho que puedas hacer para realmente encontrar esa información. No obstante, en los últimos años, surgieron cada vez más cosas que se veían así. Hay un gran papel de inteligencia artificial que te muestra cómo puedes ponerte en cara, por ejemplo, desde una matriz de 8 por 8 píxeles y simplemente seguir refinándolo hasta que descubras cuál probablemente era esa cara. Las cámaras que reconocen a la gente en las estaciones de tren y las cosas
se han vuelto mejores y mejores al cambiar las imágenes granuladas en otra cosa. No estamos del todo ahí en el mundo CSI donde podemos hacer esto, pero lo que está pasando aquí es que tenemos tantos datos a lo largo de los años que se registran, analizan, y con el aprendizaje automático y
logaritmos de aprendizaje profundo tacto que ahora podemos comparar mejor que eso. Uno de los grandes ejemplos que quiero mostrarte es una cosa que Google ha lanzado hace unos meses llamada AutoDraw, y lo que puede hacer y puedes ver aquí es que puedes empezar a dibujar algo, y si estás artísticamente desafiado como yo soy hace cosas mágicas por ti. Entonces, pues en este caso, estoy tratando de pintar un par de gafas. Entonces, difícilmente estoy consiguiendo una especificidad redonda aquí y apenas hago el cierre de la línea correcta. Pero si ves ahí arriba, ahora
puedo dar click en esto y me dan un par perfecto de gafas e incluso puedo tener diferentes formas. Entonces, reconoció de los contornos que dibujé, que probablemente quiero hacer unas gafas y no una bicicleta donde hubiera tenido un asa
encima de ella que tipo de podría parecer igual
y la mayoría de las veces cuando yo trató de pintar las gafas, parece una bicicleta así que estoy muy contenta de que esta cosa exista. Lo interesante es que la información que
tenemos sobre estas cosas no viene mágicamente. Por supuesto, una computadora puede encontrar el redondeo entre dos líneas y lo hace más recto como cuando usas tus contornos en Illustrator o lo que uses, hace estas cosas por ti. Pero descubrir que quería hacer un par de gafas se basa en algo mucho más interesante. Hace unos años, Google lanzó un juego llamado Quick, Draw donde pedía a la gente que dibujara algo y dijera de qué se trataba. Entonces, dice como dibujar una línea y menos de 20 segundos. Entonces, ahora dibujas una línea y dice. Oh, lo sé, es linea. Entonces, la computadora en realidad dice que es una línea. Dibuja un tren en menos de 20 segundos y aquí es donde salgo porque no va a pasar para mí. Pero millones de personas usan ese juego y se
divertían jugando ese juego y compitiendo con sus amigos y este es el conjunto de datos que iba a comenzar ese juego de dibujo automático más tarde en una herramienta de Autodraw más adelante. Entonces, cada vez que subes una foto a Facebook, cada vez que subes una foto a Twitter, cada vez que renuncias a un comentario sobre algo, la máquina empieza a reconocerlo y empieza a filtrarlo y cuando 10 personas dicen las mismas cosas, entonces lo más probable es que se vea como un tren. Llevamos años y años cargando información de forma gratuita porque
queríamos usar los sistemas de forma gratuita y en segundo plano, las máquinas han estado grabando eso desde hace mucho tiempo. Entonces, lo último donde sale esta información, que es muy interesante, es un sistema de Google llamado reCAPTCHA. Últimamente, reCAPTCHAS son como, si aquí hay cinco fotos o 20 fotos de algo, dinos dónde está algo. Esto solía ser texto distorsionado y fue entonces cuando Google tenía Google Books y algunos de los escaneos no funcionaban. Entonces, utilizó estos sistemas para que los humanos limpiaran esos conjuntos de datos de forma gratuita al tener más seguridad en sus formas comunes. actualidad, se verá mucho más que se trata de nombres de calles o señales de calles, y por supuesto, señales de
calle y autos, lo que por supuesto significa o apunta a que este conjunto de datos se
utilizará para autos autoconducidos para conocer más sobre su alrededores. Entonces, como humanos, estamos siendo monitoreados y estamos siendo grabados todo el tiempo, pero no necesariamente tiene que ser una cosa malvada o insidiosa. Es bastante interesante cuando se convierte en un juego donde gente dibuja algo y luego más adelante otras personas como yo que no
pueden dibujar pueden beneficiarse de ello o puede ser que quieras
asegurarte de que no un bot esté intentando iniciar sesión en tu y un humano, y ese humano enseña a una computadora más tarde a reconocer señales callejeras a su alrededor, para que el auto no se encuentre con otros autos o peatones. Es así como las computadoras saben llenar vacíos, así lo saben las computadoras. Todo es un juego de datos y de datos masivos y eso no es más
que Cloud computing, ahí es donde entran las máquinas bajo demanda. Puedes hacer muchas de estas cosas en tu propia computadora, pero es la mayoría de las veces tiene más sentido alquilar una computadora por unos segundos que es mucho más poderosa que la tuya para hacer ese tipo de minería de datos,
y la minería de datos es para todo el mundo por ahí. Está sucediendo. Entonces, asegurémonos de que lo hagamos para llenar vacíos en información. Hay una gran oportunidad de subir una mala imagen y encontrar 50 que son casi iguales y hacer los contornos por ti. Estamos en un mundo donde el zoom y el realce no está lejos porque tenemos tantos datos con los que comparar.
4. Aprendizaje automático para ayudar a los humanos: Entonces ahora, vamos a echar un vistazo a algunos ejemplos de cómo aprendizaje
automático ayuda a construir interfaces muy humanas. Entonces, lo que quiero que entiendas es que el aprendizaje automático puede ayudar a los humanos a ser mucho más fáciles o llegar a ser mucho mejor en entender lo que es el mundo que los rodea, comparar lo que tenemos a
mucha y mucha otra información y hacerlo mejor así. Entonces, uno de los ejemplos que probablemente
has estado viendo desde hace tiempo es Google Translate. Mucha gente usó Chrome como su navegador principal porque fue el primer navegador en traducir automáticamente un sitio web para ti cuando no estaba en el idioma que tenías. La aplicación Google Translate en tu teléfono móvil va aún más allá analizando imágenes. Entonces, puedes ir a un letrero de calle en cirílico por ejemplo, y sostener tu teléfono, y te lo da en inglés, traduciéndolo, cuál es el nombre de la calle, en caso de que solo tengas indicaciones que fueran en inglés. En el pasado, los servicios de traducción acababan de traducir del inglés al alemán por ejemplo, y lo hacían palabra por palabra. Pero entre más gente usa estos sistemas, más entendimos que una palabra que sigue otra hace una frase mucho más natural, y así las traducciones se hicieron mejores también. Google analizó libros, Microsoft analizó libros, y analizó libros también para entender de qué se tratarían los modismos? ¿ De qué podrían tratarse las metáforas? ¿ Cómo se hablan los humanos entre sí? Entonces, tener una traducción hoy en día de un servicio a otro está casi ahí que se puede leer y entender, ¿qué está pasando? Entonces, la traducción fue probablemente lo primero donde se utilizó el aprendizaje automático en la web, ni siquiera
nos dimos cuenta, pero era tan útil tener que se convirtió en algo muy normal. actualidad, la gente ni siquiera sabe cuánta energía y esfuerzo entraron en ello que tus tuits pueden estar en un solo idioma y tú entiendes, qué está pasando ahí. Otro ejemplo interesante, siempre me gusta es Google Maps. Pero ahí hay cosas muy inteligentes, podrías ir por ejemplo solo a Search Google Maps y decir como: “¿A qué distancia estoy de la Capital de Francia? Analizará esto y analizará que la capital de Francia es en realidad París, Francia, y luego me muestra la distancia de aquí a Nueva York, y también me muestra que hay un vuelo de ocho horas, y en realidad me ofrece qué vuelos para reservar. Entonces, en el pasado algo así,
sería que tuviera que escribir en París, Francia. Entonces tengo que decir, teclea en Nueva York también. Entonces tengo que ir a otra página web y decir como: “¿Qué vuelos podrían estar disponibles?” Al analizar los patrones de cómo usamos estos sistemas, cada clic, cada ratón se mueve, cada interacción, las máquinas se han vuelto mucho más inteligentes y dándonos las cosas que realmente queríamos. Nunca se me hubiera ocurrido la idea de escribir a qué distancia estoy de la capital de Francia. Pero un niño aprendiendo sobre geografía por ejemplo, lo harían. No necesariamente lo harían como lo hice ahora mismo en un navegador, irían a su casa de Google, o a su Alexa, o cualquier otra maquinaria que estén como a qué distancia está la capital de Francia y la máquina diría: “ París es la capital de Francia. Es así, en tantas millas de distancia. Aquí te dejamos los vuelos por si quieres ir”. Aquí es donde quiero que la computadora vaya. Quiero que aprendamos eso como en realidad la siguiente respuesta en lugar de la única respuesta que venimos de ella. Todavía estamos en un espacio o personas como yo, que llevan tanto tiempo usando computadoras,
nos han condicionado para pensar en las computadoras como interfaces
tontas que necesitan tener la pregunta correcta. Pero esta es una pregunta perfectamente humana para hacerle a la máquina, y recuperas algo así. Si quieres ver algo bastante asombroso, podrías pasar un poco de tiempo viendo la IA. Ver AI es una aplicación en iOS de Microsoft que construí con un amigo mío, que es ciego. Es un usuario ciego, y el- bueno, es un humano ciego, y también es un programa ciego que es fascinante de ver. Pero quería realmente no tener que preguntarle a la gente qué pasa en los menús. Entonces, quería tener una app donde puedas tomar una foto del menú en un restaurante y decir como, “Muéstrame los titulares o léame los titulares”. O quería tener unas gafas especiales en camino tomas una foto, y le dice “Estás mirando a un perro, estás mirando al gato, estás mirando a la Torre Eiffel, estás mirando a la cima del Puente de la Torre”. Todo este tipo de cosas que conocemos porque las
comparamos con millones de fotos que la gente
ya ha tomado y las etiquetó como Puente de la Torre o es la forma de un perro así que eso probablemente sea un perro. Entonces, este tipo de herramientas le permite volverse mucho más independiente y no necesitar a nadie más a su alrededor. Entonces, puedes probar todos estos videos ahí y puedes descargar y jugar tú mismo con él. Eso se basa en estas API que vamos a cubrir más adelante también para que juegues con ellas. Espero que estos ejemplos te inspiraran a construir interfaces humanas que en realidad hagan las cosas más fáciles para los humanos sin que tengan que hacer nada extra, sin tener que entender cómo funcionan, pero justo como una gran cosa en el fondo, no tienes texto alternativo ninguna imagen, puedo crear eso para ti. No es un problema en absoluto. Las máquinas están ahí para ayudarnos cuando los humanos cuando fallamos en hacer las cosas. Entonces, estas interfaces te muestran que podemos pensar antes de lo que tus usuarios finales quieren hacer
a continuación en lugar de decirles que lo hagan paso a paso. Cuanto más fácil sea usar una interfaz, más gente
la usará. Cuantos más felices tengas usuarios, más ingresos tendrás, y más exitosos serán tus productos. Tenemos todas estas cosas aquí y demostró cómo se puede hacer sin estar en tu camino, pero solo ahí cuando lo necesitas. Es así como quiero que pienses en la Inteligencia Artificial en el aprendizaje automático.
5. Herramientas para el aprendizaje automático: Hola. En esta parte de la serie de videos, quería presentarles a los jugadores que ofrecen API
para que empiece con el aprendizaje automático y la inteligencia artificial. Los grandes jugadores, eso es un montón de jugadores en ese mercado ahora mismo. Es algo grande, se está haciendo mucha inversión, pero las que lo han estado haciendo desde hace años y años son las empresas más grandes en TI y todas tienen diferentes ofertas con las que puedes jugar. Por ejemplo, esta de aquí es la API de Google Cloud, puedes ver aquí puedes probarla de forma gratuita y hay guías y recursos, y todas estas cosas son más o menos iguales. Si te inscribes en ellas, las pruebas, hay mucha buena documentación cómo empezar, y algunos de ellos incluso lo han intentado antes de comprar interfaces donde puedes jugar con la información y ves qué tipo de datos esperas para traer, y qué tipo de datos esperas que salgan. Entonces, se trata de Google Cloud, que es un jugador muy, muy grande en este caso disponible a nivel mundial, y en varios idiomas, y una de las grandes empresas que están jugando con eso. Va a haber en Google [inaudible], siempre
hay muchas charlas sobre Google Cloud, cómo usarlas también. Amazon es, por supuesto, el próximo aprendizaje automático de jugadores grandes con AWS. AWS es una plataforma Cloud de Amazon, Amazon Web Services que le permite hacer todo tipo de cosas para el aprendizaje automático y la inteligencia artificial allí también. Muchas de las cosas en AWS también están conectadas con los otros servicios en Amazon. Entonces, si por ejemplo, quieres interactuar con un Alexa y usar el beneficio de tener este procesamiento de lenguaje natural allí, puedes escribir una habilidad para Alexa en lugar de escribir tu propio servicio y usar los servicios bajo el capó que poderes Alexa. Entonces, puedes usar esa también. IBM Watson es otro de los grandes jugadores en machine learning y ha sido muy bueno en su marketing. Recuerda, por ejemplo, que jugó en Jeopardy y fue ganador de todas estas cosas ahí hace años y años. IBM Watson, la plataforma en sí se trata mucho de la atención médica y de predecir qué tipo de enfermedades podría tener la gente, pero por supuesto, tienen un conjunto de IA normal y conjunto de aprendizaje
automático que también puedes usar en sus plataformas. Se trata de una oferta B2B en la mayoría de los casos, pero existe la Infraestructura Bluemix donde puedes configurar servidores más pequeños, o usarla localmente también, y llamar a una API y recuperar los datos. Los Servicios Cognitivos de Microsoft son de lo que hablaría en los próximos videos, sobre
todo porque lo conozco y trabajo para ellos, así que ese es el beneficio ahí. Yo también he estado usando los otros, no
estoy diciendo que necesites usar uno u otro. Asegúrate de leer la documentación, asegúrate de leer las demostraciones y ver cuál tiene más sentido para ti hacerlo. Por ejemplo, si quieres tener una granja de servidores en Alemania, entonces probablemente la oferta de Microsoft sea mejor que tener una especie de granja solo en California o Nueva York. Entonces, piensa en dónde puedes gastar tu dinero lo mejor y además no gastar tanto dinero como necesites
porque puede llegar muy caro muy rápidamente si tienes muchos conjuntos
de datos y tienen que tener un cómputo muy complejo. Entonces, asegúrate de tener suficiente dinero de lado y sin embargo seguiría siendo mucho más barato que hacer todo en tu propia máquina, o en tu propia computadora porque eso significa que tienes que cambiar esa cosa todo el tiempo y cada mitad, realmente tienes que actualizarlo para unas nuevas necesidades computacionales que tenemos. Tan solo asegúrate de
que cuando te inscribas en uno de ellos también podrás pagarlo después de un tiempo, y también que lo ofrezcan para el futuro. Entonces, jugar con los grandes jugadores podría ser una apuesta más segura que jugar con una startup fresca que ofrece todo de forma gratuita ahora, pero se habrá ido en unos meses, y tus datos se han ido con ellos. Entonces, Google Cloud machine learning, el machine learning en AWS para Amazon, IBM Watson con la Bluemix Infrastructure y Cognitive Services de Microsoft son las cosas que he estado usando y
voy a estar hablando Servicios Cognitivos a detalle para mostrarte qué puedes hacer con ellos y cómo serían beneficiosos para tus interfaces en los próximos videos.
6. Usos visuales: Bienvenido de nuevo. En este video, te
voy a mostrar cómo hacemos que las computadoras vean cosas o cómo aparentemente parecemos podemos hacer que las computadoras vean cosas, porque todo lo que hacemos es comparar información
visual y ver qué computadoras pueden encontrar en ellas. Los visuales se han convertido en algo más grande. La gente ya no escribe. No es divertido escribir en tu teléfono. El reconocimiento de voz también está funcionando, pero no puedes simplemente dar la vuelta en público y hablar con tu teléfono porque simplemente se siente raro. Entonces, mucha gente solo se comunica con imágenes solamente. Tomamos selfies, tomamos fotos de cosas, nos mandamos emoji el uno al otro. Muchas veces, nos estamos olvidando de este caso, que no todos pueden verlos, que alguien podría estar con discapacidad visual, o simplemente estar en una conexión terrible. En este momento, estoy aquí con mi tarjeta sim UK y todo está en conexión de borde. Entonces, la gente me mandó solo fotos en una charla. No sé qué está pasando. Entonces, quiero que la computadora me diga qué hay
al menos en esa imagen antes de darle mis dulces, dulces datos y pagar mucho dinero por descargar esa imagen que quizá no quiera en realidad. Entonces, a lo largo de los años, hemos estado recolectando imágenes en internet desde donde sea. Se trata de billones de imágenes en Bing, y en Google, y en otros resultados de búsqueda o motores de búsqueda. Todo ha sido indexado. Todo ha sido categorizado. Todo se ha comparado con otros. De esa manera, en realidad podemos dar una buena suposición de lo que va a ser una determinada imagen. Te mostré antes cosas como la IA de visión, API, y las demos que permiten a las personas, a las personas
ciegas ver lo que está pasando a su alrededor. Ahora, vamos a entrar en detalles sobre estas API, qué hacen y qué puedes hacer con ellas, cómo puedes empoderar a tus usuarios finales para que hagan algo útil con la información que tienen. Voy a estar cubriendo mayormente los comentarios de servicios de Microsoft porque esto es algo sobre lo que puedo contestar tus preguntas más adelante también, y tengo muchos colegas trabajando en esos departamentos. Incluso localmente aquí, por si no quieres esperar por mucho tiempo tus respuestas porque estoy en diferentes zonas horarias todo el tiempo. Lo que tenemos aquí son las API de servicios Cognitivos de Microsoft. Se trata de una oferta de API que permite enviar datos a un endpoint y recuperarlos. Entonces, para poder usar estas cosas, puedes usar las demos aquí en la página web, solo para probarlas. Pero, cuando quieras probarlos con tus propios sistemas más adelante, puedes hacer que un desarrollador te escriba un script, un script automatizado para poner, por ejemplo, imágenes en una carpeta y recuperar la información, o bien puedes enviar un solicitud a una URL, un endpoint, al igual que dirías google.com o microsoft.com. Simplemente dices el endpoint de la API, aquí está mi imagen, y luego obtienes un conjunto de datos de nuevo con la información que querías tener. Cuando empezamos esto, intentamos hacerlo un poco más viral, hacer interesante que la gente vea lo que estas cosas pueden hacer. Entonces, una de las grandes demos fue la demo de How-Old que bastante se convirtió en una sensación viral y molestó a mucha gente también, incluyéndome a mí mismo. Porque aprendí que en cuanto tienes barba, te reconoce
ser un poco mayor, y yo soy viejo pero no tan viejo en la mayoría de los casos. Pero, puedes ir a how-old.net, por ejemplo, y dar click en esta foto aquí, y decir úsalo o subir tu propia foto. Reconoce el género y la edad, o edad percibida, o género percibido de la persona en esa imagen. Una vez más, si no te gustó, puedes quejarte de ello con este enlace y ver qué está pasando. También escribimos una larga entrada en el blog explicando cómo funciona how-old.net, qué API utiliza y el código está disponible en GitHub para probarlo tú mismo también. Entonces, si hace clic en para ver fuente aquí, realidad
puede obtener la información y puede obtener el código para jugar con ella usted mismo. Entonces, usando las API y servicios, te
voy a hablar de, puedes construir una interfaz como esa bastante simplemente si sabes construir una interfaz web y
sabes cómo enviar datos a un endpoint y obtener datos volver usando lo que quieras usar, reaccionar, angular, todos los sistemas por ahí. Puedes construir algo así para tus usuarios finales de una manera agradable. El verdadero importante es, cuando se piensa en ello, es
el reconocimiento facial porque ahí es donde más está pasando el futuro de muchas cosas. Entrar a tu sitio web mirando a una cámara sería algo lindo de tener, y extrañamente, no es tan difícil de hacer. Reconocer que una persona está en una foto y también en otra, es otra cosa interesante para ofrecer a tus usuarios finales. Entonces, estas son API que consideramos, cierto grado, peligrosas porque quieres asegurarte de que estás haciendo todo bien. Pero, cuando trabajan, entonces son realmente hermosas. Porque me encanta, por ejemplo, ir a Facebook y averiguar cuando la gente me tomó fotos en conferencias que no conozco. Encontré algunas bonitas fotos interesantes de esa manera. Entonces, quieres asegurarte cuando usas estas API de que tus usuarios finales estén conscientes, eso es lo que va a pasar, y también quieres asegurarte de que expliques a la
gente que algunas de estas cosas son un trabajo de conjetura. Entonces, cuando dices, por ejemplo, la demo de cua-viejo dio a la gente imágenes
mayores o más jóvenes y estaban contentos o no estaban contentos con ello, pero solo quieres darles como conjetura, y decir esto es lo que es. Esto es lo que el aprendizaje automático se reduce a muchas veces. El aprendizaje automático te da resultados educados que son trabajo de adivinación. Ahí no están al 100 por ciento. Las computadoras cometen errores. No cometen errores, pero nosotros cometemos errores haciendo las preguntas equivocadas o dándoles los datos equivocados. Entonces, quieres asegurarte de que si se vuelve personal y tan personal como un reconocimiento facial, quieres tener una interfaz que haga que las personas se sientan bienvenidas y no asustadas. Dicho esto, si quieres usar la API facial, hay varias cosas que puede hacer. Puede hacer una verificación facial. Entonces, encuentra a una persona en una foto, y luego encuentra a la misma persona en la otra foto, y te dice que las dos caras pertenecen a la misma persona y un nivel de confianza de 0.73, en este caso. Entonces, en este caso, si tomas dos personas diferentes, te dirá
que son dos personas diferentes en estas dos imágenes y no es la misma persona. Entonces, ese podría ser un primer paso para hacer un sistema de inicio de sesión que podría ser un primer paso para asegurarse de que las personas sean la correcta. Por supuesto, no quieres necesariamente lo que Facebook ha estado haciendo al principio y tuvieron que deshacer también, etiquetar
automáticamente a todos porque la gente podría no querer ser reconocida en alguna foto dependiendo de dónde estuvieran. Imagínate como Clark Kent estando en esta estación de tren y la gente dice que es Superman, eso no es algo que quieras tener automáticamente. Se le debería permitir decir que no lo es. Una vez que tienes la detección facial, hay una cantidad increíble de información que ponemos en esta API, parte también porque con las geniales demos que construimos en el pasado. Entonces, cada cuadro reconocido, como la señora de aquí, tiene una identificación facial. Tiene el rectángulo, que es como ¿dónde está el rostro en esta imagen y cuál es la otra parte de la imagen? Tiene atributos, como si se trata del cabello, si se trata de una persona calva, si el cabello es invisible por alguien que usa sombrero, por
ejemplo, el color del cabello con diferente nivel de conferencia. Entonces, en este caso, es un marrón con uno, una rubia con 0.69, y así sucesivamente. No voy a leer esto ahora mismo porque hay mucha información, y la API obtendrá más información con el tiempo. Pero, ya puedes ver que hay mucha información ahí dentro, y hay un montón de cosas geniales que puedes hacer con la app. Entonces, quiero que pienses en qué podrías hacer si una foto cargada tiene todas estas cosas. El API de emoción también es muy interesante. Reconoce los rostros de las personas y sus emociones. Entonces, las emociones son la ira, el desprecio, el asco, el miedo,
la felicidad, la neutralidad, la tristeza, y la sorpresa. De esa forma, en realidad puedes averiguar cuándo algo salió mal con tu imagen o puedes categorizarlos automáticamente en diferentes bases de datos. También puedes, cuando lo haces en una versión en vivo, puedes ver, por ejemplo, tu usuario probando cuando solías decir algo y significan algo diferente, podría
haber discrepancia entre ambos. Entonces, esta es una gran manera de hacer uso automatizado de las pruebas y obtener un punto de información extra si la gente está realmente emocionada por ver lo que les muestras en su sitio web, o si solo te lo dijeron porque realmente quieren hacer apaciguar la entrevista, o así decirlo. Entonces, esto es el reconocimiento facial y el reconocimiento de emociones. Entonces, estas son dos cosas que son muy, muy humanas en tu interfaz. Entonces, úsalos con moderación, pero puedes usarlos para cosas bastante increíbles si quieres jugar con ellos.
7. Hablar el lenguaje humano: En esta parte de la serie de videos, vamos a hablar de lenguaje. No voy a entrar en demasiados detalles. Te voy a mostrar solo algunas API para usar en este caso porque es un tema muy, muy profundo y un tema muy, muy antiguo. Hay mucha gente inteligente ahí afuera haciéndolo, y no quiero insultarlos con algún medio conocimiento. Yo solo sé lo que quiero, y sé lo que puedes usar en esto. Entonces, quiero asegurarme de que les muestro algunas de las oportunidades que tenemos en este caso. Cuando empezamos a usar máquinas que en realidad son entrada de audio, cuando la gente empezó a hablar con sus computadoras, o la gente empezó a escribir frases enteras y tenemos que hacer las máquinas más inteligentes. Tuvimos que sumergirnos en el lenguaje humano real en la lingüística, en la fonética, en metáforas, y volvimos mucho más humanos otra vez y necesitábamos volvernos mucho más humanos que antes. Entonces, de esa manera, mucha gente empezó a trabajar en TI que no se supone que esté en TI de una manera religiosamente de como lo que creemos que el programa solo está permitido estar en TI. Google por ejemplo, contrata poetas, o contrata cantantes, o contrata traductores y lingüistas para que las computadoras comprendan la intrínseca del lenguaje, porque el lenguaje es una de las cosas más complejas que tenemos, y las computadoras no tienen nada que en realidad puedan hacer con él. Con una imagen al menos puedes analizar los píxeles, puedes encontrar formas, podrías encontrar los contornos. Con el texto, hay que adivinar y las computadoras son malas para adivinar, pero los humanos son buenos para analizar las cosas. Por eso tenemos cientos de años de conocimientos en lingüística que ahora estamos tratando de ayudar a las API a entender, y ayudarte con ese tipo de cosas que quieres hacer. Lo que quieres construir con estas API o interfaces que permiten a la
gente cometer errores porque la gente comete errores, solo descuidada. Cuando escribimos cosas en un teléfono móvil, o decimos algo en un micrófono y
no es tan comprensible como queremos que sea, suceden errores. Entonces, las cosas del análisis del lenguaje deberían estar mejorando mucho de esa manera. Traducción de Bing y traducción de Google, muchos servicios de traducción se han vuelto mucho mejores cuando llegó este enfoque lingüístico. Traducimos palabra por palabra, quizá frase por frase, pero aún no tiene mucho sentido. Fueron cosas que en realidad eran comprensibles, pero no estaban dando del todo el significado que queríamos que dieran. Entonces, ahora realmente comparamos por párrafo también y por el último rubro que se le presenta y demás y así sucesivamente. Entonces, de esa manera sacamos más contexto
y la traducción automatizada se vuelve mucho mejor así también. Entonces, si quieres jugar con algunas de estas API, son
algunas de las cosas que están disponibles para ti. Entonces, lo primero es una API de análisis de texto. Entonces, lo que haces con eso, extraes información de tu texto. Entonces, copia un texto en y te volverá a dar un texto de análisis, y te da un objeto JSON con los datos mismos, por lo que le envías un texto. Por ejemplo, aquí tengo una experiencia maravillosa, las habitaciones fueron maravillosas, y el personal fue servicial, y se enteró de que el idioma es el inglés con un nivel de confianza del 100 por ciento. Las frases clave son, que hay una experiencia maravillosa, que el personal y las habitaciones estaban ahí, y esta es información importante si lo piensas para un comentario. No se quiere leer a través de miles de comentarios. Solo quieres saber qué comentario hablaba de las habitaciones, qué comentario hablaba de la gente, que comentario hablaba de la comida, y de esto se trata esta API. Si tomas el ejemplo negativo aquí, pasé un momento terrible en el hotel, el personal era grosero y la comida era horrible. Se entera la comida, el tiempo
terrible, el personal del hotel, el sentimiento es horrible, por lo que encuentra que la comida y el personal eran horribles. Entonces, estas son las dos cosas que quieres que tu interfaz se preocupe más adelante. Toda esta información vuelve a estar disponible como un objeto JSON. Aquí es de donde provienen los datos, por lo que no obtendrás la información ya que se muestra en esta demo aquí también. También crea negativo español o español. Entonces, en esencia, creo que son 12 idiomas diferentes. Google también tiene bastantes idiomas, por lo que hay muchas, muchas ofertas en diferentes API. De lo siguiente que hay que hablar es de la comprensión del lenguaje, y aquí es donde muy se pone
realmente, realmente complicado y realmente interesante. Esa sería una sesión para una vieja serie de videos aquí y hay unos cuantos por ahí para mirarla. Hay un código de servicio comprensión del lenguaje, servicio LUIS, y ese uno te dice o te enseña a decir lo que quieres aprender de un texto. Entonces, en lugar de tener un texto que automáticamente te diga que esto se trata de las habitaciones y esto se trata del personal y de la comida, se
trata de construir sistemas que tomen en los comandos del lenguaje, luego averiguar dónde están los comandos son. Entonces, en este caso, la demo que verías en esta página es un control remoto de luz, donde puedes teclear cosas y lo entenderá. Entonces, si digo ahora encienda las luces y la someta, encendería la luz en la demo, y le daría los resultados de la consulta para eso. Cambia todas las luces a verde, apagó la luz de la mesa, y así sucesivamente y así sucesivamente. Entonces, este es un ejemplo de cómo podrías hacer algo así como un control Alexa o un control Google Home en tus propias interfaces
mediante el uso de este tipo de texto como entrada de texto en este caso. Entonces, por ejemplo, para un robot en un cliente de chat o auto para un cuadro de búsqueda. Entonces, este te permite entrenar tu propio modelo y asegurarte de que tu propio esperando ciertos comandos en lugar de solo analizar texto aleatoriamente. Entonces, esta es una interfaz muy interesante, y para mí, en realidad es el futuro de la interacción. Pensar en ese reconocimiento de voz o reconocimiento de
texto te permite controlar las cosas
en lugar de hacer clic en botones y hacer clic en tener el botón o hacer clic en el enlace correcto podría ser mucho más fácil para los usuarios finales de hacerlo. Entonces, esto es algo en lo que sumergirse profundamente si quieres estar interesado en eso, y es una gran oportunidad para que la persona no técnica y la persona técnica trabajen juntos para construir una interfaz fresca para tus controles o para la necesidad que tienes en tu empresa. Ahora, aprendiste cómo tus servicios pueden entender el significado en texto y cómo puedes definir controles para que las personas lo digan. Controla las oraciones, enciende las luces, apaga las luces, y así sucesivamente y demás. Por supuesto, como texto, esto es algo interesante, pero donde realmente lo quieres tener es un reconocimiento de voz, y estas son las API que vamos a cubrir a continuación, convirtiendo texto en discurso y discurso en texto .
8. Audio y video: En este video de la serie, vamos a hablar de lo probablemente más cool sky sci-fi que puedes hacer con la IA y el machine learning y eso es el reconocimiento de voz. En cada película de ciencia ficción, tarde o
temprano teníamos algo donde alguien dice como: “Está bien, computadora déjame hacer esto, dime esas cosas”. El pedacito interesante aquí es que nos estamos acercando muy al problema donde algo se vuelve demasiado humano para no ser espeluznante o no lo suficientemente humano como para no ser molesto. Entonces, hacer una interfaz que reconozca habla y una interfaz que devuelva el habla que no suena raro, es bastante cosa que tenemos una tarea difícil haciendo ahora mismo. Todas las empresas que cuentan con su tipo de asistencia
personal están haciendo una gran investigación en este momento, ¿cuál sería el lenguaje correcto y cuál sería la voz adecuada para usar para estos sistemas? Entonces, hay muchas cosas que puedes hacer mal, pero hay muchas cosas que puedes hacer bien porque si un reconocimiento de voz funciona bien, es algo maravilloso, y muchas veces la gente no entiende más hay que usarlos, mejor se pongan. Una API de reconocimiento de voz o una interfaz de reconocimiento de voz es algo maravilloso para permitir a las personas la comunicación manos libres, para que puedas hacerlo en el auto o puedes hacerlo en casa. Pero está un poco limitado a algo que se puede hacer en pasos cortos. Quieres asegurarte de que la gente no tenga que decir como sostener historias a tu interfaz, quieres asegurarte de que el reconocimiento ocurra lo antes posible. Entonces, cuando se trata de las API con las que jugar ahora mismo, les
voy a mostrar algunas, y ojalá, las demos van a funcionar para poder mostrarles cómo se hace eso. Lo que también hay que entender para hacerlos perfectos en el futuro, puede
ser algo correcto ofrecer a los usuarios finales gratuitos que los capaciten también para su voz. Eso ya se podría hacer con unas pocas frases. Eso no es como leer páginas y páginas para gustar, Dragon Natural Speaking como solía ser en el pasado, pero ahora en realidad está teniendo más sentido. Si lo piensas, vamos a volver. En los años 50, la gente ha estado dictando cartas a sus secretarias y la han estado escribiendo en taquigrafía y luego escribiéndolo. Ahora, la computadora es básicamente nuestra secretaria que puede hacer todas estas cosas, pero tenemos que hablar con ella unas cuantas veces
para realmente asegurarnos de que entienda nuestro acento, y puedes limpiar los acentos bastante bien con algunas de estas API personalizadas que te estamos ofreciendo. Entonces, lo primero de lo que les voy a hablar en cuanto a ser API de habla, que es el reconocimiento de voz. Entonces, podemos probar eso aquí en este momento. Entonces, presioné el botón de inicio de grabación y dice, “inglés U.S. También podría hacerlo con alemán, así que permití el acceso a mi micrófono y puedes jugar con eso tú mismo en el futuro también. Dice, al sur también el futuro, y al Sur el futuro también y así sucesivamente y así sucesivamente. Se puede ver que las palabras están sucediendo en la pantalla mientras le hablo, y está haciendo un buen trabajo de ello. Esto no está entrenado. Esto se acaba de sacar de la caja lo que haría. Entonces, si quieres un mejor reconocimiento, tienes que empezar a usarlo. Entonces, dejo de grabar ahora cambio al alemán, y vamos a ver si sí demuestra eso también. Permití, [inaudible] Como puedes ver, reconoció que en alemán, probablemente no lo
puedas leer, pero podría usar la API de traducción en este momento para convertirla en inglés si quisiera y luego usar el de otra manera, el texto a discurso API para hablarlo a otra persona. Hay API abiertas y conjuntos de datos abiertos que puedes usar también para hacer este tipo de reconocimiento mediante el uso de un sistema como Microsoft o Google o Amazon, ya lo
hemos entrenado en diferentes idiomas. Cuando te dije antes que esto ahora es un texto en alemán que no entenderías, también
hay una API interesante que es una API de habla traductora. Entonces, en este caso se habla en un idioma y automáticamente lo convierte a otro idioma y luego genera una voz sintetizada que la lee en el otro idioma. Hemos usado esto en Suecia con la policía para permitir que los refugiados de Siria hablen con los policías como bastante exitoso y también forma parte de Skype ahora. Entonces, esas son las barreras que me encantan que el reconocimiento puede hacer con las máquinas cuando lo usamos de la manera correcta. A veces reconocer quién está hablando es mucho más importante que en realidad lo que se está diciendo. Se desea utilizar por ejemplo, un sistema de registro que utilice el reconocimiento de voz como segundo factor en una autenticación de dos factores junto con un token o con una contraseña. Esto ha existido desde hace bastante tiempo. Muchas películas de Hollywood tenían reconocimiento de
voz en los años 40 y las de James Bond en los 60, pero ahora podemos hacer esto dentro del navegador en este momento. No puedo hacer esto aquí mismo ahora mismo con mi micrófono tiene un problema, pero puedes entrenarlo tú mismo con pasar por estas diferentes frases. Te pide tres veces decir la misma frase y luego reconoce la diferencia de tu acento. Los problemas de la pronunciación, cómo breves, dónde haces descansos, y estos son todos pequeños indicadores para reconocer qué orador está hablando cuándo. Una vez que está entrenado en estos sistemas y tienes modelos preentrenados, puedes reconocer diferentes altavoces en datos de audio que también tienes. Entonces en la demo aquí abajo, tenemos diferentes presidentes estadounidenses y en realidad puede hacer clic en el audio, y luego empieza a reproducirlo y reconoce que fue Barack Obama hablando en este caso. Eso es algo bastante importante o interesante que ver con el reconocimiento del habla. Entonces, estas son todas las API con las que tenemos que jugar ahora mismo, y quiero que consideres más de lo que puedes hacer con estos sistemas. Si es absolutamente necesario hacer las suyas, o si tiene más sentido aprovechar un servicio de terceros,
Alexa Cortana y Siri están todos disponibles como API, por lo que en lugar de entrenar los tuyos, solo
puedes usar estos sistemas y se benefician de toda la capacitación y toda la planeación que estas empresas han estado haciendo por ti también. Piensa en el reconocimiento de voz como la siguiente interfaz que la gente querrá usar y tendrá que usar. Piensa en algo que es muy personal sin embargo, y en algo que no escala porque si tienes una oficina con 300 personas hablando al mismo tiempo, eso tampoco va a ser una buena interfaz tampoco importa cómo se sienta la ciencia ficción. Entonces estas son algunas de las API con las que jugar cuando se trata de reconocimiento de voz, pero el problema es que tu voz es muy única y a veces los sistemas que reconocen voces muy californianas, muy entrenadas, no son lo correcto para ti. Entonces, cuando se trata de API y API de IA, una API de aprendizaje automático, quieres entrar en la personalización tarde o
temprano y de eso vamos a hablar a continuación.
9. Personalizar tu aprendizaje automático: En este video de las seriales, vamos a hablar de personalización y esto significa como las cosas que esperarías de la personalización. Machine Learning e Inteligencia Artificial parece bastante mágico cuando funciona. No hace ningún buen trabajo si no funciona porque en realidad es frustrante. veces hay un montón de chistes sobre como personas con acentos
escoceses no ser reconocidas por el reconocimiento de voz y este tipo de cosas. Queremos asegurarnos de que esto no suceda para ti o en realidad para tus usuarios finales también. Entonces, me gusta por ejemplo a veces sólo dictar a mi computadora y enseñé a mis computadoras a reconocer mi voz, por lo que no tengo que editar mucho el texto más adelante también. Deberías hacer este tipo de cosas también con todos tus servicios porque de esa forma los haces únicos para ti y cierto grado también más seguros porque otras personas no
podrán utilizar los sistemas de la manera que haces en el mismo
manera. La personalización es una parte muy importante para que
la solución sea útil para tus usuarios finales a un nivel muy personal. Al igual que empezaste a hablar con tu Siri y se volvió mejor después de un tiempo o empezaste a escribir en tu teclado Android y después de unos meses reconoció las palabras que sigues usando y te dio autocompletar para esos, tus usuarios finales merecen tener ese tipo de calidad también. Entonces, cuantos más datos puedas entrar y cuanto más personalizados puedan volver los resultados, más interfaces
de calidad construirás. También tienes que asegurarte de que sea divertido
hacer esas cosas y no se sienta como una tarea. Entonces, si tres frases son suficientes para obtener una primera calidad del 60 por ciento de reconocimiento, hazlo tres frases. No dejes que la gente diga como: “Está bien, guerra y paz, y por favor léela antes de que puedas usar nuestro sistema”. La personalización es para el usuario final y no en contra de ellos. Lo que hay que hacer aquí es tener los sistemas que están en su lugar y ver cuando encuentras que hay un error en ellos. Digamos por ejemplo, que tienes un conjunto de datos
de imágenes que tiene imágenes de abejas y los servicios de reconocimiento
de Microsoft, de Amazon, de Google, de IBM están bien en reconocer abejas, pero eres un experto en abejas. De verdad sabes cómo son todas las abejas, qué son todas las abejas diferentes. Se quiere enseñar a la computadora lo mismo. Puedes hacerlo tú mismo escribiendo una red neuronal propia o
tu propia red de deep-learning y pasar unos meses aprendiendo eso en la universidad antes de que realmente lo hagas. O puedes usar algunas de las API que te permiten personalizar estas cosas. La mayoría de los servicios permiten para esos, para pago extra y cuentan con sistemas personalizados. Algunas de ellas también te permiten dejar que tus datos solo sean tuyos y solo estén
alojados en tu máquina para que no vuelvan al conjunto de datos principal. Pero si les permites volver a entrar en conjunto de datos, por supuesto, esto es mucho más barato y mucho más libre porque las empresas llegan a hacer un mejor modelo partir de tus datos que de
todos los demás ya que de repente pueden ofrecer a otros apicultores, así como saber reconocer diferentes abejas. Cuando se trata de la comprensión del lenguaje, el contexto es increíblemente importante. Puedes tener una API normal de habla a texto que solo te da una transcripción de lo que dijiste pero a veces quieres asegurarte de que se reconozcan diferentes partes, como palabras de control, o quieres asegurarte que el texto se entiende en un contexto determinado. Para esto, se puede utilizar la comprensión del lenguaje, API
LUIS que ha existido desde hace bastante tiempo y que ha sido utilizada con éxito por las personas para todo tipo de contexto. Por ejemplo, tuvimos como demo entrevistamos a niños sobre sus libros favoritos y el contenido no tenía ningún sentido. Pero una vez que le dijimos al sistema que estos son los libros infantiles de los que han estado hablando los niños o que el contexto eran libros infantiles, de
repente el reconocimiento subió de 40 por ciento a 80 por ciento también. Otras cosas con las que la gente ha estado haciendo es reconocer, por ejemplo, el ruido de fondo. Entonces, teníamos un aeropuerto en Holanda
creo donde la gente tenía un reconocimiento de voz que no funcionaba en absoluto. Entonces, lo que hicimos fue grabar alrededor de 16 horas deruido de
fondo fuera de ese aeropuerto que ocurrió durante un día normal,
enseñamos ruido de
fondo fuera de ese aeropuerto que ocurrió durante un día normal, al sistema que esto también forma parte del audio y de esa manera el reconocimiento volvió a
subir unos porcentajes a hacer que la gente tome conciencia de que esto está funcionando. Entonces, todas las cosas que la computadora sí necesitaba saber, tuvimos que entrenar primero a la computadora y eso es lo mismo con acento, eso es lo mismo con las cosas que estamos escuchando, y controlar algoritmos o frases de control que quieres tener. hay un servicio de voz personalizado
que también te permite dar vocabulario diferente y ruido de fondo. Este es otro que usamos con ese aeropuerto por ejemplo o en realidad entiende cosas
diferentes, palabras especiales diferentes que has estado usando. Entonces, el servicio de voz personalizado te permite entrenar un sistema con un cierto vocabulario y un cierto formato de ruido de fondo y un cierto problema de acento de lenguaje que te vuelves mejor en reconocer el texto de esta manera. Entonces, este es el servicio de voz personalizado. A la hora de personalizar estos servicios, es muy importante entender que en realidad son caros porque el poder de cómputación está sucediendo de una manera nueva, mientras que los modelos preentrenados de reconocer celebridades o reconociendo la Torre Eiffel y este tipo de cosas e imágenes que ya se ha hecho por ti. Pero es una muy buena manera de conseguir tus resultados perfectos en una determinada materia y campo experto en una calidad mucho mejor que simplemente usando la conectividad normal o los sistemas de conexión normales que tienes en AI y ML sistemas fuera de la caja.
10. Ética del aprendizaje automático: En este video de la serie, quiero hablar del poder y las responsabilidades que
tenemos cuando se trata de Machine Learning e Inteligencia Artificial. Mucho de lo que hacemos aquí es algo muy personal y estamos grabando a la gente, estamos analizando lo que están haciendo, y estamos asegurándonos de que lo que vuelve sea en su beneficio en algún grado. Entonces, la ética de la IA es un gran problema, no lo
voy a resolver en el video y no te voy a decir qué hacer, porque así no es como funciona la ética, y toda corporación grande que está trabajando en Machine Learning e Inteligencia Artificial cuenta con IA para buenos departamentos y personas muy inteligentes en entornos psicológicos y éticos, hablando de lo que podemos hacer con esto y cómo podemos hacerlo mal. Entonces, mucho de ello, en lo que queremos pensar aquí o en lo que ustedes como personas creativas quieren pensar, es cómo pueden expresarse estas cosas. ¿ Cómo podemos construir interfaces que permitan a la gente cosechar las recompensas del Machine Learning, pero dar sus datos de manera voluntaria y de una manera que no sienta que estén siendo vigilados o que estén siendo grabados sin saberlo. Es algo muy problemático y para mí el siguiente paso en la interacción del usuario, ¿cómo nos aseguramos de que las personas sepan que están regalando sus datos por un servicio, pero saben también a dónde van los datos, y en realidad están sintiendo confiado en que eres la persona adecuada para obtener esa información? Estamos en medio de una masiva pelea mediática sobre esto con las empresas graban tus cosas, qué hacen con él, así que no quieres ser la próxima empresa en meterte en esa pelea y tener ese problema. Machine Learning y Deep Learning está ahí para encontrar información con responder las preguntas correctas de los usuarios. Si tus preguntas ya están sesgadas, o los datos son sesgados, eso en realidad exacerbará el problema. Tu sistema también estará sesgado. Entonces, tienes que asegurarte cuando construyes algo que el equipo lo construye, y los datos que entra son lo más diversos posible. Eso es algo general para hacer mejor cualquier producto. Tus usuarios finales no eres tú. No son las personas en la oficina que tienen
esa conexión rápida usan que solo una marca de computadora, y en realidad sabe de qué se trata el sistema. Si se supone que un sistema es inteligente, entonces el sistema también necesita saber acerca de los valores atípicos. No sólo necesita tener el camino feliz de donde quieres que vaya la información, sino que también tienes que estar enseñándole el manejo de errores y los problemas de error que en realidad debe estar consciente. Es así como evitas cosas como el reconocimiento facial no trabajar en personas de color. Es así como hay que evitar problemas como la gente asiática ser vista como alguien que tenía los ojos cerrados. Estas son cosas que le sucedieron a las grandes corporaciones. Fueron muy, muy obvios y muy, muy peligrosos para ellos también y una pesadilla de relaciones públicas. No quieres meterte en ese espacio
asegurándote de que tus sistemas no hagan suposiciones. Entonces, al no asumir que tus usuarios finales sean como
tú, realmente construyes sistemas que permitirán Inteligencia Artificial no sesgada. Nunca será 100 por ciento porque los humanos son sesgados y estamos ahí, pero esperemos que un análisis, un análisis profundo de nuestros datos nos muestre también nuestros sesgos, y sea un manejo de errores que ya no deberíamos hacer. Una de las principales cosas a entender Machine Learning e Inteligencia Artificial es como, que los resultados sean tan buenos como las preguntas que cotejas y los conjuntos de datos que pones. Entonces, las preguntas sobre las que entrenas a tus modelos deben ser concisas y sencillas. No esperes que la computadora sea creativa, no esperes que la computadora pueda entender metáforas y hacer saltos y pensar como lo hacen los humanos. Las computadoras no son buenas en eso. Entonces, al mantener tus preguntas lo más simples posible, tienes que asegurarte de que también tus conjuntos de datos regresen, sean inclusivos también para otros usuarios. Entonces, es agradable tener un reconocimiento de voz por ejemplo, pero alguien con tartamudez, o alguien que no pueda hablar en absoluto no podrá usarlo. Entonces, piensa en al usar estos sistemas geniales y
entrar en el modo de ciencia ficción y estar entusiasmados con ello, que los humanos tienen necesidades diferentes y los humanos también tienen capacidades diferentes. Entonces, algo tan sorprendente como un reconocimiento de voz para una persona ciega es imposible para una persona sordo-muda, y al revés. Entonces, podemos usar esto como mejoras, pero no la única forma de acceder a este tipo de información. Entonces, cuando se trata de obtener el consentimiento de tus usuarios finales, quieres asegurarte de que realmente estás en un camino legal y realmente quieres estar en un camino ético también. Entonces, preguntar a tus usuarios o decirle a tus usuarios por adelantado que puedes obtener una mejor experiencia si nos permites registrar estos datos, es una forma de hacerlo. Sí, es un paso diferente en la interfaz, es un botón extra para presionar, pero tiene sentido para los usuarios finales y para mí, como alguien que se preocupa mucho por la privacidad y la seguridad, me
haría confiar más en ti si consigo el derecho a decir que no, o si lo que quiero hacer con el aprendizaje automático es una mejora, y siempre es una mejora porque Machine Learning es siempre un trabajo de conjetura. Las máquinas no hacen las cosas bien. Simplemente adivinan que esto es lo que los humanos querrían hacer. Al final, siempre hay un humano que debería poder decir algo, que está mal, o decir algo que está bien. Entonces, lo entrenas, lo pruebas con humanos reales, y siempre tienes una manera de que tus usuarios finales digan que no, o que digan que está mal, o que lo denuncien a alguien y sean muy firmes en responder estas cosas realmente realmente rápidamente, porque estas podrían ser cosas que no quieres mostrar cuando interactuas, y cuando la gente lo denuncia, entonces probablemente hubo un problema real con eso. Entonces, asegúrate de que si construyes interfaces humanas, pongas mucho pensamiento humano en ella también.
11. Aprendizaje automático y creatividad: Siempre que algo se automatiza, la gente se preocupa por ello. Se preguntan si su arte, o si su oficio, o qué hacen quedarán obsoletos pronto. Sí, Machine Learning e Inteligencia Artificial harán obsoletos muchos trabajos. Hará obsoletas muchas cosas que damos por
sentado en este momento es un ingreso normal para un ser humano. autos autoconducidos es uno de esos. Camiones autoconducidos, todas las cosas que básicamente son peligrosas para que los humanos hagan, porque nos cansamos, nos aburrimos cuando hacemos las mismas cosas una y otra vez, cuando no nos está gravando mentalmente. Entonces la pregunta es como, ¿qué pasará con estas personas? Tengo un giro muy positivo en eso. Creo que con automatizar las cosas, debería ser todo posible que esas personas encuentren la nueva creatividad que antes no tenían. De lo que necesitamos asegurarnos, sin embargo, es de que esas personas puedan permitirse ser creativas y no sólo estar desempleadas y estar descontentos con esto. Aquí es donde la revolución de Inteligencia
Artificial en realidad tendrá que ser parte de la política, y tendremos que ser parte de la cultura social que también tenemos. Simplemente no podemos tenerlo como una cosa que solo los ricos con los smartphones más nuevos puedan usar, es parte de la vida de todos ya, así que tenemos que democratizarlo en cierto grado también y todos los sistemas que tenemos ahí fuera. Ahora, cuando se trata de creatividad, aquí siempre es donde la gente contra la Inteligencia Artificial siempre dice: “Ahí es donde están los límites de las computadoras”. Tienen toda la razón, y estoy totalmente de acuerdo con eso. Estoy totalmente bien que una computadora no sea creativa porque no quiero que sean creativas. La creatividad puede ser peligrosa, la creatividad puede ser hermosa, pero también puede ser dura. Entonces, no quiero que las computadoras sean todo ese control. Por ejemplo, cuánto impuesto tengo que pagar, o si la electricidad en mi casa debe ser tan alta, o si el nivel de oxígeno en mi casa se debe disolver en el futuro cuando vamos a estar viviendo en el espacio. Entonces, cada vez que la gente quiere mostrar sus sistemas creativos, o los sistemas de IA, lo fuertes que
son, muestran lo lejos que han llegado las computadoras para estar cerca de los humanos. Eso es lo que cuando Deep Blue en realidad estaba venciendo a Kasparov en ajedrez o a algún otro maestro de ajedrez que era. Cuando los sistemas informáticos de Google jugaban mejor gol que una persona humana. Cuando empezamos a tener como la música generada
por computadora analizando toda la música de los Beatles y descubriendo cuáles son las cosas que más les gustaban a la gente. De repente, mostramos estas cosas que siempre se ven un poco creativas, pero algunas son pocas raras también. Por supuesto, ahí va a haber creatividad, pero creo que AI y ML están ahí para automatizar las cosas. Entonces, las cosas con las que nos aburrimos, que no queremos hacer las deben hacer esas. Todavía no hay creatividad en las computadoras. No tenemos ninguna máquina que piense. Y una vez que tengamos una máquina que piense, que podría ser muy peligrosa para los humanos, porque una computadora está tratando de protegernos, y su trabajo principal siendo protegernos probablemente estará muy molesto con nosotros porque hacemos cosas estúpidas todo el tiempo para ponernos en peligro. Entonces, la creatividad que te encuentras en este momento, o que sientes es tu mejor arma contra ser automatizado y contra tener Machine Learning, Inteligencia
Artificial como tu enemigo. Espero que mi trabajo no sea necesario. Espero que la mayor parte de mi codificación sea optimizada por una máquina y algoritmo recogiendo los algoritmos. Eso también está totalmente bien. Yo realmente estaba emocionado cuando empezó la computación, que tengo que hablar con una computadora de cierta manera. Pero hoy en día estoy tan emocionado de poder hablar con mi computadora, que pueda mirar dentro de una cámara para desbloquear mi computadora, y puedo ser humano, y que quiero hacer cosas humanas, y que tengo tiempo para hacer cosas humanas porque las computadoras son lo suficientemente inteligentes. Entonces, cuando se trata de creatividad de computadoras, mucho es como buenas vitrinas para mostrar el poder de los sistemas de IA. No es necesariamente creatividad real. lo que deberíamos estar más preocupados es en realidad los usuarios finales, los consumidores de nuestra salida creativa exigiendo cosas creativas reales. Si consideras la música pop en los últimos años o incluso en todo el boy bands de los 90, esta fue música algorítmica. Esto era predecible y definido en cierto tiempo. Vi contrato de bandas de chicos que en realidad tenían que disolverse después de unos años porque el modelo de marketing alrededor de esa banda estaba hecho. Esto es algo que hemos estado haciendo a la creatividad y a los medios durante los últimos años. Entonces, ahora es el momento de que nosotros las personas creativas, o ustedes las personas creativas se peleen y se aseguren de que no se pueda automatizar haciendo algo tan creativo que una computadora simplemente esté confundida.
12. Reflexiones finales: Muchas gracias por seguir este curso, y espero que te haya inspirado a jugar con algunas cosas que de antemano pensabas que estaban más allá de tu alcance o alcance. Definitivamente estaba más allá de mi alcance y de mi alcance
y todavía lo está, y tengo un montón de amigos que son mucho mejores en ello que están contentos de contestar tus preguntas que podrías tener también. Tengo muchas ganas de ver qué puedes hacer con la inspiración que tienes aquí. Si no te inspiraste, por favor dime qué puedo hacer mejor la próxima vez también. Entonces, le agradezco mucho y me aseguro de que sus computadoras funcionen para usted y no para usted para sus computadoras.