Aprendizaje profundo: fundamentos para principiantes absolutos | Jason | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Aprendizaje profundo: fundamentos para principiantes absolutos

teacher avatar Jason, Developer / Researcher

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Vista previa del curso

      1:19

    • 2.

      Introducción al aprendizaje profundo

      4:06

    • 3.

      ¿Qué son las redes neurales?

      0:43

    • 4.

      Proceso de aprendizaje de una red neural

      5:50

    • 5.

      Funciones de activación

      10:31

    • 6.

      Funciones de pérdida

      1:03

    • 7.

      Optimizadores

      6:25

    • 8.

      Parámetros vs. hiperparámetros

      1:49

    • 9.

      Épocas, lotes, tamaños de lote e iteraciones

      2:18

    • 10.

      Conclusión sobre las terminologías

      0:52

    • 11.

      Regularización

      4:56

    • 12.

      Introducción al aprendizaje

      0:14

    • 13.

      Aprendizaje supervisado

      4:48

    • 14.

      Aprendizaje sin supervisión

      3:17

    • 15.

      Aprendizaje por refuerzo

      2:47

    • 16.

      Introducción a las arquitecturas de redes neurales

      0:12

    • 17.

      Redes neurales de alimentación directa totalmente conectadas

      2:26

    • 18.

      Redes neurales recurrentes

      10:34

    • 19.

      Redes neurales convolucionales

      3:27

    • 20.

      Los 5 pasos para crear un modelo de aprendizaje profundo

      0:14

    • 21.

      Recopilación de datos y conjuntos de datos

      3:03

    • 22.

      Datos de preprocesamiento

      7:35

    • 23.

      Entrenamiento de tu modelo

      0:28

    • 24.

      Evaluar tu modelo

      0:21

    • 25.

      Cómo optimizar la precisión de tu modelo

      5:20

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

379

Estudiantes

--

Proyecto

Acerca de esta clase

¿Tienes curiosidad por la inteligencia artificial, pero no sabes por dónde empezar? Comienza con el aprendizaje profundo: qué es, qué no es y cómo impulsa gran parte de nuestras vidas actuales.

Aprenderás las principales tendencias que impulsan el aprendizaje profundo y cómo las máquinas procesan datos y los usan para hacer predicciones útiles que faciliten nuestra vida cada día. 

Las lecciones están repletas de herramientas y consejos para principiantes, desarrolladores intermedios y curiosos. Esta clase abarcará lo siguiente:

  • Redes neurales artificiales (y cómo aprenden)
  • Terminologías básicas utilizadas en la industria
  • Redes neurales completamente conectadas
  • Redes neurales recurrentes
  • Redes neurales convolucionales
  • Mis 5 pasos para construir tu propio modelo de aprendizaje profundo (¡mi favorito personal!)

... ¡y mucho más! Unas pocas horas son lo único que se necesita para ponerse al día y aprender de qué se trata todo el exagero. Si tienes miedo a la IA, ¡la mejor manera de disipar ese miedo es entender cómo funciona en realidad!

Acompáñame en esta clase, ¡creo que la disfrutarás!

Conoce a tu profesor(a)

Teacher Profile Image

Jason

Developer / Researcher

Profesor(a)

AI Research at Harvard, Computer Vision practitioner, Part-time Compiler Warlock.

Ver perfil completo

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos
Level: All Levels

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Avance del curso: probablemente has leído en las noticias. Un aprendizaje profundo es la receta secreta detrás de muchos desarrollos emocionantes y ha hecho sueños a muchos de nuestros mundos. Y quizá también las pesadillas se hacen realidad. ¿ Quién hubiera pensado que Deep Mines Alphago podría vencer a Lisa Dole en un juego de barcos, que presume de más movimientos posibles que hay átomos en todo el universo? Mucha gente, incluyéndome a mí, nunca lo vio venir. Es incluso imposible, pero ya está aquí. El aprendizaje profundo está en todas partes. Está golpeando a los médicos de diagnosticar cáncer. Es responsable de traducir páginas web y cantidad de meros segundos a los vehículos autónomos . Por William Only Tesla. Hola, mi nombre es Jason y bienvenido a esta costa y deep learning donde aprendes todo lo que necesitas para empezar con deep learning y python. Cómo construir algoritmos notables capaces de resolver problemas complejos tenía uno posible hace apenas unas décadas. Hablaremos de bordo. El aprendizaje profundo es una diferencia entre la inteligencia artificial y el aprendizaje automático. Presentaré nuevos libros de cuello, qué son y qué tan esenciales son para soplar profundo. Vas a aprender sobre cómo se entrenan y aprenden los modelos de deep learning y el mismo paso de aprendizaje Associate ID supervisado, sin supervisión y con refuerzo de aprendizaje. Vamos a hablar de las funciones de pérdida, optimiza el algoritmo de descenso de calificación, los diferentes tipos de nuevas arquitecturas de red y los mismos pasos involucrados en el deep learning. Entonces, ¿qué esperas hoy el control y te veré en la costa. 2. Introducción al aprendizaje profundo: toda esta costa se centra en la noción off deep learning. Pero, ¿qué es? El aprendizaje profundo es un subconjunto de zumbido de máquina, que a su vez es un subconjunto de inteligencia artificial, que involucra métodos más tradicionales por sí solos. Representaciones directamente desde el aprendizaje automático de datos implica enseñar a las computadoras a reconocer patrones en los datos de la misma manera que nuestro cerebro hacer impulsa a los humanos. Es fácil para nosotros distinguir entre un gato en una oscuridad, pero es mucho más difícil enseñar a una máquina a hacer esto. Y hablaremos más de esto más adelante en los escoceses. Antes de que lo hagas con eso, quiero darte una sensación de los increíbles éxitos del deep learning en el pasado. En 1997 Gary Kasparov, el campeón más exitoso en la historia del ajedrez perdió el dedo del pie IBM es Deep Blue, uno de los primeros sistemas artificiales informáticos. Fue la primera derrota de un reinante campeón mundial de ajedrez por computadora En 2011 Watson de IBM compitió en el show de juegos Jeopardy ante sus campeones, Brad Rutter y Ken Jennings, y ganó el primer premio un $1,000,000 en 2015 Alphago, un programa informático de aprendizaje profundo creado por la división Deepmind de Google, derrotó a Lisa Door y 18 veces campeona mundial e ir a un juego de Google más veces complejo y ajedrez. Pero el aprendizaje profundo puede hacer más que simplemente ser. ¿ Lo hace ambos juegos. Encuentra aplicaciones en cualquier lugar, desde vehículos autoconducidos hasta detección de noticias falsas, incluso prediciendo terremotos. Estos fueron momentos asombrosos, no sólo porque las máquinas vencieron a los humanos en sus propios juegos, sino por las infinitas posibilidades que abrió. Lo que siguió a este tipo de eventos han sido los graves de sorprendentes avances en inteligencia artificial , aprendizaje automático y, sí, aprendizaje profundo. En pocas palabras, deep Learning es una técnica de aprendizaje automático que aprende, características y tarea directamente de los datos mediante la ejecución de entradas a través de una arquitectura de red inspirada biológicamente . Estos libros neural contienen una serie de capas ocultas. Se procesan los datos ricos, aliándose para que la máquina profundice en su aprendizaje, haciendo conexiones y pesando entrada para los mejores resultados. Iremos en tus cuadernos en el siguiente video. Entonces, ¿por qué el aprendizaje profundo? El problema con los algoritmos de aprendizaje automático de la tradición es que no importa lo complejos pongan, se pongan,siempre son máquinas como si necesitaran mucha experiencia de dominio, intervención humana y solo son capaces de para qué sirve el diseño. Por ejemplo, si te muestro la imagen de su rostro, reconocerás automáticamente su rostro. Pero, ¿cómo sabría una computadora qué es esto? Bueno, si seguimos el aprendizaje automático tradicional, tendríamos que definir manual y minuciosamente a una computadora cuando se enfrenta. Por ejemplo, tiene ojos, años y mes. Pero ahora, ¿cómo se define un ojo o cantidad a una computadora? Bueno, si miras a un ojo, las esquinas en algún ángulo, el definitivamente no. 90 grados el definitivamente No. Cero grados que algunos disputan para que pudiéramos reservar con eso y entrenar a un clasificador para reconocer este tipo de líneas y ciertas orientaciones. Esto es complicado para mí, yo peticionarios y el resto del mundo. Ahí es donde el aprendizaje profundo tiene un poco de promesa. El idea clave en deep learning es que puedes aprender estas características solo a partir de los datos crudos para que pueda alimentar un montón de imágenes de caras a mi algoritmo de aprendizaje profundo, y se va a desarrollar algún tipo de representación jerárquica de líneas de detectives y bordes y luego usar estas líneas y bordes para detectar ojos y una boca y componerlo juntos para finalmente rostro detective. Al final resultó que los algoritmos subyacentes para entrenar estos modelos han existido desde hace bastante tiempo. Entonces, ¿por qué tiene más profundo en ganar popularidad? Muchas mazos después? Bueno, por un día a se ha vuelto mucho más generalizado estaban viviendo en la era del big data, y estos algoritmos requieren cantidad masiva de datos para ser implementados de manera efectiva. segundo lugar, tenemos hardware en arquitectura que son capaces de manejar la vasta cantidad de datos y poder computacional que estos algoritmos requieren hardware que simplemente no estaba disponible hace unas décadas. En tercer lugar, construir e implementar estos modelos de algoritmos, como llamé es extremadamente racionalizado con la creciente popularidad del software de código abierto como Tensorflow y Pytorch. 3. ¿Qué son las redes neurales?: profundos mortales tempranos se referían al entrenamiento de las cosas. Cornu let box new let box forma la base del deep learning, un subconjunto del machine learning donde los algoritmos se inspiran en la estructura del cerebro humano, igual que el matiz, conforman el cerebro. El pilar fundamental de un nuevo Let Buck es también una neurona. Nuevos libros de Net tomaron datos entre ellos para reconocer patrones en estos datos y predecir salidas para un nuevo conjunto de datos similares en una nueva red. información se propaga a través de tres componentes centrales que forman la base de cada nueva arquitectura de red, la capa de entrada, la capa de salida y varias capas ocultas entre las dos. En el siguiente video, repasaremos el proceso de aprendizaje de una nueva red. 4. Proceso de aprendizaje de una red neuronal: el proceso de aprendizaje de Anu let, pero se puede romper en dos procesos principales. Propagación hacia adelante y propagación hacia atrás. La propagación completa es la propagación de la información. Desde la capa de entrada hasta la capa de salida. Podemos definir nuestro insumo. Capa varias neuronas, x uno a centro rec. Estas neuronas se conectan a las neuronas de la siguiente capa a través de canales, y se firman valores numéricos llamados pesos. Los insumos se multiplican a los pesos, y ahí hay algunos sus centros de entrada a las neuronas en la capa oculta, donde cada neurona a su vez se asocia a un valor numérico llamado sesgo, que luego se agrega a lo impotente. Esto esperó. Algunos se pasa entonces a través de una función no lineal llamada función de activación, la cual, esencialmente la cordura de esa neurona en particular puede contribuir a la siguiente capa. En la capa de salida. Es básicamente una forma de probabilidad. El neurón con mayor valor determina cuál es finalmente la salida. Entonces vamos a repasar un par de veces. El peso de una neurona nos dice lo importante que es el tuyo. Cuanto mayor sea el valor, más importante es en la relación. El sesgo es como lo nuevo al tener una opinión hacia la relación misma es desplazar la función de activación hacia la derecha o hacia la izquierda. Si has tenido alguna experiencia con las matemáticas de secundaria, debes saber que al agregar la escala de valor a una función se desplaza una gráfica ya sea a la izquierda o a la derecha. Y eso es exactamente lo que el sesgado ya que desplaza la función de activación a la derecha o a la propagación posterior izquierda es casi como cuatro propagaciones, excepto en sentido inverso. información aquí se pasa de la capa de salida a las capas ocultas son la entrada. Pero, ¿qué información se pasa de la capa de salida? ¿ No se supone que el nuestro lugar es la capa final donde obtenemos la salida final? Bueno, sí, pero ninguna propagación de espalda es la razón por la que los nuevos libros de Net son tan poderosos. Es la razón cuando tus redes pueden aprender por sí mismas. En el último paso antes de la propagación, una nueva red escupe una predicción. Esta predicción podría tener dos posibilidades ya sea correcta o incorrecta y posterior propagación. El nuevo red evaluó sobre el rendimiento y verifica si es correcto o incorrecto. Si está mal, la red utiliza algo llamado función de pérdida para cuantificar la desviación de la salida esperada. Y es esta información la que envió de vuelta a las capas ocultas para que el peso y sesgos se ajusten para que el nivel de precisión de las redes aumente. Visualicemos el proceso de entrenamiento con el ejemplo rial. Supongamos que tenemos un conjunto de datos, dijo este dato, nos da el peso del vehículo al número de mercancías transportadas por el vehículo, y Ultra nos dice si esos vehículos son causa de camiones. Queremos pasar por esta bandeja de datos y nuevos libros Net para predecir causa nuestros camiones en base su peso y va a empezar. Inicialicemos el nuevo libro Net dándole pesos y vicios aleatorios. Estos pueden ser cualquier cosa que realmente no nos importa. Estos valores son tan largos como que ahí en la primera entrada de un conjunto de datos, tenemos peso vehicular igual a un valor que en este caso es de 15 y mercancías en cuanto a. De acuerdo con esto, es un auto. Ahora empezamos a mover estas dimensiones de entrada a través de la red más nueva, así que básicamente lo que queremos hacer es tomar ambos insumos, multiplicarlos por su peso y asesorar, y aquí es donde ocurre la magia, corremos. Esto esperó algunos a través de una función de activación. Ahora digamos que la salida de esta función de activación es 0.1 Esto nuevamente se multiplica por los pesos y se agrega a los bys y finalmente, en la capa de salida. Tenemos una conjetura. Ahora, según este nuevo libro Net, el tipo de legal con 15 de mayo y mercancías a tiene una mayor probabilidad de ser un camión. Por supuesto, no es cierto. Y un nuevo pronóstico neto. Por lo que usamos la propagación de espalda. Vamos a cuantificar la diferencia entre el resultado esperado y el resultado pronosticado usando casi función en mala propagación, ¿ verdad? Voy a volver con un ajustador. El peso inicial aconseja. Recuerda que durante la inicialización de la nueva red, elegimos completamente al azar con consejos mientras realizábamos la propagación de espalda. Estos valores se ajustarán para beneficiar a la ley de predicción. De acuerdo, así que esa fue una interacional a través de la primera pieza del conjunto de datos en la segunda entrada, tenemos peso vehicular, 30 folk y bienes 67. Vamos a utilizar el mismo proceso de antes Madre sangrienta entrada con el peso y coartadas pasa resultado a una función de activación y capa de salida repetidamente, comprobar el aire una diferencia y emplear la propagación de espalda para ajustar el peso en. El sesgo es que tu nueva red seguirá haciendo este repetido proceso de propagación de cuatro , calculando la flecha y luego la propagación posterior. Pero como muchas entradas hay en este conjunto de datos, más datos le dé el nuevo libro Net, mejor. Estará prediciendo el derecho de salida. Pero hay un equilibrio porque demasiados datos y terminarás con un problema como ajuste, que discutiré más adelante en los alcances. Pero así es esencialmente como funciona el trabajo de tierra Manu. Se alimenta la entrada, la red se inicializa. Fue peso aleatorio y vicios los que se ajustan cada vez durante la propagación de espalda hasta que las redes pasando por todos tus datos y ahora es capaz de hacer predicciones. Este algoritmo de aprendizaje se puede resumir de la siguiente manera. En primer lugar, inicializamos el estado de ánimo de la red, los valores aleatorios para las redes, los parámetros o el camino desde los sesgos. Tomamos un conjunto de datos de entrada y los pasamos por la red. Comparamos estas predicciones obtenidas con los valores de las etiquetas esperadas y calculamos la pérdida. Uso de la función de pérdida. Realizamos la propagación de la espalda con el fin de propagar esta pérdida a todos y cada uno de los pesos y sesgos. Utilizamos esta información propagada para actualizar los pesos y vicios de nueva red con el gran algoritmo de descenso de tal manera que se obtenga el total de pérdidas reducidas y en la mañana de batalla . El último paso es seguir iterando los pasos anteriores hasta considerar que tenemos un modelo lo suficientemente bueno. 5. Funciones de activación: en esta sección de la que vamos a hablar. La terminología más común es el uso del deep learning. Hoy, empecemos con la función de activación. La función de activación sirve para introducir algo llamado no linealidad en la red y también decide si una neurona en particular puede contribuir a la siguiente capa. Pero, ¿cómo se decide de lo nuevo en ¿Se puede disparar o activar? Bueno, tuvimos un par de ideas, lo que llevó a la creación de diferentes funciones de activación. La primera idea que tuvimos es qué tal yo activando tu on si está por encima de cierto valor o umbral. Si es menor que este umbral, no lo active. Función de activación A es igual dedo del pie activado si sabia, gran evidencia y umbral de lo contrario no lo es. Esta es esencialmente una función de paso. Su salida es una o activada. Cuando el valor es mayor que cero, su salida se activa cuando el valor es mayor que algún umbral y las salidas no se activan otro modo. Genial. Por lo que esto hace una función de activación para un nuevo en no confusiones. La vida es perfecta, excepto que hay algunos inconvenientes con esto. Para entender, mejor pensar en el prólogo. Piensa en un caso de donde quieres clasificar múltiple tal matiz en clases que clase una clase a clase tres, etcétera. ¿ Qué pasará si se activa más de una neurona? Todas estas neuronas darán salida a un pozo. ¿ Cómo se decide ahora? ¿ Cómo se decide qué clase de revuelo largo? Es complicado, ¿verdad? Te gustaría que el libro Net activara solo uno tuyo y gritara, Debería ser cero cuando. Entonces podrás decir que fue clasificado. Probablemente en la práctica real, sin embargo, es más difícil entrenar convergente de esta manera. Sería mejor. La activación no fue binaria. En cambio, algún valor probable, como 75% activado o 16% activado. Hay un 75% de probabilidad de que pertenezca a clase a etcétera. Entonces, si se activa más de una neurona, se podría encontrar qué incendios neuronales basados en cuál tiene la mayor probabilidad. De acuerdo, tal vez te perdiste. Quiero que algo me dé un valor más analógico en lugar de solo decir activado o no activado algo distinto de binario. Y tal vez te pensaron en una función lineal. Función de línea recta donde la activación es proporcional a la entrada por una llamada de valor. El desnivel de la línea de esta manera. Nos da una gama de activaciones. Entonces no es comprar Reactivación, debilita. Definitivamente conectar unas neuronas juntas. Y si más de uno dispara, podríamos tomar el valor máximo y asignado en base a eso. Entonces eso está bien. ¿ Y cuál es el problema con esto? Bueno, si estás firmemente estuviste genial en disenso, lo cual vendré a ti en tan solo un poco, notarás que la derivada de una función lineal es una constante tiene sentido porque es bits lentos y cambiando en cualquier momento para una función. F X es igual dedo del pie MX plus. Ver, el derivado es M. Esto significa que la calificación no tiene relación alguna con X. También hay significa que durante la propagación de espalda los ajustes realizados a los pesos y dispositivos de dependiente de X en absoluto, y esto no es algo bueno. Adicionalmente, piense en si tiene capas conectadas, sin importar cuántas capas tenga. Si todos ellos son de naturaleza lineal, la función de activación de la capa final no es más que una función lineal de la entrada de la cama de póster de primera capa. Y piénsalo. Esto significa que todo el nuevo libro neto de decenas de capas puede ser reemplazado por una sola capa. Recuerde, una combinación de funciones lineales de la manera lineal sigue siendo otra función lineal. Y esto es terrible porque acabamos de perder la capacidad de estafar a Leah de esta manera. No importa cuánto te re apestaba, toda la red sigue equivalente a un solo ahí con una sola activación. A continuación tenemos una función sigmoide, y si alguna vez has visto funciones de inactivación de un video, este es el tipo de años de función en los ejemplos. Se define una función sigmoide para decir si X es igual a 1/1 más e a la X negativa bien, esto se ve suave y algo así como una función de paso lo que sus beneficios piensan al respecto por un momento. Si bien lo primero es lo primero, se conoce la naturaleza lineal. Las combinaciones de disfunción también son no lineales. Genial para ahora debilitar pila durante años. ¿ Y qué pasa con Norm comprando una re activaciones? Sí, que a esta función fuera lo pone en la activación de registro como función de paso y además cuenta con una radio pequeña. En ventaja de esta función de activación es que a diferencia de la función lineal, la salida de esta función va a estar en el rango 01 incluye en comparación con el infinito negativo a infinito de esta última. Entonces tenemos unas activaciones encuadernadas en el rango y esto no explotará las activaciones, y esto es genial. Y las funciones de señal son una de las funciones de activación más utilizadas hoy en día. Pero la vida no siempre es rosada y señal es tender a tener las desventajas de compartir. Si miras de cerca entre X es igual a negativo dos y X es igual a dos. Los valores Y son muy empinados. Cualquier pequeño cambio en los valores de X en esa región llamará a valores de ancho para que cambien drásticamente. También hacia el final de la función, los valores blancos tienden a responder muy menos. Cambia al siguiente el grado en en esas regiones. Va a ser realmente, realmente pequeño, casi cero, y da lugar a la desaparecida Grady en el problema. Nosotros somos igual de eso. Si la entrada de la función de activación es grande o pequeña, la señal va a machacar eso hasta un valor entre cero y uno, y el gris no se apagó. La disfunción se vuelve realmente pequeña, y verás por qué, cuando hablamos mucho incent. Este es un problema enorme. Otra función de activación que se utiliza. Es un bronceado. Cada función Esto se ve muy similar a la señalización. De hecho, matemáticamente, esto es lo que se conoce como una función sigmoide desplazada. De acuerdo, así que al igual que el sigmoide, tiene características que discutimos anteriormente. Se conoce en la naturaleza, por lo que podemos empezar jugadores está obligado a arreglar desde negativo querido uno. Por lo que no hay preocupación por que exploten las activaciones. El derivado de la función tangente, sin embargo, es más pronunciada que la del sigmoide. Por lo que decidir entre el sigmoide y el tan ege dependería realmente de tu requerimiento del gran interés. Al igual que sigmoide, tanager también es muy popular y ampliamente años función de activación. Y, sí, como el baile sigmoide tanager, han desaparecido problema ridean. la unidad Rectificante LTD, o función de valor Nos definela unidad Rectificante LTD, o función de valor. Si X es igual al máximo de cero impuesto invertido, esto se vería como una función lineal. gráfica derecha es lineal en las partes de acceso, Déjame decirte, más bien fue de hecho, naturaleza lineal conocida y las combinaciones de relativa también son no lineales. Genial, Entonces esto significa que podemos aguantar a los jugadores. No obstante, a diferencia de las dos funciones anteriores se discutirán no está limitado el rango del Ray Lewis desde cero hasta infinito. Esto significa que existe la posibilidad de volar la activación. Otro punto que quisiera discutir aquí es un pasaje e off una activación. Imagina una red nueva y grande con muchas neuronas. Usar un sigmoide o un bronceado provocará que casi todas las neuronas se disparen de manera analógica. Esto significa que se procesarán casi todas las activaciones para describir la salida de las redes. Es decir, la activación serán deudas, y esto es costoso. Idealmente, queremos que solo unas pocas neuronas en la red se activen, y se trata de hacer que el cónyuge de activación y sea eficiente. Aquí es donde entra el rally, imagina, y Red se inicializó aleatoriamente espera en casi el 50% de la red que cero activación . Debido al relativo característico, genera cero para valores negativos de X. Esto significa que sólo el 50% de las neuronas disparan activación escasa, haciendo que la red sea más ligera. Pero cuando la vida te da una manzana, viene con un poco de calor por dentro. Debido a esa línea horizontal en valor para valores negativos de X, el rallado es cero en esa región, lo que significa una propagación posterior perdurable. No se ajustará la espera durante el descenso. Esto significa que esos matices que entran en ese estado dejarán de responder a variaciones en la época simplemente porque la calificación cero nada cambia. A esto se le llama el moribundo Realmente problema. Este problema puede causar siete yuanes, así que simplemente muere y no responde. Eso es hacer pasiva una parte sustancial de la red en lugar de lo que queremos después haya trabajo alrededor para éste, sobre todo es simplemente hacer de la línea horizontal un componente no horizontal agregando una pendiente. Por lo general la pendiente es alrededor de 10.1 En esto, esta nueva versión del Ray Lewis llamada Leaky Value. La idea principal es que la calificación nunca debe ser 01 ventaja mayor de lo relevante es el hecho de que es menos cómputación, la cara que las funciones como manejar y sigmoide porque implica símbolo, una matemática operaciones. Este es un punto realmente bueno a considerar cuando estabas diseñando tus propias redes neuronales profundas . Genial. Entonces ahora la pregunta es ¿qué función de activación usar por las ventajas que más bien ofrece? ¿ Significa esto que debes usar todo lo relevante que hagas? ¿ O podría considerar sigmoide y daño? Bueno, ambos. Cuando sepas que la función que estás intentando aproximar tiene ciertas características, debes elegir una función de activación, pero que aproximará la función más rápido, lleva a procesos de entrenamiento más rápidos. Por ejemplo, una función sigmoide funciona bien para problemas de clasificación binaria, porque aproximar las funciones de un clasificador como combinaciones del cartel es más fácil que quizás el relativo. Este alivio de procesos de entrenamiento más rápidos y mayor convergencia puedes usar tus propias funciones personalizadas para. Si no conoces la naturaleza de la función que estás tratando de aprender, sugiero que te pares con familiares y luego trabajes hacia atrás desde ahí antes de pasar a la siguiente sección. Quiero hablar de por qué usamos funciones de activación lineal conocidas a diferencia de las de cualquiera. Si recuerdas en mi definición, desactivadas funciones de activación, mencioné que la función de activación sirvió para hacer algo llamado Naledi ya en el libro de la Red para todos los propósitos intensivos. Introducir la no linealidad simplemente significa que tu función de activación debe ser lineal larga. Esa no es una línea recta. Funciones matemáticamente lineales, consternadas, un grado normal, una que fue injerto en el plano X Y son líneas rectas inclinadas al eje X a cierto valor. esto lo llamamos la pendiente de la línea. No hay nuevas funciones sobre normales de grado mayor que una, y cuando gruesos, el hacer forma préstamos ambulantes en lugar de más código. Si utilizamos funciones de activación lineal para modelar un dato, el no importa cuántas capas ocultas y manos de red, siempre se volverá equivalente a tener un solo día en red y en deep learning. ¿ Querrás poder matutino cada vez datos Con eso siendo restringido, como sería el caso se deben utilizar funciones de préstamo. 6. Funciones de pérdida: discutimos previamente en el proceso de aprendizaje de los libros New Net que empezamos con peso aleatorio y sesgos. El nuevo y lo pongo hace una predicción. Esta predicción se compara con la producción esperada, y el peso y los vicios se ajustaron en consecuencia. Bueno, Lois funciones de la razón por la que somos capaces de calcular esa diferencia realmente simplemente función perdida es una forma de cuantificar la desviación de la salida prevista por la nueva red a la salida esperada es tan simple es que nada mote, nada menos. Ahí afuera hay un montón de las funciones. Por ejemplo, bajo regresión, hemos cuadrado siempre perdidos, absolutos jamás perdidos en Cuba, pérdidas y comprando una reclasificación. Hemos estado muy cerca de entropía y pérdida de bisagra y problemas de clasificación de multiclase. Tenemos la entropía cruzada de clase madre en el callback difamación o desvíos pérdida, y así uno. La elección de la mejor función realmente depende de qué tipo de proyecto de trabajar en diferentes proyectos eran funciones de pérdida bastante diferentes. Ahora no quiero hablar más funciones de pérdida ahora mismo. Haremos esto bajo la sección de optimización porque ahí es realmente donde se aprovechanla mayoría de las funciones aprovechan 7. Optimizadores: en la sección anterior lee F con funciones perdidas con tus formas matemáticas de medir cómo las predicciones equivocadas hechas por nuevo networker Durante el proceso de capacitación, ajustamos y cambiamos los parámetros de los pesos del modelo para tratar de minimizar eso función de pérdida y adicciones al maquillaje lo más correctas y optimizar como sea posible. Pero, ¿cómo exactamente lo haces? ¿ Cómo se cambian los parámetros de inmortal por cuánto y cuándo tenemos los ingredientes, Cómo hacemos el pastel? Aquí es donde entran los optimizadores. Están tratando de conseguir la función perdida sobre parámetros morales o los asesores de peso actualizando la red en respuesta a la salida de la función perdida. En pueblos más simples, optimiza la forma y moldea tu modelo en modelos más precisos ajustando los pesos y sesgos. La función de pérdida es su guía. Le dice al optimizador, si está moviendo la dirección correcta o incorrecta. ¿ Quieres mandar esto mejor? Imagínese. ¿ Acabas de tener col rizada Monte Everest? Y ahora decides descender la montaña ciega hacia adelante. Es imposible saber en qué dirección ir. Podrías o subir, que está lejos de hace o bajar. Sólo somos palabras. Te vas, pero empiezan. Estarías de pie a dar pasos. Usando tus pies, podrás medir si vas hacia arriba o hacia abajo. En esta analogía, te pareces a la red más nueva. Bajando. Tu objetivo es intentar minimizar el error. En tus pies se asemeja a las funciones que miden, ya sea que vayas por el camino correcto o por el camino equivocado. De igual manera, es imposible saber cuáles deben ser tus pesos de las mañanas desde el principio. Pero con algún ensayo y error basado en la función perdida, podrías terminar llegando al final. Pero ahora llegamos a gradar descenso. A menudo llamado el abuelo de Optimizadores, descenso de gradación es un algoritmo iterativo que inicia un poco de punto aleatorio de la función de pérdida y recorrió esa pendiente en pasos hasta llegar al Punto Louis con un mínimo de función es el optimizador más popular reutilizado hoy en día. Es rápido, robusto y flexible, y así es como funciona. Pero no podemos liderar qué pequeño cambio en cada peso individual. Debido a la función de pérdida, teníamos apenas cada tasa individual basada en su int codicioso, es decir, dar un pequeño paso en la dirección determine. El último paso es repetir el primer y el segundo paso hasta que la función perdida se vuelva lo más baja posible . Yo quiero hablar de esta noción de tía abuela. El Grady int de una función es el vector de los derivados parciales con respecto a todas las variables independientes. El grande en siempre apunta en la dirección del incremento más pronunciado en la función. Supongamos que tenemos una gráfica como esa, con pérdida en el eje Y sobre el valor del peso en el eje X, tenemos un pequeño punto de datos aquí que corresponde a la espera inicializada aleatoriamente para minimizar una lentitud. Entonces eso es para obtener este punto de datos del mínimo con función, necesitamos tomar la cuadrícula negativa. Y como queremos encontrar la disminución y función más pronunciadas, este proceso sucede. OSI letales interpretativos lo más minimizan posible, y eso es genial y descendieron. En pocas palabras. Cuando se trata de conjuntos de datos de alta dimensión, eso es lote disponible. Es posible que te encuentres en un área donde parece que recientemente has sido posible valor para tu función de pérdida, pero en realidad es solo un mínimo local para evitar atascarte en un mínimo local. Nos aseguramos de utilizar una tasa de aprendizaje adecuada. Cambiar espera demasiado rápido agregando o restando demasiado,es decir, es decir, tomar pasos que son demasiado grandes o demasiado pequeños puede obstaculizar su capacidad para minimizar la función de pérdida . No queremos hacer un salto tan grande que saltemos el valor óptimo para una espera dada para asegurarnos de que esto no suceda. Utilizamos una variable llamada Tasa de Aprendizaje. Si esto suele ser solo un número pequeño como Point the Receiver uno que multiplicamos el verde en comprar para escalar de nuevo, esto asegura que cualquier cambio que hagamos todos espere un bastante pequeño en charla de matemáticas. Tomar pasos que son demasiado grandes puede significar que el algoritmo nunca confluirá a un óptimo. Al mismo tiempo, no queremos dar pasos demasiado pequeños, porque entonces quizá nunca terminemos con los valores correctos. Para todas las tasas en matemáticas, pasos de conversación que son demasiado pequeños podrían llevar a optimizar una convergencia en un mínimo local para la función de pérdida, pero nunca el mínimo absoluto para un simple resumen. Simplemente recuerda que la tasa de aprendizaje asegura que cambiemos nuestro peso al ritmo correcto, sin hacer ningún cambio que sea demasiado grande o demasiado pequeño. En lugar de calcular los INTs Grady, todos tus ejemplos de entrenamiento en cada pase de la tumba en por ciento a veces más pesca para usar solo un subconjunto de los ejemplos de entrenamiento cada vez. Grado sarcástico en disentimiento es una implementación que o bien utiliza lotes de ejemplos a vez en ejemplos aleatorios en cada pase. Estancia gas pactado. En este fin, años del concepto de impulso acumula Grady INTs de los pasos pasados para dictar lo que podría suceder en los próximos pasos. Además, debido a que no incluimos todo el conjunto de entrenamiento, S g d es menos computacional, costoso. Es difícil exagerar lo popular que es realmente el descenso de gradación. Volver Propagación es básicamente reja descenso implementado en una red. Son todas las pestañas de optimiza bracing, genial en disentimiento que se usan hoy en día, y un agarre adapta la tasa de aprendizaje específicamente a características individuales, luego significan que parte del peso en tu conjunto de datos tendrá un aprendizaje diferente tasas que otras. Esto funciona realmente bien para conjuntos de datos escasos, donde faltan muchos ejemplos de entrada. Adigrat tiene un problema importante, aunque la tasa de aprendizaje adaptativo tiende a conseguir horas extra muy, muy pequeñas. RMS prop es una versión especial de Adigrat, desarrollada por el profesor Geoffrey Hinton. En lugar de dejar que todos los grados Ian's se acumulen desde el momento, acumula saludos en una ventana fija. prop de RMS es similar a agregar un prop, que es otro optimizador que busca resolver parte del tema que en un Grand deja abierto, Adam representa estimación de momento adaptativo y es otra forma de usar la credencia pasada para calcular el carbono radiante. Adam también utiliza el concepto de impulso, que es básicamente nuestra forma de decirle al nuevo error de izquierda si queremos que los cambios de paso afecten al nuevo cambio. Al agregar fracciones de los grandes ins anteriores al actual, Este optimizador se ha generalizado bastante, y es prácticamente aceptado para su uso en el entrenamiento de nuevas redes. Es fácil perderse en la complejidad de algunos de estos nuevos optimizadores. Sólo recuerda que todos tienen el mismo objetivo. Minimizar la función de pérdida y el ensayo y error te llevarán hasta allí 8. Parámetros VS Hyperparameters: pudiste haberme escuchado refiriéndose bastante a las palabras parámetros, y muchas veces esto se confundía con los tomos hiper parámetros y este video. Voy a delinear la diferencia básica entre los dos. Un parámetro moderno es una variable que es interna a la nueva red y cuyos valores se pueden estimar a partir de los propios datos. Son requeridos por el modelo al hacer predicciones. Estos valores definen la habilidad fuera del modelo en tu problema. Se pueden estimar directamente del ciervo y a menudo no son fijados manualmente por el peticionario. Y muchas veces, cuando salvas a tu modelo, esencialmente estás salvando a tus mortales. Parámetros. Los parámetros son clave para los algoritmos de aprendizaje automático, y ejemplos de estos incluyen el peso y los sesgos. Ah, hiper parámetro es una configuración que es externa al modelo y cuyo valor no se puede estimar a partir de datos. No hay manera de que podamos encontrar el mejor valor para un modelo hiper parámetros. En un problema dado, podemos usar reglas de valores de copia pulgar, usar otros problemas o buscar el mejor valor probando un error. Cuando un algoritmo de aprendizaje automático está sintonizado para un problema específico, como cuando estás usando una gran búsqueda de búsqueda aleatoria, entonces estabas, hecho, sintonizando los hiper parámetros del modelo. En fin descubrieron los parámetros que dieron como resultado las predicciones más cuidadosas. hiper parámetros morales a menudo se refieren como parámetros, lo que puede hacer que las cosas sean confusas. Entonces una buena regla de oro para superar esta confusión es la siguiente. Si tienes que especificar un parámetro manualmente, entonces es probablemente, ah, hiper parámetros. Los cierreros están en el cielo a la misma mañana. Algunos ejemplos de hiperparámetros incluyen la tasa de aprendizaje para el entrenamiento, una nueva red, ver en Sigma, hiper parámetros para máquinas vectoriales deportivas en la clave y vecinos de Can Urus. 9. Epochs, lotes, tamaños de lazo y Epochs,: Necesitamos terminologías como épocas, mal tamaño e inspiraciones solo cuando los datos son demasiado grandes, lo que sucede todo el tiempo en el aprendizaje automático y cuando no podemos pasar todos estos datos a la computadora a la vez. Entonces para superar este problema, necesitamos dividir el conjunto de datos en trozos más pequeños, dárselo a una computadora uno por uno en actualizar el peso de la nueva red al final de cada paso para encajarlo en los datos. Dada una época es cuando todo un dato dicho se pasa hacia adelante hacia atrás a través de la red. Una vez, en la mayoría de los modelos de deep learning, utilizamos más de una época. Sé que sí tiene sentido al principio. ¿ Por qué necesitamos una póliza? Datos enteros dijeron muchas veces a través de lo mismo en tu red, pasando todo el conjunto de datos a través de la red en una vez que está tratando de leer toda la letra de una canción. Una vez que no podrá recordar toda la canción de inmediato, hay que volver a leer la letra un par de veces más antes de poder decir, ya conoces la canción de memoria. Lo mismo sucede con la nueva red. Pasamos los datos dicho varias veces a través de la nueva red, por lo que su capacidad de generalizar mejor descenso de calificación es un proceso iterativo. Y actualizar parámetros y retropropagación en un solo pase o ganó un Polk no es suficiente. A medida que aumenta el número de Papas, más se ajusten los parámetros, lo que lleva a un mortal de mejor desempeño. Pero para muchos, parques podrían deletrear desastre. En efecto, es algo llamado sobre el ajuste, donde el modelo tiene esencialmente recuerdos de patrones en los datos de entrenamiento. En el rendimiento terriblemente. UNDADO Nunca se había visto antes. Entonces, ¿cuál es el número correcto de libros E? Desafortunadamente, no hay una respuesta correcta. La respuesta es diferente para diferentes conjuntos de datos. En ocasiones tus datos en segundo lugar incluyen millones de ejemplos que mandan todo este dato dicho a la vez. Se vuelve extremadamente difícil. Entonces lo que hacemos en su lugar es dividir el conjunto de datos en una serie de lotes en lugar de pausar todos los datos dicho una vez que el número total de ejemplos de capacitación presentes en un solo lote se llama situaciones de tamaño de lote es el número de lotes necesarios para completar un libro e , no el número de lotes, es igual al número de sus oraciones. Para un libro e, digamos que tenemos un conjunto de datos de $34 ejemplos de capacitación. Si dividimos el dato dicho en dos lotes de 500 entonces tomará 60. Dio inspiración para completar un iPAQ. 10. Conclusión a las terminaciones de las terminaciones: bueno, espero que eso les dé algún tipo de sentido sobre la terminología muy básica es años y aprendizaje profundo antes de que sigamos adelante. Yo sí quiero mencionar esto, y ustedes verán esto mucho. En el aprendizaje profundo, a menudo tienes un montón de opciones diferentes que tomar. Cuántas capas ocultas debo elegir o qué función de activación debe usar y dónde. Y para ser honesto, no hay lineamientos claros en cuanto a lo que intentas debe ser siempre. Esa es una parte divertida del aprendizaje profundo. Es extremadamente difícil saber al principio ¿cuál es la combinación correcta para usar para tu proyecto? Qué caja de mí, mi cuaderno para ti y una sugerencia de mi extremo sería que te metes junto con materiales, mostrar dr diversas combinaciones y ver lo que funciona para tu mejor. En última instancia, ese es un proceso de aprendizaje para conducir no intencionado esta costa. Te daré parte un poco de intuición en cuanto a lo que es popular para que a la hora construir un proyecto de deep learning, no te encuentres perdido 11. Regulación de regulación: un problema central en el aprendizaje profundo es cómo hacer un algoritmo que se desempeñe bien. No, solo en datos de capacitación, sino también en nuevos insumos. Uno de los retos más comunes que enfrentarás cuando los modelos de entrenamiento es un problema fuera de adecuar una situación en la que tu mañana se desempeñe excepcionalmente bien en los datos de entrenamiento. El dato de pruebas norden. A ver, tengo una cita a un lado. Injerto en el plano X Y como así Ahora quiero construir un modelo que mejor se ajuste al conjunto de datos . Lo que podría hacer es dibujar línea de algún aleatorio, lento, sido insecto. Ahora, evidentemente, esto no es lo mejor más y de hecho, esto se llama bajo ajuste porque no se ajusta al modelo. Bueno, de hecho, subestima el conjunto de datos. Dijo. Lo que podríamos hacer es trazar una línea que se vea algo así. Que esto realmente encaja están de luto lo mejor. Pero esto es más apropiado. Recuerda, el mientras entrenamos mostramos nuestras redes y datos de entrenamiento, y una vez hecho eso, esperábamos estar casi cerca de perfectos. El problema con esta gráfica es que aunque probablemente sea la mejor línea de ajuste para esta gráfica, es la mejor línea de ajuste. Sólo te sientes considerando tus datos de trading, ¿lo harías? Net Book está abajo en esta gráfica se memoriza patrones entre los datos de entrenamiento y no daría predicciones precisas en todos los datos. Nunca se había visto antes. Y esto tiene sentido porque el conjunto de patrones de memorización generalmente para rendir bien tanto en el entrenamiento como en los nuevos datos de pruebas. Nuestra red, de hecho, ha memorizado los patrones sólo en los datos de capacitación. Por lo que obviamente quieres rendir bien en nuevos datos nunca antes había visto. Este es un problema apagado sobre el ajuste. Se ajustaba demasiado. Y por cierto, este sería el tipo de ajuste más preciso. No es perfecto, pero un poco bien tanto en el entrenamiento, como en los nuevos datos de pruebas con una precisión considerable. Hay un par de formas de abordar sobre el ajuste. El tipo de regularización más interesante es la deserción. Producía muy buenos resultados y en consecuencia es la técnica de regularización más utilizada y campo de aprendizaje profundo. Para entender, abandonar. Digamos que tenemos una nueva red con dos capas ocultas caerán pero sí es que en cada iteración seleccione aleatoriamente algunas notas y eliminarlas, junto con sus conexiones entrantes y salientes y se muestran así Cada iteración tiene un diferente conjunto de notas, y esto da como resultado un conjunto diferente de salidas. Entonces, ¿por qué estos modelos funcionan mejor? Estos modelos suelen funcionar mejor que un solo modelo ya que capta más aleatoriedad y memoriza menos de los datos de entrenamiento y por lo tanto se forzará a generalizarlo mejor y construir un más robusto, predicho más. A veces la mejor manera de hacer que un modelo de aprendizaje profundo se generalice mejor es entrenarlo en más datos. En la práctica, la cantidad de datos que tenemos es limitada, y una forma de evitar este problema es crear datos y actitudes falsos. El entrenamiento se puso para algunas tareas de aprendizaje profundo. Es razonablemente sencillo crear nuevos ciervos falsos. Este enfoque es más fácil para la clasificación. Clasificado necesita tomar complicado, alta dimensión entrada X y resumir de con la identidad de categoría. Por qué esto significa que la tarea principal que enfrenta su clasificador es estar en muy en una amplia variedad de transformaciones. Recon generar nuevos X y pez fácilmente simplemente aplicando transformaciones en la entrada X Y En nuestro conjunto de datos de entrenamiento el aumento ha sido una técnica particularmente efectiva para un problema de clasificación específico. Las imágenes de reconocimiento de objetos son de alta dimensión e incluyen una enorme gama de factores de variación, muchos de los cuales se pueden simular fácilmente operaciones como traducir las imágenes de entrenamiento. Unos pocos píxeles en cada dirección a menudo pueden mejorar enormemente la generalización muchas otras operaciones, como la rotación de la imagen. Escalar la imagen también han resultado bastante efectivo. Debes tener cuidado multiplicar la transformación que cambiaría la clase correcta. Por ejemplo, reconocimiento óptico de caracteres talus ted requería reconocer la diferencia entre un B y A D y la diferencia entre un seis y molestos giros horizontales e invitaciones de 180 grados no son apropiados. Rayos de organización de conjuntos de datos para estos House Al capacitar modelos grandes con capacidad representacional suficiente sobre encajar la tarea. A menudo observamos que el error de entrenamiento disminuye de manera constante con el tiempo, pero cada conjunto de validación comienza a subir de nuevo. Esto significa que podemos obtener un modelo con mejor validación, dicho error, y así ojalá mejores pruebas esa flecha al detener el entrenamiento en el punto donde el aire en el conjunto de validación comienza a aumentar. Esta estrategia se conoce como parada temprana. Es probablemente la ex regularización más utilizada en la actualidad en el aprendizaje profundo. Su popularidad se debe tanto a su efectividad como a su simplicidad. 12. Introducción al aprendizaje: en esta sección, vamos a hablar de los diferentes tipos de running, que son conceptos de machine learning. Pero extendí a deep learning su cuerda esta costa repasaremos el aprendizaje supervisado, el aprendizaje sin supervisión y el aprendizaje de refuerzo. 13. Aprende con supervisión: aprendizaje supervisado es el aprendizaje automático sub rama más común hoy en día. Por lo general, incluso utilizar un aprendizaje automático tu viaje comenzará con algoritmos de aprendizaje supervisados. Exploremos qué son supervisados estos. Los algoritmos de aprendizaje automático están diseñados para aprender con el ejemplo. El nombre de aprendizaje supervisado se origina a partir de la idea de una formación. Este tipo de algoritmo es casi como si hubiera un humano supervisando todo el proceso. En el aprendizaje supervisado, formamos modelos sobre datos bien etiquetados. Cada ejemplo es un paquete que insiste a menudo objeto de entrada, que suele ser un vector, y un valor de salida de diseño. Vieja para llamar a la señal de supervisión haciendo capacitación se supervisa. Algoritmo de aprendizaje buscará patrones en los datos que se correlacionen con las salidas de diseño . Después de la capacitación, tomará unos nuevos insumos inéditos y determinará qué etiqueta se clasificarían como los nuevos insumos con base en datos de capacitación previos. El objetivo, fuera modelo de aprendizaje supervisado es predecir la etiqueta correcta de los datos de entrada recién presentados. En su forma más básica, un algoritmo de aprendizaje supervisado puede simplemente escribirse como vientos iguales fx. ¿ Por qué la salida prevista que se determina por función de mapeo que asigna una clase han sido valor de entrada? X, la función utilizada para conectar entidades de entrada a una salida predecida es creada por la máquina . Muy modelo. Durante el comercio, aprendizaje supervisado se puede dividir en do algunas categorías clasificación y regresión haciendo capacitación. dará un algoritmo de clasificación punto de datos dentro de la categoría asignada. El trabajo de una clasificación argo ellos es entonces tomar este valor de entrada y asignado a un costo de categoría en el que encaja. En base a los datos de capacitación proporcionados, el ejemplo más común de clasificación es determinar para un correo electrónico es spam o no con dos clases de jugo del spam o no spam? Este problema se denomina problema de clasificación binaria. Al algoritmo se le darán datos de capacitación con correos electrónicos que sean tanto spam como no spam. En modelo encontrará las entidades dentro de los datos que Corleto ya sea clase y crear función de mapeo. Entonces, cuando se le proporciona un correo electrónico no visto, el modelo realmente utiliza la función para determinar si el correo electrónico fue empaquetado o no. Un ejemplo de un problema de clasificación sería el conjunto de datos de dígitos escritos a mano más mezquinos donde las imágenes de entrada de dígitos escritos a mano Bixel, vedo y la salida es una etiqueta de clase. ¿ Para qué dígito? El imagen representa que es el número cero esta noche. Existen numerosos algoritmos para resolver problemas de clasificación cada uno, lo cual depende de los datos y la situación. A continuación te presentamos algunos algoritmos de clasificaciones populares. Muchos clasifican el apoyo del IRS de vuelta a las máquinas. Árboles de decisión llegaron vecinos más cercanos en Dragon Forest. regresión es un proceso estadístico predictivo donde el modelo intenta encontrar la importante relación entre variables dependientes e independientes. El objetivo de un algoritmo de regresión es predecir un número continuo como alcances de un índice de ingresos por ventas . La ecuación para básicamente en la regresión se puede escribir como pliegues Rex. Si represento las características de los datos y W de I y B son parámetros que se desarrollan durante el entrenamiento para simple, entonces eres modelos de regresión con solo una característica en los datos. La fórmula se ve así. Donde W es una Slope X es la característica única, y B es por qué insecto familiar Para problemas de regresión simples como este, las predicciones del modelo están representadas por la línea de mejor ajuste para los modelos que utilizan dos características, una avión es años, y para modelos con más de dos características, Ah, temas de hiper avión. Imagina que quisiéramos decirle a muchos estudiantes grado de prueba en base a cuántos siempre un estudio la semana de la prueba. Digamos que los datos más con línea de Best fit se ven así. Existe una clara correlación positiva entre se Estudian, la Variable Independiente y los Estudiantes finales. Tesco la Variable Dependiente ah, línea de mejor ajuste se puede trazar a través de los puntos de ciervo para mostrar las predicciones morales cuando se les da nuevo insumo, diciendo que queríamos saber qué tan bien haría un estudiante con cinco horas de estudio, podemos utilizar la línea de mejor ajuste para predecir el Tesco en base a las actuaciones de otros estudiantes. Otro ejemplo de problema de regresión sería el conjunto de datos de precios de Boston House con la entrada de variables que describen el barrio y la salida es un precio de vivienda en dólares. Existen muchos tipos diferentes de algoritmo de regresión tres. más comunes son la regresión vigna, la pérdida de regresión y la regresión multivariante. El aprendizaje supervisado encuentra aplicaciones y problemas de clasificación y regresión como bioinformática, como una huella dactilar de iris y reconocimiento facial y smartphones, reconocimiento de objetos, detección de spam y habla reconocimiento. 14. Aprende no supervisado: El aprendizaje no supervisado es una rama del aprendizaje automático que se utiliza para manifestarse a diferencia patrones y datos y se utiliza con frecuencia en el análisis exploratorio de datos. A diferencia de respuesta de aprendizaje supervisado. tanto que el aprendizaje no utiliza datos de etiqueta sino que se centra en las características de los datos, los datos de capacitación de etiquetas tienen un resultado correspondiente para cada entrada. El objetivo, a menudo algoritmo de aprendizaje no supervisado es analizar datos y encontrar características importantes. En esos datos, aprendizaje no supervisado suele encontrar subgrupos o patrones ocultos dentro. El dato decía que un observador humano podría no retomar, y esto es extremadamente útil como construir pronto. Entérate de que el aprendizaje no supervisado puede ser de dos tipos. Agrupar una asociación. clustering es la más simple y entre las aplicaciones más comunes del aprendizaje no supervisado . Se trata de un proceso de caída de los datos dados en diferentes clústeres o grupos. Clases condicionarán punto de datos que lo más similar posible entre sí y como esto similar como sea posible a los datos apuntados. Ahora, el enyesado de los clústeres ayuda a encontrar patrones subyacentes dentro de los datos que pueden no ser perceptibles a través de un observador humano. Dame un desglosado en pop. Partición de clustering adicional y clustering jerárquico. Todo clustering hace referencia a un conjunto de algoritmos de clustering donde cada punto de datos de un conjunto de datos puede pertenecer a un solo clúster. jerárquico encuentra clústeres por sistema de Pie Rockies. Cada punto de datos puede pertenecer a múltiples agitaciones de clase. Algunas clases contendrán clústeres más pequeños dentro de él. Este sistema de jerarquía se puede organizar como un diagrama de árbol. Algunos de los algoritmos de clustering más utilizados son k significa maximización de expectativa. El análisis de clúster jerárquico de la asociación U. C A, por otro lado, intenta encontrar relaciones entre diferentes entidades. El ejemplo clásico de reglas de asociación es el análisis de canasta de mercado. Esto significa utilizar una base de datos de transacciones en el supermercado para encontrar artículos que frecuentemente se compran juntos. Por ejemplo, una persona y las papas sesgadas en hamburguesas suelen comprar cerveza. Por ejemplo, persona aconsejó que los tomates y el queso de pizza pudieran querer ser pan de pizza. Por lo que en supervisado, solitario encuentra aplicaciones casi en todas partes. Por ejemplo, un B y B, que ayuda a acoger días y experiencias y a conectar a personas de todo el mundo. Esta aplicación utiliza algoritmos de aprendizaje no supervisados donde la consulta potencial del cliente es un requisito y A B y B aprende estos patrones y recomienda estancias y experiencias que caen bajo el mismo grupo de persona jugador de cluster que busca casas en San podría no estar interesado en encontrar casas en Boston. Amazon también utiliza el aprendizaje no supervisado para aprender las compras de los clientes y recomendar productos que con frecuencia se reúnen, lo cual es un ejemplo de minería de reglas de asociación. La detección de fraudes con tarjetas de crédito es otro algoritmo de aprendizaje no supervisado que aprende los diversos patrones de un usuario y un uso de tarjeta de crédito. genera el número de tarjetas en partes que no coinciden con el comportamiento y alarma, lo que posiblemente podría estar marcado como fraude. Y en algunos casos, tu mente bancaria te llamó para confirmar si eras tú usando la tarjeta o no. 15. Aprendizaje por refuerzo: refuerzo. El aprendizaje es un tipo de técnica de aprendizaje automático que permite a un agente aprender en un entorno interactivo por ensayo y error, utilizando la retroalimentación de sus propias acciones y experiencias como el aprendizaje supervisado, utilizando mapeo entre la entrada y la salida. Pero a diferencia del aprendizaje supervisado donde se alimenta, eso proporcionado al agente es un conjunto correcto de acciones para realizar una tarea. El aprendizaje de refuerzo utiliza recompensas y castigos como señales de comportamiento positivo y negativo cuando te comparas con aprendizaje no supervisado El aprendizaje de refuerzo es diferente en cuanto a sus objetivos, mientras que el dorado sin supervisión aprender es encontrar similitudes y diferencias entre los puntos de datos en el refuerzo. Aprender el objetivo es encontrar un modelo de acción adecuado que maximice la recompensa total acumulada del refuerzo agente. El aprendizaje se refiere a algoritmos orientados a objetivos que aprenden a alcanzar un objetivo o meta complejo , o cómo maximizar a lo largo de una dimensión particular a lo largo de muchos pasos. Por ejemplo, pueden maximizar el punto de uno en el juego sobre muchos movimientos. Los algoritmos de aprendizaje de refuerzo pueden partir de una pizarra en blanco y, las condiciones adecuadas, lograr un rendimiento sobrehumano como una mascota incentivada por regañar y tratar, estos algoritmos son penalizados cuando hacen el mal decisiones y recompensadas cuando hacen las correctas. Se trata de refuerzo. El aprendizaje suele ser modelo como una marca de proceso de decisión, aunque otros marcos como tú aprendiendo sin usar algunos términos clave. Describí los elementos fuera de un problema de aprendizaje de refuerzo fuera del entorno, que es el mundo físico en el que opera el agente. El estado representa una situación actual del agente. La recompensa es una retroalimentación recibida del medio ambiente. Política en ocasiones es el método para mapear el estado del agente a las acciones de los agentes. Y por último, el valor es una recompensa futura que un agente recibirá al tomar una acción en un estado particular . Un problema amoroso de refuerzo se puede explicar mejor a través de las ganancias. Tomemos el juego de Patman si el oro del agente o Pacman es comer la comida en la parrilla mientras evitamos a los fantasmas en su camino. El mundo de la cuadrícula es el entorno interactivo para el agente. Packman recibe una recompensa por comer comida y castigo. Si lo mata el fantasma, es decir, pierde el juego. El estado de la ubicación fuera de Pac Man en la varita de la Grid y la recompensa total acumulada es Packman ganando el juego. Refuerzo edificio hallazgos, aplicaciones y robótica estrategia de negocio planeando el tráfico como un sistema Web conducido, configuración y control de movimiento de aviones y robots. 16. Introducción a las arquitecturas de redes neuronales: en esta sección, voy a presentar los tres tipos más comunes de nuevas arquitecturas de libros de plomo hoy por cuota reconectada para cuando sus redes repita sus redes y convolución solo sus redes. 17. Las Fully-Connected la alimentación completa hacia redes neurales: El primer tipo de nueva arquitectura de red que vamos a discutir es un paso adelante totalmente conectado . Nueva red. Por totalmente conectado, quiero decir que cada neurona en la capa anterior está conectada a cada neurona en la capa posterior, sin ninguna conexión hacia atrás. No hay ciclos ni bucles en las conexiones en la red. Como mencioné anteriormente, cada neurona en una nueva red contiene una función de activación que cambia la salida de una neurona cuando se le da su entrada. Existen varios tipos de funciones de activación. Puedo cambiar esta relación de entrada salida para hacer una nueva. Comportarse en una variedad de ondas algunas de las funciones de activación más conocidas de riel de una función lineal , que es una línea recta que esencialmente multiplica la entrada por un valor constante. La función sigmoide que oscila entre 0 y 1. El tangente hiperbólico o función botánica, que van desde uno negativo positivo en la unidad inclinada rectificada o la función rela, que es una pieza blanca función que da salida cero. Si la entrada es menor que un valor determinado, todos Alinea múltiplo si la entrada es mayor que un valor determinado. Cada tipo de función de activación tiene sus pros y sus contras. Por lo que los usamos en varias capas en la profunda nueva red basada en el problema cada uno de diseñado para sal. Además, las últimas funciones de reactivación a las que nos referimos como funciones no lineales porque la salida no es un múltiplo lineal de la entrada saber Lenny ya es lo que permite profundas nuevas redes modelar funciones complejas. Usando todo lo que hemos aprendido hasta ahora, podemos crear una amplia variedad de pies totalmente conectados para cuando tus libros de la Red de lectura creen redes con entrada diversa. Muy reciente poner varias capas ocultas, matiz para capa oculta y una variedad de funciones de activación. Estas numerosas combinaciones nos permiten crear una variedad de redes poderosas, profundas y nuevas que pueden resolver la variedad vinícola de problemas. La luna que quieres estar en cada capa oculta, se vuelve la ancha del libro Net. Además de segar, esconden se pone nosotros y cuanto más profunda se vuelve la red, sin embargo, cada nuevo sobre añadimos aumenta la complejidad, y ese es un recurso computacional necesario para entrenar. Aumenta una nueva red. Esta creciente complejidad no es lineal en el número de neuronas iniciadas, por lo que lleva de una explosión y complejidad y tiempo de entrenamiento para grandes redes nuevas. Eso es recto. Si necesitas considerar cuando construías redes profundas, nuevas 18. Redes neurales recurrentes: todas las nuevas redes. De verdad, Scott. Por el momento, yo conocía como feed para uno sus redes la toma de entrada de tamaño fijo y le da una solución. Ojos esfuerzo. Eso es todo para nosotros. Y eso es lo que esperamos que hagan nuevas redes. Tomó un insumo y dar un Appert considerable. Pero como resulta, estos llanos o vainilla en los libros unitarios no son capaces de modelar cada problema con la rehabilitación hoy en día. Para entender mejor esto, utiliza esta analogía. Supongamos que te muestro la imagen de un tazón, un cuenco esférico redondo que se movía en el espacio en alguna dirección. Acabo de tomar una foto del tazón o una instantánea del tazón en algún momento. T Ahora quiero que predigas la siguiente posición del tazón y digas dos o tres segundos. Probablemente no me vas a dar una respuesta precisa. Ahora veamos otro ejemplo. Supongamos que me desperté con usted y diga, el pato de madera. Nunca entenderás mi declaración porque, bueno, no tiene sentido. Hay combinaciones trilling usando únicamente la palabra perro y entre estos trillones combinaciones no espero usar. Y ahora adivina lo que intento decirte lo que estos dos ejemplos tienen en común es que no tiene sentido. No lo hace. En el primer caso, espero que predigas la siguiente posición a tiempo y en el segundo espero entender a qué me refiero por perro. Estos dos ejemplos no pueden entenderse e interpretarse a menos que se suministre cierta información sobre el pasado. Ahora, en el primer ejemplo, si te doy los estados de posición anteriores del balón y ahora te pido que predigas la trayectoria futura del balón, vas a poder hacer esto con precisión. Y en las segundas puertas de eso te doy una frase completa diciendo que tengo un doc. Esto tiene sentido porque ahora entiendes que del billón de posibles combinaciones involucran a un perro, mi intención original era que entiendas que tengo un pato. ¿ Por qué te di este ejemplo? ¿ Cómo se aplica esto a las nuevas redes? En la introducción, dije, vainilla en sus redes puede matutina cada situación de problema que tengamos. Y el mayor problema, resulta, es un alimento llano de vainilla. Para cuando sus redes no pueden modelar datos secuenciales, los datos secuenciales son datos de la secuencia. Por ejemplo, una oración es una secuencia de lo que es una bola que se mueve en el espacio. Una secuencia de la posición de Ola establece en la frase que te había mostrado entender cada palabra basándose en tu comprensión fuera de las partes anteriores. A esto se le llama Miembro secuencial. Es capaz de entender el punto de datos en la biomemoria de secuencia del punto de datos anterior en esa secuencia. Las nuevas redes tradicionales no pueden hacer esto, y parece una deficiencia importante. Una de las desventajas de las secuencias matutinas fueron los nuevos dólares netos tradicionales es el hecho que no comparten parámetros a lo largo del tiempo. Tomemos, por ejemplo, estas dos frases. El martes llovía y llovía el martes. Estas oraciones significan lo mismo, aunque los detalles están en diferentes partes de la secuencia. En realidad, cuando alimentamos las frases en un feed lleno en tu red para una tarea de predicción, el modelo asignará diferentes pesos hacer el martes, y estaba lloviendo en cada momento en el tiempo. Las cosas que aprendemos sobre la secuencia no se transferirán si aparecen en diferentes puntos de la secuencia. Compartir parámetros le da al libro Net la capacidad de buscar una característica dada en todas partes la secuencia, lugar de solo en un área determinada. Esas son las secuencias móviles. Necesitamos un marco de aprendizaje específico capaz de lidiar con variables y secuencias, mantener el orden de secuencia y hacer un seguimiento de las dependencias a largo plazo en lugar de cortar en papa demasiado corto y finalmente compartir parámetros a través de la secuencia para no confíe en las cosas. Y ahí es donde recuperar nuevos Dejen entrar los libros. Orrin Ends son un tipo de nueva arquitectura let book que usan algo llamado bucle de retroalimentación en la capa oculta. A diferencia de alimentar hacia adelante New Net books la recuperación de su red o en y puede operar eficazmente en secuencias de datos con longitud de entrada variable. Es así como en nuestras niñeras UT representó este pequeño bucle aquí se llama el Feedback Loop . En ocasiones puedes encontrar los extremos de RN representados a lo largo del tiempo así. La primera parte representa la red en la primera vez Paso la nota oculta. Cada uno utiliza la entrada X uno para producir salida. ¿ Por qué uno? Esto es exactamente lo que hemos visto con miedo básico cuando sus dólares netos. No obstante, en el segundo paso de tiempo la nota oculta en el momento actual. paso H dos utiliza tanto la nueva entrada X dos así como el estado del paso de tiempo anterior cada uno como entrada para hacer nuevas predicciones. Esto significa que en un automóvil en nueva red, utilice el conocimiento de sus estados anteriores como insumo para su predicción actual. Y podemos repetir este proceso por un número arbitrario de pasos, permitiendo que la red propague información a través de su estado oculto. A lo largo del tiempo. Esto es casi como darle a una nueva red una memoria a corto plazo. Tienen este concepto abstracto de memoria secuencial y por esta forma, capaces de modelar ciertas áreas de datos secuenciales que las nuevas redes independientes no son capaces de modelar. Grabar tus redes recuerdan su pasado, y sus decisiones están influenciadas por lo que ha aprendido del pasado. Las redes básicas de avance de alimentación también recuerdan cosas, también recuerdan cosas, pero recuerdan cosas que han aprendido durante el entrenamiento. Por ejemplo, una imagen clasifica los préstamos como luce un tres durante la capacitación y luego usa ese conocimiento para clasificar las cosas en la producción. Entonces, ¿cómo nos entrenamos en Auburn? N? Bueno, es casi lo mismo que entrenar a personas básicas, totalmente conectadas con red, excepto que la propagación posterior en las creció está aplicando para cada punto de datos de secuencia en lugar de toda la secuencia. Este algoritmo a veces se llama la propagación posterior a través del algoritmo de tiempo será algoritmo DT . Para entender realmente cómo funciona esto, imagina dónde crear una nueva red recurrente para predecir la siguiente letra que es probable que una persona escriba en base a las letras anteriores que ya escriben. La carta que usó apenas apretada es bastante importante para predecir la nueva carta. No obstante, todas las letras anteriores también son muy importantes para esta predicción también. En el primer paso de tiempo, digamos, los años de tipos de letra F. Así que cuando red podría predecir que las siguientes letras y E basadas en todo el ejemplo de entrenamiento anterior que incluía la palabra F d en el siguiente paso de tiempo el usuario escribe una letra son así donde Red utiliza tanto la nueva Carta R más un estado de la primera neurona oculta. Con el fin de computar la siguiente predicción. L. La red nos predice por la alta frecuencia de las monedas en la madera F e l. En nuestro conjunto de datos de capacitación, agregar la letra a mi predicha levidad, agregar un fin predecir la letra K, que coincidiría con la palabra que uso destinada a escribir, que es franca. Ahí, sin embargo, hay un problema con nuestros nombres conocidos una memoria a corto plazo, recuerdos más cortos causados por los infames problemas de esfusión y explosión de gradación tal como están en y procesa Mo Woods. Tiene problemas para retener información de pasos anteriores. Algo así como nuestra memoria. Si te dan una larga secuencia de números como pi y tratas de leerlos, probablemente vas a olvidar los pocos dígitos iniciales. ¿ Verdad? memoria a corto plazo y la gradación de fuga se debe a la naturaleza de la propagación posterior, el algoritmo utilizado para entrenar y optimizar nuevas redes después de la propagación hacia adelante en el pase, la red compara esta predicción con la verdad en tierra. Utilizando la función de leyes, que se ponen en fila, valora una estimación de lo mal que está desempeñando el libro Net. La red utiliza ese valor siempre para realizar la propagación posterior, que calcula los ingredientes para cada nota en la red. El gradado es un valor utilizado para ajustar las esperas internas de las redes, permitiendo que la red aprenda cuanto más grande es el grande en, más grandes son los ajustes y viceversa. Aquí es donde radica el problema al realizar la propagación de espalda cada nota en un ingrediente calculado ballena con respecto a los efectos de los saludos en la capa anterior. Entonces si el ajuste de las capas antes de que sea pequeño, entonces los ajustes al estafador serán aún más pequeños. Y esto provoca que la grandeza se encoja exponencialmente como una propagación de espalda que el adulto mayor ha fallado en hacer cualquier corrida ya que los pesos internos apenas se están ajustando de deber, extremadamente pequeño resplandor, y ese es el gran desvaneciente en problema. Veamos cómo se aplica esto. Para recuperar nuevas redes puedes pensar en cada paso de tiempo en una grabación tu red como una capa para entrenar grabándote Net book. Se utiliza una aplicación de propagación posterior llamada propagación de espalda. A través del tiempo, los valores de rejilla se encogerán exponencialmente en la parte posterior, se propagarán a través de cada vez. Vuelve a dar un paso. El escalonamiento se utiliza para realizar ajustes en las nuevas tarifas de red. De esta manera, a lo largo de ella, aprende granos pequeños. Media pequeños ajustes en esta causa del viejo anterior no está solo. Debido a los granos que se desvanecen, la docena R N N aprendió dependencias de largo alcance a través de pasos de tiempo. Esto significa que en una secuencia estaba lloviendo el martes. Existe la posibilidad de que las palabras que termina guerras no sean consideradas al tratar de predecir la intención de los usuarios. Entonces la red tiene que hacer el mejor invitado con el martes, y eso es bastante ambiguo y sería difícil incluso para Human. Por lo que no poder aprender todos los pasos de tiempo hace que el libro The Net tenga una memoria a corto plazo . Podemos venir en la memoria a corto plazo Finneran en mediante el uso de dos variantes de grabar nuevas redes. Cerrada R N N N y ordenanza de memoria de largo plazo a corto plazo, también conocida como siempre. Parece que ambas variantes funcionan igual que nuestras redes, pero son capaces de aprender dependencias a largo plazo utilizando mecanismos llamados Gates. Estas puertas son diferentes operaciones de tracción que aprenden información que puede aprender qué información agregar o eliminar al estado oculto de retroalimentación. Bucle. La principal diferencia entre un cerrado o nn y un iam LS es en el cerrado. Arnett tiene dos puertas para controlar su memoria y actualizar portón y reiniciar puerta, mientras que en Elysium tiene tres puertas y pone portón una puerta de salida, y si obtienes portón o en extremos, funciona bien para aplicaciones que involucran secuencias de datos que cambian con el tiempo. Estas aplicaciones incluyen el procesamiento del lenguaje natural, la clasificación de sentimientos, la clasificación secuencias de ADN, reconocimiento del habla y la traducción del lenguaje. 19. Redes neuronales Convolutional: una convolución en tu último libro o CNN, para abreviar, para abreviar, es un tipo de arquitectura de red nueva y profunda diseñada para Tallis específicos como la clasificación de imágenes . CNN se inspiraron en la organización de las neuronas en la corteza visual del cerebro animal . En consecuencia, proporcionan algunas características muy interesantes que un útil para procesar ciertos tipos de datos como imágenes, audio y video. Al igual que un libro New Net totalmente conectado, un CNN está compuesto por una capa de entrada y capa de salida y varias capas ocultas entre las dos. CNN derivan sus nombres del tipo de capas ocultas de las capas ocultas consistentes de las capas ocultas de la ASEAN y típicamente consiste en convolución, unas capas tirando las capas totalmente conectadas del grisáceo y las capas de normalización. Esto significa que en lugar de la activación tradicional, las funciones estaban usando feed para cuando las funciones de convolución y agrupación de sus redes un año en su lugar. mayoría de las veces, la entrada de la CNN es típicamente una matriz bidimensional de neuronas, que corresponden a los píxeles de una imagen. Por ejemplo, si estás haciendo clasificación de imágenes, la capa de salida es típicamente unidimensional. convolución es una técnica que permite extraer unas características visuales de una matriz de dos D en trozos pequeños. Cada neurona en una capa de convolución es responsable de un pequeño racimo de neuronas de la forma anterior. El cuadro delimitador que determina una clase de neuronas se llama filtro. También llama a un coronel. Conceptualmente, se puede pensar en ello como una película de filtro y cruzar una imagen al realizar una operación matemática y lecturas individuales de la imagen. Después envía este resultado de la correspondiente que estás en la capa de convolución. Matemáticamente, una convolución de dos funciones, F N G se define como caídas, que es de hecho el producto de punto de la función de entrada y la función kernel se alterna la agrupación . Sub muestreo hacia abajo es el siguiente paso en una convolución en su red. Su objetivo es reducir aún más el número de neuronas necesarias en las posiciones posteriores de la red, sin dejar de conservar la información más importante. Existen dos tipos diferentes de tirón que se pueden realizar Max tirando y tirando. Como sugiere el nombre. La agrupación máxima se basa en recoger el valor máximo de la región seleccionada, y los hombres tirando se basan en recoger el valor mínimo de esa región. Cuando juntamos todas estas técnicas, obtenemos una arquitectura para una red Deep Newell, bastante diferente a una nueva red totalmente conectada para la clasificación de imágenes donde CNN y se utiliza mucho. Primero tomamos imagen de importación, que es una matriz bidimensional de píxeles, típicamente con tres canales de color rojo, verde y azul. A continuación, reutilice una capa de convolución con múltiples filtros para crear una matriz de entidad bidimensional como salida para cada filtro. A continuación, tiramos de los resultados para producir matriz de entidad de muestra hacia abajo para cada filtro en la capa de convolución. A continuación, normalmente repetimos la convolución y jalando pasos varias veces, utilizando las características anteriores como entrada. Después tuvimos algunas capas ocultas totalmente conectadas para ayudar a clasificar la imagen. Y por último, producimos una predicción de clasificación solo en la convolución del jugador de salida. Nuevas redes que utilicé fuertemente en el campo de la visión por computadora y trabajo bien para una variedad de tareas, incluyendo reconocimiento de imágenes, procesamiento de imágenes, segmentación de imágenes, análisis de video y natural procesamiento de idiomas. 20. Los 5 pasos para crear un modelo de aprendizaje profundo: en esta sección, voy a discutir los cinco pasos que son comunes en cada proyecto de deep learning que construiste . Estos se pueden ampliar para incluir otros aspectos muy vistos, pero y ahí hace mucho frío, muy fundamentalmente cinco pasos. 21. Recoger datos y conjuntos de datos: los datos están en el núcleo de lo que se trata el aprendizaje profundo. Tu modelo solo será tan poderoso como los datos que traigas. Lo que me lleva al primer paso reuniendo sus datos. La elección de los datos y la cantidad de datos que requeriría en minúscula depende del problema que estás tratando de resolver. Escoger los datos correctos es clave, y no puedo recalcar lo importante que implican los datos de banda de esta fiesta. Un mal motivo. Una buena regla general es hacer suposiciones sobre los datos que requiere, y tenga cuidado de registrar estos supuestos para que pueda probarlos más adelante si es necesario. Los datos vienen en una variedad de tamaños. Por ejemplo, conjunto de datos con defectos de Iris contiene alrededor de 150 imágenes en el conjunto total. Gmail Smart Reply tiene alrededor de 238 millones de ejemplos en el conjunto de entrenamiento, y Google Translate presuntamente tiene billones de puntos de datos. Cuando estás eligiendo un conjunto de datos, no hay una talla única que se ajuste a todos. Pero la regla general de venir es que la cantidad de datos que necesita para un tiempo realizando modelo debe ser 10 veces el número de parámetros que más. No obstante, esto puede diferir de vez en cuando, dependiendo del tipo de mañana que estés construyendo, por ejemplo, y del análisis de regresión, debes usar alrededor de 10 ejemplos por variable predictora para imagen clasificación. El mínimo que debes tener es alrededor de 1000 imágenes pero clase que estás tratando de clasificar bien, la cantidad de datos importa. La calidad también importa . De nada sirve tener una gran cantidad de datos. Si se trata de datos malos, existen ciertos aspectos de calidad que tienden a corresponder a mañanas de buen rendimiento. Un aspecto es la confiabilidad. Confiabilidad invertida. ¿ El grado en el que se puede confiar en su tren modelo de datos en un conjunto de datos confiable es más probable que arroje predicciones útiles que tren modelo y datos poco confiables. ¿ Qué tan comunes son los errores etiquetados? Si tus datos son etiquetados por humanos, a veces puede que lo haya. Los errores son tus características. Ruidoso es un completamente preciso algunos ruidos. Viejo derecho, nunca podrás purgarla. Datos fuera de todo el ruido. Existen muchos otros factores que determinan la igualdad. Para efectos de este video, sin embargo, sé que voy a hablar de lo restante, aunque si te interesa, los dejo en las notas del espectáculo debajo de Lucky Ferraris. Están arriba. 20 de nuestras fuentes en la Web que ofrecen buenos conjuntos de datos de forma gratuita. Eres algunos sitios donde puedes comenzar tu fecha. ¿ Eso es tal? The You see, I machine Learning Repository mantiene alrededor de 500 extremadamente realmente y conjuntos de datos que puedes utilizar en tus proyectos de deep learning. El ganado es otro que amas. Cuán detallado que los datos se configuran para dar características informadas , tipos de datos, número de registros y para que pueda usar un coronel dos. Y no tendrás que descargar los datos. Establece las fechas de Google. Esa búsqueda sigue en beta, pero es uno de los más sorprendentes sentido si confinaste hoy, listo para es un gran lugar para solicitar los datos que dijiste que quieres. Pero de nuevo, existe la posibilidad de que no se organice adecuadamente. Crea tu propio conjunto de datos que caminará hasta ti puedes usar raspadores web como sopa hermosa para obtener tus datos requeridos. Con el conjunto de datos 22. Datos de preprocesamiento: después de haber seleccionado tu fecha es que ahora necesitas pensar en cómo vas a usar estos datos. Hay algunos pasos comunes de pre procesamiento que debes engañar primero, dividiendo el conjunto de datos en subconjunto en general, generalmente dividimos un conjunto de datos en tres partes entrenamiento, pruebas y validando conjuntos, motivos de reentrenamiento con las capacitaciones que evaluaron en el conjunto de validación. Y por último, una vez que esté listo para usar, probó una última vez en el conjunto de datos de prueba. Ahora es razonable hacer la siguiente pregunta. Por qué no tener dos centavos de capacitación y pruebas De esa manera, el proceso será mucho más sencillo. Simplemente entrenar el momento en los datos de entrenamiento y probado en los datos de prueba. La respuesta a eso es desarrollar un modelo implica afinar su configuración en otras palabras, elegir ciertos valores para los hiper parámetros o los consejos de peso. Esta afinación se realiza con la retroalimentación recibida de la validación puesta en es en esencia de forma de aprendizaje. Asiste que simplemente no podemos dividir al Davis al azar hacer eso, y obtendrás resultados aleatorios. Tiene que haber algún tipo de lógica para dividir el conjunto de datos esencialmente lo que quieres es para los tres conjuntos las pruebas de entrenamiento en validaciones que sean muy similares entre sí y para eliminar el sesgo tanto como sea posible. Estos muchos dependientes dos cosas. En primer lugar, el número total de muestras en tus datos y segundo o cuanto más estés intentando entrenar modelos con muy pocos hiperparámetros será muy fácil de validar en sintonía, probablemente puedas reducir el tamaño de tu conjunto de validación. Pero si eres mortal no tiene muchos hiper parámetros, te gustaría tener un conjunto de validación grande así como considerar validación cruzada. Además, si sucede que tienes un modelo sin hiper parámetros en absoluto, unos que no se pueden afinar fácilmente, probablemente no necesites un conjunto de validación todos los ni, como muchas otras cosas en machine learning y deep aprendizaje. El test de sueño de la ratio de propagación de validación también es bastante específico para tu caso de uso, y se hace más fácil hacer juicio a medida que entrenas y construyes más y más modelos. Por lo que aquí te dejamos una nota rápida sobre validación cruzada. Por lo general, no dividirás tu conjunto de datos en el tren y la prueba. Después de esto, mantienes a un lado el conjunto de pruebas y eliges aleatoriamente algún porcentaje del conjunto de entrenamiento para ser el tren real establecido en el restante para ser el conjunto de validación. El modelo es, entonces relativamente entrenar y validado en estos diferentes conjuntos. Existen múltiples formas de hacerlo, y esto se conoce comúnmente como validación cruzada. Básicamente, utilizas tu conjunto de entrenamiento para generar múltiples divisiones del tren y conjunto de validación. La validación cruzada evita sobre el ajuste y es cada vez más popular con la validación cruzada de pliegue K siendo el método más popular. Adicionalmente, si estás trabajando en datos de series temporales, ah, técnica frecuente es dividir los datos por tiempo. Por ejemplo, si tienes una fecha está por delante con 40 días de datos, puedes entrenar tus datos a partir de los días deseados 39 evaluar tu modelo sobre los datos desde el día 40. Para sistemas como este, el tren querido es más viejo que los datos de servicio, por lo que esta técnica y muestra tu validación, dicho espejos una lank entre entrenar y servir. No obstante, ten en cuenta que las divisiones basadas en el tiempo funcionan mejor reveille. Conjuntos de datos muy grandes como lo hace con decenas de millones de ejemplos. El segundo método que tenemos en pre procesamiento. Es formatear, dijeron los datos. Has escogido podría no estar en el formato correcto que te guste. Por ejemplo, los datos podrían estar en forma de base de datos, pero te gusta como un archivo CS Mice Vaso. Por supuesto, hay un par de formas de hacer esto, y puedes Google em si quieres. Tratar con los datos que faltan es uno de los pasos más desafiantes en la recopilación de datos para sus proyectos de deep learning. A menos que seas extremadamente afortunado de aterrizar con el conjunto de datos perfecto, que es bastante rojo, tratar con queridos desaparecidos probablemente tomaría un pedazo importante de tu tiempo. Es bastante problemas de Coleman y del mundo real perderse algunos valores de nuestras muestras de datos. Esto puede deberse a errores en la recolección de datos, espacios en blanco en encuestas, mediciones no aplicables, etcétera. Falta valores un típicamente representado con el cualquier fin o los indicadores no. El problema con esto es que la mayoría de los algoritmos pueden manejar este tipo de valores faltantes, por lo que necesitamos cuidarlos antes de alimentar datos a nuestros modelos. Hay un par de formas de lidiar con ellos. Una es eliminar las muestras de las características con valores faltantes. El inconveniente, por supuesto, que se arriesgó a eliminar la información relevante. El segundo paso es imputar a los valores faltantes una forma común de establecer los valores faltantes como valor medio para el resto de las muestras. Pero por supuesto, hay otras formas de tratar datos específicos. Conjunto. Sé inteligente. Está manejando los datos faltantes de la manera equivocada en desastres ortográficos, A veces puede tener demasiados datos que lo que requiere, datos mo pueden resultar en mayores requerimientos computacionales y de memoria. En casos como este, son las mejores prácticas. Fuiste una pequeña muestra del conjunto de datos. Sería más rápido y en última instancia un aumento en el tiempo para que explores y prototipos de ilusiones. En la mayoría del conjunto de datos del mundo real, te vas a encontrar datos de desequilibrio. Eso son los datos de clasificación. Eso s lindas proporciones de clase que conducen a los derechos de una clase minoritaria en una clase mayoritaria . Si entrenamos un modelo sobre datos como este, ah, ah, modelo solo pasará tiempo aprendiendo sobre la clase mayoritaria y mucho menos tiempo en la clase minoritaria y cantidad de manos en última instancia será sesgada para la clase mayoritaria y So en casos como este, usualmente usamos un proceso llamado abajo muestreo y espera arriba, que esencialmente está reduciendo el costo mayoritario en algún factor y agregando pesos de ejemplo de ese factor a la tela de muestra hacia abajo. Por ejemplo, cada muestra hacia abajo la mayoría cuesta por un factor de 10. Entonces el ejemplo. Espera, agregamos a esa tela debe ser 10. Puede parecer. O, para agregar ejemplo, peso tras abajo algo. ¿ Cuál es su propósito? Bueno, hay un par de razones, al menos una convergencia más rápida. Durante el entrenamiento, vemos con más frecuencia a la minoría con clase, que le ayuda a todos. Converges más rápido pero consolidando la clase mayoritaria en unos pocos ejemplos con pesos más grandes , gastamos menos este espacio, almacenándolos están esperando y escalofríos. El multi sigue calibrando. Nos sumamos esperando después de tropezar abajo para mantener los datos establecidos en proporción similar. Estos procesos esencialmente ayudan a que una mañana parezca sobre los costos minoritarios en lugar de sólo la clase mayoritaria. Esto tiene una mañana desempeño mejor en situaciones del mundo real. Característica. El escalado es un paso crucial en la cara del pre procesamiento en la mayoría de los algoritmos de aprendizaje profundo antes de mucho mejor cuando se trata de características que están en la misma escala. Las técnicas más comunes son la normalización, que invierte el escalado re o características para disponer entre cero y uno, que de hecho es un caso especial de Min Max Scaring. Para normalizar esos datos, necesitamos aplicar escala Min Max a cada columna de entidad. La estandarización consiste en centrar el campo y media cero con desviación estándar, uno para que las columnas de entidades tengan los mismos parámetros que una distribución normal estándar que es cero media y varianza unitaria. Esto hace que sea mucho más fácil para los algoritmos de aprendizaje aprender el peso de los parámetros . Además, mantiene la información juvenil sobre nuestros alicates en hace que los algoritmos sean menos sensibles a ellos. 23. Entrena a tu modelo: una vez que lo hice se está preparando. Ahora alimentamos esto en una sola red para comerciar. Discutimos el proceso de aprendizaje de una nueva red en el módulo anterior, por lo que si no estás seguro, te aconsejo que primero laves ese trabajo más. Pero esencialmente, una vez que se ha alimentado una fecha, se produce cuatro propagación sobre las pérdidas en comparación con la función perdida en los parámetros se ajustan en base a esta pérdida y se cortan de nuevo, nada demasiado diferente de sería discutido previamente. 24. Evaluar tu modelo: tu modelo ha entrenado con éxito Felicidades. Ahora necesitamos probar qué tan bueno está nuestro mortal usando las validaciones en el Reitz. Yo decido. Por aquí el proceso de evaluación nos permite probar un móvil contra datos que nunca antes había visto . Y esto se supone que sea representativo de lo bueno que podría desempeñar el modelo en el mundo real . 25. Optimización de la precisión de tu modelo: después del proceso de evaluación, hay una alta probabilidad de que tu mañana pueda optimizarse aún más. Recuerda, empezamos con pesos de corrida y vicios, y éstos encontrarán a Tune haciendo propagación de espalda. Bueno, en bastantes casos, mala propagación no lo haría bien la primera vez. Y eso está bien. Hay algunas formas de optimizar tu mañana. Más parámetros hiper de dooming es una buena manera de optimizar el rendimiento de un modelo. Una forma de hacerlo es mostrándole al mortal todo lo dicho posteriormente varias veces. Es decir, al aumentar el número de épocas. Esto a veces se muestra para mejorar la precisión de otras maneras. Al ajustar el escrito de comedor, hablamos de cuál era la tasa de aprendizaje en el módulo anterior, por lo que si no sabes qué hacen los generadores, te invitamos a revisar el módulo anterior. Pero esencialmente, el aprendizaje redefine hasta dónde cambiamos la línea durante tu paso. A partir de la información del paso de entrenamiento previo en la propagación de espalda, estos valores de todos juegan un papel en lo preciso que puede llegar a ser inmortal y en cuánto tiempo el entrenamiento patea para modelos complejos. Las condiciones iniciales pueden desempeñar un papel importante en la determinación del resultado del entrenamiento hay muchas consideraciones en esta fase del entrenamiento, y es importante que definas uno hace lo suficientemente bueno moderno. De lo contrario, podría encontrarse tuiteando parámetros durante mucho, mucho tiempo. El ajuste de estos hiper parámetros sigue siendo un poco de no y se está moviendo proceso experimental que depende en gran medida de los detalles del conjunto de datos, Morgan y proceso de entrenamiento. Desarrollarás esto a medida que vas cada vez más hacia el aprendizaje profundo, así que no te preocupes demasiado por esto ahora. Uno de los problemas más comunes que encuentras es cuando eres mortal rendimiento bien en los datos de entrenamiento, pero el rendimiento terrible tus datos que nunca se habían visto antes. Esto es un problema o ajuste. Esto sucede cuando el modelo aprende un camino y específico al conjunto de datos de capacitación que sobre relevante a otros datos no vistos. Hay dos formas de evitar esto por encima del ajuste. Obtener más datos y regularización. Obtener datos de movimiento suele ser la mejor edición. Un modelo de datos de modo de entrenamiento generalizarán de forma natural mejor. Reducir los lados mortales al reducir el número de parámetros de voluntad de aprendizaje en el modelo sobre con él, es capacidad de aprendizaje es otra forma, sin embargo, al bajar la capacidad de la red lo obligaste a aprender patrón que importan, o luego minimizar la pérdida. Por otro lado, la reducción excesiva de la capacidad de la red dará lugar a que se incorporen. En la mañana no podrá conocer los patrones relevantes en los datos del tren. Desafortunadamente, no existen fórmulas mágicas para determinar este equilibrio. Debe ser probado y evaluado estableciendo diferente número de parámetros en la observación de su desempeño. El segundo método para abordar el sobreajuste es aplicando la regularización del peso al modelo. Una forma común de lograrlo es limitar la complejidad de la red obligándola a esperar a tomar sólo valores pequeños regularizando la distribución de los valores de peso. Esto se hace agregando a la función perdida de la red, un costo asociado a tener tarifas más grandes. Y este costo entra para elevar L uno regularización al costo con respecto al valor absoluto fuera del coeficiente de peso o el L uno normal sale a la regularización al costo. Mejores guardias con valor cuadrado fuera del coeficiente de pesos que es el L al peso normal . Otra forma de reducir el sobreajuste es mediante viejos datos de mentación para una forma más limitada. Bueno, un satisfactorio. Necesitamos tener una gran cantidad de datos. Acabamos de sonar simplemente es ya. Pero típicamente, si estás trabajando con imágenes, siempre hay una posibilidad de que tu forma de advertencia matutina tan bien como te gustaría. No importa cuántos datos tengas en casos como este, cuando tienes conjuntos de datos limitados, datos, datos, aumento es una buena forma de aumentar un conjunto de fechas sin aumentarlo realmente. Organizamos artificialmente esos datos o, en este caso, imágenes para que obtengamos dos datos más a partir de datos ya existentes. Entonces, ¿de qué tipo de incrementos estamos hablando? Bueno, cualquier cosa desde voltear la imagen del eje Y, voltear el desenfoque en blanco del eje X hasta incluso acercar la imagen. Lo que esto hace es que demuestra que eres mortal más de lo que se ve a la vista. Expone su modelado más los datos existentes para que en las pruebas automáticamente se desempeñe mejor porque han visto imágenes representadas en casi todas las formas. Por último, el último método que vamos a hablar de su gotero caído es una técnica que utiliza el aprendizaje profundo que descarta grandiosamente unidades o neuronas en la red. En pocas palabras, la diversidad de deserción ignorando las neuronas durante la tendencia se enfrentan a un conjunto de neuronas elegido al azar . Al ignorar, quiero decir que estas unidades no son consideradas durante un pase particular hacia adelante o hacia atrás. Entonces, ¿por qué necesitamos robot en absoluto? ¿ Por qué necesitamos cerrar parte de una nueva red? Un anterior totalmente conectado ocupa la mayoría de los parámetros y por lo tanto matizado co dependencia de desarrollador entre sí durante el entrenamiento, lo que limita el poder individual de cada neurona en la que finalmente conduce a encajar el datos de entrenamiento, por lo que abandonan una buena manera de reducir sobre ajuste.