Transcripciones
1. Acerca de la ciencia de datos aplicados: Hey, bienvenido al curso se juegan señales de datos con nuestro Este es tu instructor, Cameron Parnham pertenecen de video Mastro Let's Go Through y entienda de qué
se trata este curso . El objetivo del curso es capacitar a los estudiantes para que se conviertan en practicantes de datos de pleno derecho. Por lo que nos estamos centrando en hacer practicantes de personas que puedan ejecutar en datos de eventos desde el
proyecto desde el principio adquiriendo datos hasta transformarlos, cargando en un final posterior nuestro destino y luego realizando análisis de órganos sobre ellos en finalmente logrando algunos resultados de negocios de este análisis, qué haces tú Lo que al tomar este curso es entender el concepto y conceptos de signos de datos, entiendes las diversas etapas en el en el ciclo de vida fuera de una ciencia de datos desarrollas competencia para usar nuestro uso ANDI están en todas las etapas fuera de ANALITICO derecho desde Analítica de Datos
exploratoria hasta directiva una hora. Se necesita para modelar dedo del pie. Por último haciendo predicción utilizando algoritmos de aprendizaje automático aprendió las diversas herramientas y técnicas de
ingeniería de datos sobre la adquisición de datos y la limpieza de datos sobre la transformación datos. Conocimientos adquiridos sobre las técnicas de aprendizaje automático amigo en también aprender cómo puedes usarlas y también lo más importante, entonces puedes usarlas convertirte en un practicante de ciencia de datos de pleno derecho y quién es puede contribuir de
inmediato a datos de la vida real. Proyectos de ciencia nopara mencionar que quieres estar llevando este conocimiento a tu entrevista que
puedas conseguir un puesto en la ciencia de datos. Terry fue esta práctica que queríamos tocar esta cosa en particular fuera de la teoría versus la práctica, datos ,
signos, principios, herramientas y técnicas. Imagen de diferentes signos y disciplinas de ingeniería. No, provienen de informática, ingeniería
informática, información, información, terry probabilidad y palos iniciados, inteligencia
artificial y así uno sobre estudio teórico de signos de datos se enfoca en estos fundación científica y razonamiento fuera de los diversos Jardines de Aprendizaje Misión. Se enfoca en tratar de entender cómo esta misión aprendiendo el trabajo de Salgado en un sentido profundo sobre poder desarrollar tus propios algoritmos en. Desarrolla tu propia implementación de estos algoritmos para predecir un verdadero problema de balón. Tan solo uno habita mucho en nuestras ecuaciones y formales en privaciones y razonamientos. tanto que el pacto está en el alcista tardío en parte de los datos, la
ciencia se centra en un juego las herramientas, principios y técnicas con el fin de resolver problemas de negocio conseguir el enfoque en tratar utilizar las técnicas y herramientas existentes y bibliotecas en cómo se puede tomar estos y un juego ellos para trabajar realmente problemas y salir con negocios merece. Este se enfoca en tener una comprensión adecuada de los conceptos un conocimiento de cuáles son las herramientas y bibliotecas disponibles sobre cómo se pueden utilizar estas herramientas y bibliotecas para resolver problemas del mundo
real. lo que este curso está enfocado en la práctica fuera de signos posteriores, y por eso se llama Inclinación de la Ciencia de Datos Aplicados de los cursos. Esta ciencia de datos es un sujeto transdisciplinario, y es un tema complejo. No tiene principalmente tres áreas técnicas en las que enfocarse. Entonces hay matemáticas y estadísticas que es aprendizaje de misión. Y hay programación en este curso está orientado hacia. Ya sabes, programación está orientada hacia los profesionales de software existentes. Está fuertemente enfocado en la programación y la construcción de soluciones. Tiene limitada y pidió la exposición a explosión requerida. El matemático y las estadísticas en él cubre visión general Off machine learning conceptos te da comprensión
articulada de cómo estos machine learning todos los guardaban libros. Pero el enfoque está en usar la herramienta existente para desarrollar una solución del mundo real. De hecho, 90 95% otro trabajo que más tarde tiempo de ciencia. Simplemente hacer en el mundo real es la práctica de la ciencia de datos. En realidad no, Terry, de mayor ciencia y este curso se esfuerza por mantener las cosas simples y muy fáciles entender. Por lo que definitivamente hemos hecho esto muy sencillo. Nos hemos mantenido alejados de algunos del concepto complejo. Nosotros o intentamos tonificar el dedo del pie hacia abajo Estos conceptos complejos simplemente se mantuvieron alejados de ellos para
que sea fácil de entender para personas de todos los niveles fuera del conocimiento en el campo de la ciencia de
datos. Por lo que es una especie de gran curso de enfermeras. Si se me permite decir que la estructura central que es pasa por los conceptos de mayor sentido para empezar, ¿cuál es exactamente su asignado? ¿ Cómo funciona la ciencia de datos? Se mira el ciclo de vida de los santos de datos con sus diversas etapas del ciclo de vida. Luego entra en algunos conceptos básicos de palos iniciados que se requieren para hacer señales de datos. Después entra en nuestra programación. Se cuestiona a muchos ejemplos de cómo utilizarías nuestra programación para diversas etapas en proyecto de ciencia de
datos. Las diversas etapas en datos enviaron lesionados Ingeniería de datos, esfuerzo
parcial. Qué otras cosas típicamente haces ahí que es la ingeniería de una de las mejores prácticas en ondulación de
datos, cubre esas áreas. Por último, está la parte de modelado y analítica predictiva donde construimos en la misión Aprendizaje o Dios Adams. También miramos Endo y casos de uso para estos algoritmos de aprendizaje automático, y hay algunos temas avanzados también que tocamos. Por último, hay un paquete de recursos que viene como parte de este curso, y ese paquete de resultados básicamente contiene todos los conjuntos de datos. El dato presentó la capa ejemplo de corte de muestra sobre ese tipo de cosas que en realidad
enseñamos como parte de este curso el cual se cubre en los ejemplos todos ellos se dan en
el paquete de recursos. Entonces no conozco el paquete de recursos que tiene todos los datos que necesitas y toda la
muestra básica que necesitas para que experimentes las mismas cosas tú mismo. Directrices para estudiantes, el ayuno este dedo del pie entienden sus datos. Santos es un tema complejo. Necesita esfuerzos significativos para entenderlo. Así que asegúrate de que si te estás quedando atascado, haz revisión y aliviarte los videos y ejercicios que hace. Llamó ayuda de otros libros sobre recomendaciones de tierras y foros de apoyo. Si sus consultas 1000 inquietudes sí, y eso es un mensaje privado, nuestro do publicó esta pregunta pregunta, y estaremos realmente contentos. Toe respondió que lo antes posible. Estamos constantemente buscando mejorar nuestros cursos, por lo que cualquier tipo de feedback que tengas es bienvenido. Por favor, sí proporcionar comentarios a través de mensajes privados son dos correos electrónicos al final del curso . Si te gusta el curso, sí dar dejar una reseña. Las opiniones son útiles para que otros futuros estudiantes tomen este curso y esperen los discos
Maxim de otros cursos futuros de We Do Mastro, queremos que eso sea fácil para nuestros alumnos la relación con el otro. Hacemos cursos de maestría son cursos que están enfocados a la ciencia de datos, realmente a temas básicamente, tecnologías ,
procesos, herramientas y técnicas de data saints on. Queremos que nuestros cursos sean autosuficientes tanto como sea posible, ¿eh? Entonces lo que eso significa es, si eres un existente hacemos estudiante de maestría, harás ver algunos contenidos y ejemplos repetidos a través de cursos. Nosotros queremos hacerse una visión Así que en lugar de decir eso, ¿hay algún punto en el curso? De acuerdo, chica, mira despótico como otros cursos. Date de alta para el otro curso y aprende al respecto. Más bien queremos enfocarnos en este propio curso. Mantener dos cosas en el mismo curso. A menos que ese otro concepto sea un concierto enorme. Que ellos mismos por supuesto separado. Nosotros los queremos a la India como parte de este propio curso. Por lo que podría ver algún contenido que se repite a través de los cursos. Por último, esperamos que este curso te ayude a avanzar en tu carrera. Entonces la mejor de las suertes. Aprendizaje feliz en No te mantengas en contacto. Gracias.
2. Qué es la ciencia de datos - uno: Hola. Este es tu instructor, Cameron on en esta sección. Vamos a ver qué son los signos de datos. Data Science es algo de lo que hemos estado escuchando mucho. Pero, ¿en qué consiste exactamente la ciencia de datos? ¿ Qué? ¿ De qué se trata realmente? Entonces vamos a ver dos cosas en la sesión en ese entonces. El primero es acerca de los datos de aguas, y el 2do 1 es querer es aprender. Entonces vamos a ver algunas definiciones fuera del agua. Las cosas constituyen una ciencia de datos. Entonces algunas de las cosas que vas a estar viendo en esta sesión son quizá cosas que podrías decir son obvias Cosas inherentes. Creo que te has acostumbrado, pero es buen dedo del pie. Echa un segundo vistazo a las definiciones de cada uno de ellos porque significan mucho a unos
signos de datos . De hecho, forman la base misma de la ciencia de datos. Entonces pasemos por todas estas definiciones aquí. El primero que vamos a empezar sobre lo que es Data Saints, David Signs es la habilidad de extraer conocimiento de los datos. Tenemos algo llamado datos. Y luego hay algo así de crudo y luego miras los datos y extraes conocimiento , Conocimiento podría pensarse en esa información dentro en su señal. Se están utilizando diferentes términos para el conocimiento de personas sordas, pero básicamente podría algo que extraigas de datos que es útil. Y luego usas este conocimiento para predecir lo desconocido. Entonces aprendes algo sobre el pasado a partir de los datos, y luego usas esa información para predecir lo que va a suceder en el futuro. Y de eso se trata los signos de datos. David Sames. Una de las chicas es mejorar los resultados empresariales con el poder de los datos, se
puede hacer predicción, pero ¿de qué sirve? El uso de la misma es que quieres usar los signos de datos para mejorar los resultados del negocio, y vas a estar mejorando los resultados del negocio usando los datos. Y de eso se trata la ciencia de datos. No hay. Los empleados son tecnologías. Las teorías se extraen de área amplia diversa que no está restringida a un solo dominio. Por lo que tienes matemáticas en sus estadísticas, datos de tecnología de la
información. Si las tecnologías inteligentes lenguajes de programación, en realidad
utilizamos una serie de diferentes técnicas y teorías y áreas. Cuando se trata de ciencia de datos ¿Y qué es un científico de datos? Otro científico es un practicante fuera de practicante fuera de signos de datos. ¿ Cuándo está apagado un practicante? Su Desde que estamos hablando de alguien que utiliza las teorías y teorías y todas
las tecnologías y las habilidades de los signos de datos para producir un mejor resultado de negocio Andan asignado esto típicamente tiene ah, o debería tener experiencia en un conocimientos de ingeniería de datos garrapatas estadísticas sobre DA cualquier otro en el dominio empresarial. También en típicamente los datos firmados. Esto investiga problemas empresariales complejos y utiliza datos para proporcionar soluciones. Por lo que lo más importante aquí es utilizar la ODA para proporcionar soluciones o datos es el motor para un científico de datos. Entonces, entrémonos en algunas de las definiciones de datos. ¿ De qué estamos hablando exactamente aquí? Cuando decimos datos, cuáles son las diversas cosas de las que eres aprenden cuando estás hablando de datos. Entonces vamos a volver a pasar por un conjunto de definiciones aquí. Pueden ser obvios para ti, pero sí va a decir, un segundo vistazo a todos ellos. lo primero que vamos a estar hablando es de lo que se llama NDP. Una entidad es una cosa que existe que investigaría y predeciría en la ciencia de datos. Entonces una entidad es una cosa, un objeto, algo que existe en el mundo real sobre el que vamos a estar trabajando. Por lo que tienes un problema de ciencia de datos en el problema de envíos de datos. Tienes un conjunto de entidades que cara perno. Haces alguna investigación sobre ellos. Obtienes datos sobre estas entidades y luego trabajas en ellas para hacerte predicciones. Las entidades siempre tienen un contacto comercial. Ahí hay un contexto empresarial, que es el problema de negocios que estás tratando de resolver en el que existe lo indeedy. Entonces ejemplo de una entidad como un cliente, un cliente fuera de un negocio es una entidad. Cliente es una entidad la más popular ingresó A. Vería sobre quién hacemos mucha investigación y hacemos predicciones. Una persona en un hospital es otra entidad. Ahora ves que el cliente de un negocio y el paciente del hospital en realidad podrían estar señalando a la misma persona, pero tienen contactos comerciales diferentes. Por lo que diferentes contactos comerciales significa la misma persona. Nos preocupamos por diferentes informaciones sobre la persona que la persona podría estar haciendo
cosas diferentes como cliente, a diferencia de lo que estaría haciendo como paciente. Las entidades
también pueden ser cosas no vivas . Al igual que, por ejemplo, un auto. Por lo que la tarjeta está como que no están fuera de cosas no vivas en las que también recolectas información y predices cosas pasando al siguiente ítem. Es características lo que son características. Toda entidad tiene un conjunto de características, por lo que se trata de propiedades entidad ofrecida que es información sobre la identidad nosotros. Nosotros los llamamos tal vez información estática porque están un poco limitados a la entidad como nombre, número de
teléfono, edad. Esas son todas características, a menudo entidad en propiedades también nuevamente tienen un contexto de negocios en hacer diferentes
contactos de negocios . Se cuadra sobre diferentes características para la misma entidad o la persona en particular lugar en ese contexto empresarial dado. Por ejemplo, si las características del cliente te molestarías por nuestro grupo de ingresos de edad
educación de género para un paciente, tu cuerpo vuelve a duplicar sobre el SIDA, por lo que se repite la característica llamada edad. Pero ahora tienes un conjunto diferente de características, sobre todo a ser paciente como la presión arterial, el
peso, peso, antecedentes
familiares. Por lo que de nuevo hay un contexto empresarial del requisito empresarial, que impulsa qué características te molestas otra vez a bordo de una entidad. Automóviles. Cuando miras los autos, hablas de hacer año modelo del tipo de motor de motor como cuatro cilindros o seis cilindros en el número de viento del auto. Por lo que todos estos son ejemplos fuera de características. También podría llamarlos pieza propia de Estados Unidos. Por ejemplo, propiedades por las que pensé que uno de ustedes se molestó es ¿qué es el medio ambiente? Medio ambiente apunta al ecosistema en el que los exes de la entidad son funciones. Entidad no existe en un vacío. Existe un entorno en el que existe una entidad. Por lo que en ese entorno u
otras entidades, otras entidades del mismo tipo otras entidades de un tipo diferente, como un paciente y estar existe en hospital, junto con otras entidades fuera del mismo deBlanc con otros pacientes. Eso también puede ser de otros tipos de entidades, como médicos y enfermeras, entidades que son cosas no vivas, como ambulancias, un registro de entidad. Un sistema que se utiliza para monitorear a los pacientes podría ser una entidad. Por lo que bajo estos, todas estas entidades existen en un entorno tan ambiental. Las inmunidades de sombra sobre múltiples entidades existen en un mismo entorno, el ambiente afecta un en el comportamiento de hoy, por lo que eso es lo más importante. La misma entidad podría comportarse de manera diferente en diferentes ambientes son incluso para el mismo entorno bajo diferentes condiciones, experiencia en el entorno. Podría estar aquí
también la misma entidad . Ejemplos amables de ajo unción para un cliente, el país, la ciudad, el mundo cercano. El cliente reside en persa otra vez que tal vez la ciudad el clima con hospital donde actualmente se encuentra
el paciente por un auto. Lo es. Pero la tarjeta se está utilizando principalmente para la conducción urbana en carretera que se convierte en el entorno que los autos climáticos realizan de manera diferente bajo diferentes condiciones climáticas como el corazón. Ya sea que no existieran condiciones de nieve, los autos tienen un comportamiento diferente. Entonces todo este caso es lo que ves es que el medio ambiente afecta cómo se comporta lo indeedy ahora viene e incluso lo que es desigual, desigual. Se tiene una importante actividad empresarial en la que participa la entidad. Entidades no se sienta simplemente ahí. Hace algo. Si alguien le hace algo a la identidad, eso es lo que llamas una incluso alguna actividad empresarial e incluso otra vez suceden excepto ambiente. Tú, una entidad como un persa
, vas al hospital y al hospital. Se atiende a la entidad ¿no hay desprendido s que se administran del
paciente dado el. Entonces tienes algunos resultados saliendo de estas pruebas. Todos estos son pares. Ejemplo fuera desigual. Podría ser el cliente navegando por un cliente de sitio web haciendo una tienda, visita a un cliente recibiendo una llamada de ventas de alguna empresa para vender algo. Todos estos son pares en las chicas fuera de porciones. Es como los médicos. ¿ Fue un análisis de sangre para un auto? El inteligente hace eso De acuerdo a va la prueba de comparación. Al igual que si vas a alguno de estos sitios web relacionados con autos, sí
ves que les gustan las pruebas de comparación. Todos ellos son pares en los que una entidad participa comportamiento. Por lo que incluso hace algo ahí en entidad participa. Pero, ¿qué hace el comportamiento? ¿ Qué hace la entidad en lo dado? Incluso ese es el comportamiento de las entidades. Entonces hasta una entidad va, hace algo en el agua. Lo mejor en eso, dado incluso es lo que llamó terminó el comportamiento de la entidad. Podría tener un comportamiento diferente en diferentes ambientes y situaciones diferentes en ,
por ejemplo, por ejemplo, en el caso, fuera de un cliente, una llamada telefónica en una llamada telefónica agua donde el cliente pláticas es el comportamiento de los clientes. El cuarto de clics para una visita a un sitio web como que vincula a los visitantes particulares del sitio web personalizado haciendo clic cuando está navegando por la web ¿Que tiene otro tipo de comportamiento? No, La respuesta. El cliente tiene que decir su oferta. Yo estaba viendo años. No, dijo
el cliente contento. Todos ellos son comportamientos diferentes fuera del cliente pacientes no cr iluminado y enfermera calambres las pociones quejándose de algo. Los pacientes, ya
sabes, quedándose dormidos, mostrando cualquier tipo de bs, cualquier tipo de síntomas fuera. Todos ellos son conductas del paciente y a los autos les gusta una buena aceleración, las distancias de parada, todos ellos representan como una forma de comportamiento fuera de las entidades. No, estas son todas las cosas que se ven en el mundo real, como las entidades se iguala y se comportan en Ahora viene introducción de los datos del dedo del pie
3. Qué es la ciencia de datos - dos dos de datos: introducción datos del dedo del pie. No, hay algo llamado desenlace. Entonces, ¿qué es un desenlace? El resultado muchas veces actividad considerada significativa por el negocio. Por lo que tienes eventos en los pares. Hay entidades y se comporta de manera diferente en diferentes pares. Pero todos estos pares típicamente tienen alguna forma fuera de resultado que es importante con el negocio sobre resultado es un resultado a menudo actividad el resultado de una actividad empresarial,
por ejemplo, por lo que en los resultados puede ser valor. Los resultados son valores, ¿verdad? Entonces los valores de resultado pueden o bien ser lingotes como sí, no, que el alguien en particular tomó una prueba. Pasaron nuestro fracaso. Es un lingote. Berlín es básicamente sí o no en cinta de datos. El viejo puede ser como un valor continuo como un valor numérico. Alguien se hizo un análisis de presión arterial para detectar la presión arterial. El valor es un valor continuo. Puede variar en cualquier lugar desde, ya
sabes, $100 bajo. Eso es valor continuo o puede ser alguna forma de una clasificaciones. Clases. Básicamente, alguien se quitó una reseña. Una revisión de una película Onda relacional que diste podría ser una clase como excelente, muy buena feria grupal. Pero eso es una especie de clasificaciones son tipo que, ya que los resultados pueden estar fuera de cualquiera de estas diferentes cintas. Ejemplos de resultados en las chicas del cliente donde el cliente hace una venta es un lingote
al valor de venta. Cuánto lo compraron como continúa un valor continuo, significa que el valor o que eres un presente es básicamente en cualquier lugar del 0 al 100 o 2000. Es un paciente de valor continuo, las chicas de paciente. El resultado puede ser la lectura de la presión arterial, que es un desenlace continuo en la pipa de la diabetes. La depresión nos identifica en la clase como la dieta A la diabetes son Tipo B mueren, pero estos es una clase. En el caso de los autos, los niveles de smog es una clasificaciones. El nivel de glóbulos pequeños como ABC. Hay una clasificación que detiene a los negocios. Eso sucede porque haces una prueba para un auto, que es un par en ellos. En ese caso, estás midiendo las distancias de parada cuando haces atascos los frenos y la
distancia que tomaría para parar llegar a una parada completa. Ese es un resultado continuo. El pasado inteligente, nuestros fracasos ahí hay un matón y desenlace. El tipo de auto. Digamos que un rincón deportivo de sedán familiar que es una especie de clasificaciones, Así que estos son diferentes resultados que suceden como resultado de algunos. Aun así, los resultados están apagados. Pero lo importante en la ciencia de datos, porque típicamente efectivamente asigna lo que estás tratando de predecir como resultados en el futuro. ¿ Alguna vez has visto más sobre eso? ¿ Más tarde? Ahora viene lo que se llama como observación. Entonces, ¿qué es una observación? Una observación es una medición. Está en mi presidente a menudo. Aun así, se mide algo sobre un incluso considerado significativo por el negocio. Entonces básicamente mides e incluso mides cosas importantes y desiguales que son
importantes del negocio del que estamos hablando. Captura información sobre las entidades y el balón. Por lo que dado hasta mi no múltiples entidades involucraron las características de las entidades, la BA curiosa de las entidades, la información sobre el entorno en el que el par ocurre sobre los resultados. Entonces en la observación es información sobre todas estas cosas que suceden y desiguales. Básicamente vas y recolectas toda esta información y grabada de alguna forma en la observación se suele llamar el sistema fuera de registro. Entonces tú donde quiera que vayas, ves que la gente está grabando información los otros días para grabarlos en revistas, algunos cuadernos de bitácora y cosas así. No, todo está automatizado, computarizado. Hay escáneres que están escaneando esta información automáticamente es alguien que está entrando a la computadora, que son por asesinatos. Se llama el sistema off Record por ejemplo de observaciones son, en el caso de los clientes, hay una tarjeta telefónica Rikard. También se llama cdss en departamento telefónico. En transacción como una transacción de compra, alguien va a la tienda en fantasma por algo que va al mostrador de punto fuera de venta en la transacción se registra ahí. Nuestra, um, oferta de
correo electrónico. Te llega un correo electrónico, ofreciendo algún producto a algún valor. No excitante. Sí compras algo así que todas ellas son observaciones. Si miras a un paciente, Dr. Bissett se repite en el resultado de la prueba, una captura de datos desde un dispositivo de monitoreo. Todas estas son observaciones, diferentes tipos de observaciones. Y por último, veamos el auto. En el caso de un automóvil, un salvaje Ricard es una observación. El auto va para encuestas y el final. Sus hallazgos fuera del mecánico se registran en el registro de servicios. Un inteligente como resultado, es una observación. Por lo que todos estos un RAB desvíos capturados en alguna forma y grabadora y tienda. Entonces finalmente llegamos a los datos ¿qué hace un conjunto de datos? Dijo Adela, como una colección fuera de observación. Por lo que cada observación, registros e incluso sobre el centro de entidades, una recopilación de observaciones para un negocio se convierte en un conjunto de datos. Ocho. La observación en un conjunto de datos suele ser un registro esta semana. Llamarlo registro lógico más bajo que mira registro físico se puede dar. La observación podría registrarse en múltiples formas. Múltiples interfaces de usuario que podrían ser como relaciones de detalle maestro. Todo eso está bien, pero aquí estamos hablando de un registro lógico que representa una observación. Normalmente, tendrías observaciones teniendo una hiedra como una idea de transacción, número de serie de idea de
prueba, algo así. Entonces un día dije que la colección de observaciones sueltas cada registro tiene un conjunto de atributos que apuntan características, resultados de
comportamiento. Entonces, si miras la hoja de cálculo de Excel, verás que normalmente cada regla representaría como un registro en una observación. La hoja de trabajo de Excel en sí lo es, dijo
un dato. En cada puerta era una observación en cada columna es básicamente atributo que apunta a cualquiera de las características de las entidades. El comportamiento es todo viene dirección que se puede estructurar lector Expedia, registros
policiales, hojas de cálculo Puede ser no estructurado. También, los feeds de
Twitter son un ejemplo de datos no estructurados en artículos periodísticos. No están llamados a ser como semi estructurados como el correo electrónico. Por lo que a los científicos de datos, típicamente se ocupan de diferentes tipos de datos como los datos de estructura. Datos no estructurados son alguien datos de estructura y criador SanDisk elegir y trabajar en datos dijo que es el pan y la mantequilla para un científico de datos es datos y más datos sobre datos se recolectan como conjuntos de datos recolectados, almacenados, trabajadas en las predicciones se hacen con base en los conjuntos de datos. Entonces, han dicho, es el núcleo de la ciencia de datos. Ah, ¿qué son los datos estructurados? El ejemplo que se ve en el lado derecho es un ejemplo de datos de estructura que donde los atributos están etiquetados y claramente visibles. Se ve que cada atributo en ese particular ustedes tíos etiquetan por separado, como cuando está listo cuando el nombre moneda me d número viendo. Todo es Lobel. Es claramente visible si se está utilizando en la U.
Y. Y. Si ha sido almacenado en la base de datos. Ahí está lo que se llama una estructura datos de datos que se etiquetan y almacenan por separado. Era fácil de buscar en, adicionalmente, creíble porque habían etiquetado por separado incluso en nuevo do storage en una base de datos, su estudiante, diferentes columnas. Por lo que es un derecho vital y SQL declaración toe query Este dato. Puede ser,por
supuesto, por
supuesto, tu historia fácilmente en las tablas de Terrible, tal vez, como tablas de bases de datos o hojas de cálculo de Excel, es fácil almacenar datos de estructura en general. Los datos no
estructurados, por otro lado, no están etiquetados. Entonces va a haber como continuo Tex como ves en el lado derecho es un país de texto sobre un maestro tres un auto. Por lo que se trata de las existencias continuas en las que los atributos no se etiquetan distantemente, sino su presente dentro de los datos. Por lo que las cosas que se destacan, un ardiente que ves, son atributos diferentes como compacto es el tipo de las bolsas de hodge del auto, un tipo del auto. Una transmisión de seis velocidades es la transición que el juzgado, por lo que todos ellos están presentes dentro de los datos, pero no distintamente etiquetan. Entonces así es como nos llamas. datos no estructurados continúan palos. No hay mucha materia pero en tu hija está oculta están incrustados dentro de eso siguiente. Y callar, por
supuesto, no
va a ser fácil cuando se está adquiriendo. Estamos hablando más de no inspección visual, pero estamos hablando de escribir programas informáticos para extraer información. Estos no van a ser fáciles. Ahora llega la tercera finca con datos apenas semiestructurados. Lo que ves aquí, un ejemplo aquí es un correo electrónico. Entonces lo que hay en el correo electrónico es parte de los datos está estructurado y parte de los datos está en estructura. Entonces en los correos electrónicos, ves que algunos mis homenajes están claramente etiquetados. Al igual , ya
sabes, el de dirección 200 cc sujeto su mejor manera en Lobel y disponibles como columnas separadas son piezas separadas de información, mientras que otros tal vez no lo hacía dentro del endear texted uso tampoco. Por lo que estás estructurada y estructurada una que se mezcló En el caso de un dato
semiestructurado . Algunos ejemplos de algunos datos de instructores también podrían ser como ejemplo. Los documentos son datos semiestructurados. Alguna información está disponible en atributo alguna información en la parte siria de
documentos externos . Eso es todo ejemplos fuera de alguien estructura datos así en resumen. ¿ Qué? ¿ Qué es eso lo que hemos visto? Con respecto a los datos hemos visto una entidad características, entorno, incluso resultados de comportamiento sobre observaciones y finalmente, conjunto de
datos. Entonces esta son la clave, uh, fundamentos sobre los que los datos y los hay y simplemente construyen. Por lo que es bueno que conozcas y entiendas cada uno de ellos. Por lo que esto completa esta parte fuera de la sección. Seguiremos en más A. Ninguna de la presentación. Gracias.
4. Qué es la ciencia de datos - tres: Hola. Este es su instructor Cameron aquí un continuando en aguas señales de datos. Vamos a estar hablando de lo que está aprendiendo en el lenguaje de la ciencia de datos. ¿ Qué es el aprendizaje sobre cuál es el descubrimiento del conocimiento a partir de los datos? El primero que queremos señalar ya que lo que es una relación de relaciones vuelve a formar uno de los fundamentos fuera de la ciencia de datos en cuando hablamos de relaciones con hablar relaciones entre atributos. Entonces después de las colillas en un dato dicho exhiben relaciones, es
decir,
se tiene una no observación. Tienes un conjunto de observaciones en un conjunto de datos sobre atributos que ves en estas observaciones exhiben lo que se llaman relaciones, relaciones, modelar el mundo real y no tienen explicación lógica. Cuando decimos modelo, las relaciones con
el mundo real son básicamente algo que está sucediendo en el mundo real. No es algo de la nada que se vería algo en el conjunto de datos. El dato dijo. Cualesquiera que sean los datos que tengas, la relación que muestra es algo que existe en el mundo real. Por ejemplo, la edad y los niveles de presión arterial. El vínculo entre ellos es que a medida que sube la edad, la propensión a una mayor presión arterial sigue subiendo. Cuanto mayor sea tu edad. Cuanto más alto podrían ser tus niveles de presión arterial en. Siempre hay una explicación lógica asociada a eso en. El motivo en el campo médico, dicen, es que si tienes más peso, obviamente permites más grasa te Larmore obstruyeron arterias, lo que llevaría a una mayor presión arterial. Entonces hay algo que está sucediendo en el mundo real, y hay una explicación lógica para ello. Una explicación es una parte muy importante de la ciencia de datos. Cuando veas tu relación, deberías poder explicar por qué está sucediendo, porque ahí es cuando podemos decir si la relación es incidental o sucedió por casualidad eso sí. Sí existe algo así. Para los atributos A y B, la relación puede ser como cuando se produce un también se produce. Tienes dos atributos y ser así cuando una abejas actuales también está de acuerdo,
Digamos, Digamos, cada vez que ocurre una venta, también sucede
algo más como cuando ocurre una vela fuera de un celular. También ocurrió una vela de una cubierta de celular. Entonces las cosas que sucedieron juntas cuando a porque B no ocurre no le gusta la
relación negativa . Cuando tú y seas tu tipo de exclusividad mutua mutuamente excluyente es otra vez una especie de relación. El 3er 1 ha sido muy sube, ser también sube. Entonces eso es bajo ese tipo de relación y donde un aumento ser disminuye. Entonces eso es como otra relación negativa. Entonces cuando eres dos atributos los valores de estos atributos, los valores que se ven en estos atributos muestran cualquier off este tipo de relación. No todas las entidades exhibirán relación que serán siempre algunas entidades donde
verás algunas relaciones alguien es, no exhibas ninguna relación en absoluto. Otro Aprendizaje Dorado es buscar entidades que en conjunto exhiban alguna forma de relación sobre las relaciones pueden implicar múltiples atributos para gustar. Cuando un está presente y se aumenta ver disminuirá por lo que múltiples actividades juntas podrían exhibir alguna forma de relación. Entonces esto es una especie de visión general. Las relaciones fuera del agua son ahora. Vayamos a ver cuáles son algunos de los ejemplos fuera para relaciones como cualquiera. Toma a un cliente como envejecido sube, la capacidad de
gasto sube, por lo que hay una relación. Envejecerá sobre los ingresos del cliente, por lo que en la edad sube, la capacidad de
gasto sube. Hay una explicación lógica de que a medida que sube la edad, posiblemente la persona esté ganando más dinero para que la capacidad de gasto también sea alta. Ahora cuando hablamos de relaciones y ciencia de datos, estas no son relaciones muy concretas. Ya sabes, no
es literalmente como un granjero que suceden todo el tiempo. Ahora ese tipo de cosas, como la relación 100% amable es buena. Pero lo que aquí vemos es en general, en general, tipo de relaciones, como cuando envejece por la capacidad de gasto. Koza. No todos los clientes, no todos los clientes de moldes van a enviar más, pero la mayoría de ellos, eso hablamos como una relación. El otro es nuestro bollo. Clientes compran Más Ancho de banda de Internet Existe una relación entre la ubicación del cliente en los parches de ancho de banda, pero un cliente de nuevo, posiblemente porque están haciendo más navegación y vuelves a mirar al paciente. Hay muchas relaciones que puedes ver. Al igual que todos los persas tienen más prevalencia de diabetes. Ahí está la relación entre edad y nivel de enfermedad en todo momento. Los pacientes suelen tener niveles de colesterol más altos. Es decir, la relación entre peso y cabeza. De verdad otra vez, hay razones científicas por las que suceden estas cosas. Te llevarías un auto. La relación entre el número de cilindros y el kilometraje que da así más lo hace Linda, a menos que el kilometraje. Porque hay más quema ocurriendo cuando hay más cilindros. Los autos deportivos tienen tasas de seguro más altas ahora. Esta no es una relación aceleradora, pero lo verás como una relación de negocios como tarjeta deportiva. Siempre que los autos fuera de un despecho tipo un deportivo, es las tasas de seguro suelen ser más altas. Por lo que hay una loción a entre el tipo de auto en las tarifas de seguros, algo cosas sobre las relaciones. Una de las cosas que te quieres molestar es la relación de Benussi entre dos atributos. ¿ Es consistente la relación? Son las relaciones incidentales también se pueden decir como patrones,
patrones lo que se ve en los patrones de datos de comportamiento. En ocasiones el patrón de comportamiento puede ser consistente porque sucede todo el tiempo. puede repetidamente, cuando sucede todo el tiempo, realidad se
puede predecir tal comportamiento en el futuro. Pero como podría haber patrones incidentales, incidente esa relación. También, cuando es un incidentalmente, sólo
sucedió por casualidad. Esa podría no ser una explicación lógica para un incidente de que el comportamiento es un patrón de incidentes . Por lo que siempre que veas una relación, es muy importante que te asegures de que la relación sea consistente. Fue es incidental. Las relaciones consistentes son lo que necesitas para la ciencia de datos. Las relaciones también nos llaman correlaciones es decir, se está utilizando
el término técnico que verán. Correlación entre dos son entidades son dos atributos es cuando con lo que ves como cuando un sube y se sube, Sube. Y Biscoe no Austin Eso es cuerpo llamado correlaciones de Correlación. ¿ Ese es el término matemático tintado del que hablas cuando hablas de relación? Es y finalmente podrías ser la gente habla de señales y ruido Cuando se trata de datos las señales de
ciencia no son más que patrones consistentes son consistentes. Relaciones que ves en los datos Narcisse. Los patrones incidentales son relaciones incidentales. Tú día en datos. Entonces si has estado escuchando sobre estos términos, señal y ruido ahí,
nada sobre relaciones, relaciones que son significativas fueron sus relaciones que sucedieron por casualidad, que no son predecibles, que son sólo incidentales. Entonces esa es la diferencia. Pero ser señales y agradable ahora viene, qué hace el aprendizaje Tomamos hablar de aprendizaje misionero y de este aprendizaje y de ese aprendizaje y de todas las formas de aprendizaje. Entonces, ¿qué es exactamente el aprendizaje? Aprender implica aprender sobre las relaciones. Eso es lo más importante que quieres saber sobre los datos que hacen los santos. Sus santos tienen aprendizaje misionero. Aprender aquí significa que solo estás tratando de aprender sobre las relaciones entre estos atributos. De eso se trata el aprendizaje. Se trata de tomar un dominio como un negocio de dominó hospital permanecer pierna. No te importa entender las entidades y los atributos que pueden representar el dominio recopilando datos sobre todas ellas sobre la comprensión de las relaciones. Siendo estos atributos, esta comprensión de las relaciones entre estos atributos es de lo que se trata el aprendizaje. Por lo que los modelos es el resultado del aprendizaje. Entonces, ¿qué haces después de enterarte de algo es construir modelo al respecto Ahora? Este aprendizaje cuando estás hablando aquí aprendiendo ocurren todo el tiempo dentro del
cerebro humano fueron recolectando datos consistentemente dentro de un ser humano cerebro humano, constantemente aprendiendo continuamente sobre las cosas y continuamente construyendo modelos en. Utilizamos este modelo todo el avión sin siquiera nuestro conocimiento. Inconscientemente, estamos aprendiendo continuamente sobre las cosas de lo que estamos hablando aquí en términos de
ciencia de datos es simplemente aprender este tipo off hecho en un proceso adecuado sobre el aprendizaje sucede fuera de los cerebros humanos en las misiones. Eso es lo que, como una pequeña diferencia entre el aprendizaje que ocurre dentro del cerebro humano, y el aprendizaje que sucede con las misiones es como un proceso más a esperar. Hay más datos fuera de ella, y hay más de una de hacerlo. Entonces, ¿qué es un moderno? Un modelo es una representación simplificada, aproximada fuera de un fenómeno del mundo real. Por lo que hay un fenómeno realmente bien. Estaba ocurriendo. Y cuando haces un modelo estás tratando de construir primero una moral simplificada. No estás tratando de poner demasiadas cosas en el modelo. Simplemente tratando de tomar las cosas más importantes sobre el fenómeno del mundo real en ese entonces, construyendo una representación de lucha simple sobre la re presentación aproximada fuera del
fenómeno del mundo real . En realidad se puede ir en factura modelos tan complejos como él quería una persona sosteniendo, pero generalmente pin gente construye modelos. Querían simplificarse, por lo que pone de manifiesto todos los factores importantes que quieres molestar siempre e ignora todo lo que no quieres molestar. Por lo que es un simple hecho aproximado a la presentación fuera de un fenómeno del mundo real. Captura los atributos clave,
los atributos clave de las entidades sobre sus relaciones en Let's Say, un ejemplo de un Modelo podría ser ser ser ser un modelo matemático. Un modelo matemático es algo que representa las relaciones como una ecuación. Para que se pueda escribir una ecuación que presente relación entre los atributos como por ejemplo, se
puede subir. Pero esto es un formal que obtuve de algún lugar del mundo. Eres una granja. Ama cómo puedes hacer la mente. Presión arterial. Esta es una ecuación. Entonces un récord de presión negra de 56 más la edad de una persona en el 560,8 más peso de la opresión en 2.14 más Israel nivel de opresión en 2.9 Así que lo que ves aquí es que estás tratando de computar la presión arterial a partir del único atributo de la presión arterial de otros tres atributos H peso y LDL. Ahora bien, esta es una competencia aproximada de la presión arterial. Nunca te va a dar el valor preciso un alto pero podría serlo. Podría estar aproximadamente cerca del valor del mundo real Así que aquí hay una fórmula que presenta
un modelo matemático fuera de cómo una presión arterial se puede relacionar dedo del pie. Otros tres atributos. Peso, edad y niveles de Ellie. Ese podría ser otro modelo, que es hacer clic en un modelo de árbol de decisión. Es como un modelo lógico donde haces una serie de preguntas sobre la serie de preguntas que haces. Se incluyen preguntas sobre diversos atributos y luego, en
base
a eso, se le ocurre un desenlace como quieres ser,
se quiere ver. Se quiere predecir algo como comprar una ciudad de música y para ese pensamiento que se puede llegar a un modelo de decisión como este si envejece fuera de los clientes. Leyenda 25 sobre Género de los Clientes enviado por Beyonce Una ciudad llamada Sí, Así que solías atribuir género y edad en base a ellos, estás tratando de predecir con el resultado, que es con el cliente calendario por de Beyonce CDR. No Este es otro tipo de mortales. Acura. Tus modelos dependen de la fuerza de las relaciones entre los atributos. En ocasiones la relación entre los atributos es muy fuerte, tal que se puede predecir, como con 100% de garantía que Ok, si veo esto. Definitivamente estoy seguro de que este va a ser el resultado. A veces la precisión no es tanto. Por lo que en ese caso, es posible que desee combinar múltiples atributos NC si puede aumentar el nivel de precisión. A veces no hay relación en absoluto, ¿eh? Por lo que puede ser en cualquier forma o cualquier tipo de escala variable que pueda llegar allí. Pero modelo en general es un simplificado aproximado la presentación fuera de algo que está sucediendo en el mundo real.
5. Qué es la ciencia de datos - cuatro cuatro: Una vez que tienes un modelo, lo que puedes hacer es predicción, por lo que se puede usar un modelo para predecir atributos desconocidos. Ejemplo sencillo. Este año ya vimos que hay una fórmula. Presión arterial igual al 56 más agente 2.8 más espera, 2.14 más antes, Linda apuntó un +09 Así que tienes aquí una fórmula que se relaciona por atributos presión arterial, edad genial y LDL saber lo que esto significa es que si conoces tres fuera este para atributos, se
puede predecir el pie uno, así es como nos llamamos. Predicción. Entonces cuando enjabonas una computadora, puedes decir compute son puedes decir predecir cuando es un computo, estás garantizando 100% de precisión que sabes, esta es la fórmula cuando estás pintando tu aproximación mayoritariamente. Por lo que tienes cuatro atributos tres o cuatro atributos aquí. Si conozco a alguno de ellos, realmente
puedo conseguir este dedo de fórmula. Computa lo que sea después, pero quiero Oh, si conocemos tres de ellos, puedo predecir el 4to 1 Esto es lo que llamas predicción. La predicción a partir de una ecuación doble modelo puede considerarse un algoritmo de predicción simple. Cosa sencilla sobre la dilatación. Los saltos pueden ser mucho más complejos, lo que lleva a modelos más complejos y algoritmo de predicción. Entonces lo que ves en que las ecuaciones son muy simplemente encontrar modelo de nosotros o algo realmente simple como un problema se vuelve más complejo, cada uno un poco más tarde, más complejo, aprendiendo modelos más complejos en más complejos algoritmo de predicción. Entonces eso es de lo que hemos estado aprendiendo todo esto. El aprendizaje es todo sobre datos, conjuntos, relaciones, modelado y predicción. Entonces hablemos de lo que predigo el nuestro sobre desenlace. Entonces cuando estás siempre que estamos hablando de nuestros datos 100 tengo la sensación de que hablas de predictores y resultados. Entonces, ¿qué son? Los resultados son atributos que se quiere predecir. Entonces, cualquiera que sean los atributos que quieras predecir, se
llaman resultados, como en la fórmula del año anterior. Queremos predecir la presión arterial. Se llama el resultado. Senadores son atributos que quieres usar el dedo del pie para predecir el resultado, por lo que tienes un conjunto de atributos. ¿ Qué quieres predecir? El desenlace? Todo lo demás que usas para predecir el resultado, nuestros predictores de autos por lo que podrías tener 10 atributos en tus datos, dijo que uno de ellos puede ser tu resultado, y otros tres pueden ser tu práctica. Es decir, no todos los atributos tienen relación con el resultado. Atribuye sólo aquellos que tienen una buena relación con el resultado. Obviamente las variables se convertirán en predictores por lo que los predictores y los resultados y obviamente los
predictores y los resultados mostrarán alguna forma de relación porque eso es todo lo que puedes predecir los resultados de ellos predictores. Por lo que el aprendizaje es todo sobre la construcción de modelos que se puedan utilizar para predecir los resultados, que es la salida usando los predictores, que es el infante. Aquí algunos ejemplos vamos a volver a los mismos tres ejemplos. En el caso de un cliente, los predictores son edad, ingreso, rango y ubicación on. El resultado puede ser ¿El cliente va a comprar tu protector o no un paciente? Las impresoras pueden ser la edad, la presión arterial y el peso en el órgano puede ser. ¿ Es el paciente que muere? Pero no podían por ejemplo de un coche podría ser como los predictores, tal vez usar cosas como cilindro, número de cilindros y aceleración encendido. Es posible que quieras predecir dónde va a estar el auto. Un auto deportivo es un automóvil familiar. Entonces estos son los que nos llaman predictores y resultados. Una de las cosas más importantes que quieres saber es que los humanos fueron las presentaciones. Los humanos entienden las relaciones y predicen todo el tiempo que sucede en el cerebro humano sin siquiera semana, estamos conscientes, abortados. Seguimos recolectando datos, mantenemos,
Seguimos entendiendo las relaciones. Seguimos construyendo modelos en nuestras cabezas. Seguimos prediciendo todo el tiempo, cualquier momento que produzcas, predices. De acuerdo, creo que esto va a pasar. Significa que estás usando un modelo que construiste dentro de tu cabeza para predecir algo que dices. Creo que puede suceder. Es modelo de una semana. Digamos que estoy 100% seguro de que esto va a suceder. Es un ser moderno muy fuerte pero humano sólo puede manejar la cantidad nocturna de datos, Correcto. Pero, por ejemplo, me quedaré con tenderos. Ya los has visto. Conocen a su mejor cliente de los clientes de larga data. Ellos saben lo que les gusta a sus clientes y lo que quieren los clientes. Andi, cada vez que entra un cliente, suele dirigirse a ellos. Mi nombre y el inmediatamente sepan lo que quieren estos clientes. Incluso con el cliente pidiendo eso, van a ir grandes, murieron. Um, y serían ellos. Pero el ser humano sólo puede manejar llenar la cantidad de datos para que puedan conocer las preferencias de 100 clientes. No como a 10 millones de ellos. ¿ Qué pasa entonces? Ahí es cuando las máquinas son las computadoras entran en juego, ¿verdad? Queremos almacenar todo esto general en información de clientes en computadoras. Andi Deja que las computadoras aprendan sobre las preferencias en ayudarte. Las misiones vienen a entrar en juego cuando el número de entidades sobre el aburrimiento de datos es grande son enormes y sus ingresos misión aprendizaje cuando 100 o trabajas con el
dedo del pie de tu computadora , recolecta todos los datos, haz todo el aprendizaje, construir todos los modelos. Ondo. El pronóstico. Ahí es donde viene nosotros, se convierte en aprendizaje de misión. Ahí es cuando se convierte en aprendizaje de misión, analítica
predictiva y signos de datos. Entonces, ¿qué hace los santos de datos, las entidades, las relaciones, modelado y la predicción. Entonces, ¿qué son los centavos de datos? Todo se trata de escoger un problema en un dominio especificado. Entender el dominio problemático, las entidades y los atributos y el comportamiento y los pares recopilando conjuntos de datos que representan a las entidades vamos recolectar todos los datos que necesitas, luego descubrir relación desde el Reiter. Eso es a lo que llamas aprender cuando las computadoras hacen esto. Se llama Mission Dunning. Permiso. Aprender no es algo, aunque el mundo no se trata de nada. Todo está a bordo de misiones. Aprender sobre ciertas cosas están descubriendo relaciones de la lectura ocho como y luego construir modelos. El relato presidente. El mortal puede ser como un modelo matemático. Puede ser un modelo de árbol de decisión. Puede haber otro tipo de modelos complejos para, y lo que hacemos en modelos realmente construir es usar datos pasados Cuando sabes de las protestas . Ya conoces el auto, los resultados. Para que conozcas los valores de los cráteres. Conoces los valores de los resultados. Andan usando esos valores, establecer relaciones sobre a partir de las relaciones que construyes modelos. Y una vez que construyas un moderno, puedes entonces empezar a predecir Puedes empezar a predecir para los datos actuales o futuros cuando conozcas los prototipos. Pero no conoces los resultados, así que usa el pasado para aprender los modelos de construcción, y luego predices los futuros cuando no sabes sobre los resultados. Aquí un ejemplo de lo que haría el comprador del sitio web en el caso de mayores signos. Eso no es ejemplo, el problema sería predecir que el comprador comprará tu smartphone en lo que van a hacer al respecto. Obtienes toda la historia de retratos pasados de todos los compradores, ¿
verdad? Recoge características del comprador como la edad, un nivel de ingreso de género. Recoges información de temporada cuando hacen compras, como qué tipo de cosas compran durante el invierno fue un verano. ¿ Fue este Halloween? ¿ Qué es un oleaje del miércoles? Recopilas todos esos 11 datos que hay ahí. Después construyes modelos. Construyes modelos que hablan de relaciones, de lo que sube o de lo que viene tono. Cuando el cliente compra,
el cliente no compra. Entonces básicamente trataste de dejar que los otros atributos que conoces así el resultado. Entonces miras todos los valores fuera de los demás atributos cuando los clientes están comprando, ¿Qué hace esos valores de los atributos cuando los clientes no están comprando? Entonces se ve que una dama el valor off en una edad de tributo es mayor a 25. El cliente compra el valor de las edades plomo menor a 25. El cliente no muerde. Ahí viene una relación. Tratemos de usar esta relación para construir un modelo Y luego tratas de predecir, que es siempre que veas a un cliente que tiene mayor de 25 años. Sí, este tipo va a comprar eso. Entonces haces predicciones. Entonces cuando un comprador nuclear navegando predijo, el comprador comprará, utilizas el modelo y predices en tiempo real. Pero el cliente va a comprar un producto o no encendido. De acuerdo, lo que haré con la producción ahora que sabes que los clientes saben que van a comprar
no van a comprar es que puedes hacer algunas acciones como quieres ofrecer Childhelp Estos días, siempre que vayas a cualquier sitio web, ves que sale un pequeño pop up y dice: ¿Quieres hablar con tu agente en vivo? Por lo que los agentes vivos son costosos. Son seres humanos. Les pagas mucho dinero, por lo que solo quieres ofrecer en vivo, edad y ayuda. Entonces los compradores que crees que van a comprar tu producto para que puedas tomar una
decisión inteligente en cuanto a qué comprador quieres. Yo quiero fuera en vivo Agente. En base a esta predicción, este es un ejemplo de cómo funcionarían los signos de datos para usted. Gracias
6. Casos de uso de ciencia de datos: así que hola. Este es tu instructor Cameron aquí. Y vamos a estar viendo algunos de los casos de uso de la ciencia de datos. No ven cómo el mundo se está beneficiando de la ciencia posterior. El uso de la ciencia de datos está creciendo exponencialmente. Todos los días ha ido creciendo exponencialmente durante los últimos años. Yo me estaba esparciendo a través de múltiples dominios y, igual que los signos de negocios son finanzas y vida impersonal. También en un reciente avance en potencia informática. En términos de hardware, en términos, fuera de software, mucho apagado se abre o hasta ahora está llegando al mundo como todo son ecosistema de droga en algoritmos
predictivos. La combinación de todos estos han hecho que sea muy rentable para ti aplicar la
ciencia de datos en uso comercial en estos días. De acuerdo, veamos algunos de los ejemplos de uso de la ciencia de datos. La primera letra comienza con las finanzas para las finanzas. Todos a bordo haciendo dinero en ahorrar dinero. Por lo que la reducción del fraude. La reducción del fraude con tarjetas de crédito es una aplicación muy importante de nuestros datos. Se está utilizando la ciencia. Entonces lo que sucede en el fraude con tarjetas de crédito es que el fraude con tarjetas de crédito exhibe al tinte ciertos patrones en los que ocurren cada vez que miras transacciones que están relacionadas con el fraude con
tarjetas de crédito . Presentan algún patrón, algún tipo fuera de una relación entre las diversas entidades y sus atributos. Y son estos patrones los que básicamente se captan en lo histórico más adelante. Se utilizan para construir modelos a partir de fértiles y transacciones. Entonces los datos históricos tienen buenas transacciones y transacciones de fraude, y ahí, luego se utilizan para construir modelos en cuanto a cómo va a quedar una transacción fraudulenta. Por lo que cada vez que ocurre una nueva sección delictiva, esa transacción es inmediatamente de elevada. Usando computadoras, usando la modelo para llegar a lo que nos llamó puntuación de fraude. Una escuela de corte de Fraude básicamente te dice si la transacción en particular es un fraude, transacción
fraudulenta o no. Se trata de una escuela, tal vez de 1 200 en adelante siempre que haya anotó causas, sobre todo umbral. De inmediato se marca como un prop. Posible transacción fraudulenta Es. Después se toman algunas acciones como se están haciendo las llamadas al dueño de la tarjeta de crédito como dedo del pie preguntando. Si no es hacer todas estas transacciones. En ocasiones, la tarjeta de crédito se bloquea inmediatamente de más transacciones hasta que realizan la verificación. Por lo que hay algunas acciones tomadas como esta Hasta el momento, la dirección es una aplicación muy importante para la ciencia posterior en el mundo financiero. La segunda aplicación que verías es sobre la venta al por menor, Así verás que cada vez que vayas a un sitio web y hagas tus compras y metes algunos artículos en tu carrito de compras de inmediato, ves que vienen algunas recomendaciones. Al igual que en el caso de una Maison, inmediatamente
verías una recomendación como artículos frecuentemente reunidos. ¿ Cómo hacen estas recomendaciones es otra vez? Los artículos exhiben patrones sobre cómo su fenómeno se juntó, como teléfonos celulares y libros de accesorios, algunos artículos que frecuentemente se compran juntos. Ellos exhiben esos patrones de afinidad. Entonces con base en eso el proyecto de ley, lo que se llama afinidades curso entre los rubros. Entonces entre cualquier para cinco intentos que es un puntaje de afinidad asignado. Cuanto más alto, definido se llama, más frecuentemente se han reunido estos ítems. Entonces, ¿qué pasa después? Siempre que uno de los que intenté comprar por un nuevo shopper inmediatamente, artículos con alta afinidad puntajes dedo del pie ese orden de artículo como ellos son inmediatamente recomendados. lo que usaste el curso de videos para recomendar más artículos al Sharper, con la idea de que si los powershoppers los han comprado los dedos juntos. Posiblemente así es como la próxima tienda. Pero también va a hacer y ese valor para hacer más venta cruzada y absolutamente contact center. Por lo que contamos con centros de contacto, que tradicionalmente se han utilizado para la atención al cliente. El uso de contactos y hay ha crecido hoy en día hasta cúpula o ventas mucho fuera, más ventas de gama alta y soporte, y también comenzaron a usar señales de datos para mejorar su rendimiento. Y cómo hicieron o hicieron eso es esto Han empezado a anotar colores. cuanto a menos agentes, por lo que las interacciones pasadas se utilizan para anotar colores estallan en su valor en términos de
cuánto era el valor del negocio, ah, tipo de color de
guerra. Ellos son cuánto negocio ya han hecho con el con la empresa que están usando. eso se le llamó los colores. También excusan trae curso para agentes basado en la capacidad de vender
órganos de alta venta . Fue un agente de baja venta o agentes que son la capacidad de manejar un tipo específico de problema , como los agentes que pueden manejar problemas en el producto específico son tipo específico de let's y tema de
red era un tema telefónico que cosas como eso Entonces lo que hicieron entonces es que están tratando de hacer los colores correctos con el agente adecuado. En base a este curso sobre idea es, una vez que puedas tener razón, llámanos con los agentes adecuados. Se va a optimizar sus resultados de negocio y luego llamar a grabaciones con so car. Ves que cada vez que estás hablando con un centro de contacto, siempre
van a decir que tu llamada puede ser grabada con fines de calidad y lo que hacen con estas grabaciones de llamadas es que van a jugar algoritmos de aprendizaje automático en estos grabaciones para comprender la calidad del llamado al resultado y utilizarlas para futuras mejoras. Y por último, nos fijamos en la atención de salud ahora prediciendo que los operadores de enfermedades han sido amigos. Lo de empolvar que ha pasado son escamas es que puedes predecir brotes de enfermedades
mirando lo que la gente está buscando en Google y lo que están tuiteando y twitter. Por lo que los datos establecen este colector de dominios públicos como los buscadores de Google y Twitter feeds y cosas así en estos datos siempre se vincula con la información de ubicación. Entonces cada vez que estás buscando algo en Google, sabes dónde estás poniendo algo. El lugar de Mario haciendo eso siempre se recoge, y luego se recoge esta información. Al igual que lo que estás poniendo sobre nuestra agua que estás buscando en Google aeroplano junto con el dedo de
ubicación, sube con Pat. Y también lo están las personas haciendo este tipo de consultas fuera de una enfermedad específica desde una
localidad específica . Ese artículo quería que cuanto más el momento en que empieces a ver algunos patrones fuera de los pies, gente está tuiteando más sobre una ubicación específica de una enfermedad específica. Esa es una posibilidad de que haya un brote que está ocurriendo ahí. Este tipo de información se está utilizando ahora para empezar a predecir que se trata de objetos. Lo bueno de hacer predicción sobre los brotes de enfermedades es que el gobierno puede crear de manera más proactiva. Ves que esto es arrancar dedo del pie o romper una localidad específica. El gobierno puede comenzar de inmediato a reunir sus recursos para comenzar a mandar algunos cuidados
preventivos. Um, o muchos manda más médicos. Cosas como esa ahí se pueden organizar, como con un par de días de anticipación en prevenir más o corsé que está sucediendo en la misma zona. Por lo que no asignen es ayudar a prevenir que al menos manejemos estos brotes de enfermedades. Por lo que estas son algunas de las aplicaciones interesantes en los científicos de datos es como una aplicación muy pocas popular. Es decir, de hecho, mucho lo que está sucediendo ahí en duh. Espero que puedan hacer algo más de lectura e industria y todos ellos. Ah, y en un futuro cercano, gracias.
7. Ciclo de vida de la ciencia de datos - configuración: Hola. Este es tu instructor común aquí. Yo estoy en esta sección. Vamos a estar viendo de qué se trata un ciclo de vida de los proyectos de Data's Signs. Entonces vamos a hablar de los proyectos de ciencia de datos en qué están sus actividades, cómo se secuencian. Entonces, empecemos con algunas notas introductorias. esfuerzos de ciencia de datos son típicamente proyectos ex Urano. Entonces cuando cualquiera de las muchas empresas son negocios quiere hacer cualquier cosa menos signos de datos, suelen crear proyectos como la gente quiere construir software. Crean proyectos de software on para proyecto. Se pusieron de algún objetivo, algo de oro para después ir a ejecutarlos. Similar a eso, tenían otros signos. También se ejecutan esfuerzos como proyectos. Entonces una cosa a tener en cuenta aquí es que el proyecto de ciencia de datos debe considerarse como
proyectos de investigación . No son como construir operar proyectos que no son. No tienen cosas realmente cierta piedra que puedes simplemente ir y ejecutar y
alejarte de ella. Se trata de proyectos de investigación. Hay mucho fuera de pensar involucrado. Había mucho fuera de junta de retrabajo y hasta que se logre el objetivo por lo que deben
considerarse como proyectos de investigación, no como software construir y operar tipo de proyectos. Los proyectos están empezando a inundarse como cualquier otro proyecto que hagan en los proyectos. ¿ Tienen rostros y actividades en transición sucede entre rostros
y actividades, y ha enviado proyectos implican mucho ida y vuelta entre los rostros. Entonces es estrella matutina, como realmente de modelo de cascada. Es más como un modelo iterativo si quieres asociar eso con algo relacionado con el desarrollo de
software. Por lo que en esta sección hablaremos de qué son los santos de datos, caras de
proyecto y actividades. ¿ Cuál es la importancia de cada una de estas actividades sobre cómo su transición tipo de una a otra, y también algunas de las mejores prácticas? ¿ Simplemente vamos a hablar de ellos? Entonces aquí hay una visión general fuera del lector. Proyectos y actividades de ciencia que verás allí hay, como completas, amplias categorías o etapas en el lector. Ya que proyecto que es el conjunto de fase on, está la ingeniería de datos cara la cara analítica en la fase de producción en la
fase central , solo
preparas al equipo con lo que tienen que hacer. El dato que hiere durante años es todo acerca de obtener datos y capacitación de datos para trabajar con datos de la buena manera. Barra de formas. Se puede hacer la tercera etapa, que es la etapa analítica. Por lo que Alex se trata de explorar los datos y obtener alguna información significativa o la Fed . Entonces todo se trata de aprender y predecir sobre Una vez que haces la cara analítica y se algún tipo de recomendaciones, luego
puedes ir a la etapa de producción donde realmente construyo algunos productos de datos que luego hacen todo lo que lo acaba de hacer de manera automatizada y de manera repetible en sigue produciendo resultados que desees. Yo sólo voy al primer rostro de actividad, que es el conjunto de fase. El primero que quieres ir en cualquier proyecto de inocencia es lo que llamas el establecimiento de metas para el Proyecto Inocencia. Todos los días, el proyecto de esencia tendrá y debe tener un oro. Si alguien quiere. Qué proyecto de decenas, que es como, Vale, veamos los datos y veamos qué se puede sacar de eso. Ese proyecto está condenado al fracaso. Data Science Project debería tener un oro específico que hago para que el equipo vaya tras. Por lo que el esfuerzo del equipo estará todo enfocado en lograr este objetivo, y las actividades también estarán basadas en lo que quieres lograr tan espacio. Pero ahí está que Proyectos sin metas son conductores, nuestros autos sin conductor. Entonces si la gente alguien causa va a venir y decirte eso, Vale, vamos a hacer lo que tiene desde trágico. Basta con mirar los datos y ver qué se nos ocurre. Ese proyecto no va a ninguna parte. Entonces esa ha sido la experiencia fuera de
muchas, muchas personas que intentan hacer. No proyectan algunos de los ejemplos de oro poniéndonos la pierna. No hay predecir qué clientes se agitan en los próximos tres meses. Ese es un grupo objetivo que trata que estamos consiguiendo sobre nuestra empresa y luego agruparlos en
base al sentimiento fuera de los tuits son identificar pacientes que tienen posibilidad de sufrir un ataque al corazón en los próximos tres meses. Entonces vas a predecir a los clientes, Joan, ¿vas a predecir el sentimiento de los tuits? ¿ Vas a predecir pacientes que van a tener ataques cardíacos? Las chicas pueden ser algo así, pero lo más importante es tener una meta bien definida antes de empezar en tu proyecto. El segundo tema muy importante en el que quieres enfocarte es entender el
dominio problemático . A diferencia de los proyectos de software, incluso en proyectos de software, diría que entender el dominio empresarial es un zoológico. Algo bueno en el caso sobre el proyecto de ciencia de datos, es necesario que todos los integrantes del equipo tengan algún entendimiento básico fuera de lo que se trata el problema de
negocios restante. Entonces cuando decimos que necesitamos, estábamos hablando de un problema que viene. Estamos hablando de los conceptos básicos del negocio como si estuvieras en la sensación de finanzas del sentir Sierra o en el campo médico, entender algunos conceptos básicos sobre el negocio, ¿sabes? ¿ De qué se trata ese negocio? ¿ Cómo hace dinero ese negocio? Uno de los procesos de negocio involucrados en cuáles son el flujo de trabajo en algunas de las métricas clave de
rendimiento en el negocio? Y eso es muy parejo en unos equipos de ciencia de datos más grandes. Siempre hay alguien que nos llama no importa exportar. No me importa. exportación es una muy crítica La Mi experiencia es una parte crítica de un equipo de ciencia de datos, por lo que los equipos grandes normalmente podrían tener un experto en dominios que tal vez no sea un tipo técnico no es un sit
estático como chico, no un tipo de programación, es sólo alguien que conoce el negocio. Manteniendo Mantenlo en el equipo a fin de ayudarte con la comprensión del problema. ¿ Envíos de dominio? No, esto es algo importante. Misiones sólo números nobles y cuerdas. Sólo hacen basura en la basura. Necesitan humanos para asociar cualquier significado a estos números y fuerza. La misión No las misiones no entienden los negocios. Los seres humanos entienden los negocios en la ciencia de datos. Es importante que entiendas y valides cualquier cosa que se vaya a plantear y que sólo lo puedan hacer los humanos y para que los humanos lo hagan, necesitan entender el problema. conocimiento del dominio ayuda a los equipos a entender las entidades involucradas la relación, los patrones, cualquier tipo de descubrimiento de conocimiento que hagas necesitas para validarlos. Y la violación sólo se puede hacer si sabes lo que el problema no le importa es todo sobre un adulto. En esta comprensión del problema, dominio te ayuda a validar todos los supuestos. Más importante aún, ¿sí identificas error Así que los datos tienen algunos asuntos. ¿ Cómo lo sabes? ¿ Y si Por ejemplo, estás mirando un día Dan, y digamos que la edad de la persona aparece 600 años. En el momento en que lo miras, sabes que extendido no es el número equivocado porque no hay nadie que tenga 600 años. Pero sólo se puede hacer eso porque ya sabes, la era del dominio es un término de uso muy común. Todo el mundo entiende de qué se trata. ¿ Qué? ¿ Y algo así como el nivel de colesterol? ¿ Cómo sabes qué es un nivel de colesterol válido? ¿ Qué no es un cuestionable válido? Si alguien tiene un descuento ilegal 1000 ¿es posible? Es un número normal en el número alto ¿No es un número invitado? Solo puedes decir si conoces el dominio, y es por eso que se requiere experto en dominios para ti después de entender el dominio. La siguiente fase es entender los datos asociados a los datos. Ya hemos visto suficiente sobre los datos y algunas de las otras secciones. Por lo que aquí, vuelta a ella, los procesos de
negocio sobre los flujos de libros generan datos. Muchos datos, algunos capturados, otros no capturados. Pero dondequiera que se capten los datos, hay múltiples cosas como los datos de aplicación 100 que haces en diversas
aplicaciones de entrada que son informes Hay visualizaciones. Hay datos automatizados provenientes de Desde que nuestros datos se alimentan, hay clics Web que obtienes en un navegador. Cada clic es también uno de los pies de datos que nuestro punto de venta transacción que se han grabado y hay redes sociales nuestros feeds de datos. Además, son todos estos datos de negocios que se están generando a través de múltiples fuentes. Se han almacenado en múltiples sistemas. Algunos están en la red de cooperación. El verano en se desarrolla. Hay datos en todas partes que tal vez quieras usar. Los datos, por
supuesto, pueden ser estructurados, no estructurados o semiestructurados. Esto de nuevo, hemos visto esto antes en datos tienen orígenes diferentes. ¿ Hay una especie de violonchelos diferentes Y podrían tener muchas relaciones lógicas, relaciones, por
supuesto, o la clave para cualquier tipo de administración de comensales comprensión, datos Entender qué datos tienes es un cosa muy importante para un científicos de datos. ¿ Qué es eso que quieres? ¿ Entiendes sobre los datos? No entenderás la fuente de los datos. ¿ De qué manera relabel son los datos es es que se genera a máquina o se ingresa por los humanos ? Seres humanos ¿Es esa una posibilidad de alguien? ¿ Hombre? Subir la entrada de datos están poniendo datos de dibujo y alejándose de ellos porque nuestros cuán buenos los datos que vas a usar para tu análisis son lo que va a entrar en la mina, lo buenas que van a ser tus predicciones. Por lo que los datos tienen que ser válidos su para asegurarse de que esos datos no sean hombre operado por alguien. Por algunas otras razones, es necesario entender qué tipo de pasos de procesamiento y transformación se realizan en los datos. Según se informa, Amore tiene algunos datos que han sido descartados por alguien durante el paso porque pensaban que no es importante como algunos datos duplicados haciendo su ser al procesamiento. ¿ Estás perdiendo algunos datos porque estás haciendo alguna recapitulación o no? Todas esas cosas que debes entender de la vieja Lolita cómo los líderes hacia otras bases de datos
empresariales estudiantiles nublan Neuf esos alimenta cómo se sincronizan los datos entre estas diferentes fuentes de datos. Ya sabes, cuando alguien y como datos en su lugar al día también podría estar yendo en su lugar ser así que ¿qué? Están realmente sincronizando entre sí. Cuáles son la relación que existe dentro de los datos. Yo lo sé. A ver qué tipo de cosas? Al igual que la relación clave extranjera entre los datos, El i d aquí debería coincidir con el yo d allá y cosas así. Ordenar la creación cuando está ordenando, ya
sabes, usa como el primero ordenar algo como, Ok, en el agente primero va y entra algo en el sistema may. Entonces se va, y los niños están de acuerdo sistema ser. Entonces hace algo insistente. Steve, aquí es donde la comprensión de tu proceso de negocio te ayuda a entender cómo se están creando los datos en qué orden se están creando. También en la comprensión de los datos ayuda al equipo a identificar posibles fuentes fuera de sus
patrones predictivos . Y de dónde estás sacando estos patrones de Río siempre violan cada vez que ves una parte sobre si hay válido o no. Por lo que es importante que entiendas cómo viene el día y cómo fue creado. Entiendan sus patrones ellos mismos. En ocasiones los patrones podrían crearse debido al edificio. También se ha creado. Entonces cosas que son realmente complejas en este punto para explicar. Pero una comprensión de los datos en general es algo bueno tener para un científico de datos
8. Ciclo de vida de la ciencia de datos - Engg de datos: La siguiente fase de la que vamos a hablar es la cara perdurable de datos donde configuras tu set siempre
hecho e ingeniería de datos. Es todo el trabajo sucio que tienes que hacer para conseguir los datos de varios hoy a la forma que queríamos ser. Entonces ahí afuera lo hace por todo el lugar. Terapia no administrada. Tienes que juntar esos datos. Reúne tu acto,
junta todos los datos, dale una paliza, ponlos todos en un solo destino agradable lógico donde luego podrás hacer cualquiera fuera de tu análisis
posterior. El primer paso en ingeniería de datos es la adquisición de datos adquiriendo datos. Entonces donde tu trabajo es adquirir hija de diferentes fuentes de datos que puedan ser datos
empresariales,
Como tal vez sentarse en una base de datos de artículos en mis bases de datos de secuela, ahora podría tener que hacerse a través de muelles nublados. Hay muchas obligaciones fuera en la nube. Te dan un P. A es en la nube como salesforce, por ejemplo, tienes que ir y obtener datos a través del AP. Ojos leen. Podría estar llegando a un escáner se alimenta de alimentaciones de sensores como escáneres de código de barras. Puede que esté viniendo a través de redes sociales, podría
tener una descarga. Redes sociales como Twitter y Facebook. Todos ellos son fuentes de datos. Cada uno de ellos presenta un caso de uso diferente tipo off en un tipo diferente de reto para ti . A veces los datos encajan también podrían estar llegando en tiempo real. Puede estar viniendo a granel. Podría estar viniendo, introvertido. A dato también. Entonces todo eso crea diferentes problemas para ti. Una de las cosas más importantes de la adquisición de datos es la cordura. Comprueba
comprobando, asegurándote de que tienes todos los datos que necesitas. Y no hay datos que se pierdan en la capa de transporte. Eso la curtiduría. La comprobación de pruebas es una parte importante de la adquisición de datos. Es un paso más engorroso y que consume mucho tiempo para configurar por qué es engorroso. Un tiempo que consume configurarse en no decir toe adquirido para configurar es porque cuando se tienen todas estas fuentes de datos, lo que viene pero eso son cosas como la seguridad. Hay personas que son propietarias de estas bases de datos. Hay políticas de seguridad involucradas. Ahí están las políticas de compartir involucradas. Por lo que vas a pasar mucho tiempo estableciendo conexiones con las misiones involucradas en los seres humanos que controlan las misiones en esto puede ser realmente el tiempo primero frustrante. Porque supongo que los científicos de datos, si estás realmente cerca, cierto, mayor que nos gusta el cielo. Si ya eres departamento de Invictados en la puerta. Esos También es 90 departamento. Posiblemente No tienes muchos temas,
pero no estás en el departamento de energía, tú o tal vez un concierto y estás en un departamento diferente sobre tus datos está sentado ahí y base de datos empresariales. Está sentado en la nube. Entonces se vuelve aún más engorroso plática con toda la gente en Wall les explicó por qué qué qué datos necesitas, qué necesitas los datos y qué ex editores de guerra y conseguir que compartan los datos en pasar por todo el basura organizativa va a ser mucho tiempo y esfuerzo involucrado . Entonces esto es un muy engorroso, frustrante Este es el día en que trabajaron en tu para hacer la limpieza de datos. Una vez que
obtuviste los datos, tenías que limpiarlos. ¿ Por qué tienes el limpiador? Porque los datos tienen diferentes grados de limpieza e integridad. No todos los datos que vas a estar obteniendo son datos de estructura limpios y completos de aplicaciones
corporativas como, ya
sabes, sentarse en la base de datos son en realidad limpios y completos, por lo que no tienes el mismo sobre ello . Esto ya limpio, ya completo ya en el primero. ¿ Quieres que sean? No hay problemas pero los datos que estás obteniendo de Internet de las redes sociales de Voice Transcript todos ellos podrían necesitar una limpieza significativa. Ya sabes, hay sucio incompleto en todo tipo de múltiples formatos en Digamos, si miras alguno de los feeds de Twitter , ya
sabes, no
son frases completas, que muchas abreviaturas y Parkins de cosas Junkin sentado ahí, todos
están necesitan ser limpiados, examinados y faltan datos. Ese es otro gran punto importante. ¿ Qué pasa con los datos faltantes? Podría faltar atributos por cierto. Collins son una especie de valores quizá faltantes para ciertos atributos. ¿ Cómo las vas a manejar? ¿ Les vas a dar un valor? Porque si pones algo así como un principal ahí, por ejemplo, tu algoritmo de aprendizaje de misión no entiende ninguna va a pensar que los internos bajo ese valor si pones cero como valor para algún número. Tu jardín iba a tomar. De acuerdo, cero es algún valor. ¿ Cómo te lo dices? Misión Algoritmo de aprendizaje cero medios y no disponible Otro donde dice que tiene algún valor. No es algo fácil de hacer. Muchas veces tienes que poner un reemplazo y antes de que mueran ahí adentro y hicieron que afectaran tus algoritmos de aprendizaje de misión. Por lo que falta el manejo de datos es una decisión muy clave que hay que tomar aquí. Ejemplo de limpieza son como si estuvieras normalizando los formatos de fecha ahí mismo. A veces se dan cuenta de un imam dd dd mm Aceite sobre mm realmente conocen todo tipo de ex. Quieres una facilidad normal y los estándares dedo del pie 14 meses antes de poder empezar a usarlos estandarizando en lugares decimales. En ocasiones los datos vienen en 1.23 A veces se usa yendo a usar el
formato exponencial para un número. Y todo lo que necesita ser estrategia es una vez más bajo el clásico. Uno es el apellido. nombre era el nombre apellido. Cómo se nombra representado en los datos. Entonces Entonces estás conociendo qué granjeros son. Todos ellos necesitan ser como estandarizados. Hay una parte del proceso de limpieza en. Más importante aún, si estás obteniendo como fuentes de texto de alguna parte, tienes que hacer mucha limpieza para texto que eso es todo un desminado en sí mismo. ¿ Qué haces con la limpieza de texto? Eso es todo lo que se necesita trabajar antes de que puedas empezar a usar los datos para cualquier otro análisis. Los datos de transformación de datos después de una limpieza podrían tener que ser pinzas en la puntera. Un ex diferente tiene forma diferente antes de empezar a usarlo. lo que la razón de la transformación de datos se extrae información de los datos mientras se descartan equipaje
innecesario. ¿ Qué hace equipaje innecesario está en contra de la mente por la chica con lo que Estás buscando los datos. Entonces si no necesitas algunos datos, no
necesitamos algunos niveles de detalles. Podrás resumirlas y descubrir todo el equipaje innecesario que es su típico procesamiento y sumario asistido por
Moore. Intentas verano actividades lógicas asociadas. Los niveles en las transformaciones ayudan a recortar el día. Hay señales en muchos laberintos para la idea usada de procesamiento. ¿ Por qué quieres Oh, así que alguna transformación es que lo quieres con esos datos en una forma que te preguntas puede entender mejor, como puedes colapsar un número fuera del curso en un solo registros lógicos que representan el todo lo que pasó a partir de ejemplos que tal vez quieras ver aquí es que visitante llega a un sitio web y hace clic en un número fuera de las páginas del sitio web. Podría preguntarse que alguien los está todos en un solo disco. Pero si ese es todo el nivel de lo que necesitábamos, quizás
quieras hacer algunas traducciones de idiomas entre varios idiomas. Si hay sensor médico de que eso está llegando, digamos que hay un sensor que está captando tu presión arterial cada segundo y
enviándote y leyendo la presión arterial. A lo mejor quieres resumirlo por intervalo. Se puede tomar un intervalo de 30 minutos y luego resumir y decir en este intervalo de 30 minutos, ¿cuál es el trading máximo? ¿ Cuál es la calificación mínima? Cuál es el promedio leyendo cosas así y resumirlo. Además, puedo depender alguien tu caso de uso, qué tipo de transformación quieres hacer y resumirlo. En este caso, resúmenes Después de la transformación vienen los datos y Dishman. embellecimiento se trata de agregar algunos atributos adicionales más adelante que mejore la calidad de la información. Quieres agregar algo más de información a tus datos que pueda hacer mucho mejor tu análisis. Entonces, ¿qué tipo de información puede agregar? Ah, por ejemplo, se
puede obtener información,
la información demográfica desde una base de datos de clientes hasta un registro de transacciones de punto de venta . Entonces el registro de transacciones de punto de venta solo va a tener tu nombre de cliente, tu número de tarjeta de crédito de cliente y qué productos trajo. Ahora puedes obtener a los clientes información demográfica de 1/3 partido que soy como uno de esos clientes ayuda, ya
sabes, estado
civil,
educación, educación, niveles de
ingreso. Y se puede adjuntar eso a estos datos. Una vez que tuviste dije que a los datos de lo que puede hacer es que se puede hacer algún análisis en cuanto a qué productos compra la gente como la gente. Digamos leche, que compra leche otras personas que son varón o hembra es la gente que tiene más de 20 justa por debajo 25. Puedes hacer todo ese tipo de análisis una vez que puedas. Datos de tareas interminables a nuestra tradición. Información. Cosas como tú no puedes agrupaciones lógicas de pacientes por historial médico pasado, como puedes adjuntar el pasado historial médico de un paciente a su visita actual. Entonces puedes mirar y ver, Ya
sabes cómo la gente spar con antecedentes médicos pasados. Diferente tipo de historia médica, realizar ,
son, están caminando de cosas que les haces. Por lo que los datos alentadores son un paso muy importante. Agregar más datos, datos
más significativos te da mejores conocimientos sobre qué datos tienes ahí. Y una vez que hayas terminado con todos ellos, te vas de pie. Persiste tus datos, pero guardas tus datos en alguna necesidad. Un proceso de moda sensato. Los datos se almacenan en una sincronización de datos confiable y
recuperable. Por lo que quieres procesar a toda tu hija y ponerlos en un bonito dato recuperable relabeled . Sincronizar toda la información del hígado capturada en un solo registro de mirada tanto como sea posible. Tienes datos provenientes de múltiples fuentes diferentes. Lo mejor para que hagas es si puedes conseguirlos a todos los organistas como registro lógico como un solo registro largo que contiene toda la información que necesitas. No deberías estar haciendo mucho fuera del tipo de cosas de clave extranjera. Prefieres que toe de normalizarlos y ponerlos todos en el mismo registro y ponerlos todos juntos. Por lo que más cuestionamientos y análisis se hacen realmente fáciles para ti. Un ejemplo, sería como una transacción de almas poco. Se puede tomar los datos del punto de venta. ¿ Son la información demográfica del cliente a ella sobre las características del artículo al mismo, como si tuvieras el artículo que se compra, puedes decir tipo de artículo. Es diario en un trabajo, actualizado Hace cosas como esa y también puedes agregar, como información de desempeño asociado de ventas para que puedas ser luego nuevo análisis fuera de un desempeño de Sales Associates basado en el producto que se vende basado en la demografía del cliente y cosas así. Para que puedas querer juntarlos todos en un solo disco directo y almacenarlos. Ese es el paso que ha llamado a la persistencia de datos y finalmente, están escalando el rendimiento de la consulta son factores bastante importantes. Por supuesto. Ahí está bien en remolque. El dominio de arquitectura de datos donde se encuentra el Data Architects. El trabajo es a arquitectos. El trabajo es diseñar tus datos, cantar de tal manera que pueda contener todos los datos que tienes y tiene un
escalado razonable . Tiene un rendimiento de buena calidad y todo eso para ayudarte en el siguiente paso, que son los datos de pasos analíticos por supuesto, puedes almacenarlos como archivos planos, bases de datos SQL
tradicionales. Y entonces, claro,
hoy tienes todas las tecnologías
de big data como Hadoop on Hard Abrir sus bases de datos, como la base de coberturas que quieres almacenar tus datos. Por lo que esto completa la segunda cara de un proyecto de ciencia de datos.
9. Ciclo de vida de la ciencia de datos : análisis y producción: Hola. Este es su instructor Cameron aquí están continuando en el ciclo de vida de la ciencia de datos. Esa fase de pensamiento es un narcótico donde estás tratando de aprender de los datos y hacer tus predicciones. El primer paso en el análisis es lo que se llama exploración de tres análisis de datos R E d A. En forma de disparo. Una forma corta muy famosa en la ciencia de datos. ¿ Qué vas a hacer cuando e t. A. es? Quieres entender patrones de atributos individuales que tomas una edad como atributos . No entenderás cosas como los valores mínimos de rango, los valores
máximos, la distribución de frecuencias, yo, cosas así. Lo siguiente que querías una era entender la relación entre los atributos como lo que hace la relación entre edad y estás comprando relación patrón entre ingresos sobre da género, cosas así. ¿ Cómo afecta un cambio en uno al otro? En otras palabras, estás girando todo sobre las relaciones en esta cara que estás tratando de hacer. Algunas gráficas están tratando de hacer algún análisis y entender más sobre lo que ves en los datos. Entonces lo haces. razonamiento es explicable el comportamiento? cuales sean las relaciones arriba en los patrones que estás viendo en los datos, hay una explicación de por qué es así que no lo hace. Si no encuentras una explicación que posiblemente, existe una posibilidad. A menudo mejor. O tal vez sea un nuevo patrón. Eso es algo que quieres discutir y luego descifrar que eres. Mira a nuestros jugadores y luego decide qué quieres ir con ellos que quieres, ya sea incluirlos o excluir, um, son depende de hueso. Lo que el Outlier Valley West. Y es un caso de uso por base de caso de uso. Tú decides qué quieres hacer sin jugadores. Posibles errores en el procesamiento sólo se puede encontrar pero lo explotó y escucha. Ese es un muy buen uso fuera del proceso. Tomemos un ejemplo de nuevo en espera de pacientes fuera. Acabamos de discutir unos esclavos atrás. En el momento en que ves de ocho off como 600 inmediatamente sabes que hay algo
malo en eso. Existe un posible error. También fue lo que ustedes llaman jugadores supongan que hay un par de pacientes que tienen 70 75 años de edad. Todo el mundo es como 40 lección para 40 años de edad que tal vez quieras decidir y eliminar esos dos discos sin jugadores. Ese es uno posible nuestro procesamiento de clientes. ¿ Te quieres ir encima? Por supuesto que quieres entender la relación entre el paciente Espera y en el
nivel de diabetes , el nivel de colesterol en el historial familiar y cosas así. Y por último, violas tus hallazgos con los expertos del dominio Cuando dices:
Oye, Oye, esto es lo que estoy viendo en los datos. ¿ Hace ese gel con lo que ya sabes de algo nuevo, quieres hablarles y entender cómo están las cosas. El siguiente paso es el análisis inferencial. ¿ Qué haces en el análisis inferencial es buscar señales. Ya
sabes, buscas patrones, buscas consistencia en esos de espalda y buscas correlaciones. Buscas el razonamiento. Esto es una especie de superposición con explorar un tratado abajo. A menos que sea, esto es más en profundidad y más enfocado y más metódico que se hace aquí en francés en análisis, luego se comprueba y se ve si los patrones son consistentes y reproducibles. A lo que te refieres con consistente es ¿ves la misma parte mes tras mes? Ves que eso es a A medida que aumenta la tasa, ves que aumentan los niveles de colesterol ¿sucede para tus pacientes? Cada mes, cada mes obtienes un nuevo conjunto de pacientes y sigues viendo el mismo patrón. ¿ Ves el mismo patrón a través? Veamos ciudades a través de países a través de diferentes razas, todo eso como parte del análisis inferencial. Y luego haces alguna prueba estadística para ver que los hallazgos que ves con los datos decían que tienes. ¿ Eso se puede extrapolar a la población de la India como tú tienes datos de San Francisco puede igual, y esto es ser con resultados, sé lo mismo si lo extrapolas para que ellos y sus nosotros fuera del mundo entero son ellos va a ser diferente? Es todo lo que solo haces como parte de un análisis infractor de nuevo. Y tomemos un ejemplo de paciente. Espera, fue la diabetes. Haces todo esto en francés En análisis como podrías tomar datos rápidos de un estado que California hace el análisis y luego ver cómo California se compara con Nueva York en los patrones de ver R Calif. Son los entonces se mira hacia fuera carreras. Mira a los asiáticos americanos a los asiáticos americanos en California mostraron el mismo patrón ubicación Estadounidenses en la Nueva York. Nuestra donación americana mostró el mismo patrón que los afroamericanos. Peor es otra gente. Entonces haces todo este tipo de segmentación y luego haces todo este perfilado durante el análisis
inferencial sobre ¿te desprendes y valoras todos tus hallazgos durante este proceso ? Una vez que lo sepas, análisis
inferencial las siguientes etapas modelización. Aquí es donde toda tu misión aprendiendo todo guardia entra patada en juego es que estás jugando inmersión
temprana aprendiendo todos los jardines para construir modelos sobre lo que haces en la construcción de modelos es tu típicamente tratado de construir múltiples modelos usando diferentes algoritmos en diferentes conjuntos de datos. Se trata de todas las técnicas que hay y aprendizaje de misión. Existen algunas técnicas sobre cómo puede segmentar sus conjuntos de datos y la
sustancia múltiple para luego utilizarlos para construir modelos y probar modelos. Entonces, cómo se pueden usar diferentes algoritmos en esto es de todo lo que se trata el aprendizaje fuera
de misión . Si tomas un curso de aprendizaje de misión, fue solo una línea que ha explotado frijol a través de todo el curso. Tú, por
supuesto, tienes que probar tus modelos fueron una locura otra vez. Sus métodos para cómo haces eso en el aprendizaje automático te Finalmente, yo soy. Si yo tus modelos de mejor desempeño cuando decimos mejor desempeño, hablamos de precisión. Hablamos del tiempo de respuesta y de los recursos utilizados, por lo que hay que volver a hacer algunas compensaciones. No obstante, en cuanto a qué se trata tu modelo de mejor desempeño, digamos un modelo en tu contra. 80% de precisión en él toma un minuto de ejecución. Ese es otro modelo que te da un 85% de precisión, pero lleva una hora torrent. Entonces, ¿cuál es más importante para ti? ¿ Están más colgados para el 85 o 80? Odd. ¿ Está bien que tengas una precisión del 80% pero tengas un tiempo de respuesta razonable? Entonces nos enteramos de ello. Mira todas estas tres cosas, como la precisión, el tiempo de respuesta y los recursos utilizados. El poder informático que se requiere. A edificio modelos Andi. Entonces para decir, cuál va a ser tu mejor modelo para que el modelo que construyas al final podría ser tan simple como un árbol de decisiones o ecuación. Se pueden pedir complejos. El neural para depende del problema y de los datos en cuestión. Entonces pero al final del proceso, sí
tienes un modelo que seleccionas en base a los diferentes algoritmos y las
diferentes pruebas que conoces affray, 1,000.000.000 modelos. Entonces vas a ir y hacer todas tus producciones usando nuevos datos otra vez que adversos tienen puedes probar la predicción, volver a
probar tus modelos, una parte de los cursos de aprendizaje de misión que verás. Tienes que seguir validando la precisión de tu modelo. Por lo que solo te unes a construir un modelo probado una vez y alejarte de él. Pero lo vas a intentar. Los modelos Befriend a veces son incluso combinación de diferentes modelos y luego ver cuál te
da la mejor precisión posible. Vas a estar intentando que mi gente sea llantas y variaciones en este proceso de juicio . Maris de nuevo el mejor momento que puedes usar tu Hay mucho de eso es por lo que lo llamo el proyecto de
investigación. Al principio, vas a hacer mucho año de investigación bandeja de cosas diferentes y ver cuál funciona mejor para tu proyecto específico, un tiempo de respuesta, investigación de
recursos, todo el mecánico, sobre todo cuando hay que hacer predicciones en tiempo real como una búsqueda Web. Sharper acaba de entrar en su sitio web y está navegando a través de su sitio web haciendo clics, y desea un predecir en tiempo real. Pero los compradores que van a comprar no lo son. Esas decisiones se han tomado como en tiempo real, ya
sabes, dentro de un segundo con resultados lo más mínimos posible. Entonces eres un pick tus algoritmos. En base a eso, se quiere seguir midiendo mejoras. Entonces a medida que sigas trabajando o diferentes combinaciones fuera de la producción de guardianes de los gobiernos
tradicionales tienen dos partes. Una es la parte de construcción del modelo, y la segunda es la parte de predicción. Por lo que hay que mirarlos a ambos y ver si hay mejor en ambos. A veces alguna producción de maldita toma más y el modelo de construcción, pero pueden ser muy rápidos haciendo las partes de producción fuera de cosas diferentes ahí. Entonces de nuevo, tienes que seguir midiendo todos tus algoritmos cómo funcionan, y luego siguen comparándolos y luego ver cuál es el mejor que quieres elegir . Podría incluso tener simulaciones. La asimilación puede ser tan simple como las simulaciones matemáticas, o podría construir software que pueda similares a ciertos casos de uso. asimilación se utiliza para validar si el agua suprime tu jardín estaba diciendo que en esta situación
dada este podría ser el resultado. Por lo que unidad es similar ahí que puede, igual manera, ese ambiente. Puede similares a lo que el NDP está haciendo su entorno y luego ver si el resultado que estás prediciendo es lo que vas a estar obteniendo. Por lo que las simulaciones son pieza compleja de software. A veces la gente no los construye para validar las predicciones. Una vez que haces todos estos modelos construyendo sobre
la producción, el último paso que haces en este caso ha llegado con un conjunto de recomendaciones. ¿ Qué haces aquí? ¿ Es que al final de este proyecto, se necesita proporcionar
una recomendación a los dueños del proyecto Vale, sobre lo que has hecho, cuáles son los algoritmos a utilizar y dónde están los beneficios esperados? Entonces todos ellos, si armas en una bonita presentación y presentas su dedo del pie los dueños de productos y aquí viene a coger otro proyecto de ciencia hecho no tienen recomendaciones para que sea los datos que no exhiben ninguna patrones explicables. Hemos estado hablando de la esencia todo ser de aprender de las relaciones. Si los datos que tiene no exhiben ningún patrón, ningún patrón entre el resultado sobre cualquier otra variable. Si el resultado no es predecible a partir de los datos que tienes, no
hay nada que puedas predecir Desai. Simple como eso. Eso no quiere decir que los datos desde proyecto sean un fracaso. Se puede tener un producto con escalofríos. Echemos un vistazo a nuestra base de datos de clientes y veamos si podemos predecir el churn de clientes al final
del proyecto. Nosotros para que puedas subir y decir, partir de los datos que tenemos, no
podemos predecir al cliente Chung que no significa que el proyecto Essence sea un fracaso . El proyecto de neurociencia sólo funcionará si los datos tienen cargas, por lo que no es por defecto fuera de los datos. Científicos, si sus datos no tienen la culpa, son algún patrón, por
supuesto, es el padre de datos Científico es los datos tienen patrones y el científico de datos no los encuentra. Pero los datos no tienen ningún patrón. No es culpa de los científicos de datos, por lo que esto es otra cosa importante a tener en cuenta. En ocasiones se descubren patrones inesperados que hacían llevar a otros beneficios, por lo que podría estar mirando al Dodi con especial objetivo en mente. Al igual que estás mirando al cliente de crédito churn. Pero puede que veas eso. De acuerdo, veo algunos patrones bonitos. Estos patrones podrían usarse para predecir algo más. Al igual que podrías estar usando esos datos para predecir molestias, por ejemplo. Por lo que un proyecto de ciencia de datos podría tener este sitio disparar un beneficio secundario. Entonces se podría decir, OK, veo este bonito patrón aquí. A lo mejor tenemos que profundizar más. Después vas a crear otro día, decenas de proyecto para eso, y luego continúas abajo que partes fuera de la puerta. A un proyecto de ciencia también se le ocurriría este sitio de beneficios. De hecho, muchos
de ellos pueden aparecer durante el proceso una vez que empieces a mirar los datos. Y, por
supuesto, finalmente
haces una presentación sobre las recomendaciones. Contó a los interesados la última de las cosas que quieres no lo hicieron. Aquí están las iteraciones que se requieren, pesar de que los pasos son menos que aquí se supone que se hagan en secuencia. Sí vas seguir yendo de ida y vuelta entre esos pasos en que tal vez estallan en intermedio o al final, análisis y retroalimentación Así que después de hacer todo tu análisis, gritaste con el experto en dominios. Gritaste con los demás interesados del proyecto. Podrían volver con algunos comentarios que pueden obligarte a volver a encenderte, luego rehacer el análisis estalló en luz nueva que se ha compartido en los datos que tienes. Por lo que la gente puede tener
diferentes objetivos, diferentes prospectores que podrían darte nuevos desencadenantes para volver atrás y mirar los datos que es un comentario. India firma el producto en que su respuesta a los hallazgos en los datos sobre entonces lo puede llevar en múltiples partes de análisis. Si tienes, entonces viene la cara final que es la cara de producción o la cara de glaseado de producción. Simplemente implementamos procesos continuos que ustedes dos abogados son todo el trabajo que han hecho en las caras anteriores. Ondo empezar a hacer algo de forma continua año. Entonces aquí viene lo que se llama construir productos de fecha arriba. Entonces, ¿cuál es la fecha? Un producto y el producto es una aplicación que trabaja en datos, obtiene algo de los datos y lo utiliza para lograr algún objetivo. Es simple como ese pedido Producto posterior. Entonces una vez un modelado de datos y predicción. cuidó mal, se reafirmaron. Ya sabes, exactamente qué tienes que hacer entonces mejor conseguir un producto. Entonces, ¿cuál es el mejor producto básicamente es la producción izando, ya
sabes, haciendo de la cancha los cuartos no más y no girando desde los 80. No se puede nada. Haces 1/4. Esta calidad de producción hará todo el error checando en su lugar con toda la gestión y monitoreo en su lugar que pueda hacer eso hará todos los pasos de los que hemos hablado. Todos los pasos de inyección de datos. Por lo que nos das automatizar la obtención de fuentes de datos de todas tus fuentes de datos y luego tienes que automatizar estas aplicaciones para que se ejecuten regularmente. Mira los datos que están entrando y empieza a limpiar los datos, transformando los datos, persistiendo los datos. Entonces todo tu código de análisis se pondrá en marcha. Andre comenzará a mirar los datos con regularidad y comenzará a construir modelos. Por lo que todos ellos son productos hija en una sola palabra, tienen que estar funcionando continuamente con regularidad y seguir produciendo, seguir obteniendo datos y produciendo estos modelos. Y, por
supuesto, la parte de producción Después de marcas en tiempo real, ya
sabes, bash por la forma que tenga que correr. Y eso de nuevo es otro producto de datos que los padres utilizan regularmente. Cuanto más modelo sea el modelo que se ha construido para hacer predicción cuando y donde se requiera. Por lo que construir hay protección del aire, la parte final que se parece más a esto es muy como software originando este proyecto de software de
motor. En realidad, si quieres decir porque sabes exactamente el departamento en el que están ya los
convierte en un producto de software, serías solo uno necesita tener rigor de software de calidad tanto en desarrollo como en pruebas en él puede estar implementando modelos empresariales y en la nube depende de frontera más tarde se
supone que el producto debe hacer. Por supuesto, más importante aquí es también que necesitas obtener feeds de datos operacionalizados. El dato se alimenta de todas las fuentes de radar. No, tienen que ser continúa. Cuando digo continuo, es instantáneo. Sigues consiguiéndolos a medida que suceden. A veces estas recibiendo esto a diario. Haz eso, Adams. En ocasiones ya sabes, una
vez a V 15 minutos y viaja 30 minutos La defensa imprimible depende de tu caso de uso, pero tiene que ser operacionalizada para que ahí que siga viniendo regularmente. No tienes dedo del pie trabajando con alguien todos los días para obtener los datos. Aquí está todo automatizado. Y por supuesto, hablamos. Conforme nosotros doctor bordeado, hay s productos realizan toda la transformación de limpieza bajo reportar cada reporte es una cosa clave que quieres estar haciendo aquí y finalmente sacar todos los datos podría ser necesario. Ya sabes, medida que te pongas sobre comprometer a Gator, eso va a ser una gran cantidad de datos, sobre todo una vez que transformes el derecho a la forma que quieres todos los datos brutos. Ya
sabes, tal vez quieras mantenerlos durante 10 días, 15 días y luego echarlos. Por lo que eso completa todos los pasos que tienes que hacer en un típico proyecto de nuestra ciencia de datos. Pero siempre hay algo llamado, ah mejora continua. Una vez que implementa un producto de datos, siempre
son cambios en el entorno empresarial que podrían afectar todo tu aprendizaje en producción. Entonces esto es algo para soñar. Recuerda todo lo que construiste como producto de datos. No hay algoritmos, los algoritmos a modelos que hicieron que su precisión pudiera bajar debido a los cambios en entorno
empresarial y también el material de aprendizaje y producción tiene que ser el valor que
periódicamente a intervalos aproximados para asegurarse de que están continuando mostrando sus niveles de carrera que orginalmente sobre Minto tienen sobre revalidación necesidad de suceder cuando su gen de
proceso de negocio , Sabes que hay un algo cambiante en el proceso del proyecto de negocio que donde el las entidades se comportan está cambiando el mundo, el medio ambiente. Y Richard nos va a trabajar cambiando. Entonces obviamente tienes un muy,
muy hizo todo lo que estás haciendo aquí. Por lo que eso podría tener que estar bajo el proyecto infantil que se hizo Maker en su proyecto son un proyecto de
mejora que tiene que venir periódicamente para validar. Lo que has estado haciendo está todo bien. Una agenda de fuerza mejor modelo debería estar en curso. No, esto es importante. Simplemente no podemos querer y detenernos ahí sí para ser continuos. Entonces en alguien por lo que hemos visto hasta ahora, los proyectos de ciencia de datos siguen un ciclo de vida. proyectos de ciencia de datos son la investigación de sus proyectos. Hay mucha experimentación y a veces no entender. Entonces eso es algo. Por eso lo seguimos llamando. Es una señal de proyecto tipo investigación en los resultados de su papá impulsan, no viene el guardia. Duda es más importante que los propios algoritmos. Podrían ser necesarias múltiples iteraciones antes de que se logren resultados razonables. Esta es otra cosa que quieres recordar. Entonces no hay una etapa muy seria en un proyecto de ciencia de datos donde piensa que se hacen o se debe hacer. Entonces ayúdame. Esto ha sido de ayuda para usted. Gracias por su escucha, pero