Transcripciones
1. Avance del curso: Hola, soy cortesía aquí, y soy uno de los instructores para este curso, y en este curso, vamos a estar enseñándote los principios de preparación de datos. Llevo cerca de ocho años trabajando profesionalmente en el espacio de datos. Yo soy el director de analítica. Empezará aquí en Austin. Tengo una maestría en analítica, y también co anfitrión de un podcast llamado Data Crunch que entrevista a personas haciendo
cosas interesantes con datos. Entonces los datos son realmente centrales para lo que hago. Y estoy muy emocionado de compartir algunas de estas habilidades con esta clase. Vamos a estar hablando de los tres principios básicos de los datos de limpieza, y te vamos a enseñar también las habilidades técnicas que necesitas para aprender. Para poder hacer eso, vamos a utilizar un programa de software llamado Tri Factor, que es gratuito. Puedes descargar,
probar, factorizarte y ponerte en marcha de inmediato. Y la razón por la que elegimos esta herramienta es porque pensamos que es la más fácil trabajar con. He mirado muchas herramientas de software de preparación de datos y el factor seco es, con mucho, el más fácil para ti. Entonces por eso lo vamos a usar en este curso de principiante para mostrarte cómo hacerlo. Entonces no te preocupes. Si no tienes mucha experiencia y datos o incluso habilidades técnicas, esto realmente lo puede hacer cualquiera. Pero el software lo hace realmente simple. Y te vamos a llevar paso a paso a través de lo que se necesita para limpiar y preparar tus datos . Y no soy el único que va a estar enseñando esto. A mí me une mi podcast co presentadora Jeanette. Yo soy Jeanette Method y soy la otra profesora que estará impartiendo este curso. Obtuve mis licenciaturas en inglés y en humanidades y recientemente empecé a trabajar con datos, así que probablemente pueda hablar con esto más que la mayoría. Pero no necesitas tener antecedentes en datos para trabajar con datos, por lo que no hay requisitos para que tengas antecedentes que tomar. Este curso vas a construir tu propia receta de datos de seis pasos y una receta de datos en términos de
práctica try es básicamente solo los diferentes pasos que das para limpiar tus datos. Por lo que estamos muy emocionados de trabajar contigo, y estamos muy emocionados de ver lo que creas
2. Tres principios de limpieza de datos: Hola y bienvenidos al curso. Estamos muy emocionados de que decidieras unirte a nosotros sólo por un poco de fondo. Ibas a estar usando un conjunto de datos de erupciones volcánicas. Esto proviene del Instituto Smithsonian, su programa de volcanismo global. Y son todas las erupciones confirmadas que han sucedido en el mundo. Entonces eso es bastante interesante. Nos vamos a sumergir en ello y te vamos a enseñar los tres principios básicos de la
limpieza de datos . Entonces esa es una que te vamos a enseñar a buscar errores en tu conjunto de datos y cómo eliminarlos. Dos. Te vamos a mostrar cómo buscar datos que realmente no necesitan estar en tu
conjunto de datos . Eso es irrelevante y retírelo. Y te vamos a mostrar cómo buscar formas de aclarar el conjunto de datos para que tenga más
sentido para un usuario final. Entonces esos son los tres principios que vamos a estar yendo una y otra vez, vamos a estar usando tri factor. Por lo que también te vamos a estar enseñando las habilidades que necesitas en tri factor. Para poder hacer eso, te
mostraremos cómo subir datos te mostrará cómo construir una receta de datos te mostrará cómo construir transformaciones que mueven tus datos a través de estos pasos que son necesarios para transformarlos. Entonces, sin más preámbulos, solo
vamos a saltar a la derecha, y te mostraremos cómo descargar track factor.
3. Instalación de Trifacta: Hola ahí, Jeanette aquí. Entonces antes de que hagamos algo que necesites descargar, prueba factor Wrangler, y te guiaré a través de él, paso a paso. Y si ya lo has descargado en el pasado y resulta que lo tienes en tu computadora , salta esta lección y dirígete a la siguiente. Y ten en cuenta que mientras avanzamos por estas lecciones, siéntete libre de video positivo en cualquier momento. Si necesitas más tiempo para descargar o sigue los pasos. Para aquellos de ustedes que no han descargado esto en su computadora, empecemos. OK, entonces primero irás a probar factores Página principal. Por lo que abre un navegador de Internet y escribe tri factor dot com. Desde aquí, vas a mirar a la parte superior derecha de la pantalla y verás aquí que hay un botón que dice Descargar. Selecciónelo, y te llevará a otra página que tenga un poco de información para ti. Apenas un punto culminante rápido. Si tienes dudas sobre los requisitos del sistema, puedes ir al enlace aquí mismo desde aquí. Ven a este botón de la derecha que dice, Prueba factor Wrangler descarga y notarás que hay una pequeña etiqueta beta a través del botón . Ten eso en cuenta porque se trata de un software que aún está en desarrollo y conforme se actualiza , actualizará el curso. Tienes la información más reciente al lado para seguir adelante y seleccionar este botón de descarga, y ahora aparecerá una pantalla de registro y pide una empresa y un puesto de trabajo. Pero eres estudiante en el curso, así que te recomendaría que pongas lo que sea que te sientas cómodo, pero como sugerencia, algo que podrías poner aquí bajo empresa sería Try Factor capacitación y título laboral podría ser estudiante, y a partir de ahí sí requiere un número telefónico. Ahora he puesto mi número telefónico y en el pasado, y nunca he hecho que me llamen a mi conocimiento, y nunca he tenido un buzón de voz de ellos, así que no creo que te llamen aquí. Pon en tu país en tu estado y luego tu correo electrónico, y a partir de ahí crearás una contraseña. También seleccionas que no eres un robot y aceptas el acuerdo de licencia. Después de enviar, irás a esta última página, y aquí seleccionarás lo que necesitarás para tu PC o tu Mac. Ahora, voy a decir esto a mi escritorio como try factor Wrangler y dejar que la descarga suceda. Una vez completada la descarga, solo tienes que seguir adelante y seleccionar el archivo que descargaste. Mi computadora está solicitando que un palo en mi carpeta de aplicaciones. Entonces voy a seguir adelante y hacer eso. Se puede decir aquí arriba. Es solo copiarlo a mi carpeta de aplicaciones. Entonces una vez que suene cargado y ya sabes que está listo para ir a buscar la aplicación y abrir trifecta ahora en un Mac, te
va a preguntar si quieres abrir esta aplicación porque es de Internet, adelante y di Guess seleccionando el botón abierto Felicidades y ya estás listo para jugar con los datos, vamos a sumergirnos directamente en usar principios básicos de datos y explorar un caso de uso de lo que esta herramienta puede dio
4. Flujos: aquí hemos entrado en la pantalla de flujos, y un flujo es básicamente un paquete que contiene tanto tus datos como los cambios que le haces . Y la pantalla te mostrará eventualmente una lista de todos tus flujos a medida que los creas a lo largo tiempo. Por ahora mismo. Ya que aún no hemos iniciado un flujo, está totalmente en blanco. Pero verás que hay tres pestañas aquí arriba una la pestaña Flujos,
que estaban en la pestaña de entonces conjuntos de datos, que te mostrará los conjuntos de datos que has subido una vez que hayas subido conjuntos de datos y luego resultados una vez que realmente hayas realizado trabajos y tú tener resultados que mostrar. Pero vamos a la pantalla de flujo, y vamos a seleccionar crear flujo. Entonces aquí puedes escribir cualquier nombre de flujo, cualquier descripción de flujo, pero vamos a estar importando hoy un conjunto de datos de volcán. Entonces para el nombre del flujo, voy a seguir adelante y escribir las erupciones volcánicas del mundo. Puedes poner ahí lo que quieras que tenga sentido para ti y luego como faras la descripción. Este es un lugar al que escribirías cualquier cosa que ayude a describir el flujo y cualquier otra palabra que pudieras querer su. Entonces aquí voy a escribir algo al efecto de todas las erupciones volcánicas confirmadas de todos los tiempos. Adelante y presiona crear. Y esto creará tu primer flujo.
5. Descargar datos: Ahora necesitamos agregar un conjunto de datos de volcán para probar factor. Y para poder hacer esto, necesitarás encontrar y descargar el documento Data Excel desde la cuota de habilidad. Así que ve a la pestaña de tus proyectos bajo este curso y mira la barra lateral derecha para encontrar el adjunto. Descarga el archivo de datos denominado volcán. Erupciones de subrayado Conjunto de datos subrayado. Una vez que hayas hecho eso en, prueba hecho nosotros. Deje que el botón importe y agregue conjuntos de datos en esta pantalla de importación de datos. Aquí tienes algunas opciones para agregar tus datos. Puede arrastrar y soltar el archivo o elegir el archivo desde su computadora. Elige cualquier método de subida que funcione mejor para ti. Ahora tengo el archivo en mi escritorio, así que voy a seguir adelante y arrastrarlo y dejarlo caer en trifecta. Este archivo tardará un poco de tiempo en subir porque tiene varias pestañas en él y prueba Factor necesita identificarlas y mostrarlas por separado para darte opciones de carga. Así que siéntete libre de pausar tu video mientras el equipo está subiendo para esta clase estaban en Lee yendo a trabajar con la primera pestaña seleccionando el signo más junto a esta pestaña superior aquí. Entonces, si bien tienes la opción de abrir otras fuentes de datos listadas aquí, nos vamos a quedar con esta pestaña por ahora. Pero por tu conocimiento, si vas al signo más para todo el archivo aquí arriba, ofrece poder acoplar el conjunto de datos en un solo conjunto de datos, y eso básicamente significa que combina las pestañas juntas y crea un archivo de datos. Y quieres tener mucho cuidado al hacer esto. Puede que no resulte ser bastante lo que estás buscando. Además, si lo quisieras, podrías seleccionar todas las pestañas marcando el signo más siguiente, cada una de ellas, y esto las mantendría separadas. También notarás que hay un pequeño símbolo de ojo en el lado derecho que puedes usar para mostrar una vista previa si no recuerdas qué pestaña tiene qué datos, y esa podría ser una herramienta realmente útil. Ahora, medida que seleccionas los signos más en el conjunto de datos que
quieras, los verás cargar aquí arriba a la derecha, y eso lo está preparando para la carga, lo que en realidad aún no lo ha subido. Cuando seleccionas este símbolo más ahora aquí, puedes cambiarles el nombre. Podrás describirlos. Puedes eliminarlos a través de este símbolo de la papelera, y de nuevo tienes la opción de previsualizarlos a través de este otro pequeño símbolo I por aquí . Así que adelante y selecciona el botón de importación de conjuntos de datos.
6. Dentro de un flujo: hemos llegado dentro de un flujo y vemos tres iconos. El primer símbolo representa sus datos importados, y el segundo símbolo de desplazamiento como representa una lista de cambios en sus datos originales, y el tercero simboliza sus datos limpiados con esos cambios aplicados. Y a medida que seleccionas las opciones, puedes ver que hay alguna información de archivo asociada a cada una de ellas en este panel de
detalles. Además, al seleccionar cada símbolo, hay un botón de acción azul para cada uno de ellos que podemos seleccionar, y tus opciones son bien intercambiar o editar. Intercambio de recetas solo significa intercambiar tus datos por un conjunto de datos diferente, o la otra opción que verás en los otros dos símbolos es editar receta para que entremos y
jueguemos con los datos. Seleccionemos este botón, y ahora llegamos a ir a hacer las cosas divertidas
7. Descripción descripción del panel de la cuadrícula: Ahora estamos en donde podemos hacer que suceda la magia. Y echemos un vistazo rápido a algunas de las herramientas básicas a tu alcance. Aquí están tus datos y en vista de cuadrícula, como has visto antes en Excel. Te has levantado aquí y tienes columnas aquí, y puedes desplazarte por la cuadrícula con fácil desplazamiento táctil si tu computadora lo admite , o puedes desplazarte simplemente usando las barras de desplazamiento a la derecha o al fondo del cred. Otra cosa de la nota es que a medida que te desplazas por el guión junto a la Rosa, te muestra a qué número de rol va tras este. Prueba factor importado y qué camino es de la fuente de datos original, lo cual resulta útil a veces. Entonces si bien esta fila es la fila número uno ahora, muestra
que en realidad era camino a partir de la fuente original, lo que luego nos hace preguntar, ¿Dónde está la carretera número uno? Y esa es su fila de encabezado ahora aquí arriba, la fila de encabezado tiene los nombres de las columnas y flanqueando cada columna a ambos lados del
nombre de la columna son para menús desplegables, que explorarán con más detalle más adelante. Pero como una breve visión general. El de la izquierda cambia rápidamente el tipo de datos tal código postal o así número de seguridad o cualquiera que sea el tipo de datos que sea. Y aquí es donde lo categorizarías. A medida que nos desplazamos al menú desplegable de la derecha vemos que ofrece una miríada de formas en las que puedes cambiar tus datos ahora bajo la fila de encabezado. Con los menús desplegables para, tienes que herramientas realmente impresionantes. En primer
lugar, está la barra de calidad de datos, que te da una visión general aproximada de Ah, columnas. Calidad de datos. Se trata de una comprobación de calidad limitada, pero te muestra gris oscuro para todos los valores que faltan en una columna. Como verás aquí mismo, muestra
que lees para todos los valores de desajuste o, en otras palabras, valores que no coinciden con el tipo de datos que se ha categorizado la columna, como lo verás aquí mismo y verde para todos los válidos valores. Pero por favor ten en cuenta que Green no significa que los datos sean perfectos. Todavía podría haber muchas cosas mal con él, aunque esté marcado en verde. Todo esto realmente te indica es que una celda no está vacía, y coincide con el tipo de datos de columna para esa columna respectiva. La segunda herramienta fabulosa aquí es la columna, siseó un gramo, que te muestra una representación gráfica de los datos en cada llamada. Cada barra aquí representa un valor de palabra o categoría en la columna, y justo debajo del silbido un gramo, verás un cuadro de información blanco que en realidad se parece a una fila. Pero si te darás cuenta que no tiene un guión al lado como estas otras rosas. Entonces esa es la pista de que no es una fila. Este cuadro de información realmente cambia el contenido de acuerdo a tus acciones. Por ejemplo, descubramos qué volcán se llama más. Al desplazarme por estas barras con mi cruz, echa un
vistazo al cuadro de contenido debajo de ella. Como se puede ver, Etna está escrito 197 veces, lo que representa alrededor del 2% de la columna. Todo esto realmente nos está diciendo es que Aetna aparece actualmente en más filas en esta columna del conjunto de datos que cualquier otra cosa. Si miramos a la Rosa, nos damos cuenta de que cada fila representa una erupción distinta, por lo que sabemos que es donde más erupciones han ocurrido, acuerdo a nuestro conocimiento actual del conjunto de datos tenga en cuenta que puede haber más para el contexto del conjunto de datos que aún no hemos descubierto. Pero a simple vista, parece que Aetna es la ganadora por las erupciones más confirmadas en la
historia registrada del mundo . Esta vista de cuadrícula también te dice algunas otras cosas aquí en el centro superior. Te está mostrando que tienes un conjunto de datos completo. Ahora. Esto es importante para que Trife actuó para decírtelo, porque si tienes una cantidad increíblemente grande de datos, try factor solo tomará una pequeña muestra
aleatoria de la misma es que puedes trabajar con ella. El motivo de eso es, si los datos fueran demasiado grandes, haría
que tu computadora realmente lenta o no tuviera suficiente memoria del dedo del pie cargarla todo y trabajar con ella. Y por eso podría simplemente muestrear el conjunto de datos junto a esa medida. Te está diciendo que tienes 24 columnas, 9815 filas y cinco tipos de datos. Cualquier cosa que sea azul aquí, como este cinco puedes seleccionar para conocer más información. Otra cosa que puedes hacer aquí a la derecha es que puedes filtrar la cuadrícula. Entonces si hay una palabra que estás buscando algo en particular, puedes escribirlo aquí, y filtrará la cuadrícula por ti. Para los efectos de esta clase estaban usando la vista de cuadrícula, que es la vista en la que estamos ahora mismo con columnas y filas. Pero notarás que todo el camino por aquí a la izquierda que también tienes la opción de una vista de navegador de
columnas en esta descripción general de columna. Puedes hacer cosas como evaluar rápidamente los datos ocultar columnas que no quieres ver en la vista de
cuadrícula o aplicar cambios realmente rápidos en varias columnas, como eliminar un montón de columnas del conjunto de datos. Ahora esto es algo que definitivamente deberías explorar con más detalle más adelante, pero por ahora, centrémonos en nuestra buena vista.
8. Descripción de la receta de datos: bien, es hora de hablar de recetas de datos, que creo que es una de las mejores características que intenta tiene Factor. Entonces si miras conmigo por encima de la esquina derecha, hay este ícono que parece un pergamino, y si sigues adelante y haces clic en eso, se va a abrir lo que se conoce como la receta de datos ahora Receta de datos. Se trata de una lista paso a paso de todos los cambios que intenta Factor está haciendo a tus datos. Entonces cada paso es un cambio que intenta Factum hace que suceda en tu conjunto de datos en términos de factor Tri Esos pasos que se conocen como transformaciones, y hace básicamente lo que describe. Cada paso transforma tus datos de alguna manera, y las imágenes son realmente interesantes para pensar. Es como una receta para hornear o algo que tiene muchos pasos que das. Pero lo afortunado aquí es que si te equivocas en uno de tus pasos, simplemente
puedes volver atrás y eliminarlo fácilmente o cambiarlo pulsando el botón de deshacer
aquí mismo . Y también puedes rehacer si te decides realmente, uno de ese paso para estar ahí. Entonces la razón por la que las recetas son tan geniales es porque te da un auto rastro a lo que estás haciendo con tus datos. Si estás usando Excel como mucha gente, haz el trabajo con tus datos. A menudo te toparás con el problema de que has hecho muchas cosas a tus datos. Has agregado columnas. Eliminaste columnas. Eliminaste a Rose. Has cambiado algunos datos en las celdas, y has hecho todos estos pasos y eventualmente has llegado a un resultado. Pero entonces te das cuenta, Oh, cometí un error como hace cinco pasos. Pero a menos que estés documentando fuertemente y anotando todo, estás haciendo un excel, es realmente difícil intentar volver atrás y averiguar qué hiciste y qué salió mal y
cómo solucionarlo. Y la otra cosa es, digamos que haces todas tus transformaciones correctamente y sobresalen y se lo presentas a alguien , y ellos tienen una pregunta sobre si es preciso o si hiciste algo bien. Si lo haces en Excel, realmente no
hay manera de mostrar a nadie lo que realmente hiciste a los datos otra vez, menos que con esmero derecho todos los pasos y todo lo que estás haciendo, así que ahí no hay transparencia. No hay rastro de auditoría. Prueba factor te ayuda a hacer eso. Y esto es algo necesario que el dedo del pie tenga cuando estás tratando con datos porque tantas cosas pueden salir mal y es tan importante tener transparencia cuando estás mirando aquí a
estos pasos,
si te equivocas estos pasos, , puedes volver al Paso tres o dar un paso y decir,
Oh, Oh, eso es en realidad lo que hice Ahí es donde está mi error. Puedo arreglarlo fácilmente, y todos los pasos después de eso se actualizarán automáticamente. O si alguien quiere saber lo que hiciste en tu preparador de datos tu análisis, puedes llevarlos muy fácilmente aquí mismo a la pantalla de recetas y mostrarles cada cosa que hiciste a los datos. Por lo que es reproducible, es transparente, y es algo que tienes que tener cuando estás trabajando con conjuntos de datos grandes y
complejos. De lo contrario vas a terminar perdiendo mucho tiempo
9. Pasos de receta predeterminados: Hemos hablado un poco de recetas y transformaciones, así que echemos un vistazo y descubramos qué trifecta automáticamente ya ha hecho por ti. Al cargar este conjunto de datos, ya
lo ha llevado a través de estos cuatro pasos. Y sólo para que puedas tener una breve visión general y entender lo que está haciendo el hecho de prueba aquí, vamos a pasar por estos muy rápidamente. Podríamos ir más profundo, pero por ahora vamos a mantenerlo de alto nivel. Echemos un vistazo a cómo se ven tus datos antes de ponerlos realmente en el factor Try. Este es el archivo de texto sin formato de tus datos. Te darás cuenta aquí arriba Volcán número nombre esos aire tus encabezados y luego comienzas a ver cada una de estas líneas es una especie de otra fila en los datos triste. Y parece que están usando comas para separar dónde deberían estar las columnas. Entonces, así es como se ven tus datos en realidad, pero realmente no puedes trabajar con ellos así. Por lo que trifecta realmente aplicar. Algunas se transforman en la receta para ponerla en un formato utilizable. Entonces echemos un vistazo a cada uno de esos pasos. Si haces click en el primer paso Lo que try fact va a hacer es en realidad apagarse el resto de estos pasos, y te va a mostrar lo que el resultado waas de este primer paso que dio. Entonces entran tus datos, aquí está el archivo trifecta. ¿ Hace este paso inicial y este es el resultado. Entonces está diciendo que está rompiendo tus datos en filas y tiene este pequeño s nuestro símbolo en un círculo que significa que es la transformación de la rosa dividida. Lo que notarás aquí es que tienes rosa. El primer año tiene volcán número todos. Se puede nombrar la segunda fila, tercera fila y así sucesivamente. Entonces eso es todo lo que ese primer paso hizo es solo darte a Rose. Veamos qué hace cuando haces el segundo paso para que solo podamos dar click en eso. Se lo quita del gris, y luego te muestra los resultados del segundo paso por el que te llevó tus datos. Lo notarás como SP aquí. Esa es la transformación dividida. Y luego te dice que dividió la columna uno en 24 Collins en una coma. Te diste cuenta ahí mismo. Entre esas comillas, está usando una coma, igual que vimos aquí que hay un montón de comas que parecen estar dividiendo el
conjunto de datos . Se va a decir, Muy bien, en este paso, tenemos cosas separadas por comas y vamos a tomar esas comas, y vamos a crear saltos de columna con cada uno de esos comentarios. Por lo que ahora tienes tus columnas. Está bien, nos estamos acercando, pero aún no estamos del todo ahí. Todavía tiene estas citas feas. Todos estos campos de datos tienen comillas en ellos, lo cual no es realmente fácil de trabajar. Por lo que el tercer paso aquí intenta conjeturas factoriales. Probablemente queremos deshacernos de esas cotizaciones. Por lo que utiliza este r P en el círculo conocido como la transformada de reemplazo. Entonces está diciendo Toma todas las cotizaciones y reemplázalas por básicamente nada. Entonces es solo usar esas dos citas aquí y poner nada entre ellas, lo que básicamente significa que nos estamos deshaciendo de las cotizaciones porque las estamos
reemplazando por nada. Por lo que notarás todas las cotizaciones que solían estar alrededor de estos números y y palabras ahora se han ido. Eso es genial. Lo último aquí, también
notaremos en esta primera fila, realidad
tenemos nuestros nombres de cabecera de columna. Pero realmente no queremos eso. En nuestro conjunto de datos, queremos esos son los nombres de las columnas? Bueno, prueba hecho. Ah, otra vez adivina que eso es lo que queremos hacer. Entonces cuando miramos a esta última transformación, este hee transformado, que es la transformación de cabecera. Lo que eso hace es que toma esa primera fila y los convierte en tu nombre de columna. Entonces ahora todo en esa primera fila es ahora tu nombre de columna, número de
volcán, nombre del
volcán, número de
erupción, y así sucesivamente.
10. Cambios rápidos en la receta: Ahora, hablemos un poco más de estas transformaciones. Si no te gusta alguno de estos pasos, por alguna razón tienes algunas opciones que podrías eliminar o editar cualquiera de ellas en cualquier momento. Entonces te das cuenta cuando estaba rondando sobre ellos Inicialmente, obtienes estas tres opciones por aquí. Papelera. Cran se deshará totalmente de él. Por lo que sólo quiero eliminar esa transformación. Se ha ido de mi conjunto de datos y ahora los encabezados ya no están en los nombres de las columnas. Ahora están aquí abajo. En realidad quiero eso. Entonces solo voy a pegarle en do y va a traer eso justo en la espalda. También puedes editar si acabas de golpear este ícono de lápiz y también tienes más opciones si
golpeas los puntos suspensivos aquí mismo. Por lo que aquí abajo tienes un par de opciones. En realidad puedes copiar un paso si quieres duplicarlo, pegarlo o incluso pegarlo en otro intento. Haz una ventana donde estés trabajando en otro conjunto de datos y también tienes la opción de insertar pasos antes y después del paso actual. Entonces si decidí que necesitaba paso antes de este encabezado, solo podría insertar uno antes, y luego hay otro paso que puedo construir. Por lo que ahora hemos visto todos estos pasos que dio la trifecta para preparar tus datos. Y ahora ya sabes como dedo del pie edita o borra si quieres. Y ahora el hecho de la pista ha hecho estos cuatro pasos iniciales. Los siguientes seis pasos que añades son los que contarán para tu
proyecto de recetas de seis pasos que tal vez ya has agregado algunos como hemos estado yendo por aquí, y si es así, adelante y sube una foto del mismo.
11. Tarjetas de sugerencia: esta lección en la siguiente son la carne de este curso. Y si no lo has estado ya, te
recomiendo que imites en tu computadora lo que estoy haciendo aquí como lo hago. Esto te ayudará a sacar el máximo provecho de esta sección. Entonces una capacidad increíblemente esperanzadora que tiene trifecta es que sugiere lo que piensa que
querrías hacer para preparar tus datos. Vamos como algún impuesto dentro de la grilla. Ahora verás que hay una sección en la parte inferior que apareció. En esta sección se enumeran varias opciones sobre tarjetas de transformación para ver cómo puedes cambiar los datos que has seleccionado. Por encima de estas tarjetas de transformación, tienes tres opciones. Cancele su selección, modifique su selección o agréguela a la receta de datos. Por ahora mismo, vamos a cancelarlo. Seleccionemos toda la categoría de erupción de columna subiendo a la fila de encabezado en la selección su nombre. Observe aquí que si no cancelamos nuestra selección de columnas y elegimos otra columna en la cuadrícula, try factor agregará esa segunda columna Encima de lo que ya hemos seleccionado. En lugar de pensar que estamos tratando de hacer dos cambios diferentes, eso puede ser algo que queremos hacer, pero tal vez no. Y si no queremos hacerlo, debilita simplemente de seleccionar las columnas no deseadas seleccionando nuevamente los nombres de las columnas. La primera sugerencia listada aquí es Drop and Try Factor la ha seleccionado automáticamente para nosotros. Drop significa que estamos eliminando toda la columna del conjunto de datos, y en realidad hay una diferencia entre drop y delete, lo que entrará en más detalle en la siguiente lección. Ahora, mientras miramos un poco más de cerca en la parte inferior de la tarjeta, aquí
hay algún texto explicativo gris claro. Este texto explica lo que este cambio tendrá efecto y o creará. Esta tarjeta confirma el hecho de que sólo estará cayendo esta columna, y si miras hacia tu receta, se le pone un paso temporal que mostrarte cómo se verá tu receta si
eliges esta opción. En realidad piensa caer. Este es un gran movimiento porque, como podemos ver por el silbido un gramo, todos los valores de esta columna, excepto el nombre del encabezado de la columna, dicen exactamente lo mismo confirmado erupción. Y no necesito ni quiero esta información en mi conjunto de datos porque es
información obvia e implícita en el conjunto de datos. Entonces vamos a seguir adelante y soltar esta columna. Este es un ejemplo de cómo simplificar nuestros datos. Uno de los principios de limpieza de datos que mencionamos al principio. Ahora, try factor hace que hacer esto sea muy fácil. Entonces voy a seguir adelante y soltar la columna y podemos hacer esto seleccionando el
botón de anuncio a receta por aquí a la derecha encima de las tarjetas de opción. De acuerdo, elijamos otra columna. ¿ Qué tal la columna VE I? Esta vez, vamos a seleccionar la tarjeta de renombrar. Como podemos ver, muestra una vista previa de cómo podría verse este cambio. Aquí. Pruebe los factores. Ponga un nombre de marcador de posición llamado nuevo nombre de columna hasta que pongamos en nuestro propio valor de nombre para cambiar el nombre. Seleccionemos el botón Modificar seleccionando el botón Modificar. Nos lleva al Generador de Transformas, un lugar donde podemos modificar, probar factores, sugerencias aquí. Cambiemos el nombre de nuestra columna rellenando la nueva sección de nombres justo por aquí. Tenga en cuenta que no puede tener espacios en los nombres de las columnas, por lo que si desea un espacio, utilice un símbolo de subrayado. También prueba los factores. Convención de nomenclatura es sensible a mayúsculas y minúsculas por lo que Ese es otro buen consejo a tener en cuenta. Ahora, ya que he aprendido que ve que representa Volcanic Explosive Iity Index, deletreemos las siglas de este conjunto de datos. Este nombre podría ser importante cambiar si nuestro público no sabe lo que significa este
acrónimo . Por lo que este cambio aclara nuestros datos. Otro principio que mencionamos al inicio de la clase. Ahora que hemos renombrado la columna, notarás que Try Factor nos muestra una vista previa de cómo sería la columna si
hiciéramos este cambio de dedo. En realidad hacer el cambio. Adelante y selecciona. Agregar a la receta. Ahora escojamos otra columna. ¿ Qué tal el volcán? COLUMNA Nein. Vemos una opción para agregar. Ya que se trata de una transformación intermedia que cubrirá en una clase futura. Vamos a saltarnos más allá de este. Por ahora, busquemos uno que tenga múltiples puntos de opción debajo de él. Este aquí es un buen ejemplo de que si falta tarjeta de transformación, vemos a continuación la tarjeta de opción que hay estos cuatro puntos. Cada punto de opción ofrece un cambio al nombre del volcán en esta columna, la primera opción o, si falta, opción ofrece reemplazar una celda a la que le falta un nombre a otra cosa de nuestra elección. O podemos minúsculas todos los nombres aquí ¿Alguna vez caso todos los nombres aquí o incluso caso apropiado? Los nombres aquí pueden estar preguntando, ¿Por qué querría cambiar la palabra caso? Y una razón hipotética por la que es podría necesitar combinar este conjunto de datos con otro , y necesitas hacer coincidir la palabra caso para mantener la coherencia de la mayúscula. Esto agilizaría y posiblemente aclararía los datos, que es uno de nuestros principios de limpieza de datos para hoy. Vamos a caso apropiado ladrones nombres de volcán seleccionando agregar a la receta. Te darás cuenta cuando agregues a la receta que la vista previa que te muestra desaparece y en
realidad hace que el cambio en solidifica el paso de la receta. También tenga en cuenta aquí que la barra de calidad y el tipo de datos podrían cambiar a medida que estamos trabajando con los datos porque los estamos alterando, y como resultado, intente actualizaciones de factores en consecuencia. También, como mencionó Curtis, podemos modificar un paso de receta en cualquier momento de la receta de datos. Ahora que hemos construido algunos pasos,
echemos un vistazo más de cerca cuando seleccionemos un paso para modificarlo. En la receta no se previsualizará ningún paso después del punto con seleccionado, y su Curtis nos mostró los pasos o gris claro. Cuando no están activados, también
puedes eliminar un paso en cualquier momento del camino,
y el resto la gente se queda en ese paso y en ese último estado en el que estábamos trabajando, y se va a quedar así hasta que seleccionemos el último paso en el receta, y luego activará todos nuestros otros cambios. También como advertencia. Ten en cuenta que si eliminamos uno de los pasos aquí, podría invalidar pasos futuros. Aquí un buen ejemplo de eso. Si sacamos este paso
, no invalida nada. Pero si sacamos este paso, sí.
12. Mantener y eliminar: Noté algo audible. Estamos mirando la columna Nombre del volcán. En realidad le falta un valor a la columna,
y eso es raro porque se supone que es una lista de todas las
erupciones volcánicas confirmadas en la historia del mundo, por lo que no deberíamos tener un valor en blanco en la columna del nombre del volcán. Entonces vamos a averiguar qué valor falta. Para ello, podemos seleccionar el valor que falta en la barra de calidad de datos aquí. Y una vez que hemos hecho eso, vemos que hay nueva información que aparece aquí al lado de esta barra de filtro. Se ha levantado que un colon, y luego las palabras todo y transformado una fila. Si seleccionamos la fila transformada en lugar de todas, notaremos eso en Lee. El valor que falta está apareciendo aquí. Y a medida que nos desplazamos por las columnas, vemos que no hay nada más en esa fila, lo que me hace preguntarme dónde estaba este rol en el conjunto de datos original. Por lo que incluso en este modo de vista previa, tenemos la capacidad de desplazarnos por este guión junto a una carretera para encontrar más información, y esto nos da información útil ahora porque nos está diciendo que este rol era originalmente Fila 9816 lo que significa que fue la última fila del conjunto de datos, y no tiene información valiosa, por lo que podemos seguir adelante y simplemente eliminar esto. Y eliminar elimina a Rose de un conjunto de datos. A diferencia de Drop, que elimina columnas del conjunto de datos, y puede parecer un poco extraño, Toe tiene dos términos diferentes para lo que en la superficie parece ser la misma acción. Tan sólo deshacerse de Rose. Pero las columnas y filas funcionan ligeramente de manera diferente, y por lo que tradicionalmente han sido tratadas de manera diferente. Las columnas tienen nombres y Rose, Ken y normalmente deben tener una columna I D única, que también identifica la fila. No obstante, es fácil deshacerse de una columna simplemente diciendo Suelta la columna numérica del volcán. Pero para deshacerse de Rose, hay
que decir, eliminar filas que coincidan con cierto conjunto de criterios. Por ejemplo, en nuestro conjunto de datos, los criterios para eliminar una fila podrían ser algo en el efecto de eliminar All Rose, donde se culpa al número del volcán de la columna, por lo que la diferencia es matizada. Y es por ello que estas transformaciones de eliminación aparentemente idénticas tienen nombres diferentes. Ahora veamos cuáles son nuestras opciones en las tarjetas de sugerencia. La primera opción es la opción keep, que en algunas circunstancias sería útil porque mantendría en Lee las filas que coinciden con nuestras especificaciones tipo de lo contrario de delete. Pero en esta instancia, no
queremos mantener esta fila, Así que vamos a la siguiente tarjeta que dice Eliminar. Y esto es lo que queremos. Entonces sigamos adelante y eliminemos seleccionando la tarjeta de borrar y agregándola a nuestra receta. Al eliminar esta fila vacía, empleamos el importante principio de limpieza de datos de eliminar errores faltan valores
del conjunto de datos cuando corresponda.
13. Cambios de menús desplazados: De acuerdo, pasemos al último camino. Vamos a limpiar datos y añadir pasos de receta en este curso, por lo que por encima del siseado un gramo y barra de calidad, vemos que hay dos áreas para menús desplegables, que hemos tocado brevemente en el inicio del curso. El de la izquierda es el tipo de datos, y al usar este menú desplegable, podemos cambiar rápidamente el tipo de datos de la columna. No te dejes engañar por lo sencillo que suena el concepto de un tipo de datos. En realidad es realmente importante conseguir esto ahora mismo. Al mirar la columna de números de Erupción, notamos que es un código postal, que es un ejemplo divertido, porque try factor, conoce aquí a un invitado realmente bueno porque este es un número de cinco dígitos que podría pasar es un zip código. Es fácil ver por qué sucedió esto, pero está mal, así que tenemos que arreglarlo. Ya que tenemos estos menús desplegables, hay una manera rápida y fácil de hacerlo. Ahora ve al menú desplegable de la izquierda, y así es como cambiamos el tipo de datos. Aquí vemos algunos otros tipos de datos de los que podemos elegir otra categoría para nuestros datos. Las categorías superiores son las más generales y comunes a casi todos los programas que trabajan con datos. Por lo que tienes tus cuerdas inter jurados decimales, que también podrían conocerse como flotadores y muchos otros programas e idiomas. Y tenemos miles de millones. Por lo que tenemos la categoría de cuerdas, y esta es una categoría que suele tener palabras y letras agrupadas debajo de ella. Pero una cadena también puede ser números con los que no quisiéramos hacer matemáticas, como potencialmente un número de erupción, que no agregarías a otro en ti en, restar o dividir o hacer cualquiera de esas funciones matemáticas. Entonces sigamos buscando aquí. A continuación tenemos enteros, que son números enteros con los que haríamos matemáticas y luego números con decimales y luego booleanos, lo que significa que los datos solo pueden contener dos valores normalmente mostrados como verdaderos o falsos. Y luego también tienes un tipo de datos para las fechas de esta clase que se saltaban sobre el objeto en array y se dirigían a más opciones, que son tipos de especialidad en trifecta y su auto explicativo como puedes ver aquí. Entonces de estas tres opciones. El string parece ser el mejor ajuste porque no queremos hacer matemáticas con estos números. No obstante, aquí hay un propina pro. Hay una razón importante por la que, en situaciones similares podríamos querer elegir intrusos. Y la razón es que como se trata de una columna I D, quizá
queramos unirnos a ella con otra fuente de datos. Y los jurados Inter típicamente se unen más rápido que las cuerdas. Las cuerdas también ocupan un poco más de memoria. Entonces para conjuntos de datos pequeños, realmente no importa si elegimos String o Inter jurado porque la diferencia en memoria y velocidad son insignificantes. Pero si estuviéramos trabajando con un conjunto de datos
realmente, realmente big data, quizá
quisiéramos elegir intrusos. Entonces como nuestro conjunto de datos es realmente pequeño, realmente
podríamos elegir hacer esta columna ya sea cadena o ingresó tu aquí. Pero si eliges un entero, solo recuerda no hacer ninguna transformación matemática en esa columna y estarás bien. A continuación, pasemos a la flecha abajo en el lado derecho de la columna, y cuando seleccionamos este botón, vemos muchas opciones rápidas, selectas que ofrecen otra forma de hacer algunos de los cambios que ya hablamos sobre, como cambiar el nombre de una columna o cambiar el tipo de datos, que es un poco redundante. Pero también hay opciones de las que no hemos hablado, como editar la columna. Aquí es donde consortamos la columna seleccionando si queremos que las columnas fechadas asciendan o desciendan. O podemos cambiar el orden de las columnas alrededor, e incluso podemos duplicar o alto para llamarlo aquí. Ahora la opción de ordenación puede ser particularmente útil. Por ejemplo, desde que nos dimos cuenta de lo que he representado,
he tenido mucha curiosidad por cómo Maney confirmó que las erupciones eran números más altos en esta escala, siendo
cero la erupción volcánica más leve y ocho la bateador más pesado. Entonces vayamos a esa columna para usar esta función de ordenación. Vamos a ordenar de los números más altos a los más bajos, así que elige descendente. Nos está mostrando valores en blanco. Entonces eso es lo que se coloca como el valor más alto para seleccionar en Lee, las filas con valores ingresados eligen los valores válidos en la barra de calidad de datos y luego seleccionan transformados por encima de eso, puede que
te estés preguntando por qué no eliminamos las filas con no hay valores aquí. Pero ya que hay otra información importante a lo largo de estas filas. No queremos deshacernos de ellos ahora. Solo vemos los valores que tienen números, y de esta forma facilita la exploración de los datos. Aquí podemos ver algunas erupciones volcánicas poderosas en la parte superior, y al desplazarse por thes rose, descubrimos sus nombres y cuando estallaron, lo que ofrece ahora alguna información realmente interesante. Otra cosa que noté en la columna del nombre del volcán fue que hay un volcán sin nombre que estalló en algún momento, y realmente tengo curiosidad si esta es la única vez que esto ha sucedido o si hay otras erupciones volcánicas
confirmadas que no se nombran. Y para ello voy a filtrar nuestra red por volcanes sin nombre, y parece que hay 14 filas de ellos. Ahora vamos a revisar la latitud y longitud para ver si realmente tienen una ubicación, y parece que dieron. Y no sólo eso, hay varios que son reincidentes que podemos ver aquí y ahora. Tengo curiosidad cuando sucedieron estas erupciones. Vamos a repasar y mover el inicio cerca de la columna junto a estas columnas para comparar más fácilmente. Vemos que estos volcanes no se envolvieron hace tanto tiempo, comparativamente en la historia mundial. Entonces una hipótesis es que estos volcanes simplemente no tienen nombres. Pero al menos sabemos que estos no son errores que deberíamos eliminar en el conjunto de datos, así que dejémoslo en paz.
14. Exportar resultados: Ahora casi hemos completado nuestro ejemplo. Trabajar en este conjunto de datos. Definitivamente hay más que podríamos hacer con ello. Pero eso es lo que estarás haciendo en tu proyecto de recetas de seis pasos. Más trabajo en este conjunto de datos, así que solo enviemos este inicio. Estás de vuelta a donde estaba. Ahora que hemos echado un vistazo a fechas próximas a la longitud y latitud. Y mientras estamos mirando el inicio, tu solo quería darte pista de una rareza Antes de empezar a trabajar en tu proyecto. Las fechas en factor tri son una situación única, y notarás que aquí hay algunos valores de desajuste, y cuando los miras, siguen siendo fechas. Son solo estados anteriores a 1400 a. D. Cuando realmente nos acercamos para probar hecho y les preguntamos sobre esto. Y dijeron que los programas que normalmente sí tienen un límite inferior en sus fechas, y eligieron 1400 a. D como su límite inferior. Por lo que cualquier fecha anterior al 1400 a. D se considera un valor desemparejado, pesar de que es una fecha legal, y también dijeron que nunca habían escuchado ninguna retroalimentación de que este límite no fuera suficiente. Entonces, ¿quién sabe? A lo mejor va a cambiar en el futuro, y entonces tus fechas no se marcarán como desemparejadas. Si realmente te molesta, puedes cambiar el tipo de datos para ingresar a Jer. Ahora terminemos nuestro paso final, que es ejecutar estos cambios a través de todos nuestros datos y obtener nuestros resultados. Y lo hacemos subiendo al botón generar resultados aquí arriba y seleccionándolo. Nos lleva a esta nueva pantalla y aquí podemos elegir el formato de archivo que quieras. Simplemente voy a elegir un CSFB presentado por la ONU revisando el Jason y ver SV significa valores
separados por comas , que es un tipo de archivo. Puedo abrir en excel, luego seguir adelante y presionar generar resultados. Y aquí están los resultados. Aquí podemos ver el resumen de resultados, que es una visión general de sus datos. Puedes mirar alrededor a los 20 valores superiores, y también puedes ver cosas como la mediana, mínima y la máxima. Pero abramos un resultado. Al navegar por aquí, podemos ver algunos de nuestros cambios y opciones como cuando dejamos caer la columna de categoría de erupción y cambiamos el nombre de la columna V I, y también que optamos por no dejar caer los volcanes sin nombre
15. Explicación de el proyecto: Está bien. Entonces hemos pasado por el curso, y ahora se llega a aplicar lo que has aprendido. Entonces en este proyecto, lo que les vamos a pedir que hagan es realmente tomar el conjunto de datos el conjunto de datos volcánicos y aplicarle seis transformaciones. Por lo que seis pasos en esa receta de datos más allá de los cuatro. Ese factor try automáticamente lo hace por ti. Entonces mientras estás haciendo esto, ten en cuenta los tres principios de datos que repasamos de nuevo. Eso es encontrar errores y eliminarlos, encontrar datos que realmente no importan. Es irrelevante para lo que estás tratando de hacer para deshacerte de él y aclarar el
conjunto de datos . Por lo tanto, trata de tener en cuenta esos tres principios. Al llegar a tus transformaciones, no sólo tienes que usar las transformaciones. Fuimos a la clase. Realmente puedes usar cualquier cosa que quieras. El punto es poder aplicar seis nuevos pasos de datos a tu receta y salir con un
conjunto de datos que sea más limpio de lo que entraba y ayudarte a trabajar a través de eso. Simplemente ten en cuenta a dónde quieres llevar el conjunto de datos. A lo mejor quieres crear un mapa de erupciones volcánicas de villa o hacer algo así. En ese caso, tal vez
quieras, por ejemplo, eliminar muchas columnas que no tienen nada que ver con latitud y longitud o posicionar lo que estés intentando hacer, solo tienes que aplicar esos datos principios y aplicar esas transformaciones para tratar de llegar allí. Y una vez que hayas hecho eso, adelante y solo toma una captura de pantalla y subirla para que podamos ver el gran trabajo que estás haciendo.
16. ¡Estamos aquí para ti!: felicitaciones por terminar el curso. Estamos muy emocionados de ver los proyectos que se te ocurre, y si tienes alguna pregunta en el camino, por favor no dudes en llegar y preguntarnos. Para eso estamos aquí.