Inteligencia de negocios: recopilar, limpiar y fusionar datos, BI Course #2 | Michael McDonald | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Inteligencia de negocios: recopilar, limpiar y fusionar datos, BI Course #2

teacher avatar Michael McDonald, Business Intelligence and Finance

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Recopilación de datos y limpieza

      0:58

    • 2.

      Evaluar bases de datos

      5:32

    • 3.

      Recopilación de datos

      10:08

    • 4.

      Conjuntos de datos de fusión

      7:05

    • 5.

      Conjuntos de datos de limpieza

      8:47

    • 6.

      Trámites en la recopilación de datos

      9:12

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

209

Estudiantes

--

Proyectos

Acerca de esta clase

Este segundo curso de inteligencia empresarial en la secuencia, preparará a los participantes para comenzar proyectos de inteligencia empresarial en su propia empresa. El enfoque del curso es un enfoque práctico para reunir y limpiar datos. Después de tomar este curso, los participantes estarán listos para crear sus propias bases de datos o supervisar la creación de bases de datos para su empresa. El enfoque en este curso es los conjuntos de datos "Big Data" que contienen desde decenas de miles hasta millones de observaciones. Si bien las herramientas utilizadas son aplicables para conjuntos de datos más pequeños de unos pocos cientos de puntos, el enfoque se centra en conjuntos de datos más grandes. El curso también ayuda a los participantes sin experiencia en la creación de conjuntos de datos para que comiencen desde cero. Por último, el curso es excelente para los usuarios de Salesforce, Tableau, Oracle, IBM y otros paquetes de software de BI ya que ayuda a los espectadores a ver a través de la “caja negra” a la mecánica subyacente de las prácticas de Business Intelligence.

Conoce a tu profesor(a)

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Profesor(a)
Level: Intermediate

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Recolección y limpieza de datos: Hola, soy el Dr. Michael McDonald. hoy, voy a hablarles de recolección y limpieza de datos el primer paso en inteligencia empresarial . Empecemos hablando de las diferentes etapas de este curso y lo que vas a aprender hoy en el Módulo uno hablará de evaluar diferentes tipos de bases de datos y escoger la que sea adecuada para ti en módulo. Hablaremos de lo básico en recopilar sus propios datos y construir sus propias bases de datos para su uso dentro de un módulo de empresa. Tres. Hablaremos de fusionar conjuntos de datos diferentes y distintos y algunos de los trampas y los obstáculos que puede enfrentar al hacerlo en el módulo cuatro. Hablaremos de limpiar el día que hayas reunido y asegurarnos de que los datos que estás buscando para tomar decisiones sean exactamente correctos. Módulo cinco. Hablaremos de algunas trampas más que puedas encontrar, y algunas cosas que puedes hacer para combatirlas. Empecemos. Deberemos 2. Evaluación de bases de datos: módulo uno accediendo a bases de datos. Ahora, cuando mucha gente piensa en las bases de datos, lo primero que hacen es pensar que deben salir y buscar software de base de datos comercial . Y eso es genial porque el software de base de datos comercial es muy potente y sí hace que recopilación y grabación de datos sea fácil de comprar. No es una panacea para los problemas que puede enfrentar su organización, y demasiadas personas no reconocen que en particular, bases de datos comerciales a menudo pueden crear una caja negra que los usuarios rara vez miran más allá. Esto podría ser un gran problema, para su organización, en particular crea oportunidades para datos defectuosos. Y eso es especialmente cierto. Sus empresas empiezan a utilizar APS móviles para recopilar datos de forma remota. Hay una serie de diferentes tipos de software de bases de datos comerciales por ahí. Se pueden desglosar por algunas características clave diferentes. Una de ellas es si vas a usar la entrada de datos manual o automática. Existe potencial de problemas tanto con la entrada manual como automática de datos, en particular con la entrada manual de datos. Podrás tener oportunidades de entradas incorrectas en tus datos. Imagina, por ejemplo, que tienes entrada de datos individual, y están poniendo transacciones en tu base de datos y moda Emmanuel. Es fácil para ellos transponer figuras o cosas así y crear errores y problemas potenciales para que veas. De igual manera, pueden perderse las entradas de registro creando registros completos que son simplemente incorrectos. Bunt. El problema con las entradas automáticas de datos es que facilita a los usuarios tomar datos y aplicarlos donde no se debe aplicar. Por ejemplo, en un simple ejemplo, uso de datos de ventas internacionales en la U. S. Con la entrada automática de datos, puede obtener una mejor precisión de los datos, pero mayores problemas en realidad aplicando esos datos correctamente. Hay algunos puntos que querrás considerar a la hora de evaluar bases de datos. En primer lugar, se quiere pensar en la facilidad de revisar los datos. Diferentes tipos de bases de datos pueden hacer esto más fácil o más difícil, en particular. Si tiene datos almacenados en múltiples hojas diferentes a través de una base de datos, lugar de fusionarse en una sola hoja, puede ser muy difícil ver y explorar esos datos y evaluarlos ya sea por comprobaciones de cordura o incluso análisis básico. En segundo lugar, querrás considerar la facilidad de editar tus datos. No es sencillo hacer adiciones a los datos si tienes una base de datos existente pero quieres actualizarla de forma regular. ¿ Es fácil pasar por un agregar cosas a ella? De igual manera, tal vez tenga una base de datos existente, pero desea agregar una nueva variable. Por ejemplo, quizá tengas una lista de ventas que tu empresa ha hecho, y quieres pasar y agregar algún tipo de característica sobre el cliente. Esto puede o no ser fácil, dada la base de datos que estás usando. Son pros y contras a diferentes bases de datos. Y, bueno, es cierto esa facilidad de ayudar a los datos. Disculpe que vuelva a decir eso. Son pros y contras de diferentes bases de datos y la facilidad de editar datos. Característica destaca esto en particular. Si bien puede hacer que sea más sencillo hacer adiciones a los datos y así permitir un análisis de datos más potente , también puede conducir a problemas de gobierno de datos en los que puede tener datos ingresados incorrectamente, o puede que tenga problemas que son creado inadvertidamente agregando demasiados datos. Además, al pensar en puntos a considerar con respecto a una base de datos en particular, querrás buscar herramientas integradas que te permitan probar la confiabilidad de los datos. Diferentes sistemas de software pueden o no tener las herramientas que pueda necesitar más. Quieres pensar en cómo se integra este software con otros programas. ¿ Esta base de datos va a facilitar la interacción con Excel, Order Net. Interactúa con algún tipo de software de análisis que quieras utilizar. Por último, desea pensar si este software de base de datos ofrece o no alguna capacidad para manejar el análisis por sí mismo. lo mejor tienes un sistema que te dejará ir de principio a fin. Eso sin duda lo hace conveniente y evitar problemas tan logísticos de mover datos entre diferentes tipos de software. Pero también facilita a las personas el uso del análisis defectuoso sin darse cuenta, en que hace que el software temático sea más una caja negra para empezar. Ahora hay algunas alternativas al software tradicional de base de datos. En particular, la primera opción es construir sus propios conjuntos de datos. Excel es la solución más fácil de tomar. Esta ruta sobresale muy familiar para la gran mayoría de usuarios por ahí, y es algo que es fácil de editar, y prácticamente todos los negocios tienen acceso a ella. No obstante, el problema es que algunas versiones de Excel solo pueden manejar 65.536 filas de datos. Aunque tengas una versión que maneja Mawr, , Excel tiene numerosos errores de transposición. Si intentas ordenar más de 20 o 30,000 filas de datos y muchas columnas de datos, la respuesta aquí o la solución es que quizás quieras usar Excel para alguna entrada inicial de datos y luego transferir los datos de sus dos datos más sofisticados programa de análisis. De verdad depende de ti al final del día, sin embargo. 3. Recoger datos: módulo a la recopilación de datos. Ahora la primera pregunta que enfrentamos a la hora de construir nuestras propias bases de datos para empezar con esto, ¿de dónde voy a sacar los datos que me gustaría usar? Bueno, aquí hay algunas opciones diferentes. Para empezar, su firma podría comprar datos. Esto es particularmente útil para algunos tipos de datos donde tal vez simplemente no sea fácil obtenerlo por su cuenta. Nombres y direcciones en listas de correo, por ejemplo, es un ejemplo clásico. Es muy fácil obtener nombres y direcciones de los proveedores de estos datos, y generalmente va a ser mucho más preciso que salir y recopilar los datos usted mismo, sobre todo teniendo en cuenta que la usted mismo, gente se mueve con tanta frecuencia. Otro ejemplo de datos que podría querer comprar son los datos financieros de las empresas que cotizan en bolsa . Si bien sin duda puedes salir y reunir piezas individuales de información de fuentes como Yahoo, nuestra CNBC sobre estas firmas recopilando datos en grandes cantidades y recolectando cantidades profundas de datos sobre las finanzas detrás de las empresas es muchas veces difícil si no lo compras. De igual manera, estada de restauración natural suele ser muy difícil de conseguir a menos que lo compres. Segunda opción en cuanto a obtener datos es construirlo. Los datos de tus clientes suelen ser la firma de dos años más valiosa, y es poco probable que puedas comprar esos datos desde cualquier otro lugar. En cambio, lo más probable es que tengas que construir esa base de datos por tu cuenta. eso va a estar enfocado la mayor parte del resto de este módulo. Tercero y finalmente, puedes reunir tus datos de forma gratuita. El gobierno federal tiene resmas de datos disponibles de forma gratuita sobre las condiciones macroeconómicas en todo el país. Encuestas de la U. S. Consumidor. Básicamente cualquier dato que se pueda uno a nivel macroeconómico. Probablemente la Fed tenga algo para ti. Ahora bien, si tiene necesidades de datos específicas, ¿qué tipo de datos debe buscar? Bueno, las necesidades de datos para tu empresa van a ser impulsadas por las necesidades particulares de tu proyecto. ¿ Quieres empezar pensando en lo que intentas modelar? Los economistas financieros siempre comienzan por construir un modelo, luego obtener los datos. Una vez que hayas terminado con eso, quieres pasar y averiguar cuáles son los factores impulsores que influirán en el resultado que te importa cada vez que esté haciendo proyectos de análisis de datos. Como economista financiero, siempre empiezo por averiguar, ah, modelo hipotético básico, luego paso y encuentro los datos que busco que apoyen este proyecto en particular. Eso es mucho más efectivo que reunir los datos y tratar de construir el modelo. Si recojo los datos primero y trato de construir el modelo, podría resultar que me faltan algunas piezas críticas que necesito recorrer. Mi análisis. Por ejemplo, las ventas son impulsadas por el marketing interno, las innovaciones de nuevos productos, etcétera. Pero también van a ser impulsados por factores externos condiciones macroeconómicas, comportamiento competitivo, expectativas sobre el futuro del mercado, etcétera. Podemos construir un modelo que tome en cuenta todos estos diferentes factores, pero es muy importante que lo hayamos hecho. Construimos este modelo con anticipación para que sepamos qué fechó para reunir. Ahora, cuando se trata de recopilar datos, probablemente queremos empezar con las cosas más fáciles. El dato macroeconómico que mencioné anteriormente de la Fed, por ejemplo, es muy sencillo de conseguir. Eso lo podemos sacar de la base de datos económica de la Reserva Federal, la página web. Para eso, ese recurso está aquí. Alternativamente, en realidad puedes reunir esto a través de un simple excel Adam que sobresalen Annan, una vez que hayas instalado se muestra aquí. Después de haber instalado el anuncio e ir a la Tab de Fred en tu modelo de Excel, puedes ver una variedad de diferentes tipos de datos económicos aquí. Todo desde en este caso, Miss tabulador particular. Producto interno bruto real por decir, desembolsos federales, recibos federales y el superávit y déficit federal. También tenemos datos no sólo sobre los EE.UU. EE.UU. sino también datos internacionales. De igual manera, si estamos buscando datos sobre, digamos, digamos producción o la actividad empresarial, podríamos encontrar datos de la Fed sobre esto relacionado con la utilización de capacidad de producción industrial arranques de vivienda, permisos de construcción, esencialmente cualquier dato macroeconómico que necesitemos para una industria en particular que podamos obtener de la Fed. Una vez que hayamos pasado y encontrado los datos que necesitamos, vamos a usar un código neumonico para recogerlo. Déjenme retroceder un segundo. Por ejemplo, si nos interesaban las ventas de vehículos, vamos a navegar por datos populares de Estados Unidos que la actividad de producción y negocio y luego pinchamos en ventas de automóviles de vehículos y como camiones. Cuando hagamos eso, obtendremos la neumonía de todas las ventas a continuación. Vamos a pasar y dar click en eso cuando nos dio el pote los datos se poblarán por sí solos. En este caso particular, los datos son mensualmente. Comienza en 1976 y está disponible hasta marzo de 2016. El dato nos va a contar sobre las ventas de vehículos ligeros para autos y camiones ligeros, y es de la Oficina de Estados Análisis Económico de los EstadosUnidos. El punto importante aquí es que a pesar de que estamos reuniendo datos a través de los federales excel, sumar. En realidad no son datos de la Reserva Federal. Ese es el poder de la Herramienta Fred para Excel nos permite aprovechar muchas fuentes de datos diferentes como en este caso, el B E. T. es datos a través de un simple y en esto hace que sea mucho más fácil recopilar datos. Te exhortaría si tienes interés en esto, que lo revisen. El anuncio Innisfree. No te cuesta nada, y ahí hay un montón de cosas aseadas. Sigamos adelante, sin embargo. Además de Fred, también puedes intentar obtener datos de la Oficina del Estados Censo de los EstadosUnidos. Esto es particularmente útil para identificar las características de los clientes objetivo en base a los bloques censales. Las tendencias de Google también son excelentes para los datos de encuestas. Si estás tratando de averiguar como ejemplo lo que está pasando en industrias particulares o en redes sociales o cosas por el estilo, las tendencias de Google te darán datos sobre lo que se está buscando a lo largo del tiempo. Reunir datos sobre comentarios de clientes y datos de redes sociales en línea es otro tema realmente candente . Es algo que me preguntan es un economistas financieros todo el tiempo en el contexto de diferentes necesidades financieras para empresas compradas recolección, este tipo de datos requiere análisis textual Ese será el tema para curso futuro. Ahora bien, si tienes un conjunto de datos específico que necesitas, por ejemplo, información financiera de la empresa para un amplio conjunto de grandes empresas cotizadas en bolsa, comprar esos datos podría ser la única opción. Algunos datos, como mencioné, están disponibles a través de Yahoo, financiados a través de CNBC, etcétera. Pero recopilar esos datos de esa manera requiere escribir un script python en su lugar. Comprar datos suele ser la opción más realista, sobre todo si estás interesado en que esos datos se actualicen de forma regular. Por último, construir conjuntos de datos a partir de sus propios datos generalmente es la habilidad más crucial para la mayoría las empresas. Ciertamente puedes tocar tus bases de datos de clientes para hacer esto por ejemplo, pero también puedes ir a desarrollar tus propios métodos in house de recolección de datos. Esto suele ser genial porque a diario la mayoría de las empresas generan resmas de nuevos datos que podrían ser útiles para analizar y tomar decisiones empresariales futuras. Las encuestas a los clientes a menudo pueden ser una gran opción para, pero de nuevo, es algo que realmente solo está disponible si vas a hacer el esfuerzo de encuestar a tus clientes. Por ejemplo, recientemente trabajé en encuesta de banca de inversión para ayudar a una pequeña firma de banca de inversión boutique a predecir las características que les ayudaron a ganar acuerdos. Pasamos y miramos tanto a sus clientes como a los clientes pasados con los que no se habían ganado el trato. Por lo que miramos tanto a los clientes donde sí ganaron como a los clientes o pretendemos clientes potenciales. Debería decir dónde les hubiera gustado conseguir un trato. Miramos ambos conjuntos y luego pudimos usar métodos de inteligencia de negocios para pasar y averiguar a qué tipo de acuerdos debería apuntar esta firma boutique de banca de inversión en el futuro. Ese es sólo un ejemplo de donde la industria financiera y en particular la banca de inversión , pueden beneficiarse de la inteligencia de negocios, pero tengo confianza. Si lo piensas un poco, puedes encontrar muchos ejemplos en tu propia firma, donde dicho análisis de datos también puede ser útil. Ahora, en cuanto a conseguir esas encuestas, hay muchas herramientas diferentes por ahí que puedes usar. Por ejemplo, Surveymonkey mix crítico y muchos otros te ayudarán una vez que hayas generado tu encuesta para ir a conseguir respuestas. Esto te da la capacidad de obtener información no sólo sobre tus propios clientes sino también sobre los clientes de otras personas. Los clientes a los que te perdiste potencialmente como en el caso, el trabajo bancario de inversión que hice, o potencialmente clientes que nunca han oído hablar de ti, pero que tal vez te guste apuntar en el futuro. A continuación, desea pensar en sesgos de datos en su encuesta. Si estoy tratando de averiguar cómo vender, los otros clientes son mis clientes existentes representativos del resto del mundo. Por ejemplo, si busco vender en el extranjero en Alemania, haciendo una encuesta a los consumidores de U. S. S.que compren mi producto pueden o no decirme nada útil. El punto aquí es que es importante asegurarse de que cualquier dato de la encuesta que estoy reuniendo sea en realidad representativo del problema que estoy tratando de resolver de nuevo. Aquí es donde un buen modelo de mate de tus datos puede ayudarte si lo pensaste con anticipación a recolectar realmente los datos. 4. Fusión de datos: módulo, tres conjuntos de datos fusionados. Después de haber recopilado los datos que necesita para reunir, es importante comenzar a tomar estas miríadas array de diferentes conjuntos de datos y ponerlos juntos en un todo cohesivo que puede ser útil para su análisis. Eso suena fácil, pero en realidad no lo es. Por ejemplo, hay una variedad de diferentes tipos de problemas con los que te puedes encontrar. Miramos antes las ventas de vehículos ligeros. Ese dato fue de manera mensual. Si tuviéramos que mirar en cambio el PIB, esa fecha es trimestralmente. Datos económicos como éste a menudo pueden tener frecuencias diferentes. Eso significa que si intentáramos fusionar datos del PIB con datos de ventas de vehículos ligeros, nos topamos con un problema. Debido a que uno se reporta mensualmente, otro se reporta trimestralmente. Tenemos que encontrar la manera de conciliar ese tema. Otro ejemplo. Precios del petróleo, aire diario, ventas de vivienda o mensual y el PIB es trimestral. Entonces si estamos tratando de mirar los tres conjuntos diferentes de datos, tenemos que decidir cómo queríamos lidiar con eso. ¿ Vamos a utilizar esos datos del PIB a diario y simplemente cambiarlos una vez 1/4. ¿ Vamos a ver los precios del petróleo? Onley trimestral? Porque así es como a menudo se reporta el PIB. Tenemos que descifrar las relaciones que nos importan y luego decidir qué tipo de base de datos queremos construir aquí. ¿ Debe una base de datos que contenga el PIB también tener en ella la información de nuestros clientes? ¿ Cómo queremos que se vea ese dedo de base de datos? Una vez que te hayas dado cuenta de cómo quieres que se vea esa base de datos, en base al problema que estás tratando de resolver, deberíamos intentar construir una hoja de cálculo grande. Hay algunas razones para esto primero, y tal vez lo más importante, es fácil de revisar y fácil analizar una hoja de cálculo grande. Pero esto también nos ayudará a averiguar cuál es nuestra unidad de observación. Si nos preocupamos por las ventas son unidad de observación. Podrían ser días de que la empresa esté operando cuántas ventas obtuvimos de lunes a viernes, todos los días que la empresa estaba abierta, o podría ser que nuestra unidad de análisis sean clientes. Si estamos tratando de predecir si un futuro cliente va a volver o no o la cantidad que un cliente en particular va a pedir, podríamos En lugar de preocuparnos por los días individuales de ventas, podríamos preocuparnos por clientes particulares y sus características. Aquí hay dos ejemplos En la parte superior. Tenemos datos dependientes del tiempo que ven aquí. Datos ficticios sobre el número de ventas en cualquier día dado relacionados con salvar tasa de desempleo estatal son si estamos corriendo o no, comercializando el número de personas de ventas que tenemos en nuestros competidores. Precios en la parte inferior. Tenemos datos estáticos de tiempo. Contamos con el cliente A, B, C, D E, etcétera. Las ventas a ese cliente, si le hemos ofrecido o no al cliente precio con descuento, el promedio de pedidos mensuales para cliente en particular y el último precio que algo se vendió a ese cliente en ambos conjuntos de datos podría ser muy útil. Pero nos dejan predecir cosas completamente diferentes arriba. Es más probable que estemos tratando de predecir algo así como el número de ventas que tendrá próxima semana el próximo año, próximo trimestre. Lo que a continuación era mucho más probable. Estar tratando de averiguar algo como qué tipo de demanda podemos esperar de un cliente dado si cambiamos el precio le estaban cobrando a ese cliente. Ambos temas son importantes, pero el tipo de base de datos y el tipo de datos que necesitamos para responderlos es muy diferente. Si pasamos tiempo antes de que realmente recopilemos nuestros datos, pensando en lo que queremos nuestro modelo, el look. Y luego qué? Queremos que nuestro dedo del pie de base de datos parezca que nos ahorrará mucho tiempo y esfuerzo y, francamente, frustración más adelante en el camino. Una vez que hayas decidido el análisis de apagado U, necesitas pasar por los datos de fusión, los de Siri. Para ello, necesito encontrar una variable o característica común para fusionar en datos dependientes del tiempo que queremos pasar emergen en fecha, por ejemplo. La idea es que la fecha será común entre diferentes variables, y de ahí podemos fusionar estas variables en un único conjunto de datos grande y unificado como resultado, por tiempo, datos independientes tiempo de datos datos estáticos, es decir, podríamos fusionarnos en algo como código postal, por ejemplo, no hay un solo análisis Univ o variable común en la que vamos a querer fusionar. En cambio, la fusión va a depender de las circunstancias específicas que nos importan y lo estamos tratando de analizar comprado cuando estamos revisando nuestro conjunto de datos, necesitamos asegurarnos de que la variable de fusión sea única. Esto puede crear un gran problema en el que mucha gente no necesariamente piensa. Por ejemplo, en algunos de los proyectos financieros en los que he trabajado, los clientes a menudo dirán: Bueno, Bueno, fusionémonos en, digamos, digamos tickers bursátiles. Cada empresa tiene su propio ticker de acciones, y eso es cierto. Pero lo que muchas personas no se dan cuenta es que los tickers bursátiles se repiten con el tiempo. Por ejemplo, la empresa ABC hoy podría referirse a una empresa específica. Digamos donde hace 10 años, podría haberse referido también a una empresa diferente . Empresa que podría haber ido a la bancarrota o haber sido fusionada en otra firma por completo. Se ha adquirido, es decir, y ese símbolo de ticker. ABC volvió a estar disponible hasta que fue utilizado por la Compañía uno hoy. En consecuencia, los tickers bursátiles no son una variable única para usar a la hora de fusionar nuestros datos. Si estamos viendo una serie temporal de datos, podrían repetirse con el tiempo para diferentes empresas que no quisiéramos un bulto juntos. En cambio, necesitamos usar algo llamado Q sorbos cuando estamos viendo datos de inversión financiera acusan sip simplemente como un número del Seguro Social. Es específico de una empresa dada, y existe para todos los tiempos si la empresa sale o no del negocio, etcétera. Nunca se reasigna como lo son los tickers. Si estamos usando un programa de software como Sasse o Stada querrán fusionarse, nuestros datos usando código en Excel querrán que lo escuchen usando la función de búsqueda V. Si vas a fusionar usando la función de búsqueda V, siempre debemos echarle un vistazo a ella viene después de fusionarse. Podrían estar defectuosos en particular. Utilice siempre el rango, busque el valor en la V, busque la función y especifique una coincidencia exacta en lugar de coincidencia aproximada. Si solo especificas un partido aproximado, obtendrás numerosos estado de problemas. También puedes usar funciones de búsqueda H, pero es mejor para un análisis para tener variables corriendo por la parte superior y luego las observaciones corriendo verticalmente en lugar de viceversa. 5. Limpieza de datos: módulo para la limpieza de bases de datos. Cuando estamos pasando por la limpieza de datos, es importante entender que casi todos los conjuntos de datos grandes tienen algunos problemas. Estos problemas potenciales pueden incluir cosas como datos fraudulentos en los errores extremos de datos que se ingresaron en algún momento, generalmente datos genuinos inadvertidamente, simplemente no representativos de las circunstancias típicas posiciones trans de datos. Ahora bien, si quieres pasar y probar nuestro conjunto de datos en busca de errores sus procedimientos específicos que podemos utilizar para ello. Por lo que para probar errores de datos, queremos empezar por caer, reemplazando cualquier valor que no tenga sentido. Por ejemplo, si estamos viendo las ventas diarias o los activos de la empresa, nunca debería haber ningún valor negativo. Por lo general, es mejor dejar caer valores cuestionables a menos que tengamos un pequeño conjunto de datos, en cuyo caso se necesitará ahora el reemplazo de esos valores. Generalmente, vamos a pensar en un pequeño conjunto de datos es menos de 500 observaciones. Si tenemos menos de 500 observaciones como mínimo, debemos pasar y tratar de hacer nuestra mejor conjetura en cuanto a cuál es el valor correcto y reemplazar esos datos. Idealmente, sin embargo, por sólo 500 observaciones. De ser posible, nos gustaría volver atrás y confirmar que los valores estaban poniendo en nuestro correcto es decir, pasar por incorrecto nuestro conjunto de datos con conjuntos de datos más grandes de, digamos, 10 20 150 mil observaciones. Eso simplemente no va a ser práctico en la mayoría de los casos. Y si tenemos 100 mil observaciones de datos, siempre y cuando la mayoría de nuestros datos estén bien, caer unos pocos valores no hará una gran diferencia si estamos bajando más de, digamos, digamos 20% de nuestros valores o el 10% de nuestros valores. Eso, por supuesto, crea un problema. Pero francamente, si tenemos más de tres o 4% de nuestros valores teniendo errores en ellos, probablemente tengamos un proceso de recolección de datos defectuoso en primer lugar. Por lo que necesitamos volver atrás y mirar las políticas y procedimientos que tenemos en marcha que nos están permitiendo reunir esos datos. Es probable que haya algunos temas ahí que querrán corregir a continuación. Para probar nuestros puntos de datos, queremos pasar y encontrar la mediana media y el valor de desviación estándar para cada variable. Estas medidas estadísticas van a ser cruciales el dedo al dejarnos pasar y hacer el tipo de pruebas de hipótesis que mencioné anteriormente relacionado con la corrección de cualquier posible error de datos. En particular, queremos pasar y ejecutar un cheque para marcar todos nuestros puntos de datos que son más de tres desviaciones estándar de la media. La idea es que en una distribución normal, mayoría de los puntos de datos deberían quedar dentro de esas tres desviaciones estándar en particular. Si estamos pensando en esto, es una prueba de hipótesis de dos colas. Menos del 1% de nuestros datos deberían caer más de tres desviaciones estándar de la media, porque eso sólo va a ser una porción muy pequeña de nuestros datos. Es una buena idea pasar y marcar esos puntos de datos no los borran. Son datos útiles, y no necesariamente hay una indicación de que estén equivocados. Pero sí queremos marcarlos si encontramos que mucho más que, digamos, digamos, 1% de nuestros datos es más de tres desviaciones estándar de la media que sugiere que nuestros datos son en algún sentido es inusual donde podría haber un problema con si nuestra media y la mediana son radicalmente diferentes. Por ejemplo, eso nos va a decir que nuestros datos están sesgados. Tenemos que decidir si se trata de un problema con base en el tema que estaban examinando ahora este mismo procedimiento que está mirando el número de desviaciones estándar de la media para cualquier punto de datos dado que procedimiento puede ser utilizado para probar valores inusuales en las variables pueden no representar con precisión la realidad. Otro de los temas en análisis de datos que mencioné antes. De igual manera, va a ser útil. Marcar cualquier observación en el 1% superior de nuestros datos y el 1% inferior de nuestros datos. Esto se llama victorias. Surgiendo de nuevo, estas observaciones no necesitan ser dejadas caer. Pero debemos pasar y ejecutar análisis con él sin estos puntos de datos para asegurarnos no estén impulsando nuestros resultados. Un error crítico que podríamos cometer, por ejemplo, es pasar y pensar que nuestras ventas pueden ser drásticamente mayores si seguimos los procedimientos X Y Z cuando en realidad, eso sólo es cierto para una pequeña sub muestra de nuestro datos. Digamos que el 1% superior de nuestros clientes fue el 1% inferior de nuestros clientes marcando estos datos y luego ejecutando nuestro análisis con y sin esos puntos de datos particulares. Vamos a esta prueba para asegurarnos de que los datos realmente sean similares para esos vientos, arizados o esos puntos de bandera frente al conjunto de datos a granel. Y también nos permite asegurarnos de que nuestros resultados no estén siendo impulsados por una sub muestra de nuestros datos generales. Esto lleva a otro tema muy importante. Ley de Amigos Ben. Ahora, una de las cosas más engañosas a tratar en el análisis de datos es el potencial de datos falsos. Una de las mejores reglas de oro, sin embargo, sin embargo, para probar grandes conjuntos de datos para datos falsos es Ben Friends Law. Ben Foods Loss dice que en datos reales genuinos, el número uno debería ser el más común. El número dos debe ser el siguiente más común, seguido del número tres, el número cuatro etcétera. Para ilustrar por qué este es el caso, piense en el mercado de valores. Tardó mucho más para que el promedio industrial Dow Jones pasara de 1000 a 2000 que de 17,000. Es simplemente una cuestión de crecimiento dentro de los mercados. Pasar de 1000 a 1100 es un movimiento del 10% en los mercados en teoría que el 10% pasa a tomar aproximadamente la misma cantidad de tiempo que pasar de, digamos, 16,800. También, un movimiento del 10% aún pasando de 1000 a 1100 Onley nos mueve una fracción del camino entre los puntos de datos de 3000 frente al ir de 16,800 nos mueve la gran mayoría de la distancia a los 9000 puntos en el industrial Dow Jones promedio. De esta manera, medida que vamos cada vez más alto, el movimiento este más pequeño y más pequeño sobre una base porcentual, la ley Ben Foods simplemente captura esto en una forma elegante. Al pasar y mirar los datos, el número uno debe ser el número más común, seguido del número dos etcétera. Busca ese patrón en nuestros datos y podemos decir si los datos Israel o falsificar la siguiente tabla nos va a mostrar la frecuencia de cada número en datos genuinos. Ahora, ten en cuenta, va a haber alguna variación de esto en cualquier muestra de datos dada. Pero en promedio, alrededor del 30.1% de todos los números todos los dígitos en datos genuinos debe ser el número uno 17.6% debe ser el número dos 12.5% debe ser el número tres 9.7% debe ser el número cuatro 7.9% calle. El número cinco 6.7% debe ser el número seis 5.8% debe ser el número siete. 5.1% debe ser el número ocho, y 4.6% debe ser el número nueve. Si pasas y buscas un conjunto de datos y encuentras que difiere dramáticamente de esto, no necesariamente garantiza los datos fraudulentos del viaje. Pero sí significa que probablemente sea prudente pasar y comprobar la fuente de esos datos y decidir por su cuenta cuán confiables son esos datos. No querrías tomar ninguna gran decisión sin pasar y estar bastante seguro de que los datos eran precisos. La ley de Ben Foods puede parecer simple, pero en realidad es una herramienta extremadamente poderosa. Por ejemplo, en un famoso estudio de investigación, los economistas demostraron que los datos de Enron y corre los datos financieros no seguían a Ben por la ley de Dios . Si los auditores hubieran estado mirando Ley Ben Fritz al evaluar los libros de Enron, bueno, digamos que el resultado de esa historia podría haber sido muy diferente 6. Impuestos en la colección de datos: módulo. Cinco trampas en la construcción de conjuntos de datos Hay algunos problemas importantes en los datos que puede encontrarse que son útiles para entender cómo lidiar. En particular. El primero es qué hacer para faltar demasiados datos. El segundo es Souness en los datos Ah, tercero es unobservables variables y adoctrinando. Ah, cuarto es cuando tenemos una pequeña sub muestra que podría estar impulsando nuestros resultados. Todos estos problemas pueden ser muy desafiantes de tratar, pero hablaremos de algunas estrategias para cada uno de estos a medida que pasemos por este módulo en particular, empecemos por pensar en conjuntos de datos a los que faltan demasiadas variables. Si tenemos un conjunto de datos al que faltan demasiados datos, esto puede llevarnos a conclusiones defectuosas. No está claro por qué faltan los datos en primer lugar y sin saber que no sabemos si es o no un problema para nuestro análisis. Por lo que hay que tener mucho cuidado en este tipo de situaciones. Por ejemplo, si estamos estudiando datos financieros de firmas en el extranjero, sólo los datos de las empresas más grandes tienden a estar disponibles en la mayoría de los casos fuera los requisitos de presentación informes de informesde Estados Unidos simplemente no se siguen tan a fondo, y no son estrictos como lo están en los EE.UU. EE.UU. Como resultado, las empresas más grandes de Onley tienden a informar de manera precisa y consistente sobre sus finanzas. Las firmas más pequeñas no tienden a hacer eso. Con frecuencia faltan los pequeños datos de las firmas más pequeñas. De esta manera, si estamos tratando de pasar y ejecutar un simple análisis de, digamos, tamaño de los activos en firmas fuera de la U. S, esto va a producir una imagen distorsionada. En ese caso particular, encontraremos que vemos, creemos, con base en nuestro análisis, base en nuestro análisis, que la mayoría de las firmas extranjeras son mucho más grandes de lo que realmente son. Y eso es lo que vemos en la práctica. Por lo que esto podría comprarnos, por ejemplo, cualquier decisión que pudiéramos estar tomando sobre si entrar o no a un mercado extranjero. A lo mejor vamos a creer que las firmas estarán enfrentando son mucho más grandes de lo que realmente son . En realidad, este mismo tipo de problemas puede ocurrir en otros tipos de análisis. Por regla general de oro. Si te falta más del 25% de los valores, cualquier variable dada en un conjunto de datos, es hora de echar un vistazo más de cerca a esos datos. Es posible que puedas o no corregir este tema, pero si no puedes, debes decidir si las conclusiones que vas a sacar de esos datos realmente van a ser válidas. A continuación, hablemos de sesgo nous y sesgo de datos nous y los datos podrían ser un problema, dependiendo de los datos que se estén estudiando. Ah, ejemplo clásico de esto son los niveles de ingreso. Si estamos viendo el ingreso promedio o medio para nuestros clientes, por ejemplo, eso va a producir una visión distorsionada. Nadie tiene un nivel de ingreso menor a $0 mientras que algunas personas tienen un ingreso superior a $1,000,000 . Eso es que nous podría distorsionar algún tipo de análisis sobre los precios óptimos utilizados en un esfuerzo de discriminación de precios . Por ejemplo, en un proyecto reciente en el que estuve involucrado, ah, empresa había pasado y estamos mirando a sus clientes tratando de predecir qué tipo de precio óptimo podrían cobrar usando los datos medios. En realidad tenían algunos clientes muy ricos, y creían que sus clientes eran mucho menos sensibles al precio de lo que realmente eran. En el caso de la empresa eso llevó a la empresa a subir demasiado precio, perjudicando sus ventas. Si bien la diferenciación de precios es muy útil en este tipo de estudios, tenemos que asegurarnos de que estamos utilizando la métrica adecuada puesta. El ingreso promedio de nuestros clientes en realidad es la mediana es una indicación mucho mejor de eso en la media. Si nuestros datos están sesgados, puede o no ser un problema. De cualquier manera, los datos no se pueden desenroscar, por lo que en su lugar, necesitamos usar ciertas herramientas estadísticas a la hora de hacer nuestro análisis financiero y económico. Estas herramientas no son necesariamente todas tan complicadas, pero puede que estés familiarizado con, um, y así es importante peinarse y hacer un poco de investigación antes de llegar a ese punto. 1/3 problema que podríamos enfrentar son variables observables de la ONU. A veces los resultados para una decisión de negocio simplemente son impulsados por una variable no se puede observar . Por ejemplo, si estamos tratando de predecir qué candidatos a puestos serían los mejores empleados, esa puede ser una tarea infructuosa y frustrante. Podría ser que los mejores empleados sean los más inteligentes. Pero no podemos medir la inteligencia directamente, al menos a menos que vayamos a empezar a pagar las pruebas I Q bien. Podemos hacer frente a este problema a través de variables unobservables que deben correlacionarse. Por ejemplo, con la inteligencia, podríamos pasar y mirar S a T puntajes colegio G p A. A proxy para la inteligencia. No es perfecto. Por supuesto, ni los puntajes universitarios g p A ni S a T predicen directamente la inteligencia, pero están relacionados. Sería muy inusual que alguien que no es muy inteligente anotara muy alto en su S, un ts o de un colegio muy alto G p. nuevo, no es perfecto, y necesitamos estar conscientes de eso. Pero puede ser o no la mejor opción que tenemos. Tenemos que decidir si podemos encontrar una buena variable proxy para nuestro factor no observable. Si no podemos, vamos a necesitar usar técnicas estadísticas especiales en nuestro análisis. Otro problema que podríamos tener es la posibilidad de que una sub muestra conduzca nuestros resultados. A veces una sub muestra de nuestro análisis te conspicuo nuestras conclusiones. Por ejemplo, la mayoría de las devoluciones de acciones en un año dado ocurren en la semana de reuniones de la Reserva Federal . La Fed se reúne periódicamente a lo largo del año y la mayoría de los rendimientos de acciones, han encontrado estudios, ocurren en el periodo de una semana antes y después de que la Fed se reúna. Es una pequeña porción del número general de días de negociación en el mercado, pero es la muestra más importante del año. Mirar la mayoría de los otros días durante el año va a llevar a menos conclusiones significativas sobre los retornos generales para evitar problemas con las sub muestras. Conduciendo nuestros resultados. Siempre va a ser mejor ejecutar nuestro análisis en diferentes periodos de tiempo. Por ejemplo, podríamos comprobar los factores que creemos predicen los rendimientos bursátiles y ver si tienen o no poder predictivo en cada mes del año, lugar de sólo los meses para que la Fed se reúne. Pasemos y hablemos de lo que hemos aprendido para empezar. Cuando estamos evaluando bases de datos, necesitamos estar al tanto de las diferencias en las costosas bases de datos comerciales y si hay o no adecuado para nosotros. La alternativa es utilizar métodos genéricos de recolección de datos. Estos tienen su propio conjunto de problemas, sin embargo, y en particular pueden requerir más esfuerzo de su personal. A continuación, hablamos de recolectar datos. Es importante poder mirar a través y combinar los datos que se han construido, comprado y recopilado a partir de una variedad dispar de fuentes pasando y obtener una toma que los datos que hemos recopilado y ponerlos todos juntos en un solo conjunto de datos útil es a lo que nos referimos como fusionar nuestros datos para fusionar nuestros datos. Tenemos que decidir qué es el análisis Univ y luego fusionar los datos en consecuencia. Recuerda que nuestra unidad de análisis necesita ser única, tal manera que podamos fusionar nuestros datos correctamente. A continuación, hablamos de limpiar nuestros datos. A continuación, hablamos de limpiar nuestros datos para limpiar nuestros datos. Tenemos que pasar y probar una variedad de problemas potenciales. Por ejemplo, cosas como datos faltantes, datos sesgados, datos potencialmente fraudulentos, etcétera. Para probar estos temas, hay una variedad de diferentes tipos de técnicas estadísticas que podemos utilizar. Estos van desde cosas como las victorias que surgen y mirando medios y medianas hasta reglas como Ley de Alimentos de Ben. Por último, hablamos de trampas en los datos. Siempre es importante revisar tus datos en busca de problemas potenciales y si encuentras algo inusual, ten una técnica para lidiar con el tema. He intentado pasar por un esbozo muchas de las técnicas que necesitarás para hacer ese tipo de análisis y ese tipo de chequeo en esta presentación. Espero que hayan disfrutado de esta charla. Desde luego he disfrutado de esta oportunidad de platicar con ustedes. Gracias por ver. Busca futuros cursos prácticos en técnicas de inteligencia empresarial próximamente. Nos vemos la próxima vez.