Inteligencia de negocios: estructurar datos para el análisis de negocios, BI Course #3 | Michael McDonald | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Inteligencia de negocios: estructurar datos para el análisis de negocios, BI Course #3

teacher avatar Michael McDonald, Business Intelligence and Finance

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Estructuración de datos para la inteligencia empresarial

      1:29

    • 2.

      Resumen de la estructuración de datos para el análisis

      6:40

    • 3.

      Evaluar la precisión de los datos

      10:52

    • 4.

      Proporciones y métricas clave en la analítica de datos

      10:52

    • 5.

      Variables categóricas en la inteligencia empresarial

      18:16

    • 6.

      Imputación de datos en un conjunto de datos

      8:19

    • 7.

      Conceptos básicos del análisis de datos

      7:21

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

127

Estudiantes

--

Proyectos

Acerca de esta clase

Este tercer curso de inteligencia empresarial en la secuencia, preparará a los participantes para comenzar proyectos de inteligencia empresarial en su propia empresa. El enfoque del curso es un enfoque práctico para estructurar datos, que incluye la generación de nuevas variables basadas en métricas comparativas y relativas. La estructuración de estas variables se hará en Excel, SAS y Stata para dar a los espectadores una idea de familiaridad con una variedad de estructuras de paquetes de software diferentes. El enfoque en este curso será los datos financieros, aunque las técnicas también son aplicables a formas más generales de datos como las que se usan en el marketing o los análisis de gestión.

Conoce a tu profesor(a)

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Profesor(a)
Level: Beginner

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Estructuración de datos para la inteligencia empresarial: Hola. Bienvenido a Business Intelligence estructuración de datos para análisis. Me llamo Dr. Michael McDonald. hoy voy a estar hablando contigo de este tema y de lo que necesitas saber. Conforme te estás preparando para proyectos de inteligencia empresarial con tu firma, déjame empezar con una visión general Para aquellos que podrían haberse perdido mis pasadas clases de inteligencia empresarial , vamos a correr por varias secciones diferentes en el módulo uno. Hablaremos de una visión general de la estructura de datos, los conceptos básicos y lo que debes saber sobre la inteligencia empresarial que el resto de esta sesión tiene sentido en módulo a Hablaremos de evaluar la precisión de los datos. Si te dan un conjunto de datos, ¿cómo pasamos y averiguamos si es lo que de hecho necesitamos para proceder con el proyecto en el Módulo tres pasará y miraremos ratios y métricas clave en los datos y cómo podemos usar esos para hacer seguros de que estamos optimizando nuestro análisis de datos en Montreuil cuatro mirarán usando variables categóricas. ¿ Cuáles son las variables categóricas? ¿ Cómo se forman? De qué manera son útiles en nuestro análisis, Montreuil cinco mirará imputar datos uno de los grandes retos y la inteligencia empresarial suele faltar. imputación de datos de datos es de una manera alrededor de este problema en el módulo cinco, hablaremos de cómo condenamos a la anguila con diferentes piezas de datos faltantes. Y luego por fin, en el módulo seis, les daré una vista previa de la sección de análisis de datos que vendrán en el próximo curso. Empecemos, ¿sí? 2. Descripción  resumen de los datos para el análisis: estructura de datos. Visión general módulo uno. ¿ Qué es la inteligencia empresarial? Bueno, para los que se pierden las clases pasadas, permítanme explicarles exactamente de qué estaban hablando cuando nos referimos a la inteligencia de negocios . Esencialmente, inteligencia empresarial permite a un negocio tomar decisiones inteligentes, basadas en hechos. Eliminar conjeturas implica cuatro pasos. Primer encuentro en datos de limpieza. Segundo, el análisis de datos. En tercer lugar, probar nuestras elecciones con datos y cuarto tomar decisión basada en esos datos, los datos estructurados de clase de hoy cae al final de la sección de datos limpios de recopilación. Y justo antes de empezar a analizar datos, ¿cómo usamos la inteligencia empresarial? Bueno, inteligencia empresarial es útil en una variedad de circunstancias diferentes. En particular su respuesta mejor utilizada. El tipo de preguntas cuantitativas que surgen a menudo veces para las empresas cuando están mirando preguntas que implican predecir algo o analizar el desempeño actual , etcétera. Algunos ejemplos de preguntas de inteligencia empresarial incluyen cosas como a cuál de nuestros clientes se les debe ofrecer descuentos en un producto con el fin de inducir a esos clientes a comprar mawr, que los prestatarios de nuestro banco son más propensos a incumplir. Dadas tendencias y economía, ¿cuáles serán nuestras ventas o flujos de efectivo el próximo periodo? Dónde debe ubicarse una nueva oficina de tienda con el fin de maximizar nuestro sorteo para nuevos clientes . Todos estos son ejemplos de preguntas que podrían responderse usando datos y usando un marco de inteligencia empresarial. Entonces, como dije, el primer paso en inteligencia empresarial es reunir datos. Entonces, ¿de dónde sacas esos datos? Bueno, hay tres formas diferentes en que podrías reunir los datos para tu proyecto. Puedes usar cualquiera de estos tres, o podrías usar una combinación fuera de ellos. En primer lugar, se pueden comprar datos. Esto incluye cosas como nombres y direcciones. Por ejemplo, para los clientes que comúnmente se compran datos financieros sobre acciones cotizadas en bolsa. Estado de recursos naturales de cosas como imágenes satelitales para empresas petroleras, etcétera. Todos estos datos generalmente van a tener que ser comprados a través de 1/3 de fiesta. En segundo lugar, podría construir sus propios datos. Establecer datos sobre sus clientes a menudo es lo más valioso para su firma. Si estás tratando de predecir lo que van a hacer tus clientes, probablemente tengas mejores datos que nadie sobre tus propios clientes, y luego tercero, puedes reunirlos de forma gratuita. En este caso, el gobierno federal tiene resmas de datos disponibles esto es particularmente cierto cuando estamos hablando de decir condiciones macroeconómicas o encuestas de Estados Unidos recortan cosas de consumo que generalmente están relacionadas con el general economía. No hay que puedas comprar esos datos. Pero muchas veces es sólo Azizi para descargarlo de la Fed a través de una de las bases de datos de la Reserva Federal o a través de la del Oficina del Censo de Estados Unidos son una de las otras muchas organizaciones gubernamentales por ahí que recolectan datos y ponerlo a disposición del público nuevamente para obtener más datos, firma o información sobre todos estos diferentes aspectos de la recolección de datos para proyectos de inteligencia empresarial . Ver mi clase pasada sobre este tema. A continuación, después de que hayamos reunido nuestros datos, tenemos que ir a construir una base de datos. Para hacer eso, vamos a necesitar sacar múltiples conjuntos de variables de datos juntos. Ocasionalmente tienes todos los datos ordenadamente organizados en un día para establecer, y no tienes que hacer nada con ello. Pero eso es bastante inusual. Y francamente, sólo sucede si estamos tratando de responder una pregunta muy simplista como decir, ¿cuál es la dirección del cliente X y Z? Bueno, probablemente nos limitaríamos a mirar nuestra base de datos de clientes. Esa no es realmente una pregunta del tipo de inteligencia empresarial. La mayoría de las veces, vamos a necesitar reunir diferentes conjuntos de datos. Por ejemplo, los datos sobre la economía en general combinados con datos sobre nuestros clientes y igualan esos dos para ver, ver,por ejemplo, cómo la economía en general y sus condiciones impactan las ventas de nuestros clientes, tal vez dejándonos pronosticar ventas para nuestra empresa en el futuro. Juntar estos diferentes conjuntos de datos suena fácil, ¿verdad? Basta con tomar dos piezas de datos diferentes y fundirlas juntas. De hecho, no lo es, Por ejemplo, hay algunos problemas con los que podrías tropezar. Uno de los primeros problemas es que los datos económicos tienen frecuencias diferentes. Los precios del petróleo se reportan diariamente. El PIB se reporta trimestralmente. Las ventas de viviendas se reportan mensualmente. Los reclamos de desempleo se reportan ya sea de manera semanal o mensual, dependiendo de qué estadísticas específicas vamos a ver con tanta frecuencia veces, es difícil fusionar estos diferentes conjuntos para poder averiguar cómo fusionar ellos juntos. Tenemos que averiguar cuáles son las relaciones entre las bases de datos para fusionarlas de la manera más efectiva . Una vez que hayamos hecho eso, podemos ir a estructurar nuestros datos. Estructurar datos es el tema para que los datos de clase de hoy necesitan estar estructurados adecuadamente, ni para facilitar el análisis. En particular, esto significa determinar qué variables utilizar en nuestro análisis de datos sobre qué tipos de cambios se tienen que hacer a los datos o para maximizar su efectividad. mala estructura de datos podría ser un problema realmente significativo. Por ejemplo, recientemente dirigí una sesión de capacitación para empleados con una empresa Fortune 500 donde les ha asignado un proyecto inicial uno de los gerentes de nivel superior. Y después de una de las cosas que hicimos en esta capacitación es lo que trajeron el proyecto al curso. Nosotros tipo de pasamos y miramos algunos de los análisis que hicieron cuando descubrí con bastante rapidez, es que no habían podido cuantificar adecuadamente los efectos de los cambios macro en las ventas para su empresa porque no lo hicieron estructurar los datos correctamente en absoluto. El hecho de no estructurar los datos y poner esas variables en el tipo correcto hace para un gran problema a la hora de predecir diferentes efectos en este caso, las ventas para la empresa. Entonces si no estructuramos correctamente nuestros datos, estábamos construyendo una base muy débil para futuras preguntas de inteligencia empresarial. Ahora, cuando se trata de análisis de datos, ese va a ser el tema de un futuro curso. Pero en resumen, si hemos estructurado correctamente nuestros datos, podemos usar herramientas estadísticas para predecir en el análisis de preguntas empresariales. Estas herramientas incluyen, entre otras cosas, análisis de regresión, árboles de decisión, análisis de escenarios, simulaciones de Monte Carlo, etcétera. Se puede buscar un futuro curso sobre estos temas. 3. Evaluación de la exactitud de datos: módulo dos. Evaluar los datos para comenzar con un dato de empotramiento que necesitamos pasar y evaluar, decidir si tenemos o no algún problema con nuestras bases de datos. En particular, las bases de datos en entornos empresariales a menudo se generan de forma automática o casi automática. Por ejemplo, los datos de reportes de ventas o estadísticas de inversión podrían descargarse directamente de una parte diferente de la empresa. Los datos de las ubicaciones minoristas, tal vez con nuestra empresa, a menudo se generan automáticamente por el software. Por ejemplo, sobre un sistema de punto de venta. Es importante evaluar estos datos y su precisión antes de pasar a analizarlos. Datos que se generan automáticamente muchas veces no han tenido una revisión de cordura por parte de ningún ser humano, y por lo que como resultado, podrían contener errores u omisiones o problemas que podemos pasar por alto. Si pasamos a rápido. Cuando estamos evaluando datos, hay algunos temas clave que queremos empezar por mirar primero, ¿parece que la fecha tenga algún tipo de mentirosos fuera? En segundo lugar, ¿la fecha parece ser exacta? En tercer lugar, son los datos constructos alrededor de variables que tienen sentido económico. Por ejemplo, podríamos tener deuda como una variable y activos es otra. Si estamos viendo, por ejemplo, diferentes empresas que podrían ser competidores de las nuestras, o simplemente diferentes empresas que se negocian públicamente. Bueno, si nos fijamos en el monto agregado de la deuda que tiene una empresa que no nos dice mucho en el agregado, todo lo que realmente consigue hace es darnos un proxy para el tamaño. Las empresas más grandes, en promedio, deberían tener más deuda. Esperaría que a modo de ejemplo, General Electric tiene mucha más deuda que, digamos, Ah, fabricante industrial muy pequeño. G E es grande. Pueden darse el lujo de apoyar mucha más deuda, lo que la deuda por sí misma no es muy útil. Lo mismo es cierto con los activos. En realidad no está claro que los activos por sí mismos nos digan algo más que darnos un proxy para el tamaño de la firma. Por otro lado, si tomamos una proporción de activos de deuda ahora tenemos algo más significativo. En este caso, los activos de deuda nos van a dar algún tipo de indicación del riesgo de la firma. Más allá y por último, podríamos estar interesados en mirar otras brechas o discontinuidades en los datos. Todos estos son puntos clave que debemos mirar más primero pasando por un conjunto de datos. Cuando se trata de datar mentirosos, tenemos que preguntarnos ¿cómo se ven los datos? ¿ Parece que los datos son prueba simétrica? Esto tendrá que ejecutar cálculos plazo. El medio y la mediana en cada variable de interés son la carne que podríamos preguntarnos ¿Son la media y la mediana aproximadamente la misma? De no ser así, decidimos de sesgo Nissen. El dato es un problema. Si la media y la mediana difieren dramáticamente, eso nos dice que nuestros datos están sesgados. También podemos ejecutar cálculos término en los percentiles superior e inferior el superior 1% el superior 5% el superior 10% y compararlos con la media y la mediana. Si, por ejemplo, estuviéramos mirando, digamos, las ventas para algunos de nuestros clientes, si el 1% superior de nuestros registros de ventas de clientes son seguros por 100 veces el promedio de ventas, tal vez esas métricas no son muy son muy significativos. A lo mejor esas métricas van a desechar nuestro análisis, tal vez , por ejemplo, es simplemente un error contable. Cualquiera que sea el tema, tenemos que pasar y decidir si esos percentiles superior e inferior pertenecen a nuestros datos. Establecerlo todo para computar medios medianos y percentiles. Hay algunas herramientas diferentes que podemos usar. Voy a hablar brevemente de SAS, Stada y Excel. Excel es probablemente uno con el que casi todo el mundo está familiarizado. Para calcular medias medias y percentiles y Excel simplemente utilizará las siguientes funciones. Media media y punto percentil Inc Cada uno de estos aires es bastante sencillo, y nos dejarán pasar y descifrar algunas de las preguntas que queremos ver en Excel. El problema con Excel, sin embargo, es que Excel sólo nos permite mirar un subconjunto muy pequeño de datos, relativamente hablando, dependiendo de la versión de Excel que estés usando. Está en cualquier lugar desde quizás 65,000 filas de datos hasta tal vez un 1,000,000 de filas de datos. Francamente, incluso si tienes versiones más recientes de Excel que te permiten analizar hasta un 1,000,000 filas de datos, Excel suele tener problemas para lidiar con bases de big data como eso ordena Congar localizaciones v equivocadas . Cosas como esa puedes tener serios problemas con Excel para conjuntos de datos muy grandes más de unos 50,000 puntos de datos más o menos. En consecuencia, no estoy diciendo que no debas usar excel, pero debes ser muy cauteloso con ello. Ahora si no quieres usar Excel, uno de los programas alternativos que me gustan mucho, este estado A es muy bonito porque tiene dos beneficios. Número uno. Es de bajo costo. Ist paquetes de software van. Puedes obtener una licencia perpetua para algunos entre unos pocos 100 quizá $1000 dependiendo de qué tipo de organización seas. Estado también es muy fácil de usar, no del todo tan fácil de usar como excel. Pero es mucho más potente donde Excel se atasca en unos 50,000 puntos de datos y solo unas pocas variables y comienza a producir resultados o resultados cuestionables. Eso, de hecho, es en realidad francamente incorrecto. Y no tienes forma de saber si está mal o no, porque Excel no te da ningún tipo de advertencia. Stada evita todos estos problemas. Estado de todavía se basa en una entrada de hoja de cálculo, lo cual es agradable porque puedes pasar a la vista tus datos en el mismo tipo de marco que haces con Excel comprado. Te da más herramientas para pasar por un analizar tus datos de una manera más robusta. Se puede ver parte del código básico que he escrito para algún análisis a continuación ahora en estado, si quisiéramos mirar medios medianos y percentiles, simplemente usaríamos las siguientes funciones. Por ejemplo, alguna variable una variable a etcétera. Si simplemente tecleamos eso y ponemos nuestros nombres de variables, estado escupirá nuestros medios. Si escribimos alguna variable una variable a variable, tres etcétera y luego detalle de coma al final, se escupirá. No sólo son medios sino nuestras medianas y nuestros percentiles en diversos puntos del conjunto de datos, por lo que el estado es muy sencillo y fácil de usar. Y lo bueno es que una vez que has escrito un programa, puedes tomar ese mismo programa y aplicarlo a múltiples conjuntos de datos, por lo que podría ser más trabajo por adelantado. En comparación con Excel. Una vez que hayas hecho el trabajo por delante, es muy fácil volver a ejecutarlo una y otra vez. Otra vez. Es un poco más caro que programas como, digamos, que son de código abierto. Pero creo que es más fácil de usar, y así que a menudo son dólares bien gastados. Eso depende de ti, por supuesto, de cada persona es propiedad ahora como alternativa. Si no te gusta el estado de por la razón que sea, SAS es otra gran opción. Declarado sí tiene herramientas de análisis de datos mucho más poderosas que Excel. Pero si se empieza a mirar 5 10 2030 millones de observaciones estado, a menudo se puede ralentizar. En este caso, necesitarás un programa de software diferente. Sass es una gran opción ahora. A menudo, Sass se compra con licencia. Es un poco más caro que Stada, pero sigue siendo una buena opción en general, igual que State of the Oh SAS implica escribir una pieza de código, lo que conlleva, por supuesto, trabajo anticipado. Pero entonces, una vez que hayas escrito ese programa, puedes usarlo una y otra vez. Por lo que el trabajo inicial. Pero entonces, una vez escrito el programa, es muy fácil aplicarlo a una miríada matriz de diferentes conjuntos de datos con solo cambios menores . Entonces en este caso en particular, he escrito este programa, que pasa y nos muestra nuestros retornos. En particular, el conjunto pertinente de código aquí está en la parte inferior. Prock significa datos. Esto nos muestra para nuestro conjunto de datos específico. En este caso, retornos de punto de trabajo s y P 500 son percentil medio medio para el percentil 90, el percentil 10 los hombres y el máximo en el conjunto de datos, todos con decimales máximos de tres. Podríamos, por supuesto, cambiar esto. Pero el punto es que la codificación es relativamente sencilla de pasar y descifrar estos diferentes indicadores de datos, nos van a dejar establecer si nuestro conjunto de datos es o no adecuado, correcto y bien construido. A continuación, Cuando estamos viendo la precisión de los datos, una de las grandes preocupaciones es siempre los datos falsos. Ben, para la ley de Dios es una de las mejores pruebas para datos falsos. Si te preocupa que tu empresa obtenga datos que han sido falsificados por alguna razón , recomiendo encarecidamente pasar y usar la ley de Benford. Ben Friends Law simplemente dice que en datos reales, el número uno debe ser el número más común. El número dos debería ser un etcétera siguiente, más común. Esto suena increíble, pero de hecho funciona una y otra vez con muchos conjuntos de datos diferentes. Para ilustrar por qué este es el caso. Piensa en el mercado de valores. Tardó mucho más para que el Dow Jones pasara de 1000 a 2000 puntos que de 17,000 puntos. El carácter del crecimiento en Siris de los números es que uno siempre será el número más común en un conjunto de datos real para que debería ser el siguiente etcétera más común. El siguiente gráfico nos muestra la frecuencia de cada número en datos genuinos. Ahora ten en cuenta, por supuesto, hay alguna variación de esto en cualquier muestra de datos dada. Pero en promedio para un conjunto de datos, deberíamos encontrar que el número uno representa alrededor del 30.1% de descuento en todos los dígitos en los datos reales. El número dos representa alrededor del 17.6% de todos los dígitos. Número tres, alrededor de 12.5% etcétera. Por lo que puedes usar esto es una herramienta para establecer si tus datos son genuinos o no. Los datos genuinos no garantizan que no haya problemas con los datos. Por ejemplo, los datos podrían tener observaciones faltantes o los datos podrían simplemente ser demasiado pequeños de un tamaño de muestra . Pero sí nos dice que sí nos da una indicación al menos de que los datos no han sido manipulados. 4. Relación ía y métricas clave en el análisis de datos: módulo dos. Evaluar los datos para comenzar con un dato de empotramiento que necesitamos pasar y evaluar, decidir si tenemos o no algún problema con nuestras bases de datos. En particular, las bases de datos en entornos empresariales a menudo se generan de forma automática o casi automática. Por ejemplo, los datos de reportes de ventas o estadísticas de inversión podrían descargarse directamente de una parte diferente de la empresa. Los datos de las ubicaciones minoristas, tal vez con nuestra empresa, a menudo se generan automáticamente por el software. Por ejemplo, sobre un sistema de punto de venta. Es importante evaluar estos datos y su precisión antes de pasar a analizarlos. Datos que se generan automáticamente muchas veces no han tenido una revisión de cordura por parte de ningún ser humano, y por lo que como resultado, podrían contener errores u omisiones o problemas que podemos pasar por alto. Si pasamos a rápido. Cuando estamos evaluando datos, hay algunos temas clave que queremos empezar por mirar primero, ¿parece que la fecha tenga algún tipo de mentirosos fuera? En segundo lugar, ¿la fecha parece ser exacta? En tercer lugar, son los datos constructos en torno a variables que tienen sentido económico. Por ejemplo, podríamos tener deuda como una variable y activos es otra. Si estamos viendo, por ejemplo, diferentes empresas que podrían ser competidores de las nuestras, o simplemente diferentes empresas que se negocian públicamente. Bueno, si nos fijamos en el monto agregado de la deuda que tiene una empresa que no nos dice mucho en el agregado, todo lo que realmente consigue hace es darnos un proxy para el tamaño. Las empresas más grandes, en promedio, deberían tener más deuda. Esperaría que a modo de ejemplo, General Electric tiene mucha más deuda que, digamos, Ah, fabricante industrial muy pequeño. G E es grande. Pueden darse el lujo de apoyar mucha más deuda, lo que la deuda por sí misma no es muy útil. Lo mismo es cierto con los activos. En realidad no está claro que los activos por sí mismos nos digan algo más que darnos un proxy para el tamaño de la firma. Por otro lado, si tomamos una proporción de activos de deuda ahora tenemos algo más significativo. En este caso, los activos de deuda nos van a dar algún tipo de indicación del riesgo de la firma. Más allá y por último, podríamos estar interesados en mirar otras brechas o discontinuidades en los datos. Todos estos son puntos clave que debemos mirar más primero pasando por un conjunto de datos. Cuando se trata de datar mentirosos, tenemos que preguntarnos ¿cómo se ven los datos? ¿ Parece que los datos son prueba simétrica? Esto tendrá que ejecutar los cálculos plazo. El medio y la mediana en cada variable de interés son la carne que podríamos preguntarnos ¿Son la media y la mediana aproximadamente la misma? De no ser así, decidimos de sesgo Nissen. El dato es un problema. Si la media y la mediana difieren dramáticamente, eso nos dice que nuestros datos están sesgados. También podemos ejecutar cálculos término en los percentiles superior e inferior el superior 1% el superior 5% el superior 10% y compararlos con la media y la mediana. Si, por ejemplo, estuviéramos mirando, digamos, las ventas para algunos de nuestros clientes, si el 1% superior de nuestros registros de ventas de clientes son seguros por 100 veces el promedio de ventas, tal vez esas métricas no son muy son muy significativos. A lo mejor esas métricas van a desechar nuestro análisis, tal vez , por ejemplo, es simplemente un error contable. Cualquiera que sea el tema, tenemos que pasar y decidir si esos percentiles superior e inferior pertenecen a nuestros datos. Establecerlo todo para computar medios medianos y percentiles. Hay algunas herramientas diferentes que podemos usar. Voy a hablar brevemente de SAS, Stada y Excel. Excel es probablemente uno con el que casi todo el mundo está familiarizado. Para calcular medias medias y percentiles y Excel simplemente utilizará las siguientes funciones. Media media y punto percentil Inc Cada uno de estos aires es bastante sencillo, y nos dejarán pasar y descifrar algunas de las preguntas que queremos ver en Excel. El problema con Excel, sin embargo, es que Excel sólo nos permite mirar un subconjunto muy pequeño de datos, relativamente hablando, dependiendo de la versión de Excel que estés usando. Está en cualquier lugar desde quizás 65,000 filas de datos hasta tal vez un 1,000,000 de filas de datos. Francamente, incluso si tienes versiones más recientes de Excel que te permiten analizar hasta un 1,000,000 filas de datos, Excel suele tener problemas para lidiar con bases de big data como eso ordena Congar localizaciones v equivocadas . Cosas como esa puedes tener serios problemas con Excel para conjuntos de datos muy grandes más de unos 50,000 puntos de datos más o menos. En consecuencia, no estoy diciendo que no debas usar excel, pero debes ser muy cauteloso con ello. Ahora si no quieres usar Excel, uno de los programas alternativos que me gustan mucho, este estado A es muy bonito porque tiene dos beneficios. Número uno. Es de bajo costo. Ist paquetes de software van. Puedes obtener una licencia perpetua para algunos entre unos pocos 100 quizá $1000 dependiendo de qué tipo de organización seas. Estado también es muy fácil de usar, no del todo tan fácil de usar como excel. Pero es mucho más potente donde Excel se atasca en unos 50,000 puntos de datos y solo unas pocas variables y comienza a producir resultados o resultados cuestionables. Eso, de hecho, es en realidad francamente incorrecto. Y no tienes forma de saber si está mal o no, porque Excel no te da ningún tipo de advertencia. Stada evita todos estos problemas. Estado de todavía se basa en una entrada de hoja de cálculo, lo cual es agradable porque puedes pasar a la vista tus datos en el mismo tipo de marco que haces con Excel comprado. Te da más herramientas para pasar por un analizar tus datos de una manera más robusta. Se puede ver parte del código básico que he escrito para algún análisis a continuación ahora en estado, si quisiéramos mirar medios medianos y percentiles, simplemente usaríamos las siguientes funciones. Por ejemplo, alguna variable una variable a etcétera. Si simplemente tecleamos eso y ponemos nuestros nombres de variables, estado escupirá nuestros medios. Si escribimos alguna variable una variable a variable, tres etcétera y luego detalle de coma al final, se escupirá. No sólo son medios sino nuestras medianas y nuestros percentiles en diversos puntos del conjunto de datos, por lo que el estado es muy sencillo y fácil de usar. Y lo bueno es que una vez que has escrito un programa, puedes tomar ese mismo programa y aplicarlo a múltiples conjuntos de datos, por lo que podría ser más trabajo por adelantado. En comparación con Excel. Una vez que hayas hecho el trabajo por delante, es muy fácil volver a ejecutarlo una y otra vez. Otra vez. Es un poco más caro que programas como, digamos, que son de código abierto. Pero creo que es más fácil de usar, y así que a menudo son dólares bien gastados. Eso depende de ti, por supuesto, de cada persona es propiedad ahora como alternativa. Si no te gusta el estado de por la razón que sea, SAS es otra gran opción. Declarado sí tiene herramientas de análisis de datos mucho más poderosas que Excel. Pero si se empieza a mirar 5 10 2030 millones de observaciones estado, a menudo se puede ralentizar. En este caso, necesitarás un programa de software diferente. Sass es una gran opción ahora. A menudo, Sass se compra con licencia. Es un poco más caro que Stada, pero sigue siendo una buena opción en general, igual que State of the Oh SAS implica escribir una pieza de código, lo que conlleva, por supuesto, trabajo anticipado. Pero entonces, una vez que hayas escrito ese programa, puedes usarlo una y otra vez. Por lo que el trabajo inicial. Pero entonces, una vez escrito el programa, es muy fácil aplicarlo a una miríada matriz de diferentes conjuntos de datos con solo cambios menores . Entonces en este caso en particular, he escrito este programa, que pasa y nos muestra nuestros retornos. En particular, el conjunto pertinente de código aquí está en la parte inferior. Prock significa datos. Esto nos muestra para nuestro conjunto de datos específico. En este caso, retornos de punto de trabajo s y P 500 son percentil medio medio para el percentil 90, el percentil 10 los hombres y el máximo en el conjunto de datos, todos con decimales máximos de tres. Podríamos, por supuesto, cambiar esto. Pero el punto es que la codificación es relativamente sencilla de pasar y descifrar estos diferentes indicadores de datos, nos van a dejar establecer si nuestro conjunto de datos es o no adecuado, correcto y bien construido. A continuación, Cuando estamos viendo la precisión de los datos, una de las grandes preocupaciones es siempre los datos falsos. Ben, para la ley de Dios es una de las mejores pruebas para datos falsos. Si te preocupa que tu empresa obtenga datos que han sido falsificados por alguna razón , recomiendo encarecidamente pasar y usar la ley de Benford. Ben Friends Law simplemente dice que en datos reales, el número uno debe ser el número más común. El número dos debería ser un etcétera siguiente, más común. Esto suena increíble, pero de hecho funciona una y otra vez con muchos conjuntos de datos diferentes. Para ilustrar por qué este es el caso. Piensa en el mercado de valores. Tardó mucho más para que el Dow Jones pasara de 1000 a 2000 puntos que de 17,000 puntos. El carácter del crecimiento en Siris de los números es que uno siempre será el número más común en un conjunto de datos real para que debería ser el siguiente etcétera más común. El siguiente gráfico nos muestra la frecuencia de cada número en datos genuinos. Ahora ten en cuenta, por supuesto, hay alguna variación de esto en cualquier muestra de datos dada. Pero en promedio para un conjunto de datos, deberíamos encontrar que el número uno representa alrededor del 30.1% de descuento en todos los dígitos en los datos reales. El número dos representa alrededor del 17.6% de todos los dígitos. Número tres, alrededor de 12.5% etcétera. Por lo que puedes usar esto es una herramienta para establecer si tus datos son genuinos o no. Los datos genuinos no garantizan que no haya problemas con los datos. Por ejemplo, los datos podrían tener observaciones faltantes o los datos podrían simplemente ser demasiado pequeños de un tamaño de muestra . Pero sí nos dice que sí nos da una indicación al menos de que los datos no han sido manipulados. 5. Variables categorial en Inteligencia empresarial: módulo, tres ratios y métricas clave. Ahora, cuando estamos pasando y mirando datos en mi experiencia, el problema número uno que tiene la gente cuando está haciendo análisis de datos es usar las variables equivocadas . Tienden a usar las variables que parecen producir el resultado que quieren, aunque económicamente no tengan sentido. No basta con tener buenos datos o una herramienta que te permita analizar las relaciones empíricas Necesitas las variables correctas. . Hay una vieja historia en la que probablemente sea apócrifa, pero osos repiten sin embargo que existe una correlación muy fuerte entre la tasa de natalidad en India y las velocidades del viento en Chicago. Este es un ejemplo perfecto de correlación espuria. No hay razón racional por la que el número de personas nacidas en la India deba tener alguna relación con la velocidad del viento en Chicago comprado. Si miramos suficientes piezas de datos para nosotros dado tamaño de muestra, encontraremos estas correlaciones. Si son o no significativas es algo que tenemos que calibrar independientemente de las propias correlaciones reales . Por lo que es importante pasar y echar un vistazo a qué variables estaban usando y asegurarnos que estamos usando variables que tiene sentido en el contexto del problema que estamos tratando de resolver. Por ejemplo, pensemos de nuevo en nuestras variables, deuda, activos y deuda a activos. Como señalé antes, la deuda y los propios activos no son necesariamente tan significativos. En el mejor de los casos, son proxies diferentes para el tamaño de la empresa. Deuda con activos, sin embargo, tiene sentido como métrica para la riesgosidad de una firma. Ahora, en muchos casos, lo que esto nos dice es que las variables crudas necesitan ser modificadas para tener relaciones fuertes en los datos, pero también relaciones fuertes que sean económicamente significativas una y otra vez solo tener correlación estadística con las variables que nos importan. Como señalé, ni la deuda ni los activos son buenos. Proxy para deuda de riesgo a activos es, sin embargo, ahora las modificaciones variables van a caer en tres categorías básicas. Formando ratios, quitando tasas de cambio en los datos en lugar de niveles fuera de esos datos y variables categóricas . ratios son una de las herramientas más útiles que confinamos. Al construir conjuntos de datos. Los datos de negocios crudos no suelen ser tan buenos para predecir resultados futuros. A menudo es ruidoso. Tiene mucha variación dentro de los datos que dificulta proteger las cosas y luego, como vimos con la deuda en activos, a veces no es particularmente significativo Todo si estamos tratando de medir más abstracto conceptos como el nivel de riesgo de una firma. En cambio, a menudo es una buena idea calcular ratios basados en las métricas que nos importan. Por ejemplo, aquí vemos un diagrama que muestra valor intrínseco usando análisis de ratio nos podría interesar , digamos, el valor de una empresa comprada si nos dan datos sobre ganancias inversiones requeridas en capital operativo y flujo de caja libre. Esos solos no nos hablan mucho de la firma. En cambio, necesitamos pasar y contar fin. Combine esos datos con, en este caso costo promedio ponderado del capital. Formamos una relación, y esa relación forma la base de un modelo de flujo de caja descontado, que a su vez nos da una evaluación sobre la firma. El punto aquí es que el simple flujo de caja libre por sí mismo no es todo tan útil para averiguar el valor de la firme ponderada. El costo promedio del capital por sí mismo no es de nuevo todo tan útil para averiguar el valor de la firma. Poner estos conceptos juntos, sin embargo, y obtenemos algo que es mucho más útil y las relaciones significativas podrían ser de manera similar útiles en las relaciones de su organización. Nos van a dejar facilitar la comparación para una empresa a lo largo del tiempo para una empresa frente a otras empresas también. ratios van a ser usadas por, por ejemplo, los prestamistas determinan los accionistas de solvencia para estimar futuros flujos de efectivo y gerentes de riesgo cuando estamos tratando de identificar debilidades y fortalezas en una organización. Así que vamos a pasar y echar un vistazo a algunas de las diferentes proporciones que podrías usar en tu organización cuando estás construyendo sentido de datos. En particular, hay cinco categorías de ratios financieros. Coeficientes de liquidez, coeficientes de gestión de activos, coeficientes de gestión de deuda, ratios de rentabilidad y ratios de valor de mercado. Cada una de estas ratios va a ser útil en diferentes circunstancias, dependiendo de lo que sea que busquemos analizar. En particular, tenemos que pasar, y tenemos que asegurarnos de que tenemos los datos correctos en nuestro dedo del pie de la base de datos. Calculemos estos coeficientes. Dependiendo de la pregunta que nos planteemos, coeficientes de liquidez van a medir nuestra capacidad para cumplir con las obligaciones corrientes. Las ratios de gestión de activos nos dicen algo sobre el uso adecuado y efectivo de los activos, si la empresa está haciendo un buen trabajo y gestionando esos activos, etcétera. Por lo que las relaciones de administración de activos podrían incluir cosas como la utilización de activos. Por ejemplo, las ratios totales de rotación de activos. Eso simplemente va a ser una rotación total de activos. Ventas iguales divididas por activos totales. coeficientes de gestión de la deuda nos van a decir algo sobre el alcance de la deuda en la firma en el nivel de seguridad que se va a otorgar a los acreedores. Por ejemplo, utilización de deuda Multiplicadores de patrimonio razón multiplicador es sólo activos totales divididos por patrimonio total Las relaciones de rentabilidad nos van a decir algo sobre los efectos de la liquidez, activo gestión y deuda sobre resultados operativos. Esto incluye cosas como el control de gastos, margen de beneficio del margen, por supuesto, es sólo el ingreso neto dividido por las ventas. Por último, relaciones de valor de mercado nos iban a dar una indicación de lo que piensan los inversionistas de los resultados pasados de una firma . Cómo se ven las perspectivas de futuro de la empresa cuando estamos tratando con ratios de liquidez estaban haciendo una serie de preguntas fundamentales sobre si la empresa puede cumplir con sus obligaciones a corto plazo utilizando el recurso que actualmente tiene a mano. Hay algunas relaciones diferentes, particularmente relevantes. El primero de ellos simplemente la relación corriente activos corrientes divididos por pasivos corrientes. De igual manera, la relación rápida va a ser el activo corriente menos el inventario sobre los pasivos corrientes. Por lo que si estamos pasando estuviéramos tratando de pronosticar, por ejemplo, algo sobre la administración de efectivo o la probabilidad de que un proveedor o cliente incurra en algún tipo de obligación, estaríamos interesados en usar este tipo de ratios, y debemos asegurarnos de que estén incluidos en nuestra base de datos con fines de previsión. A continuación, si nos fijamos en las ratios de gestión de activos se preguntaban, ¿Con qué eficiencia utiliza la firma sus activos? ¿ Cuánto ha empatado la firma en sus activos por cada dólar de ventas? Podemos medir esto usando el ratio de facturación de inventario, por lo que eso simplemente es igual a las ventas divididas por inventarios. De igual manera, podríamos estar interesados en nuestra eficiencia del activo fijo. Para calcular esto, podemos utilizar nuestro giro de activos fijos. Eso van a ser ventas divididas por activos fijos netos. volumen total de negocios de activos, en contraste, es solo ventas divididas por activos totales. Por lo que nuevamente, cada una de estas ratios está midiendo diferentes aspectos de nuestra estrategia de gestión de activos comprada . Si nos interesa predecir lo bien que está haciendo la empresa y cómo podrían verse las ventas en el futuro, probablemente quisiéramos asegurarnos de que estos aire se incluyan en nuestra base de datos ratios de gestión de deuda . Si estamos haciendo preguntas sobre cuánta deuda tiene la compañía, y si eso es demasiado para que la firma maneje y si las ganancias de la compañía pueden cumplir con sus requisitos de servicio de la deuda, podríamos estar interesados en algo como el ratio de deuda. El ratio de deuda es sólo total en pasivos totales divididos por activos totales. O te podría interesar el interés de los tiempos de empate ganado, que es simplemente e pero dividido por el gasto de intereses. El punto aquí con cada una de estas ratios es que quizá no tengamos estas ratios en nuestra base de datos para empezar. Si simplemente estamos dibujando, digamos, datos financieros de una base de datos financiera que está ahí fuera, digamos de campy, stat o crujiente, podríamos tener pasivos totales en activos totales para nuestra firma o para firmas competidoras. Pero tenemos que pasar y calcular el ratio de deuda como se muestra aquí en la propia base de datos. Tenemos que tomar lo siguiente. Tenemos que tomar operadores matemáticos que nos den eso y declarar nueva variable para el ratio de deuda. De igual manera, cuando estamos viendo ratios de rentabilidad, podrían interesarte cosas como el margen de beneficio neto, que simplemente el margen de beneficio equivale a ingresos netos divididos por ventas. Si estamos viendo cuál es la tasa de retorno de la empresa, podríamos estar interesados en el margen de beneficio operativo, que es simplemente Ebert dividido por ventas. Si nos interesan las métricas de lo bien que la empresa está usando sus activos, podríamos estar interesados en turno sobre activos y rendimiento sobre patrimonio retorno sobre activos simplemente ingresos netos divididos por activos totales donde retorno sobre patrimonio Es ese ingreso dividido por común equidad? Una de mis ratios favoritos, y en realidad no es una relación. Para ser justos, es más de, Ah, Ah, operador matemático es la puntuación Altman Z. El marcador de Altman Z va a predecir la probabilidad de que frente de una firma dada vaya a la quiebra en un plazo de dos años. El modelo que aquí se muestra es para Punto de Empresas Industriales. Esto también es aplicable a cualquier tipo de empresa que esté produciendo o fabricando un bien en general. Más allá de eso, sin embargo, hay variaciones en el marcador Altman Z. Se han optimizado para, digamos, firmas de software o minoristas, firmas que tienen tipo de modelo de negocio más ligero de activos. El marcador de Altman Z se va a basar en cinco ratios diferentes todos juntos para formar esta sola métrica. El primer ratio que vamos a necesitar es el capital de trabajo dividido por activos totales. Eso nos va a dar una métrica por lo líquida que es la firma. Relación dos x dos En fórmula armada se retiene. Dividir ganancias Acerca de la relación total de activos. Tres Es ganancias antes de intereses en impuestos divididos por activos totales. Entonces como vemos ratio dos años dándonos una métrica por la flexibilidad financiera fuera de la firma y su ratio de valoración tres nos está dando una métrica por su relación de rentabilidad. Cuatro nos va a decir algo sobre la valoración de la firma. En general, es simplemente el valor de mercado del patrimonio neto dividido por los pasivos totales y la relación. Cinco es ventas a activos totales. Eso es decirnos, en esencia, qué tan eficiente es la empresa con sus activos por los que pasamos, utilizar cada uno de estos coeficientes que aquí se muestran y multiplicarlos por las ratios. Entonces, por ejemplo, calculamos la relación x uno y la multiplicamos por 1.2. Entonces sumamos a esa relación x dos veces 1.4 etcétera. Pasar por realizar todas esas funciones matemáticas y obtenemos un Z si Z para la empresa es más de 2.99 Esa es una empresa segura. La probabilidad de que la firma vaya a la quiebra en un plazo de dos años es bastante baja. Si el ratio si el puntaje Z lo siento, cae dentro del rango de 1.8122 punto 99 eso es lo que llamamos la Zona gris. Aquí hay algún riesgo. Y por último, si la relación está por debajo de 1.81 esa es la zona de auxilio. Existe una alta probabilidad de que la firma vaya a la quiebra en un plazo de dos años. A continuación, podríamos preocuparnos por la tasa de crecimiento interno. A lo mejor queremos pasar y realizar algún tipo de pronóstico sobre las ganancias de la empresa en el futuro. Para ello, necesitamos una base de datos que nos permita pasar y calcular nuestra tasa de crecimiento interno. tasa de crecimiento interno es simplemente igual. El retorno sobre los tiempos patrimoniales se pretenden porcentaje de retención. Ese porcentaje de retención es la cantidad de ganancia que estamos manteniendo retenida dentro de la empresa en lugar de pagar a inversionistas en forma de dividendo. Por lo que la tasa de crecimiento interno es nuestro porcentaje de retención de tiempos lejanos dividido por uno menos son lejos tiempos porcentaje de retención. También nos podría interesar la tasa de crecimiento sustentable. El índice de crecimiento sustentable nos va a decir cuánto puede crecer la firma utilizando sus fondos generados internamente y emitiendo deuda para mantener una relación de deuda constante a lo largo del tiempo. Esa tasa de crecimiento sustentable es igual a nuestra A Nosotros veces nuestro porcentaje de atención dividido por uno menos somos veces nuestro porcentaje de atención. Por último, podríamos estar interesados en las relaciones de valor de mercado. Las relaciones de valor de mercado dan a la dirección una indicación de lo que piensan los inversionistas del desempeño pasado de la empresa . Y las perspectivas futuras, incluidas las relaciones de valor de mercado, suelen ser útiles. Si estamos tratando de pronosticar acciones podríamos tomar que podrían mejorar el valor de nuestra firma . Por ejemplo, pasamos y construimos una base de datos que se vea nuestra firma y firmas competidoras en la misma industria y que tenga todo un montón de datos relacionados con las decisiones. Hemos tomado decisiones que han tomado. Podemos entonces calcular ratios de valor de mercado para darnos una idea del valor relativo de cada una de estas empresas, y podemos usar ese valor relativo como nuestra variable de predicción para el futuro. A continuación, hablemos de tasas de cambio. Entonces, como señalé, las tasas de cambio a menudo pueden ser útiles si los niveles de un punto de datos dado no son útiles. Por lo tanto, incluso si una relación no es tan obvio un sustituto de los datos brutos, a menudo es una buena idea intentar usar tasas de cambio en lugar de niveles, datos por datos de niveles. Estamos hablando de diferentes puntos. Por ejemplo, volver a mi deuda en activos ejemplo. Podríamos mirar el monto de la deuda en poder de General Electric o el monto de los activos en poder General Electric. Alternativamente, podríamos mirar la tasa de cambio en la deuda o en los activos, y eso nos dice algo sobre lo rápido que está creciendo la firma. El nivel de rentabilidad, por ejemplo, es menos probable que sea útil que la tasa de cambio en la rentabilidad. Para una empresa de nuevo, la rentabilidad, al menos en términos de dólares, sólo va a ser una métrica cruda para el tamaño. Podemos ponerlo en forma de una relación y nos dice algo sobre la eficacia con que se dirige la empresa. Pero aunque no nos interese hacer eso, podríamos estar interesados en la tasa de crecimiento de la rentabilidad para una firma a lo largo del tiempo. Cuando estamos calculando tasas de cambio, es útil generalmente pasar por un rango informático de tasa de cambio de cambio para cada variable importante que planeamos incluir en nuestro análisis, solo una buena regla general. Pasar y calcular esas tasas de cambio por adelantado y luego decidir más adelante. Si son útiles en tu análisis o no basados en consideraciones económicas ahora podríamos estar interesados en averiguar si las tasas de cambio tienen sentido para nosotros. Dada nuestra fecha lo hará. Tenemos que empezar por ejecutar una correlación entre nuestros niveles y nuestras tasas de cambio y la variable o tratar de predecir o examinar y eso nos dirá si las tasas o los niveles son ambos son más útiles. Queremos escoger el tipo de variable en cada caso con la mayor correlación. Eso es sólo una regla general de pulgar. No siempre es así. Podría haber una instancia en la que se tenga correlación espuria y nuevamente es importante pasar y pensar en la significación económica detrás de cada uno de estos diferentes tipos de variables. Pero en general suele ser mejor mirar y ver si el nivel o la tasa está más estrechamente correlacionado con la variable. Estamos buscando predecir ahora más allá de las tasas de cambio. A veces mirar un largo natural es una buena opción para. Por ejemplo, si estamos viendo datos con amplia variación en valor como, digamos, tamaño de activos en diferentes competidores, Natural Log puede tener mucho sentido muy difícil comparar una firma que tiene este ejemplo mil millones de dólares en activos del uno con 100 millones en algún nivel, una firma con un activo de mil millones de dólares es bastante similar a afirmar, con 900 mil millones en activos, pesar de que hay 100 millones de indiferencia entre ellos. Esas dos firmas la que tiene mil millones de dólares en activos y con 900 millones en activos, tienen una similitud mucho mayor que, digamos, digamos, una firma con 100 millones en activos frente a 200 millones de la NASA. Ese diferencial en ambos casos es de 100 millones, pero la diferencia porcentual es significativa. Pasar de 900 millones a mil 000.000.000 es sólo un crecimiento del 10% en activos. Crecer de 100,000,200 millones es una duplicación de activos. Los troncos naturales pueden ayudarnos a evitar estos problemas tomando su registro natural de activos. Entonces vamos a una escala esto más apropiadamente 6. Imputación de datos en un conjunto de datos: módulo. Cuatro Variables categóricas Cuando estamos haciendo análisis, a menudo tiene sentido agrupar agrupados de clústeres de datos juntos usando una variable categórica . Por ejemplo. En lugar de preocuparnos por una puntuación precisa de Altman Z, podríamos simplemente agrupar a proveedores o clientes en una de tres categorías, como señalamos anteriormente, Zona de peligro, Zona gris y segura Para los efectos de nuestro análisis de datos, podríamos etiquetar estos valores 12 y tres uno siendo la zona de peligro a ser zona gris y tres siendo la zona segura. Y podríamos, por ejemplo, predecir lo que se necesita para pasar de una categoría a otra, o qué impacto tiene cada uno de estos diferentes valores en alguna otra métrica que nos importa. Alternativamente, las variables Byeon Eri son tipo especial de variables categóricas. En particular, las variables binarias sólo tienen dos posibles resultados. Uno o un cero. Por ejemplo, volviendo a nuestro ejemplo Altman Z. Podríamos representar la puntuación como tres variables diferentes de Byeon Eri con un valor uno o cero en cada caso. lo que una firma tendría es un ejemplo en el marcador Altman Z, y bien estarían en la zona segura, la zona gris o la zona de peligro. Creamos tres variables binarias. Seguro, gris y peligro. Si la empresa cae en la zona segura, obtienen uno por el valor de la zona segura. Si no caen en la zona segura, obtienen un cero. Si caen en la zona gris, obtienen uno por esa variable. De lo contrario, obtienen un cero. Previsiblemente, como cabría esperar, solo se podía tener uno en una de estas tres categorías. Es decir, si tenemos uno en la zona segura para una empresa dada, debe ser cero en los grises en la zona gris y cero en la zona de peligro. General Electric sólo puede caer en una de esas tres categorías. Byeon Eri Variables, entonces, son útiles para pasar por la división de nuestros datos en diferentes piezas digeribles. Eso nos facilitará predecir valores en el futuro. Entonces, ¿por qué usamos variables categóricas? ¿ Las variables categóricas van a servir a dos propósitos? En primer lugar, nos permiten representar datos cualitativos de manera empírica. Por ejemplo, la raza de género o la condición de veterano para los empleados son todos datos cualitativos. O eres un varón o una hembra. No eres 12345 Eso no es un género. Entonces en cambio pasamos y podríamos tener una compra en Eri Variable simplemente diciendo masculino uno o cero Si es uno, sabemos que empleados particulares es un varón. Si es un cero, sabemos que hay segundas variables categóricas femeninas. Además, evitemos empantanarnos con diferencias sin sentido, y nos concentremos en el panorama general a la hora de utilizar técnicas estadísticas para analizar datos . Por ejemplo, si tenemos a competidores con un más de mil 000.000.000 y ventas, ambas deben clasificarse como grandes firmas. Ya sea que uno esté en 1,1100 millones, o 1,1400 millones realmente está en general material. En cambio, queremos mantenernos enfocados en el análisis de big picture, y para que simplemente pudiera clasificarlos como grandes empresas en cada caso, en Alternativa Way, lugar de usar variables binarias para calcular datos y agrupar juntos es usar la muerte. Seiler Quintil variables las variables de tipo percentil aire del del tipo que son categóricas en naturaleza. Por ejemplo, a menudo es aspecto útil, el rango del percentil para pieza de datos en lugar del valor absoluto. Eso es especialmente cierto cuando estamos tratando con datos de series temporales, por ejemplo, podríamos querer poder identificar a nuestro 10% superior de clientes en un año dado, independientemente de cuánto sea su volumen de ventas real. Si estamos tratando de comparar a nuestros principales clientes en el año 1990 frente al año 2010 esperaríamos solo dada la inflación de naturaleza que el valor de las ventas y cada año habría crecido para que pudiera escalar esto y ponerlo en C $1990 para ajustarse a la inflación. O simplemente podríamos usar una variable categórica de tipo percentil otra vez haciendo la escalera. Usando estas variables de tipo percentil, digamos estilos de muerte o Quintiles, nos va a dejar evitar problemas con inflación, cambios de precios, etcétera. Los estilos de muerte y los quintiles suelen ser buenas variables categóricas para calcular para variables clave . Las variables de rango de deciles van a dividir los datos en intervalos de 10%, por ejemplo, 0 10% 10 20% etcétera. Aquí la idea es que estamos tomando todos los valores perdonados variable en. Lo estamos separando en trozos parejos, así que lo buscaríamos, por ejemplo, nuestro 10% superior de clientes y estarían en el decil superior el siguiente 10% de clientes estaría en el noveno. Decile, etcétera. quintiles van a clasificar variables dividiéndolas en intervalos de 20% 0 20% 40% etcétera. Ahora podríamos calcular el ranking de deciles para cada cliente en un trimestre determinado y luego ver qué impulsa el comportamiento de los clientes en el decil superior o inferior como ejemplo. Esto nos permite pasar y enfocarnos en el tipo de clientes que nos importan, porque es muy posible que los clientes en el decil superior se comporten de manera diferente a los clientes de abajo. Decil Nuestra muerte Seiler Quintil variables generalmente se etiquetan de 1 a 10 o 125 respectivamente . Hacer esto nos va a dejar descifrar el movimiento marginal, efectivo entre categorías. En otras palabras, son los clientes del quintil superior afectados de manera diferente por un esfuerzo publicitario que, digamos, los clientes del quintil inferior son. También nos va a facilitar el cálculo de las diferencias entre los segmentos de datos. Por ejemplo, ¿cuál es la diferencia de rentabilidad entre las firmas de decil superior y decil inferior en función del tamaño total de sus activos? Las variables categóricas basadas en torno a estos por ciento house son más útiles cuando estamos tratando con datos que varían mucho a lo largo del tiempo, por ejemplo, son un Nosotros y nuestra distancia a menudo son más eficaces como variables predictivas. Si están en forma de variables categóricas en lugar de ratios, es importante no tener demasiadas muertes. Seiler Quintil Variables Así que algunos de ustedes pueden estar familiarizados con la granja en francés. Cuatro. Factor Model Eugene Fama es economista ganador del Premio Nobel y trabajando junto con Ken French de Dartmouth para desarrollar este modelo, y es útil para predecir rendimientos bursátiles basados en diferentes tipos de variables. Pero en lugar de usar valores absolutos para, digamos, la rentabilidad o las relaciones P E o cosas así, en cambio usa Siles de la Muerte y Quintiles en algunos casos. Pero también utiliza categorizaciones aún más amplias como Ter Siles. ¿ Por qué hace esto? Bueno, si solo usamos ventas por muerte o Quintiles, muchas veces empezamos a romper demasiado nuestro conjunto de datos. Por ejemplo, si tenemos cuatro muertes diferentes, voy a variables. Se utilizan cuatro variables diferentes en el modelo de cuatro factores, como su nombre lo indica. Bueno, si tuviéramos cuatro variables deciles diferentes, eso significaría que una vez segmentamos las 5000 poblaciones hacia abajo en agrupaciones que encajan con cada uno de estos Siles mortales. Tendríamos agrupaciones de cinco acciones en cada cartera que es de 5000 acciones divididas por 10 levantadas al cuarto. Alternativamente, al usar Ter Siles mediante el uso de Quintiles cosas así, nos permite obtener carteras más grandes y por lo tanto nos da un poder predictivo más preciso dentro cada portafolio que estamos tratando de predecir. 7. Conceptos básicos del análisis de datos: módulo, cinco imputando datos. Ahora, cuando estamos hablando de los temas que están involucrados con la estructuración de un conjunto de datos, a menudo surgen algunas preocupaciones comunes. Uno de los más comunes es la falta de datos. A veces se pueden inferir los datos que faltan, aunque basados en los datos disponibles existentes. Por ejemplo, si los activos son grabadores $1000 en enero y luego 1300 abril, probablemente sea razonable llenar los valores faltantes para febrero y marzo que caiga entre los dos puntos de datos. A esto se le llama imputación de datos. Existen una serie de técnicas que podemos utilizar a partir de los datos de puting. Los tres más comunes son el último método de valor disponible, el método de interpolación lineal y el método de Predicción de regresión. La última metanfetamina disponible, el último método de valor disponible para imputar datos, simplemente va a utilizar el último punto de datos válido en lugar de puntos de datos faltantes en base cualquier método de clasificación de datos que sea apropiado. Por instancia, si nuestros activos nuestro registro, es de $1000 en enero y luego de 1300 en abril, el último método de valor disponible llenando $1000 para activos para febrero y marzo, el método tiene un inconveniente obvio, aunque crea discontinuidades paso a paso. En nuestros datos, vamos de 1000 dólares en enero, 1000 dólares en febrero, 2000 en marzo 2 subiendo hasta 1300 en abril por lo que a veces sea un problema. En el lado positivo, hacemos menos supuestos sobre la tasa de crecimiento a lo largo del tiempo utilizando ese método. Alternativamente, el método de interpolación lineal de imputar datos va a utilizar un int Grady en su lugar que faltan datos basados en cualquier método de clasificación de datos que sea apropiado. Por ejemplo, si nuestros activos son de 1000 dólares en enero y 1300 abril, el método de interpolación lineal llenaría 1112 100 para nuestros valores de activos en febrero y marzo, respectivamente. El problema con este método es que puede crear la apariencia de crecimiento estable en valores para variables faltantes. Con el tiempo , evita esas discontinuidades discutidas con el último método de valor comprado. Crea un suavizado artificial del crecimiento de datos a lo largo del tiempo. Eso no es necesariamente algo bueno otra vez, dependiendo de los temas que intentaban abordar en los datos. Por último, el método de predicción de regresión de imputar datos utiliza valores pronosticados basados en nuestra agresión en su lugar fuera de los puntos de datos faltantes en base a cualquier método de clasificación de datos que sea apropiado de nuevo, finjamos que tienen $1000 en activos en enero y 1300 en abril. El método de predicción de regresión predeciría los activos para febrero y marzo con base en otros datos disponibles como, digamos, ventas y número de empleados. El método es más preciso, pero desafortunadamente también es más complejo y consume mucho tiempo. La alternativa a imputar datos es simplemente dejar caer los datos siempre que falte un valor. Dejar caer los puntos de datos puede ser bueno o malo, dependiendo de nuestras opciones. Como señalamos con la imputación, los datos estaban haciendo suposiciones en cada caso, y hay inconvenientes en cada uno de los métodos comprados. Dejar caer puntos de datos tampoco es una solución perfecta . Nos va a llevar a tener un tamaño de muestra más pequeño con menos potencia predictiva. Si los datos que faltan no son aleatorios, también, al caer puntos de datos que podrían sesgar cualquier conclusión que vamos a sacar de los datos . Por ejemplo, si estamos tratando de examinar el comportamiento de los competidores era más probable que faltaran datos sobre las empresas pequeñas frente a las grandes. Entonces, por instancia, interesados en frente ya que la rentabilidad fuera de nuestros competidores, bien las pequeñas empresas pueden no tener rentabilidad Información disponible donde las grandes firmas que se negocian públicamente tendrían que información disponible. Al caer, todas las pequeñas firmas excluían sistemáticamente a todo un conjunto de competidores. Y esos podrían ser los competidores más relevantes para nosotros, quizás de los competidores de más rápido crecimiento, por ejemplo. Por lo tanto, debemos tener cuidado al dejar caer los puntos de datos y los sesgos que pueden crear ahora. Otro problema que podríamos tener en los datos es con datos ruidosos. A veces los datos son demasiado ruidosos para ser útiles en el análisis predictivo. Los datos de series temporales son particularmente problemáticos a este respecto. Si hay un alto grado de variación, podría dificultar muy las predicciones debido a las fluctuaciones aleatorias. Suavizar nuestros datos entonces puede conducir a mejores resultados. Uno de los mejores métodos para suavizar datos es usar una media móvil. Ejemplo de ello es, digamos, datos de flujo de fondos. Por lo que recientemente estuve trabajando en un proyecto con un cliente de consultoría donde estamos tratando predecir la demanda de inversionistas por emisiones de bonos para la empresa. El problema es que cuando miras los datos de flujo de fondos a partir de los datos que están disponibles por ahí, es muy, muy aleatorio. Hay mucho movimiento en cualquier mes dado basado en la invención, sentimiento de los inversionistas y cosas así. consecuencia, las tendencias en la variación real de los datos a lo largo del tiempo podrían quedar oscurecidas por los datos de ruido. Suavizar con una media móvil nos ayuda a evitar este problema. Esto se podría hacer fácilmente y sobresalir, SAS Data o muchos otros programas estadísticos que están ahí fuera. El tema clave aquí es sólo para estar seguros de que estamos creando una variable nueva y suave en lugar de anular el módulo variable original seis. Vista previa del análisis de datos. De acuerdo, nos estamos acercando al final de esta lección, pero quiero pasar en vista previa lo que veremos en una lección futura cuando estemos lidiando con el análisis de datos. Una vez que hayamos construido un conjunto de datos terminado y estructurado los datos en base a las preguntas que nos importan, es hora de iniciar nuestro análisis de datos. El análisis de datos requiere buscar relaciones en los datos para evaluar el desempeño actual del negocio y predecir el desempeño del negocio futuro. Esto se puede hacer usando ah variedad de diferentes herramientas. En particular, medios simples, medianas y los percentiles pretendidos podrían calcularse fácilmente a partir de un conjunto de datos bien estructurado . Por instancia, va a ser muy fácil pasar y calcular el nivel de ventas requerido para vendedor en, digamos, California estar en el 25% superior de los pares si tenemos estructura o datos correctamente. Si no lo hemos hecho, podría ser muy difícil. Responde incluso a una pregunta básica como esta. Pero a menudo es útil ir más allá de esto y tratar de predecir el futuro, aunque, por ejemplo, ¿cuánto va a vender ese vendedor en California el próximo mes? Bueno, la respuesta a esta pregunta, vamos a necesitar utilizar una forma más sofisticada de análisis de datos. El análisis de regresión en este caso es probablemente el método más simple e intuitivo para responder a esta pregunta en particular. Ese va a ser el foco para nuestro próximo curso. Espero verte entonces. Gracias por ver y estar atentos a futuros cursos de técnicas de inteligencia empresarial , que próximamente estarán disponibles. Hablar con usted entonces. Adiós adiós.