Transcripciones
1. Introducción: Hola queridos amigos, y bienvenidos a Microsoft Azure Data Factory Essentials Training. Mi nombre es promedio en un ion y Microsoft Certified Solutions que he tocado y soy Microsoft Certified Trainer. Este curso es para principiantes. No necesitas ninguna experiencia de Thetas en Azure Data Factory UI empezar a editar el principio y vamos a trabajar paso a paso a paso. Además, si estás planeando llevar al ingeniero de datos de Microsoft a vacaciones, discutir es perfecto para ti. Ya que estaremos cubriendo algunos de los temas que se tratan en el plan de estudios del examen. Aprenderás todos los Fundamentos de Data Factory y cómo puede ayudar en el procesamiento por lotes, y cómo se conecta con la tecnología de mini auditoría con todos los conectores disponibles. Bueno, también exploraremos actividades así
como los componentes que componen Azure Data Factory. Por ejemplo, ductos, conjuntos de datos, disparadores, servicios vinculados, y más. Además de la competencia, cubriremos cómo transformar, ingerir e integrar árbol de código Theta utilizando flujos de datos de mapeo. Habrá un pequeño proyecto. Lo integraremos Azure Data Factory con Databricks by Rooney y no sentiremos gente desde dentro de ADF, ¿qué tan genial es eso? Por último, aprenderás a implementar todas las cosas de implementaciones que
aprenderán durante este curso usando Azure DevOps, Integración
Continua e Implementación Continua, también conocido como CI CD. Bueno, espero verte pronto en este curso, y gracias por ver.
2. Comienzo: Hola a todos. Antes de que nos ensuciemos las manos, te
voy a dar un pequeño paseo por los módulos que estaremos viendo a lo largo de este curso. Primer módulo, tenemos que ponerlo en marcha. Dentro de este módulo, hemos enviado para una cuenta gratuita de Azure. Por lo que veremos cómo podemos sacar el máximo partido a la cuenta de Azure. Vamos a echar un vistazo. Todos los servicios que podemos utilizar de forma gratuita y los créditos que están disponibles para nosotros. Vamos a armar un presupuesto para que podamos asegurarnos de que nuestras zanahorias gratis, yo siempre bajo control. Además, vamos a ver cómo podemos configurar una Fábrica de datos de Azure desde el portal y el PowerShell. Ver en la siguiente lección.
3. Comprender los componentes de Azure Data Factory: Bienvenido al segundo módulo del curso de Azure Data Factory Essentials. En este módulo, vamos a ver son
los elementos fundamentales que componen el ecosistema de la fábrica de datos. Pasaremos por Servicios Vinculados, ductos, conjuntos de datos en las diversas actividades que tenemos a nuestra disposición en ADF. Además, veremos cosas como cómo reutilizar objetos creando multitudes. Fueron también inmersión profunda en los disparadores disponibles para sombras ejecuciones de pipeline y cómo podemos usar cada uno de ellos es módulo está lleno de buen contenido. Y aquí es donde iniciamos nuestro viaje de 0 a aquí en ADF. Y no puede esperar a que empecemos.
4. Ingestar y transformar datos con Azure Data: Hola a todos, ingiriendo y transformando datos con Azure Data Factory. En este módulo, nos ensuciaremos las manos y pondremos práctica todo lo que aprendimos del módulo anterior, donde usaremos componentes clave de ADF para trabajar en caso de uso muy común. Por ejemplo, cómo ingerir datos usando la actividad cardíaca en ADF en un Azure Data Lake Gen2, y cómo podemos transferir datos de Amazon S3 a bases de datos SQL de Azure. Nosotros, vamos a configurar estos traslados paso a paso. En la segunda parte de este módulo, trabajaremos con mapeo de flujos de datos. Mapeo de flujos de datos son una poderosa herramienta que
nos permite ejecutar un clusters de Spark sin escribir una sola línea de código, vamos a ir a todas y cada una de las transformaciones disponibles en mapeo de flujos de datos. Por ejemplo, se une a aulas derivadas, operaciones de
búsqueda y así sucesivamente y así sucesivamente. Gracias por ver.
5. Integrar la fábrica de datos con Databricks: Hola queridos amigos. Este módulo demuestra cómo la fábrica puede permitir que los ingenieros integren canalizaciones
ETL con Azure Databricks y aprovechen ApachesPark para transformar y por ciento los datos a escala. Nosotros jugamos de rol eso. Somos parte del equipo de analítica que fue difícil reportar sobre agregados una serie de delitos de varias ciudades de EU. Y veremos cómo podemos aprovisionar un espacio de búsqueda de base de datos de Azure desde el portal fue creado el espacio de trabajo. Después crearemos un clúster Apache, seguido de unos cuadernos para ayudarnos a trabajar con los datos que necesitamos. Y luego adjuntaremos los cuadernos al clúster. Por lo que de esta manera, podemos ejecutar todos los cuadernos directamente desde Data Factory. Tenga la seguridad de que será un camino desafiante. Esa vista disfrutó de los monitores. Sí te vi pronto. Gracias por ver.
6. Integración continua y entrega continua (CI/CD) para la fábrica de datos de Azure: Hola amigos. Nuestro módulo final, si los ojos y el pastel, veremos lo que se requiere para configurar un pipeline de Azure DevOps que trabajamos como una integración continua y despliegue continuo, también conocido como CISD para Data Factory. Crearemos una organización de Azure DevOps desde la aplicación de multitud, que incluye crear un comercio positivo, versionar
las sucursales de EHR Data Factory y entender cómo lanzaron palabras de flujo de trabajo para Data Factory también verá cómo podemos crear un pipeline CICD en Azure DevOps, ¿qué tan genial es eso? Aquí es donde aprendemos a empaquetar todas las cosas geniales que aprendimos durante este curso y un entorno superior, la producción de IE. Bueno, nos vemos en el siguiente módulo, Introducción.
7. Regístrate para tu cuenta gratuita: Hola, Vamos a ir a muchas manifestaciones durante nuestra maldición. Y te recomendaría seguir por este camino. Puedes asegurarte de que vas a aprender en la práctica lo que hemos visto, cómo recomendarte crear una cuenta gratuita de Microsoft Azure. Para ello, puedes buscar en Google y luego tenemos el primer enlace aquí. Vamos a dar click en eso. Aquí, podemos tener una idea de cómo funciona. Por lo que obtenemos $200 créditos para explorar como sus servicios durante 30 días. Si utilizas por cualquier motivo, todos tus créditos antes de los 30 días, se cerrarán
todos tus servicios. O si no usas el crédito de 200 dólares para el periodo de 30 días, pierdes todo el resto. No se puede llevar en molar. No obstante, obtienes muchos servicios populares durante 12 meses, lo que significa que aunque utilices todos tus 200 dólares, aún
puedes tener tu cuenta durante 12 meses. Ah, son servicios gratuitos. Entonces si seguimos desplazándonos por aquí, podemos tener una idea de otros servicios que podemos utilizar durante los primeros 12 meses. Entonces básicamente, podemos llegar a máquinas virtuales del tamaño pequeño. Por lo que también podemos utilizar otros servicios como discos para adjuntar a sus máquinas virtuales. Balanceadores de carga de Blob Storage, si estamos estudiando equilibradores de carga, almacenamiento de
archivos, y mucho más. También obtienes servicios siempre gratuitos. Encima de los 12 meses. Siempre tienes resurfaces, por ejemplo, Event Grid, DevTest Labs y así sucesivamente y así sucesivamente. Si echa un vistazo a todos los productos de superficie gratuitos, puede hacer clic en este botón aquí y luego debería poder ver el listado completo. Ahora vamos a meter la pata y haga clic en Iniciar año gratis para empezar a crear nuestra cuenta. Entonces desde aquí tienes algunas opciones. Debes tener una cuenta Microsoft para poder crear una cuenta gratuita de Azure. Si no tienes uno, puedes crear uno ahora mismo desde aquí. O si tienes una cuenta de GitHub y quieres usar, o podría tener cuentas que también puedes usar y entonces tienes otras opciones aquí también. Ya tengo una cuenta existente y veremos cómo puede pasar por ese proceso. De acuerdo, Ahora vamos a dar click en Siguiente. Una vez que hayas tecleado su contraseña, te
va a redirigir a la página donde te vas a inscribir. Por lo que hay pocas cosas que hay que llenar aquí. En primer lugar, tienes que estar de acuerdo con los detalles que te muestran, como declaraciones de privacidad , detalles de
software, etcétera. Como hay que, para llevar aquí, si uno, recibo e-mails de Microsoft sobre ofertas, no
voy a hacer eso en este momento. Aquí, puedes tener un resumen de los beneficios que obtienes. Como pueden ver escenas e Irlanda, tiene directamente a mi corriente. Entonces Eileen, de 70 años, no un $100. Entonces podemos dar click en Siguiente. Entonces hay que proporcionar un número telefónico. Por lo que Microsoft te va a enviar un texto. Puede recibir un impuesto o optar por recibir una llamada. De verdad depende de ti, así que seleccionaré impuestos para mí. Por lo que una vez que proporcione su código de verificación, deberá proporcionar una tarjeta de crédito. Microsoft sí confirma que no te cobrarán después de los 30 días. No van a tomar dinero de tus tarjetas de crédito. Esto es sólo para fines de validación. Una vez terminados los 30 días, te
preguntarán si quieres continuar con un modelo de pago por uso. En este punto, ya me dieron el texto, confirma el texto de la página anterior. Ahora puedo ver la ubicación donde llegué a ln información de un choque crediticio. No voy a ir más lejos de aquí porque ya tenía mi cuenta. Una vez que proceda con esta opción, deberá poder ir y acceder al portal utilizando su nueva cuenta. Para acceder al portal. El homepage es Portal azure.com. Esto te va a redirigir a la página principal del portal. Entonces aquí tienes un montón de servicios. Vamos a pasar por todos los pasos que van a estar utilizando durante este curso. Y mantente atentos y nos vemos pronto.
8. Cómo configurar un presupuesto: Nuestros amigos, en nuestra lección anterior, creamos una cuenta gratuita de Azure para empezar a usar los servicios Cloud de forma gratuita. En esta lección, echaremos un vistazo a cómo podemos configurar un presupuesto en nuestra suscripción para tener nuestros créditos bajo control. Con un presupuesto en su lugar, podemos ser notificados cuando los protocolos, nuestra suscripción, o un grupo de recursos van más allá del umbral que define el árbol. A lo largo de este curso, nos vamos a centrar en la fábrica BIA, que no debería consumir otros créditos muy pronto. Pero para evitar cualquier sorpresa, Vamos a armar un presupuesto sólo para que podamos asegurarnos de que todo esté en el control. Si vamos al cuadro de búsqueda y buscamos gestión de costos, tenemos opciones de relleno aquí. En el panel izquierdo. Hagamos click en la gestión de costos. Y también aquí en el panel izquierdo tenemos. Aquí es donde empezamos a definir nuestros presupuestos. Por lo que podemos tener más de un byte y definir el alcance para ese punto que tenemos la suscripción por defecto, probablemente vas a tener tu suscripción por defecto aquí. Demos click en Agregar para añadir un nuevo cubo. Cómo así puedes definir el alcance del paso presupuestario que vas a crear. Y aquí se pueden futuros, por instancia, si quisiéramos crear un presupuesto para cualquier grupo de recursos específico, también
sería posible. Por lo que es importante que definamos un nombre único para nuestro presupuesto. Y este nombre único está en nuestra suscripción. Por lo que no se puede tener dos embarcaciones con el mismo nombre. Entonces tenemos el periodo de reinicio. Tenemos dos tipos. Contamos con meses calendario y facturas. Aquí tenemos la fecha de creación. El día de creación es cuando creamos nuestro presupuesto. Y para el próximo mes, nuestra playa comenzará a partir del mismo día. Aquí tienes una pequeña descripción de eso
así y fecha de caducidad para estos presupuestos. Por lo que puedes ponerlo como al 2030 un año si quieres. Yo sólo voy a armar un presupuesto. Y aquí me quedaré con meses calendario mensuales. Empezaré a partir del primero de julio y por fecha de caducidad, saldré tal como está. Y aquí está el estudio piloto que quiero armar. Entonces imagina que tenemos crédito de 200 dólares. Esa es nuestra ecuación, inicia la cantidad máxima de dinero que podemos gastar. Y aquí tenemos un poco de pronósticos también basados en su uso anterior. Entonces vamos a quedarnos con 200 en ese ejemplo, en mi caso serían unos 175 años. Y podemos ir a continuación. Aquí es donde definimos nuestras condiciones, son condiciones es básicamente el umbral para nuestros presupuestos. Podemos tener más de uno. Y cada vez que nuestro costo va más allá del umbral de ese presupuesto, conseguimos no pelear. Muy bien, así que vamos a conseguir el costo real. Y entonces aquí tenemos un porcentaje para el presupuesto. Entonces me van a notificar cuando
lleguemos y la fecha puesta en automáticamente nos volvió 87 año. Y aquí se puede ver este pequeño punto es el primer umbral. Ahora voy a armar un segundo y
querré obtener una notificación cuando pasemos el 80 por ciento, que es un 140 año. Entonces aquí tenemos la segunda línea aquí, la máxima. Ahora tenemos que poner una dirección de correo electrónico para que podamos obtener la notificación. Hay dos formas de ser notificado. Una es mediante la creación de un grupo de acción. No vamos a mirar esto. Y también tenemos a los destinatarios de alerta, que es suficiente. Por lo que sólo puede poner su dirección de correo electrónico aquí y recibirá un correo electrónico de Microsoft cada vez que uno de los umbrales aquí, se alcance. Está bien, así que lo haría sólo como ejemplo, sólo pondré prueba. Me quedaré con la creación por defecto y hit. Eso es todo. Por lo que tenemos creada nuestra tensión y nos
avisaremos cada vez que lleguemos a nuestro umbral definido para estos presupuestos. Entonces aquí tenemos una pequeña barra de progreso. A medida que avanzas con tu voltaje, empiezas a gastar más dinero. Ves este pequeño bar de aquí, empieza a moverse. Vamos a dar click aquí. Esto es sólo un resumen de nuestro presupuesto. Tenemos dos umbrales. La fecha de caducidad en edad del paciente, nuestro alcance, y los machos que vamos a obtener las notificaciones. Entonces eso es todo por ahora chicos. Tenemos ahora una tranquilidad arriba. No vas a gastar todo nuestro dinero el lunes. Y si tienes alguna pregunta, solo avísame, mándame un correo electrónico o post en los comentarios y te pondré en contacto lo antes posible. Nos vemos en la siguiente lección. Gracias por ver.
9. Cómo configurar la fábrica de datos de Azure con Azure Portal: Hola amigos. Ya que vamos a pasar la mayor parte del tiempo, podemos leer fábricas de datos. Eso para empezar por crear nuestra instancia de Data Factory, vamos a ver cómo podemos crear una fábrica mediante el uso de dos métodos diferentes. El primer método va a ser divertido portal, y luego el segundo método estaremos usando PowerShell. Voy a estar aportando todos los códigos y el documento estará disponible a partir de los recursos de lecciones. Entonces, empecemos. Aquí tenemos el portal, esa es la página principal. Y podemos empezar escribiendo fábricas de datos. Y vamos a estar viendo aquí la página de inicio de su fábrica. Entonces vamos a dar click en Crear. Y aquí tenemos algunas opciones para rellenar. Y vamos a pasar por ellos paso a paso. Como pueden ver, tenemos algunas pestañas aquí arriba. Microsoft utiliza una configuración por pestañas a medida que avanzas o te desplazas por los pasos para crear superficies o abrir servicios existentes, siempre
tendrás pestañas. Por lo tanto, empecemos seleccionando nuestra suscripción. Solo tengo una disponible. Y aquí tenemos un grupo de recursos. Por lo que un grupo de recursos es en gran medida una colección de recursos que generalmente se crean con el mismo ciclo de vida. Por ejemplo, una máquina virtual tendría escritorios y tarjetas de red. Todo lo que se requiere para la máquina Ubuntu debe colocarse
generalmente dentro del mismo grupo de recursos. Entonces vamos a crear un nuevo grupo de recursos para nuestra Data Factory y podemos llamarlo lo que quieras. No se requiere ser nombre global único. Por lo que voy a dar click en Crear. Y yo sólo escribiría mi pdf, dash RG grupo de recursos. Entonces haga clic en Aceptar. En la región se va a desplegar físicamente tu recurso. Por lo general, se aconseja crear un recurso cercano a su ubicación física. En mi caso, escribiré el norte de Europa. Por lo que necesitaré darle un nombre global único a mi recurso. Esto se debe a que cuando se accede a esa fábrica, se está accediendo a un dominio DNS, es
decir, y debe ser globalmente único. Yo sólo escribiría algo al azar aquí. Entonces solo para que sigamos adelante. Y entonces tenemos la opción de seleccionar un millón a uno. Entonces uno es solo por motivos de compatibilidad. Siempre debemos tomar lo que están dispuestos a mover y hacer clic en la configuración de calibre. Vamos a pasar por lo asustado y cómo se integra. tanto que relativa fábrica más adelante en estas curvas, en este momento, sólo nos quedaremos dejar de configurar, se pone más tarde. Entonces tenemos networking. Por lo que tienes dos opciones aquí para conectar el motor de ejecución de integración autoalojado a tu Data Factory usando endpoint privado o público. Vamos a pasar por el tiempo de integración autoalojada durante tus registros. Tomemos el punto republicano por ahora. Y no queremos habilitar la red virtual administrada para el tiempo de ejecución de integración de reserva externa, esto es más necesario si desea acceder a sus recursos de forma privada. Hay una, hay algunas configuraciones alrededor de las que no queremos usar en este punto. Por lo que no me pegaré esta opción. Vayamos a avanzado. Aquí tenemos la opción de cifrar los recursos de Data Factory utilizando una clave administrada. Por lo que eso significa que puedes traer tu propia clave, colocar tu clave dentro de la bóveda de claves y luego usar esa clave para cifrar tus recursos. No obstante, por defecto que una fábrica nuestra encripta tus datos en reposo. Por ejemplo, cuando se almacenan datos en caché para movimientos de datos, o cuando se están creando sus servicios vinculados, iterador encriptado de forma predeterminada. Si hace clic en esa opción, tiene
que proporcionar la dirección de su clave y será doble encriptada. Y la de la clave administrada de Azure, también
vas a tener tu clave administrada por el cliente. Entonces como no tenemos una clave administrada por el cliente en este punto, sólo
vamos a movernos sin marcar esta casilla. Aquí tenemos la opción de crear unas etiquetas si lo deseas, si, siempre que, por ejemplo, asigne un centro de costos para sus recursos o algo así, seleccionamos esto, no tenemos ninguna etiqueta en este momento. Simplemente dejaremos esto vacío. Y entonces finalmente tenemos el lugar donde revelamos nuestras configuraciones. Como puede ver, es bastante sencillo crear una Fábrica de Datos, para hacer disponible una instancia de Artifactory. Es bastante sencillo. No tenemos muchas configuraciones que hacer aquí. Así que solo vamos a dar click en Crear y crear nuestro primer Artifactory. Crear. Se ha creado un recurso con éxito. Vayamos al recurso haciendo clic en este botón. Y aquí tenemos la página de inicio arriba que una fábrica, la instancia que acabamos de crear. Por lo que aquí sólo se pueden ver las simétricas. Aquí no tenemos todo el lote. Por lo que realmente se accede a Data Factory desde el inventario de autor. Este es el lugar donde vas a estar alterando y monitoreando son todos tus ductos y flujo de datos, ¿verdad? Así que vamos a dar click en auto y monitorizar. Enfriar. Esa es la página de inicio de Data Factory. Vamos a estar entrando en todas las opciones que tenemos aquí. Y vamos a pasar mucho tiempo aquí también. Manténgase atento, y veamos cómo podemos crear la misma fábrica de datos desde PowerShell. Nos vemos pronto.
10. Cómo configurar la fábrica de datos de Azure con PowerShell: Hola amigos y bienvenidos a otra lección. En esta lección vamos a ver cómo podemos crear una Data Factory usando PowerShell. En nuestra última lección, vimos cómo podríamos crear una Fábrica de Datos a partir del portal. Entonces vamos a buscar de nuevo fábricas de datos. Y esta es la Fábrica de Datos que acabamos de crear. Ahora veamos cómo podemos crear usando PowerShell. Volvamos a la página de inicio. Y aquí en la barra superior tenemos Cloud Shell. Vamos a dar click en eso. Cloud Shell es una gran herramienta si quieres administrar tus recursos de Azure desde una forma programática. Por lo que tienes la opción de elegir bash desde Linux o PowerShell. Aquí, lo que hace, Azure te proporciona un contenedor detrás de bambalinas con un sin parchear el almacenamiento. Es, el almacenamiento es efímero, es
decir, una vez que termines con tus creaciones o las cosas en las que estás trabajando, todos tus datos serán borrados. Por lo que aquí tienes tus opciones para explorar tus datos. Por ejemplo, puede cambiar las fuentes, el tamaño del texto. Se pueden subir archivos y descargar archivos. También puedes hacer clic aquí, y te va a redirigir a una página a la que puedes acceder, el PowerShell o el Cloud Shell en pantalla completa. Diré que aquí tienes al editor, lo cual es bastante guay. Por lo que se puede y en realidad editar archivos directamente desde el año y archivos guardados. Por lo que parece que en la computadora para usted accedería a su entorno de Azure. Entonces trabajemos desde aquí y creemos nuestra fábrica de datos. Voy a tirar hacia arriba aquí mi código VS con los comandos requeridos que necesitamos realizar. Entonces he configurado aquí tres variables, y cuál es el nombre de Data Factory,
el nombre del grupo de recursos, y la ubicación donde vamos a desplegar nuestra Data Factory. Como se puede ver, esto es bastante similar a las opciones que teníamos desde el portal. Aquí. En este paso, vamos a crear usando los valores asignados a las variables, cualquier grupo de recursos. Entonces finalmente, vamos a crear nuestra Data Factory V2 dentro del grupo de recursos que creamos en el primer paso aquí. ¿ De acuerdo? Por lo que de nuevo, necesitamos proporcionar un nombre clave único, Charlie Data Factory. Por lo que acabo de escribir cualquier nombre aleatorio aquí. Entonces mi nombre de grupo de recursos será mi, podría ser como ubicación de grupo de recursos dentro de nuestro teorema. De acuerdo, voy a proporcionar este archivo aquí para que ustedes lo descarguen. Y luego puedes probar de tu mano. Entonces vamos a copiarlo aquí. Entonces volvamos al portal. Ahora, vamos a pegar esto aquí y luego presionar Enter. Por lo que tenemos todos los valores asignados. Si un cheque, solo puedes escribir una de las variables aquí para que nuestra fábrica sea, puedes ver que devuelve el valor que asignamos. Ahora como segundo paso, necesitamos crear nuestro grupo de recursos. Entonces vamos a copiar eso. Si quieres un comentario de copia, también está bien. Volvamos a la sesión parcial que aquí se enfrenta. Y automáticamente, parcial añade aquí una nueva línea por la inclinación. Entonces veamos para entrar, se ha creado el grupo de recursos. Como puedes ver, es bastante rápido. Y luego, por último, necesitamos crear nuestra Fábrica de Datos. Volvamos a copiar eso. Vamos a espacio aquí. Hit Enter. Y luego está precediendo a la creación de nuestra fábrica de datos. Se ha creado la fábrica. Volvamos al portal,
a la página de inicio y veamos el grupo de recursos y también la Fábrica de Datos. Entonces volvamos pieza para tener esta otra sección aquí, podemos minimizar esto. Entonces busquemos fábricas de datos. Ya que ya tengo de mis servicios de investigación, voy a dar click en eso. Y si le pones atención a esta lista, a veces la reunión, no tengo el recurso que acabo de crear. Es sólo porque a veces no es inmediatamente. Se tarda un segundo en refrescarse
cuando se crea el recurso desde la API o PowerShell. Vamos a refrescar esto. Y confirmemos el nombre ADF que acabamos de crear. Vamos a copiar y luego poner aquí. Por lo que el recurso es visible desde aquí. Y si recuerdas, este es el grupo de recursos que acabamos de crear. Si hacemos clic en eso, también
podemos ver el recurso desde la vista de grupo de recursos y confirmar que se ha creado con éxito. Ve. Ahora tenemos lo que se requiere para que sigamos adelante con
nuestras curvas C afinadas y nos vemos en la siguiente lección.
11. Componentes de ADF - servicios vinculados: Bienvenidos a otra lección. En esta lección, vamos a ver cómo podemos crear un servicio vinculado en Azure Data Factory. El servicio Linkerd es un elemento clave para flujos de trabajo basados en datos de historia, EDF. Puede asociar servicios vinculados, sería cadenas de conexión usando softwares de aplicaciones, donde debe proporcionar cierta información para conectarse a una fuente de datos. Por ejemplo, la dirección de la fuente de datos, las credenciales, y lo más importante, ¿cuál es el controlador para esa conexión? Una base de datos de SQL Server requiere cualquier controlador específico. Una base de datos NoSQL requeriría otra unidad. Una API requiere otro conjunto de Brown's para recuperar o enviar los datos. Servicios vinculados en ADF es más o menos lo mismo. Ofrece una variedad de conectores que fuera de la caja tienen todos los parámetros requeridos que permiten conectarse a los diversos servicios. Y como requisito para esta lección, crearemos un Data Lake Storage Gen2. Y también vamos a vincular esa fábrica y el lago de datos. Mantente atentos. Estoy conociendo el Portal. Abramos ADF para empezar a trabajar con servicios vinculados. Y vamos a teclear pero las fábricas en el cuadro de búsqueda. Y usemos el ADF que creamos antes. Haga clic en ultra y monitor. Y esperemos hasta que cargue la página. Ahora estamos en la página de inicio. Vayamos a la Manage del lado izquierdo. Y se puede ver que enlace en servicio es la primera opción en el panel izquierdo. Por lo que tienes el auténtico creativo haciendo clic en el servicio nuevo o creativo vinculado. Vamos a dar click en eso. Como podemos ver, aparece una gran cantidad de diferentes tipos de servicios vinculados para que usted elija. Al momento de esta grabación, existen más de 80 tipos diferentes de servicios vinculados. Y como puedes ver, tienes servicios nativos de Azure, así
como servicios de terceros como SAP, hana, Salesforce, incluso Shopify. Entonces para nuestro experimento, vamos a estar usando Data Lake Gen2. Ya que se trata de una iniciativa como servicio. Como puede ver, hay pocas opciones que necesita para rellenarlo, como descripción del nombre, Integración, Tiempo de ejecución, qué tipo de autenticación desea utilizar, y dónde se encuentran sus servicios. Ya que no tengo ninguna cuenta de almacenamiento creada, sí. Vamos a crear uno y ver cómo funciona. Volvamos al portal. En el cuadro de búsqueda. Voy a buscar cuentas de almacenamiento. ¿ Y debería ser la primera opción? Demos click en Nuevo. No voy a entrar en los diversos detalles que componen la cuenta de almacenamiento porque nuestro objetivo aquí es solo crear una cuenta de almacenamiento y conectar EDF a ella. Escogeré mi suscripción actual. Escogeré el grupo de recursos que creamos antes. Voy a darle un nombre. Va a ser, me voy a quedar con el Norte de Europa, región. Y fuera tus opciones serán por defecto para mí y me saltaré todas estas opciones, networking, protección de datos, y voy a ir a avanzado. Por lo que bajo Data Lake Gen2, diré habilitar. Esto es lo que confirmó que quiero un Data Lake, así que saltaré etiquetas y luego Revisar y Crear. Enfriar. Ahora tenemos nuestra cuenta de almacenamiento creada. Entonces vayamos al recurso. Y sólo hay una cosa que tenemos que hacer aquí, que es ADF autorizado para acceder a los datos que se van a almacenar en esta capa de datos. De lo contrario, no podemos equiparar los servicios vinculados. Entonces digamos control de acceso. En, en la asignación rural. Escogeré el rol llamado blob, contribuyente de datos. Algo interesante aquí es que cuando se crea una Data Factory detrás de bambalinas en Azure Active Directory e identidades creadas con el mismo nombre de la fábrica de datos. De esta forma, puedes autorizar a la
propia Data Factory a acceder al recurso en lugar de crear una nueva cuenta. Entonces busquemos el nombre de nuestra fábrica de datos. Y ahí tienes. Tenemos aquí y ahorrar, y esperemos en que se cree el mundo, se ha asignado
el papel. Esto se puede confirmar en una asignación de roles. Y ves que aquí tienes el icono de la fábrica de datos, y también tienes el ID de objeto, que es esta gran cadena que está compuesta por el ID de suscripción, el nombre del grupo de recursos y el tipo de recurso. Genial, Volvamos a ADS. Aquí todavía está bajo un servicio vinculado, Data Lake Gen2 página abierta como dándole un nombre. No voy a dar ninguna descripción. Me quedaré con las opciones predeterminadas y bajo método de autenticación, se va a administrar la identidad. Entonces bajo mi suscripción, elegiré mi beca una y buscaré la nueva Data Factory que alguna vez haya creado. Pero se puede ver que esto aún no está en la lista. Esto se debe a que a veces se tarda un poco propagar las nuevas reservas para que podamos refrescarnos. Y ahí vamos. Está aquí dentro. Como se puede ver, las identidades administradas, el nombre de la fábrica de datos. Esto es lo que otorgamos permiso bajo cuenta de almacenamiento y es el objeto AG. Podemos probar la conexión en. Ahí vamos, exitosos. Vamos a crear el servicio vinculado. Sólo tenemos que publicar. De acuerdo, estamos todos arreglados. Veamos cómo podemos usar esto desde un conjunto de datos.
12. Componentes de ADF - tuberías: Hola. Antes de sumergirnos en eso establece actividades, tienes entendido ¿qué es un ducto? Un ducto no es t, sino una agrupación lógica de actividades que en conjunto realizan una tarea. Por ejemplo, podría tener un conjunto de actividades que ingieran y reina datos de registro. Y entonces tendrías un flujo de datos de mapeo para analizar los datos de registro. El ducto permite gestionar esas actividades como un conjunto en lugar de cada una de manera individual. Entonces digamos que despliega un ducto y esos ductos funcionan como un contenedor donde se pueden agrupar muchas actividades dentro, lograr un go. Una vez que despliegues la tubería, puedes barajarla. En lugar de ensombrecer actividades de forma independiente. Dentro de una Fábrica de Datos, se
puede tener uno o más ductos. Incluso podrías anidar ductos de una manera que podrías llamar a una actividad dentro de un ducto que provoca un segundo ducto, en el tercer ducto, y así sucesivamente. Veamos cómo funciona en la práctica. Para crear una tubería. Hay dos maneras. Uno es de la página principal de Data Factory. Podrías hacer click en Crear ducto. Y te redirigiría directamente a esta página. O podrías venir aquí a ofrecerte y dar click en las migas de pan aquí. Nuevo ducto. Como puedes ver, esto es básicamente un lienzo y lienzo
vacío para que empieces a construir tus complejos ductos. Una vez que tengas un ducto, puedes darle un nombre. Es importante que le des un nombre propio, que lo puedas encontrar fácilmente después. En el lado derecho, tienes el panel y puedes darle un nombre, puedes darle una descripción. Además, tienes la opción de establecer concurrencia. Como puede ver, este es el número de corridas biplanas simultáneas que se disparan a la vez. E, dado que la fábrica tiene un límite blando. Para que puedas controlar el número de ductos que estás ejecutando en cualquier momento dado. Y la notación es básicamente una etiqueta que indica con qué tipo de ducto se está tratando. Esto es algo que puedes dar y es bastante útil cuando estás mirando cosas como monitor. Una vez que decidas qué tipo de actividades quieres usar, puedes empezar a arrastrarlas y soltarlas. En tu lienzo vacío. No hay mucho alrededor de ducto. Y vamos a sumergirnos más en ella a medida que avanzamos durante este curso. Esto es todo por ahora. Sigamos con los conjuntos de datos.
13. Componentes de ADF: nombres de datos: Ahora ya hemos empezado a crearlo. Necesitamos crear un conjunto de datos. Tienes un conjunto es un nombre para ver los datos que simplemente hace referencia a los datos que quieres usar en tus actividades. También identifica datos dentro de los almacenes de datos, como tablas, archivos, carpetas y documentos. Por ejemplo, un conjunto de datos blob especifica el contenedor del blog y las carpetas. Almacenamiento de blob desde el cual la actividad debe leer los datos. Ahora veamos cómo creamos eso. Echemos un vistazo a la opción alter. Como puedes ver, aún no tenemos ningún conjunto de datos creado, así que vamos a crear uno. Echa un vistazo a las migas de pan aquí y haz clic en Acciones. Nuevo conjunto de datos. Para nuestro conjunto de datos ya que utilizamos Data Lake Storage Gen2. Dividamos esta opción. Ahora que tenemos nuestro puntero a un servicio vinculado, necesitamos especificar qué tipo de archivos vamos a estar usando. Entonces déjame seleccionar archivos. Hit Continuar. Debemos darle un nombre, valor de punto. Entonces nuestro enlace que sirve debe estar disponible para nosotros. Escojamos esta opción. Aquí. Puedo definir cuál es la fuente o la ubicación donde se almacenan mis datos. Ya que aún no tenemos ninguna carpeta ni ninguna estructura creada, me quedaría con conocida. Vamos a dar click Ok. Desde este panel, como se puede ver, tenemos nuestros objetos creados. Aquí. lo puede pre-poblar. Y puedo volver a probar la conexión. De estos fagos. Podríamos editar, robar servicio para cambiar la conexión o cambiar la descripción, algo así. O podría crear un nuevo servicio lipofílico directamente desde aquí también. Por lo que hay muchos puntos de entrada donde podemos crear un objeto. Vengamos aquí. Es un tipo de compresión con la que quiero trabajar. Podría ser dar salida a mi archivo o leer este tipo de compresión. Vamos a recoger snappy. Aquí. Es bastante cool porque vine navegador mi lago de datos. Si encabeza carpetas aquí, no sería capaz de expandirlas todas. Incluso podría previsualizar mis datos si hubiera seleccionado el archivo. Enfriar. Por ahora, eso es todo lo que tenemos que hacer. Entonces vamos a golpear Publicar y luego publicar. Genial, Estamos todos listo por ahora. Veamos cómo trabajamos con las actividades.
14. Componentes de ADF : actividades: Enfriar. Ahora tenemos nuestros dos requisitos básicos, piense en servidores y que el conjunto, necesitamos definir una forma de mover los datos o de transformar los datos
del punto a al punto B utilizando nuestro servicio de vinculación y conjunto de datos, los principales componentes para que funcione que las actividades del movimiento, no las actividades de transformación y las actividades de control. Ahora, para que los anfitriones trabajen con actividades, debemos crear primero un ducto. Entonces vamos a alterar acciones. Nuevo ducto a partir de los tres tipos de actividades que lo hemos clasificado. Eso es un inicio con punto. El movimiento de la actividad. O la actividad de movimiento generalmente se asocia con una tarea de copia de
punto, punto o actividad de copia. Al trabajar con Copy Doc, puedes ver que tendrás fuente y sumidero, que podrían traducirse a tu fuente de datos y a tu destino. Como se puede ver aquí, se requiere de un conjunto de datos. Es así como empezamos a enchufar son servicios vinculados y conjuntos de datos. Aquí también, necesitamos un conjunto de datos. Hay una amplia variedad de conjuntos de datos y la lista siempre está evolucionando para no que las actividades de transformaciones, tenemos diferentes opciones. Podríamos transformar los datos desde dentro de Data Factory con recursos propios, que podríamos llamar flujo de datos o mapear flujos de datos. Con burlas hacer el post, tendrás un gran número de transformaciones. Además, podría llamar a recursos informáticos hacer las transformaciones para que usted pueda llegar a los datos, como Databricks, Batch Service, azure, Synapse y otras máquinas virtuales. Y la lista sigue creciendo. Por lo que tienes varias opciones para trabajar con transformaciones. Por último, con actividades de control. Podrás orquestar el flujo de tus actividades para
hacerlas ejecutar de una manera o un orden que desees. Podrías encadenar actividades en esa secuencia, ramificación y más cosas. Echemos un vistazo a cómo funciona. Supongamos que queremos cambiar en cierta secuencia cómo se ejecutan tus actividades. Por lo que podrías conectarlos e incluso definir cuándo debería haberse ejecutado esto. Si haces clic derecho en la flecha, puedes ver que tienes éxito, finalización de
fader y más, pero no se detiene ahí. Puedes encontrar más opciones aquí. Por ejemplo, si empezamos a su integración y las condiciones que tenemos para cada uno, tenemos si condición, tenemos interruptor hasta. Esos son controles. Y puedes utilizarlos para modificar cómo se ejecuta tu canalización. Para cada actividad define un flujo de control repetitivo en su tubería. ¿ Se utiliza la actividad para iterar sobre una colección y ejecuta la actividad especificada no es un bucle. El condición if se puede usar para ramificar en base una condición que puede evaluar a verdadero o falso. Yo estoy bajo. Bastante útil. Actividad es la que se llama ejecuta actividad de ducto. Entonces vamos a buscarlo. Ejecuta ducto. lo hace activo para permite invocar otro ducto. Pero por qué esto es útil cuando hablamos de ductos, hay un límite máximo de actividades y un ducto específico. Este número es 40. Si estamos trabajando en big data warehouse donde puedes conseguir un montón de tablas. Es posible que necesites crear una cadena de ductos. Significa que puedes venir aquí y llamar a la ejecución de un segundo por ciegos. Y aquí se podría llamar a otro ducto. Y también para fines de organización, se podría llamar, mencionaron mesas aquí. Podrían llamar a tablas de hechos aquí, y así sucesivamente y así sucesivamente.
15. Componentes ADF: parámetros de la Pipeline: Hola ahí. En el ecosistema de la fábrica de datos, podemos crear diversos objetos. Por ejemplo, conjuntos de datos, canalizaciones, flujos de
datos, y la lista continúa. Pero, ¿cómo se crea una solución dinámica de una manera que se pueda evitar un gran número de objetos sólo porque tienen diferentes parámetros de sesgo. Qué parámetros se puede crear una solución muy robusta y dinámica. Crear conjuntos de datos o ducto de sedes no es algo malo en sí mismo. Es justo cuando comienzas a crear muchos de los temas que las cosas consumen un poco de tiempo. Y por no hablar, siempre
existe el riesgo de las iteraciones de soldadura
principales donde cuando comienzas a crear muchos de los mismos objetos, simplemente sintonices y cometes muchos errores tontos. Vamos a dividir esta manifestación en tres partes. En la primera parte, vamos a crear una tubería en un conjunto de datos. Y vamos a pasar el valor
del parámetro que tenemos en la tubería hasta el conjunto de datos. La segunda parte es pasar los valores de los parámetros entre las actividades. Por lo que esto sería más internamente dentro del ducto. Y luego la tercera parte, vamos a utilizar un parámetro global de tal manera que tendríamos un mayor alcance. Y luego pasar el valor de ese parámetro ya sea a una tubería o demasiadas tuberías o a un conjunto de datos. Hay algunos elementos de las manifestaciones que no hemos visto antes. Por ejemplo, cómo creamos un lago de datos. Pero no te preocupes, sólo voy al futuro aquí un poco para ahorrar algo de tiempo. Pero veremos a lo largo de este curso cómo creamos todos esos objetos. Aquí, tengo un lienzo vacío, que es mi ducto. Entonces voy a renombrar el ducto a PL. Para nuestra demostración, vamos a obtener los datos de
una API de descanso y se almacena esos datos en un retrasado. Entonces, en primer lugar, necesitamos conseguir nuestra actividad, que podemos usar es la copia Beta. Ya que ibas a estar transfiriendo datos. Aquí hay dos cosas principales. Vamos a ir directo al grano. Tenemos fuente y fregadero. Nuestra fuente va a ser receta. Entonces necesitamos usar el conjunto de datos ya que aún no tenemos uno, Vamos a crear uno. Entonces voy a buscar descanso. Y éste debería ser éste de aquí. Vamos a dar click. Está bien. De acuerdo, tenemos nuestro conjunto de datos creado. Ahora necesitamos un servicio vinculado. ¿ Estamos enlazados servicio es nuestra cadena de conexión. Y conjuntos de datos es el tipo de conexión que vamos a estar usando. Entonces, abramos nuestro conjunto de datos. Y como puedes ver, está vacío. Por lo que podríamos pasar si quisiéramos la URL relativa de aquí. Vamos a crear un nuevo servicio vinculado. Como convención de nomenclatura, voy a estar creando como ls para una API de servicio vinculado. Y luego por todas estas opciones, las vamos a pasar más adelante en este curso. Simplemente nos quedaremos con auto resolucion y el tipo de autenticación que vamos a estar usando anonimato. Ahora sólo tenemos que pasar la URL. Entonces solo voy a conseguir la URL que ya
tengo y pegar aquí y podemos probar la conexión. De acuerdo, eso es exitoso, lo cual es genial. Demos clic en Crear. Y ahora tenemos a nuestros creadores de servicios vinculados y nuestro conjunto de datos llamado rest está usando ese servicio vinculado. Entonces cambiemos el nombre de estos conjuntos de datos para que se adhieran a la convención de ARN. Y luego pondré ds para Data Service. Y el marcador descanso API. Llamar. Ahora es donde llegamos al punto en el que empezamos a trabajar con navegadores. Entonces volvamos aquí atrás. Y luego voy a añadir un nuevo parámetro. Aquí. Te estoy diciendo ese conjunto de datos, lo va a estar recibiendo de Enter y luego no puede asignar un valor predeterminado fresco. Entonces tenemos tres campos aquí. Voy a nombrar a mi prompter, nos URL relativa. Y mi valor predeterminado va a ser slash hacia adelante. Y eso es todo. Digo, oye, conjuntos de datos, tienes un prompter y un valor predeterminado. Si no se pasa nada, se va a asumir este valor aquí. Vamos a guardarlo. Ahora. Hemos creado nuestro conjunto de datos y servicio vinculado. No, tenemos que volver aquí a nuestro ducto. Y como puedes ver eso de inmediato, tan pronto
como agrego un nuevo parámetro a mi conjunto de datos, se llena aquí. Está esperando un valor para mi ducto. Entonces lo que podemos hacer aquí, podemos hacer click aquí y en cualquier lugar fuera de las actividades. Entonces cambiamos a los alcances. Y podemos obtener esta información aquí desde abajo. Y tenemos unas cuantas opciones aquí. Uno de ellos es el prompter. Vamos a crear un nuevo parámetro y también vamos a llamarlo URL relativa. Cadena del mismo tipo. Y voy a pasar el mismo valor, que son los altavoces. ¿ De acuerdo? Voy a guardar esto otra vez. Lo que está pasando aquí es lo siguiente. Tenemos un parámetro el cual se crea en esto fuera del alcance aquí. Y mi actividad es usar un conjunto de datos que ya está en terrible. Y este conjunto de datos está esperando un parámetro. Si hacemos click aquí, se
puede ver que de inmediato puedo ver contenido dinámico del ABS. Vamos a dar click en eso. Y desde el desplegable aquí, tenemos una lista de parámetros disponibles. Si tuviera más parámetros de mi ducto, también se enumeraría aquí. Entonces, vamos a dar click en eso. Y uno interesante a notar aquí, el nombre viene como totalmente calificado. Entonces este es el alcance donde se creó mi ducto, pero eso es bastante importante. De acuerdo, entonces vamos a dar click en Finalizar carbón. Entonces ahora estamos usando el prompter que
creamos en nuestra tubería para pasar ese valor a nuestro conjunto de datos. Ahora sigamos adelante y pinchemos en sincronizar. Y vamos a crear un nuevo conjunto de datos para aprender los datos que apenas estamos obteniendo de nuestra API de descanso. De acuerdo, así que sigamos adelante y creemos un nuevo conjunto de datos. En ella. Vamos a estar usando Data Lake Gen2. Vamos a dar click en eso y vamos a continuar. Y voy a usar un tipo JSON. Sigamos continuando. Voy a nombrar como el lago de datos. Entonces. Ya tengo un servicio vinculado se crea a partir de un lago de datos. Y yo solo seleccionaré éste, pero podríamos crear uno nuevo desde aquí. Por lo que acabo de seleccionar este. Y luego desde aquí está el camino donde voy a almacenar el archivo. Por lo que me limitaría a navegar esa información aquí dentro y ver cuáles son los contenedores, ¿cuáles son la carpeta de rutas que tengo disponible? Por lo que me limitaría a dar clic aquí en mi CSV. Y este dato se aterrizará en el nivel del techo del contenedor. Entonces, vamos a dar click. Está bien, genial. Tenemos todo lo que necesitamos ahora mismo. Entonces sigamos adelante y probemos aquí este ducto y veamos cómo se comporta. Entonces solo voy a ir y dar click en el libro. Se puede ver que si
quisiera, podría empujar esa información desde aquí también. Y luego se pasará a mi conjunto de datos. Simplemente me quedaría con el valor predeterminado y pincharía Ok. puede ver que ahora está haciendo cola y se ha logrado. Por lo que nuestra tubería utiliza los parámetros transmitidos al conjunto de datos. Ahora, tenemos que crear la segunda parte de nuestra manifestación.
16. Componentes de ADF: parámetros de actividad: Correcto, yendo a la segunda parte de nuestra manifestación. Ahora, vamos a utilizar los parámetros entre actividades. En esta demostración, vamos a obtener los metadatos
del archivo se almacena en el lago de datos. Y usando esa información, vamos a poblar una tabla en un SQL Server. Entonces para hacer eso, hay una prueba de fase que tenemos que hacer aquí. Por lo que tengo una tabla ficticia que sostendrá si sus campos, por ejemplo, el nombre del elemento, la última fecha modificada para el archivo. Y tenemos un excedente aquí. Estos son procesales básicamente recibe como parámetro, los mismos campos que tenemos disponibles en nuestra mesa. Y luego con esos navegadores se poblará una tabla que hemos insertado aquí. Y entonces tenemos justo aquí abajo una declaración selecta para validar los datos de nuestra mesa. Todavía no se ha creado la tabla. Podemos verificar haciendo esto, me aseguraré de que la tabla no exista y crearé la tabla. Entonces hagámoslo. Enfriar. Nuestra mesa está creada. Podemos comprobar el número de filas y la tabla está vacía. Ahora, vamos a asegurarnos de que tenemos nuestro procedimiento también creado porque esto es lo que va a poblar nuestra mesa. Voy a seleccionar todo aquí y crear una llamada de trámite o trámite es datos válidos. Ahora vamos a obtener una actividad llamada metadatos. Entonces para realmente especialmente diseñado para obtener los metadatos de los archivos en diferentes ubicaciones. En nuestro caso, vamos a llegar a los metadatos
del archivo que cargamos de nuestra demostración previa. Podemos usar los mismos conjuntos de datos que teníamos antes, TS Data Lake. Y hay algunos argumentos que podemos obtener del archivo, por lo que podemos especificar de la lista disponible. Entonces si hacemos click en nuevo, tenemos los argumentos. Y desde aquí podemos sumar más argumentos. Vamos a conseguir el nombre del artículo. Y voy a añadir un nuevo tipo de un artículo. Y el último modo cinco. Por lo que suman tres artículos que conseguimos. Y solo para chequear aquí en nuestra mesa. Por lo que esos son nombre del elemento, tipo y archivo del estado de ánimo. Enfriar. Entonces tenemos todos los argumentos que necesitamos. Y esto se va a recuperar de nuestro expediente ubicado en nuestro lago de datos. Vamos a seguir adelante y conseguir otra actividad llamada procedimiento de tienda. Entonces con esta actividad, nos
permite llamar a un buscadores de superficie en bases de datos. Por lo que vamos a dar clic aquí en las capturas de pantalla y arrastrarlo y soltarlo a la siguiente actividad, así que asegurémonos de que se ejecuten en un orden específico. Entonces aquí, en nuestra incautación superficial, podemos seleccionar nuestra base de datos. Entonces sigamos adelante y obtengamos un servicio vinculado. Ya que ya tengo mis creadores de superficies líquidas acabo de seleccionar de aquí. Y entonces puedo jalar aquí las convulsiones superficiales disponibles o mi base de datos. Ya que sólo tienes uno, podemos conseguir éste aquí. Está bien porque aquí puedo caber bien Mentalmente los parámetros que quiero pasar. O si quiero, puedo importar el parámetro de la base de datos automáticamente. Entonces vamos a golpear Import. Genial. Entonces, como pueden ver, los parámetros que
tenemos en nuestra característica de superficie ya están disponibles desde aquí. Enfriar. Tenga en cuenta que tenemos esas dos cadenas juntas. Vamos a tener que cambiar nuestra incautación superficial para recibir los parámetros que queremos. Entonces esos son los parámetros disponibles y aquí están los bytes. Si quisiéramos, podríamos pasar un valor por defecto. Pero lo que queremos es el conjunto de resultados que viene de los metadatos del gueto. Si hacemos clic aquí, automáticamente, agrega contenido dinámico. Vamos a dar click en eso. Y tenemos la salida de metadatos. Entonces eso es interesante porque viene como un objeto. Por lo que para que podamos obtener los valores del conjunto de resultados de la actividad de metadatos, tenemos que acceder a ellos como objeto. Entonces, vamos a dar click en eso. Y voy a dar click en Finalizar aquí. Para que podamos volver a ustedes muy rápidamente para ver cuál es la información que tenemos. Por lo que tenemos ítem, nombre, tipo de
ítem y menos modificado. Por lo que aquí podemos dar click en eso. Esta será la última modificación. Será del todo. Entonces vamos a dar click Ok. Este de aquí será cualquiera de los nombres. Por lo que podemos hacer click en lote. A continuación, escribe el nombre del elemento de nuevo juntos. Entonces tenemos finalmente identificarnos. Vamos a dar click en eso. Seleccione nuestra salida. Entonces tipo isla, ¿verdad? Genial. Ahora estamos pasando los valores asociados a esta actividad a la ecuación de superficie aquí. Voy a guardar eso. Y llevemos a cabo esta actividad. Vamos a golpear debug y ver cómo puede verse. Está sesgada. Atravieso. No. El primero lo logró. Comprobemos el segundo. Grecia. Los valores de nuestra actividad meten en datos fueron pasados con éxito a la incautación superficial. Si hacemos click aquí en Canvas, podemos comprobar la ejecución. Así que da click aquí. Podemos ver cuáles son los argumentos que elegimos de nuestra actividad de datos de método. Entonces nombre del artículo, no sucedió última modificación. Por lo que esos fueron el resultado de la actividad. El insumo. Podemos ver que teníamos un procedimiento almacenado y esos fueron los valores que pasamos a la superficie. Ahora, si volvemos al servidor SQL y si volvemos a revisar la tabla, ahora
tenemos un nuevo volumen que conocía registros, pero es genial así que pudimos ver cómo podemos pasar los valores de una actividad a otra actividad que está usando parámetros. Eso es genial. Podemos reutilizar nuestro código.
17. 4.5.3 componentes ADF: parámetros globales: Ahora, pasando a la tercera parte de esta demostración, vamos a ver cómo podemos trabajar con parámetros globales. Yo me fui. El problema global no se detiene porque
quería demostrar cómo podemos usar el prominente global. Ya sea para ductos o actividades. Por el lado izquierdo, hemos logrado. Y aquí abajo bajo ópera, tenemos parámetros globales. Demos click en Nuevo. Y vamos a mantener el nombre URL relativo y el valor será el mismo que proporcionamos antes, que son los altavoces. Vamos a golpear Guardar. Ahora, volviendo al ducto, he abierto aquí ambos ductos que hemos trabajado antes. El que pasamos los parámetros dentro del ducto y aquí entre actividades. Entonces si comprobamos la actividad y luego
comprobamos fuente, podemos ver que tenemos es al prompt reset. Vamos a dar click en eso. Y ahora debajo de los parámetros que tenemos antes, tenemos parámetros globales. Y como le dimos el mismo nombre, son los mismos que vemos aquí. Por lo que podemos eliminar aquí esta opción resaltada, que es el parámetro real. Entonces podemos escoger URL relativa. Podemos ver que ahora tenemos un nombre totalmente calificado que apunta a los parámetros globales. Vamos a darle a Finish. Y aquí, si pasamos al otro ducto donde lo pasamos de actividades de habla, si hacemos clic aquí, podemos ver que los parámetros globales también están disponibles y no tenemos el ducto disponible aquí. Esa es la belleza de los parámetros globales. Los parámetros globales son altamente reutilizables, ya sea entre actividades o entre varios ductos, en lugar de ser objeto de un solo gasoducto. De acuerdo, vamos a cancelar este de aquí. Volvamos a este. Y como ahora vamos a estar usando unos parámetros globales, vamos a guardar y ejecutar esto y ver cómo va a funcionar. Vamos a darle a Debug. Entonces de nuevo, puedo imputar el parámetro si quiero. Y dará inicio al ducto. Ahora está en progreso. Genial. Es medio éxito. Y con eso, concluimos una manifestación más. Espero que lo disfruten chicos. Y veamos en la siguiente lección cómo podemos trabajar con tratadores es antiguo.
18. Components ADF: Triggers: En esta lección, vamos a hablar de disparadores de Azure. Los desencadenantes son un elemento fundamental en el ecosistema de la fábrica de datos. uso de disparadores es cómo podemos trasbordar nuestros ductos para cumplir con nuestros requerimientos. Al momento de esta grabación, hay cuatro tipos diferentes de desencadenantes y vamos a pasar por ellos ahora. Principalmente existen dos formas de acceder a los desencadenantes existentes o nuevos. Cuando fuiste a asociado por avión a un gatillo, tenemos este botón aquí se activan y podemos hacer click en nuevo o ediciones a tu. También del lado izquierdo hemos logrado y bajo autor tenemos disparadores. Y aquí podemos ver todos los disparadores disponibles que tenemos dentro de nuestra Factoría de Datos. Entonces volvamos al ducto que creamos en nuestra demostración previa. Y vamos a hacer clic en Agregar nuevo gatillo. Y aquí se puede ver que podría escoger cuando exista disparador o puedo crear uno nuevo. Ya que no tengo ninguno. Demos click en Nuevo. Está bien. Esta es la ventana principal donde vamos a configurar nuestros gatillos. mayoría existen cuatro tipos diferentes de desencadenantes. Contamos con esquelético, tenemos ventana abatible, tenemos eventos de almacenamiento y eventos personalizados. Entonces cuando se trata de escala, estos ganados o bien activaron que evoca un ducto en una mirada de paseo. Y la relación entre una escala en un ducto puede ser de uno a muchos. Por ejemplo, puedo tener muchas tuberías usando el mismo hervidor. ¿ Podrían volver a correr todos mis ductos a uno? Sí, sólo necesitan compartir la misma dispersión. Ok, ahora tenemos una ventana de caída. Tumbling window es un disparado que opera en un intervalo bastante caótico mientras que también retiene etapa. Podría describirse como disparado que se puede utilizar para escenarios más complejos. Por ejemplo, puede crear dependencias entre disparadores, entre otra ventana de caída. Y puedes correr unos cuantos perros desde el momento en que falló. Se puede configurar el reintento de usuario para las tuberías. Y la relación entre tu trader de ventanas abatibles y los ductos siempre es uno uno a uno. No se puede usar la misma ventana de tiempo para muchos ductos como podemos hacer usando su ganado. Otra muy buena característica de la ventana azul. Se puede ejecutar una ventana de caída para datos pasados y futuros denota un escándalo salvaje. No se puede, es puerta de entrada perfecta y se quiere
ejecutar los combustibles para su casa más profunda o sus bases de datos. Y por último, otro elemento de la ventana de caída es el hecho de que tiene una propiedad de autodependencia, lo que significa que el gatillo no debe proceder a la ventana de al lado hasta la anterior. Sabemos que ha terminado con éxito. Entonces hay que tener eso en mente. El escándalo siempre está en el futuro. Y w ventana, se puede tener un periodo de tiempo definido. Es el evento de Almacenamiento es un tipo de gatillo muy cool. Por lo que hay muchos casos de uso en los que desea reaccionar ante eventos que pueden ocurrir en su cuenta de almacenamiento. Por ejemplo, imagina que estás esperando un archivo para aterrizar en tu cuenta de almacenamiento y luego puedes cargar ese archivo. En ese caso, no es necesario comprobar periódicamente si el archivo se ha cargado correctamente en la cuenta de almacenamiento. Usar eventos históricos es perfecto porque cada vez que se crea un nuevo evento en tu cuenta de almacenamiento, puedes usar ese disparador para disparar una tubería. Por lo que estos eventos de almacenamiento utilizan Event Grid detrás de bastidores. Entonces cada vez que creas que desencadenan un nuevo tema, iso generado para ti entre bastidores. Y si vas a Event Grid, puedes robar el evento ahí. Ahora simplemente lo agregamos. Contamos con eventos personalizados. Por lo que ya no solo para cuentas de almacenamiento, puede ser cualquier día. Aún mayor, genial, porque puedes definir tus propios temas y crear tus propios eventos. Imagina que tienes una aplicación que tiene un tipo de evento muy particular y quieres reaccionar ante los eventos. Por lo que podría crear un tema personalizado para la creación de eventos. Y luego usando los eventos personalizados en Data Factory, puedes suscribirte a esos eventos. Y luego actuamos siempre que ocurra un nuevo evento. Eso es brillante. Ahora, tenemos mucha más flexibilidad a la hora de reaccionar ante los acontecimientos. Entonces aquí, como puedes ver, estos Gallo es bastante simple para un ducto, así que solo defines la fecha y la hora. Para volcar ventana. Tenemos más opciones para que puedas establecer la recurrencia de los eventos como cada 15 minutos o puedes, como la nuestra, especificar una fecha de fin para eso. Digamos que solo quiero correr por un periodo o por una ventana de 30 minutos. Si haces click en Avanzado, tienes muchas más opciones aquí. Por lo que tienes una concurrencia máxima, lo cual es genial para Data Factory. Por lo que puedes definir el máximo consciente de los disparadores de algunos Daniel queriendo puede definir un número para tus reintentos de la política de reintentos de la silla, entonces esto es genial también. Por lo que puedes pensar en esto como algún tipo de validación donde
puedes definir la integral para tus reintentarlos, lo cual es genial. Por lo que las limitaciones son similares a las que tenemos para los ductos. Por lo que quieres agregar algún tipo de descripciones a tu gatillo. Puedes agregar una nueva notación aquí. Y esto es para decir si está activado o desactivado. Y vayamos a tienda los eventos son eventos disjuntos. Tienes que definir una cuenta de almacenamiento. Y entonces aquí es donde se define el camino que se quiere escuchar. Y aquí están los eventos que puedes reaccionar cada vez que se crea un archivo Blob o cuando se elimina un archivo Blob, entonces puedes realmente inteligente, no
puedes ignorar los archivos fiscales o digamos que los archivos Parquet están vacíos. Está bien. Entonces tú, no necesitas, No
necesitas correr tu ducto porque no va a cargar nada. ¿ De acuerdo? Después las mismas permutaciones y activadas o desactivadas y luego eventos personalizados. Porque algunos eventos que tenemos aquí, la suscripción y luego tenemos David podría hablar, puede nombrar. Esto se crea fuera de Data Factory. Entonces tienes tus súbditos, que es similar a lo que tenemos para las cuentas de almacenamiento, como lo que quieres escuchar para reaccionar. Y luego dados tipos, esos son todos Aduanas que puedo definir. Y con eso, concluimos una lección más. Espero que te haya gustado. Y si tienes alguna pregunta, solo muéstrame un mensaje, pasando los comentarios, y me pondré en contacto contigo lo antes posible. Gracias por ver.
19. Components de - la ejecución de la integración de Azure: Ahora, hablemos de como estamos en tiempo de ejecución de la integración, veamos cómo funciona y por qué esto es tan importante en el ecosistema de Azure Data Factory. Entonces para ver dónde se encuentra y dónde podemos configurar, administrar. Y deberías poder ver los tiempos de ejecución de integración, como puedes ver aquí. De forma predeterminada, cuando se crea una nueva Data Factory, viene con un tiempo de ejecución de integración predeterminado en pocas palabras. Y la integración a tiempo es una infraestructura informática que está ejecutando todas sus actividades entre bastidores. Existen casi tres tipos de tiempos de ejecución de integración, pero estamos viendo aquí es el otro tipo. También podemos tener el tipo autoalojado y el tiempo de ejecución de integración SSIS. Entonces, básicamente, ¿cuáles son las diferencias entre costos y restricciones de red? Cuando usamos Azure Integration Runtime, esto básicamente está destinado a usarse entre recursos dentro de Azure. O por ejemplo, cuando fue a conectarse a Amazon S3, u otros recursos de Cloud. La belleza de Azure Integration Runtime es que proporciona un proceso sin servidor totalmente administrado. En otro sentido, proporciona toda la infraestructura para usted. No tienes que pensar en la instalación y parches de software o en el escalado de capacidad. Ahora, veamos cómo funciona el motor de ejecución de integración autoalojado.
20. Components de ADF: tiempo de ejecución de la integración: Ahora, si quieres trabajar con motor de ejecución de integración autoalojado, tiene
que crearse manualmente y para que creemos un nuevo motor de ejecución de integración autoalojado. Usted haciendo clic en Nuevo. Y tenemos la opción como xr auto alojado tiempo de ejecución de integración. Entonces sigamos adelante y pinchemos Continuar. Como puedes ver, tenemos un par de opciones para elegir. Y aquí podemos ver más información sobre el auto alojado. Y aquí tenemos un auto alojado vinculado. Entonces, empecemos con el auto alojado. Con el auto alojado si quieres realizar algún tipo de integración de datos de forma segura en una red privada, cual no tiene una línea de visión directa desde el entorno público. El auto alojado. El auto alojado significa que tienes un computo en tu propia red. Instalas el tiempo de ejecución de integración en ese recurso informático específico que
deseas que se valida utilizando una clave que se proporciona en el momento de la creación. Entonces sigamos adelante y continuemos. Puedes darle un nombre. Podemos crear. Ahora, se crea mi autohospedado tiempo de ejecución de integración. Como pueden ver, tengo una llave y una llave. Entonces me da un enlace para descargar el tiempo de ejecución de integración. Entonces una vez instalada, me muestra cuántos nodos se instala, si se está actualizando o no, si se comparte. Entonces vamos a dar click en Descargar yendo a redirigirme a la página de Microsoft. Y podemos ver que tenemos este botón Descargar. Vamos a descargarlo. Y voy a conseguir el primero. Son 700 MB. Por lo que tienes que tener algo de espacio en tu computadora y empezar a pausar este video y regresar. ¿ Cuándo hicieron solos? He hecho clic en instalador y sigamos adelante y veamos cómo se ve. Yo sólo diré a continuación. Aceptar. Siguiente. Es bastante fácil de instalar. Ya lo instalaré. Cuando finalmente termines la instalación, Esta es la página que verás. Esto es lo que va a validar su autohospedado tiempo de ejecución de integración con el otro. Entonces volvamos aquí al que acabamos de crear. Vamos a conseguir la llave. Puedes elegir cualquiera de ellas. El motivo por el que tenemos dos claves es por motivos de seguridad. Imagina que quieres renovar la primera clave porque no estás seguro de quién la tiene. Y cuando validé, deberías poder agarrar a uno de los dos y reciclar uno de ellos. De acuerdo, así que vamos a conseguirlo. El primero. Entonces lo pegaré aquí, ha validado. Para que pueda mostrarles las claves de autenticación, que es lo mismo. No te preocupes, esto es solo para demostración y se eliminará. Yo me inscribiré. Ahora, está muy anticuado y aquí tienes este consejo de herramienta. Esto es algo que quieres usar desde tu intranet. Entonces digamos que si tienes más de un grado desde el
tiempo de ejecución corriendo en la misma red y quieres que se comuniquen entre sí, para usarlos como failover, algo que podrías habilitar esto y luego hay una forma de que compres los datos, pero dejémoslo tal y como está en este momento. Entonces terminemos. Enfriar, Ahora está validado. Tenemos un nodo que se ha registrado con éxito. Entonces lanzemos administrador de configuración. Y así es como se ve. Es bastante sencillo. No hay mucho que hacer aquí es sólo el caso. Si desea solucionar alguna conexión. Por ejemplo, tienes ajustes aquí. Si tienes alguna configuración de proxy en tu computadora, generalmente no
le gusta hacerlo aquí porque recoge de las variables de entorno. Tennos diagnósticos. Si desea ver los registros o si en una conectividad de prueba como estaría funcionando desde el ADF, puede obtener la fuente y puede elegir el servidor. Qué tipo de autenticación quieres. Entonces digamos imaginar que estoy seleccionando SQL Server, se producen para obtener la autenticación de Windows en nuestro básico, que es un registro SQL. Y pasaría las credenciales un año y pasaba mi conexión. De acuerdo, Así que esta es la actualización en la ADA actualiza automático es solo para fines informativos aquí y ayuda Si F encuentra algunos enlaces para alguna información. Entonces vamos a cerrar eso. Voy a llegar a esto. Y como puedes ver, se vuelve verde. No tengo ninguna configuración VPN. Es una configuración bastante básica aquí. Y mi conexión se basa en la conectividad desde el tiempo de integración usando mi autenticación clave. Esos poco no fue un año. Está monitoreado POR actividad en mi integral desde el tiempo. Muestra la utilización de mi CPU o el minuto Qué está pasando con la versión, la memoria disponible para que yo ejecute. Información básica y el volumen también. Cuántos trabajos simultáneos que pueden ejecutarse al mismo tiempo. Si aprovisiona más recursos, puede tener más trabajos concurrentes al mismo tiempo. Y si tienes muchas cosas en julio, cuánto recurso disponible para los ductos se
destinará a la habilidad y se seguirán yendo hasta que haya un recurso disponible para que se ejecuten. Entonces aquí están las actividades. Se pueden encontrar todos los ductos que es el tiempo de elución ha ganado alguna vez. Al mirar esta página, de acuerdo, aquí están los teatros libres para filtrar por cuánto tiempo quieres revisar? Por lo general es establecido por defecto para durar 24 horas. Eso es todo. Gracias por ver. Mantente atentos.
21. Componentes de ADF - integración Self-Hosted: Hola, y bienvenidos a otra lección. Ahora hablaremos de tiempo de ejecución de integración autoalojada vinculada. Si vienes a gestionar. Debes haber notado que cuando seleccionamos como autoalojados, aquí
hay otra opción, ligado IR autoalojado. Puedes dar click en Saber más. Y podemos ver aquí hay una documentación integral. No obstante, si hacemos clic aquí, el tiempo de ejecución de la integración autoalojada vinculada, es bastante útil cuando no puedes permitirte tener más de un tiempo de ejecución de integración autoalojado en tu red empresarial. O simplemente no quieres dar vuelta a otra investigación informática para dedicarte, el tiempo de ejecución de integración autoalojada. Por lo que en ese caso, puede vincular a ese efecto árboles para usar solo un tiempo de ejecución de integración autoalojada vinculada. Y además de eso, un tiempo de ejecución de integración autoalojado solo
puede vincularse a uno solo que una fábrica. Por lo que esto también es útil en escenarios en los que se desea crear una canalización CICD para unas fábricas de datos, solo se hace referencia a un solo tiempo de ejecución de integración autoalojada en lugar de tener que administrar múltiples tiempo de ejecución de integración autoalojada. Ahora, echemos un vistazo cómo funciona en la práctica, cómo podemos configurar eso. Entonces para hacer eso, necesitaremos crear primero otra Data Factory porque en este punto sólo teníamos una. Así que vuelve al portal, busca donde fábricas de datos. Ya teníamos un año, así que creamos otro. Sólo voy a copiar este nombre. Crear. Vamos a seleccionar el mismo grupo de recursos que creamos antes. Mi región será Europa del Norte. Sólo voy a añadir otro número aquí para mi nombre. Saltaré obtener configuración, saltaré las redes. No estoy habilitando ningún cifrado. En ese caso, viviré vacío contigo y crearé K. Así se pone configuración. Simplemente seleccionaré configurar Git más adelante. Está bien. Así que adelante y crea. De acuerdo, El sido creado. Ahora, vamos al grupo de recursos donde se despliega. Loco. Podemos ver la fábrica del útero que acabamos de crear. Es este vino con O2 al frente. De acuerdo, esta es la nueva Data Factory que acabamos de crear. Como se puede ver, MT, No Pipelines, no conjuntos de datos administran. Solo tenemos un tiempo de ejecución de integración. Este es D'Azur, uno que viene con todo el nuevo directorio es que creas. Ahora supongamos que quiero usar el mismo tiempo de ejecución de integración autoalojada que creamos para la otra Data Factory. Para ello, tenemos que ir a un par de pasos. Deseo permitir primero que mi nueva Factoría de Datos acceda a mi Fábrica de Datos del OS. Entonces haz eso, vamos al tiempo de ejecución de la integración creada previamente. Construimos esta página. Tenemos que abrir el tiempo de ejecución de integración autoalojado que ya tenemos. Y luego hay una pestaña llamada compartir. Entonces, vamos a dar click en eso. Y se puede ver que esta es la ubicación donde se otorgan permisos a otra Fábrica de Datos. Entonces esta es una relación uno a uno. Una vez que seleccione esto, se
puede ver que me trae todas las fábricas de datos existentes que existen en mi suscripción o la dentina una y conectada. Por lo que sólo seleccionaré a este tipo aquí. Este es el que acabamos de crear sombrero, y va a otorgar los permisos. Está todo listo. Ahora, el segundo paso que necesito hacer es tomar el ID de recurso de mi tiempo de ejecución de integración autoalojada existente. Y luego en mi nueva Data Factory, quiero crear un nuevo runtime de integración autoalojada. Pero en este momento se vinculará el tiempo de ejecución de la integración autoalojada. Y voy a dar click en continuar. Como pueden ver, aquí no hay mucho que hacer. Simplemente necesitamos decir básicamente que eso afecta cuál es el recurso que quiero vincular. Entonces este será mi tiempo de ejecución de integración autoalojada existente que podemos crear. Y eso es todo. Como se puede ver, no hay nada a la carga aquí. No hay clave para un auto alojado en tu computadora porque ya se ha hecho antes. Aquí la clave administrada es que está asociada a algo que ya estaba configurado antes. Por lo que el tipo ahora es autoalojado. Y viene corriendo porque estos datos de aquí también se están ejecutando. De acuerdo, para que puedas ver auto alojado, IR de auto alojado. Y si hago clic aquí, puedo ver que sólo hay dos recursos AG. Y el otro, si hago clic en match, tengo las claves, denota los upbeats, shadow, o mi autohospedado tiempo de ejecución de integración. Y ahora puedo ver que tengo mis permisos egresados. Eso es todo por ahora. Es así como configuramos un tiempo de ejecución de integración autoalojada vinculada o queso para característica. Y para ver. Nos vemos pronto.
22. Components de Azure-SSIS: Ahora echemos un vistazo a nuestra tercera opción, que es la ASOR SSIS. Vayamos a Nuevo. Y aquí podemos ver tenemos una segunda opción para Azure SSIS. Entonces vamos a dar click en pestillo. Entonces, ¿por qué necesitamos esta tercera opción? Tantos clientes, a veces les resulta difícil migrar todo el paquete SSIS a paquetes o tuberías ADF de forma nativa. lo tanto, la razón por la que tenemos este Azure SSIS es más o menos para levantar y cambiar paquetes de sus recursos locales a Azure. Cuando tienes el Azure SSIS, también
es un señor totalmente administrado. Detrás de bambalinas, esos son ñams dedicados a ejecutar aquellos como evaluar paquetes. Aquí también puede observar que se
requiere una licencia porque está ejecutando componentes SSIS, lo que significa que necesita una licencia para SQL Server. Por lo que puedes aprovechar una característica llamada traer tu propia licencia. Y de esta manera puedes tener descuento, lo que significa que estás usando tus licencias on-premise en la Nube. De igual manera, tendrás la capacidad de elegir recursos de tus propias máquinas virtuales en prem. Aquí, también puede elegir el número de nodos disponibles para su tiempo de ejecución de integración pura. Y puedes escoger el tipo de máquina que quieras. Y por supuesto, cuantos más recursos proveas, más te va a costar a fin de mes. Si deseas ahorrar algún costo, puedes pausar esta integración con el tiempo como desees. Aquí tienes la ubicación donde quieres desplegar tu clúster de máquinas virtuales. Idealmente, desea elegir una región que esté cerca su ubicación física o de la ubicación física donde se
almacenan sus datos seleccionando la ubicación correcta de
su tiempo de ejecución de integración de SSIS es esencial para realizar el rendimiento. De esta forma, tus datos pueden viajar menos para llegar al destino final. Ahora, vamos a darle un nombre y continuar con la creación de nuestro runtime de integración. Entonces voy a decir mi tiempo de ejecución de integración SSIS, va a comprar la fecha, el nombre, el nombre es. De acuerdo, puedo darle una descripción que yo quiera. Yo sólo diría ir en continuo. Algo interesante a notar aquí es el hecho que necesitamos una ubicación para almacenar los paquetes SSIS. En ese caso, se necesita tener una Instancia Administrada SQL o una base de datos SQL que se va a servir como base de datos SSIS. Y vas a guardar esos paquetes ahí dentro. Entonces en mi caso aquí, aún no
tengo ninguna instancia creada. Entonces me detendré aquí porque el propósito de esta demostración es solo mostrarles cómo se utiliza el SSAS y cuál es el propósito de eso? Con eso, concluimos una lección más. Gracias y mantente atentos. Nos vemos pronto.
23. Encurso: módulo 3: Bien.
24. Cómo incorporar datos con la actividad de copia en Azure Data Lake Lake Gen2 Gen2: En esta lección, vamos a estar usando la actividad de copia para mover datos de un lugar a otro. Usaremos un archivo Excel ubicado en mi computadora como fuente y el ASU Data Lake que hemos creado como destino. A modo de segundo ejemplo, vamos a estar usando un bucket S3 en AWS como fuente y una base de datos de SQL Server como destino. No voy a ir a los detalles cómo configurar un cubos de Amazon S3 porque justo fuera de este código, que es lo mismo para la base de datos de SQL Server, supongamos que todo está creado para nosotros. Y como ingeniero de datos, solo
necesitamos mover datos de un lugar a otro. Entonces, sin más preámbulos, empecemos. Hola, Echemos un vistazo a través de los objetos que hemos creado que necesitaremos para avanzar con esta lección. Empecemos por administrar, y echemos un vistazo al servicio vinculado. Tienes que asegurarte de que una de las opciones que tienes aquí es el lago de datos que hemos creado antes. Enfriar. Ahora vamos a revisar los tiempos de ejecución de la integración. Y debes tener el tiempo de ejecución de la integración autoalojada. Y debe estar en marcha. Si tienes dos objetos aquí dentro y todos son verdes, estás bien, estás listo para irte. Ahora, empecemos. Volviendo a la página de inicio. Vamos a crear un servicio vinculado a nuestro archivo Excel. Por lo tanto, ve a Administrar Enlaces y servicios. Da click en Nuevo. Y ahora buscaremos sistema de archivos. Esto se debe a que los archivos obviamente se almacenan en nuestra computadora local. Y necesitaremos un servicio vinculado al file system para obtener ese archivo y poblar una cuenta de almacenamiento con ese archivo. Este archivo estará disponible como recurso para que pueda descargarlo desde la sección de lecciones. Entonces el archivo es algo así, es solo un dato de muestra que imita un tipo de sistema de orden. Y tienes ayudas y nombre de para la gente. Simplemente guardaría este archivo en mi carpeta Temp de
unidad C y luego lo llevaremos a partir de ahí. Sigamos adelante y creemos nuestro servicio vinculado. Entonces continuum. Lo usaremos. Esto es bastante importante para que su escenario funcione, es seleccionar mi motor de ejecución de integración autoalojado. Y ahora solo diré dónde está la ubicación, donde se almacena mi archivo? Y aquí está el nombre del usuario en su computadora. Esto es lo que va a autorizar a Azure Data Factory para conectarse a su archivo. Puedes usar tu propio usuario. Aquí, yo sólo como ejemplo, no
voy a crear un nuevo usuario. Simplemente uso mi propia cuenta y probaré mi conexión hacia fuera. ¿ Qué sabes? Por lo que se ha creado con éxito. Entonces podemos seguir adelante y terminar la creación. Y aquí deberíamos ver a un nuevo creador de file system. Esta es mi brecha de configuración regional CSV. Como pueden ver, tenemos nuestra fuente y nuestros objetivos están realmente creados. Ahora, tenemos que seguir adelante y crear un conjunto de datos. Entonces del lado izquierdo, vaya al autor, vaya a los conjuntos de datos. Y aquí en las acciones de pan rallado, nuevo conjunto de datos. Aquí tenemos que encontrar cuál es el signo de los conjuntos de datos con los que vamos a estar tratando. Recuerda, creamos un link severs como un sistema de archivos. Entonces busquemos sistema de archivos. En nuestro caso, es un archivo csv. Por lo que es texto delimitado que he creado como un archivo delimitado. De acuerdo, entonces vamos a seleccionar eso. Ese es mi nombre de conjunto de datos. Recuerda no es el nombre de archivo, y voy a conseguir mi conexión local aquí. Tengo que decir ramificado se encuentra. Podría tener subcarpetas dentro de mi ruta, pero como no tengo ninguna, solo
puedo excluir esta parte y decir cuál es el archivo. Entonces ahí lo tienes. Ahora está seleccionado. Tengo un par de opciones para elegir aquí. Por lo que podría importar el esquema o obtener una muestra del archivo. Podría haber sabido aquí si quisiera algo más tarde o simplemente de conexión, tienda slash. Ve escotilla. Ahora veamos. Brillante. Contamos con nuestro primer conjunto de datos. Podemos conectarnos. Debería venir como exitoso también. Y aquí tengo un montón de cosas para manipular mi expediente si quiero. Por ejemplo, si quisiera citar
el archivo de configuración de campo porque podría haber comas en lugar de la celda. Entonces hay muchas cosas que puedo hacer aquí. Por lo que hacemos esquema y puedo decir importar, mi esquema y yo también tenemos parámetros. Es todo ya establecido. Entonces sigamos adelante y publicamos para guardar nuestro conjunto de datos. Perfecto, tenemos nuestra búsqueda. Ahora tenemos que crear otro conjunto de datos para nuestro destino. Nuevo conjunto de datos. Voy a seleccionar Azure Data Lake. ¿ Selecciono el texto? Y diré, vale, porque no
tengo ninguna ubicación ni ningún archivo en mi cuenta de almacenamiento, podría crear una estructura de carpetas dentro de ella a uno permisos específicos en unas carpetas específicas. Pero vamos a quedarnos con el defecto. Y el archivo debe dejarse caer en el nivel raíz de la cuenta de almacenamiento. De acuerdo, y perfecciona, teníamos nuestro segundo conjunto de datos. Está creado. Entonces vamos a entrar y publicarlo de nuevo. Publica Perfecta concluida. Ahora tenemos que crear nuestro ducto. Nuestra tubería recuerda, es lo que va a encapsular todos los objetos que acabamos de crear, que es el servicio vinculado, que es el conjunto de datos aquí en el tamaño correcto. Ahora tenemos la opción de ocultar esto un poco. Entonces para este ejemplo, vamos a estar usando la actividad beta de cuna y ese árbol de efectos. Tenemos sólo una tarea que contiene fuente y sumidero, que es su destino. Aquí es donde vamos a estar seleccionando los conjuntos de datos que acabamos de crear. Por lo que mi fuente, estaremos en mi computadora local. Mi destino de pruebas de archivo Azuri CSV será el Data Lake Gen2. Entonces vamos a dar click en esa caja. Ahí están ambos seleccionados. Si no he seleccionado en un archivo específico en mi conjunto de datos, podría obtener miopatía comodín y todo lo que hay debajo de ese archivo se copiaría. Podría enumerar los archivos también si quisiera. También tienes una característica muy cool aquí, que son los datos de vista previa. Demos click en eso y veamos qué nos vuelve. Brillante, si recuerdas, este es el archivo que guardamos en nuestra computadora local. Aquí, como pueden ver, es tratar nuestro encabezado como una recreación real, configurar el archivo, y eso no queremos. Entonces excluyamos esto. Tenía habrá la práctica. Uno será fecha del pedido, región y demás, así sucesivamente. Para ello, tenemos que volver a nuestro conjunto de datos para solucionar ese problema. Vamos a expandir esto de nuevo para ver nuestros conjuntos de datos. En ese caso será el mi archivo CSV Test. Y aquí puedo configurar ¿dónde está la primera línea de mi archivo? Puede seleccionar esta primera fila como encabezado. Está bien, está todo listo. Volvamos a nuestro ducto. Y aquí en el conjunto de cosas podemos de nuevo, para sus datos, deberíamos tener el encabezado adecuado. Agradable, es todo perfecto y configurarlo. De acuerdo, ahora echemos un vistazo a nuestro fregadero. Y no hay mucho primero que hacer aquí es solo el caso que si estamos tratando con mucha información para ser transferida, puedes configurar la extensión de archivo que quieras. Se puede configurar el comportamiento de copia. Si, por ejemplo, por tratar con archivos JSON, desea aplanar la jerarquía del archivo. Y aquí puedes decir cuál es la extensión que estaré lista en mi expediente. Ahí puede cambiar si quieres. En mi caso, lo guardaré como archivo CSV. En mi mapeo. No necesito hacer entidad aquí porque los alumnos ya importaron. Así que sólo tienes que ir a Ajustes. Y así es como mis 50 se paralizan con todas las opciones por defecto. Y aquí están las propiedades de los usuarios y algo que no quiero hacer ninguna cadena en este momento. Por lo que nuestro primer ducto está configurado correctamente. Entonces vamos a publicar. Freeland. Todos los conjuntos, tenemos nuestros conjuntos de datos, creativos, tenemos nuestros ductos, tenemos nuestros Servicios Vinculados creados. Eso es bastante guay. Ahora, vamos a ejecutar esto y ver cómo va a funcionar. No obstante, antes de seguir adelante, Hay una ventaja sobre la defecación que tenemos que hacer en nuestro conjunto de datos, ir al CSV objetivo esa dirección también. Y si recuerdas correctamente, me había quedado vacía. Necesitamos tener una carpeta para saltar al archivo. Si tuviera navegador distinto aquí, ahora
tengo una carpeta y configuro el lago de datos. Pero no es necesario crear esto de antemano. Simplemente puedes dar cualquier nombre que quieras un año. Y si no existe, ese efecto, lo crearemos para ti. Mi ubicación CSV uno. Y luego publicaré esto. De acuerdo, conjuntos de datos ahora publicados, esa fue la única modificación que hice. Todo lo demás es igual. De acuerdo, así que vamos a correr ahora nuestro ducto. De acuerdo, para que ejecutemos la tubería, podemos tener la opción de depuración, que es, quiero ejecutar esto ahora mismo, y no depende de cada dedo. Y entonces también tengo un gatillo, lo que significa que disparo ahora o tengo nuevo y editar para crear un nuevo gatillo. Entonces, solo golpeemos a Debug y sigamos adelante y veamos cómo va a funcionar. De acuerdo, nuestro ducto ahora es enorme. Está en la cola de datos. Y esta es la belleza que, ese árbol de efecto creado para nuestra actividad. Entonces recuerda, es combinar todo juntos aquí, juntando todas las piezas para transferir nuestros datos. ¿ Y qué sabes? Nuestro expediente ha sido transferido? Recuerda, no teníamos una carpeta llamada ratones sí, geolocalización. Y fue creado con seguridad. Por lo que se puede ver que fue lindo con éxito, se transfirió con éxito. Bueno, en la duración que tomó para cada uno de esos pasos, días
felices, tenemos todo listo y nuestro archivo debe estar en el lago de datos. Pero ahora, ¿cómo nos aseguramos de que esté en el lago de datos? Echemos un vistazo. Iré al portal. Yo sólo escribiría portal dot azure.com. Aquí en el conjunto de cosas Data Lake buscaré cuentas de almacenamiento. Y tengo mi ADF Data Lake que creamos para este proyecto. Y tenemos la vista previa de Storage Explorer y tenemos contenedores. Entonces aquí dentro de mi contenedor, Ahí van mis fuegos al año. Apenas volviendo a mi conjunto de datos. Así es como los archivos que divido. Siempre que veas audífonos del sistema de archivos atrapados en alrededor de un contenedor, tienes que tener un contenedor. Yo sólo entonces principal carpeta diferente aquí. Carpeta una. Como pudiste ver, volviendo al Explorador de almacenamiento de Data Lake, no
hay carpeta se define en el nivel raíz, por lo que no tienes que preocuparte por crear una nueva carpeta. Simplemente puede volver, darle un nombre a su conjunto de datos, un nombre de carpeta dentro de sus conjuntos de datos. Publicar. Está bien, genial, It Snow publicó. Ahora podemos volver a ejecutar nuestro ducto, sesgando nuestro ducto y L, debería funcionar en unos segundos. Por lo que nuestro archivo ha sido creado. Por lo que podemos checar de dos maneras. Puedes revisar de nuevo desde el sistema de archivos aquí en lugar del conjunto de datos, si vuelvo a la cuenta de almacenamiento, veo mis nuevas ubicaciones. Podrían dos contenedores creados. Seleccionaré esta línea. Y ahora tengo una carpeta nueva y el archivo anterior que me había dejado caer. Por lo que debe haber un nuevo expediente en el año. Genial, o archivos aquí dentro, Eso es perfecto. Desde nuestra vista de explorador de almacenamiento, podemos volver con fresco. Se puede ver que tenemos una nueva carpeta y los archivos aquí dentro. Genial, Eso es todo por ahora. Espero que te haya gustado. Nuestro siguiente ejemplo va a ser transferirlo
archivo de corchetes desde el almacenamiento de sangre de Amazon. Está bien. Y entonces no se refiera a ese archivo dentro de una base de datos. Gracias. Mantente atentos.
25. Cómo copiar archivos de Parquet de AWS S3 a la base de datos SQL: Hola amigos, bienvenidos a otra lección. Espero que hayan disfrutado de nuestra última demostración. Ahora vamos a ver cómo podemos cargar datos de Amazon S3 en SQL Server usando la actividad de copia. Esta es la misma actividad que utilizamos antes. Ahora la diferencia es el servicio vinculado que tendrá un formato diferente. Por lo que al igual que un
preaviso, debes haber configurado tu propio cubo S3. Configurar buckets S3 en AWS está fuera del alcance. Lo mismo para configurar un SQL Server. De acuerdo, entonces vamos a ensuciarnos las manos y a ver cómo funciona eso. Tengo aquí el AWS. Yo abriré. Tengo mi S3 que había llamado Ozzie test training 2020 000. Y como puedes ver, el cubo está vacío. Antes de que hagamos algo
, subirá los datos a Amazon S3. Voy a ponerlo a disposición el archivo que estoy usando aquí, Es solo un archivo sencillo. Entonces antes de que sigamos adelante y queremos mostrarles cómo se ve el archivo. Este es un proyecto que está en GitHub. Puedes obtener una vista previa de tus archivos de paquetes aquí. Si tienes algunos errores en tu computadora, también
funciona, ¿de acuerdo? Por lo que mi archivo de copia de seguridad se llama soporte de datos de usuario. Por lo que acabo de seleccionar esto y este show table aquí seleccionado. Y voy a presentar el expediente porque sólo quiero ver rápidamente cómo se ve. Entonces ven aquí es solo un dato simple, un montón de cosas al azar, ¿de acuerdo? Ahí hay, hay suficientes datos aquí para que nos entreguemos. Entonces si quieres echar un vistazo a estos sitios web cuando tienes una oportunidad, se llama tu tarifa online.com. Por lo que sabemos cómo se ve nuestro expediente. Ahora, vamos a subir ese archivo en Amazon S3. Es bastante simple, solo sube o sube aquí arriba. Tu elección. Por lo tanto, agrega archivos. Tomaré este archivo y datos de usuario uno, Es bastante como modificadores, solo un 100 kilobytes. Subiré el archivo. No debería tardar mucho. Se ha tenido éxito. Está bien, está terminado. Por lo que tenemos nuestra ciudad de datos en Amazon S3. De acuerdo, volvamos a Azure Data Factory. Configuraré nuestro primer servicio de Linkerd, que estaremos viendo, Amazon S3. Entonces sigamos adelante y pinchemos en Gestionar y vincular servicios. El nuevo Amazon S3 estará aquí en la cima. Creo que un requisito muy común para ingerir datos de Amazon S3. Sé de hecho que Microsoft ha invertido una enorme cantidad de dinero para que esa conectividad sea confiable y rápida. Así que sigamos adelante y pinchemos en Amazon S3 y lo nombremos como Mi primer Amazon S3. Ahora si recuerdas, uno de los casos de uso son el tiempo de integración de resolución automática o el tiempo ejecución de integración de
Zurich es mover datos o acceder a recursos en diferentes nubes. Ese caso aquí, tendríamos usando mi Microsoft spec bond nos habla AWS. Aquí tenemos dos opciones. Contamos con la clave de acceso. Cuando crea un usuario en AWS, se
le da una clave de acceso y una clave secreta. Esta es la primera opción aquí para autenticarse en el servicio de Amazon, o bien tiene credenciales de seguridad temporales. Entonces básicamente esta es una ficha que te es otorgada y caduca después de un tiempo. Entonces vamos a estar usando clave de acceso para ese caso. Y yo solo pegaré aquí y esta llave será temporal. Y pegaré mi clave de acceso, y ahora conseguiré mi clave de acceso secreta. De acuerdo, ahora que tenemos nuestra clave de acceso secreta, tenemos es una opción aquí llamada sirve la URL. Entonces básicamente esto es si quieres acceder a S3 a través de un endpoint diferente, puedes seleccionar esto. Colegio tiene tres conector que desea debe cambiar a algo diferente aquí. Si realmente sabes qué lágrimas en la mayoría de los casos, estará vacío. Por lo que ahora quizás quieras probar tu conexión para ver si tu S3 existe o si tu usuario está funcionando correctamente. De acuerdo, entonces es una buena idea seleccionar a ruta de archivo. Aquí pasamos el nombre de nuestro cubo, que será entrenamiento ADF o simplemente copiado del cubo. Entonces no perdemos el tiempo. Entonces n aquí, ya que no tenemos ningún directorio dentro de los cubos, que podríamos crear si quisiéramos agregar. Pero está en el nivel de la raíz. De acuerdo, Así que vamos a darnos esto y Test Connection. Sí, todo está funcionando. Ahora, todos estamos listos para empezar a obtener datos de Amazon S3. Vamos a golpear Crear año. Y ha sido creado. Ahora tenemos que mirar nuestra base de datos SQL.
26. Crear un servicio relacionado para la base de datos SQL: Ahora me trasladaré al portal de Azure. Por lo que me limitaría a buscar o base de datos SQL que creé. Creé una base de datos SQL bastante pequeña. Y veamos cómo va. Tienes un montón de configuraciones. Entonces como pueden ver, sólo tengo 20 mega espacio, pero como nuestra superior ocupa sólo sí, 100 KB, deberíamos estar bien. Muy bien, entonces lo que tenemos que hacer aquí ahora es lo siguiente. Necesitamos obtener el nombre del servidor para que podamos crear están dispuestos a servir como. Entonces voy a copiar esto, volver a Data Factory y hacer clic en nuevo servicio Lincoln. Entonces buscaré SQL. Simplemente seleccionaré de CSER escuchar base de datos SQL. Y de nuevo, vamos a estar usando el motor de ejecución de la integración de resolución automática , de
acuerdo, porque estamos dentro de la columna vertebral de Azure, no tiene sentido que salgamos al auto alojado y regresemos. Entonces vamos a, podemos, si queremos una cinta en un dinero semilla por, por cualquier razón, y no usemos recursos informáticos de CSER. Eso es posible, pero hay una penalización de desempeño por eso. Entonces vamos a quedarnos con esta opción. Y acabo de seleccionar para mi suscripción. Conseguiré mi 78 porque se pobla. Yo no necesitaba realmente para hacer nada ahí. Así que está bien. Como pueden ver, he creado una base de datos aquí antes. Eso es un tren ADF es igual a uno. Y lo que voy a hacer aquí ahora es crear una credencial para mi base de datos SQL. No tengo mi configuración tradicional, sí. Como pueden ver, tengo tres y métodos para autenticarme en mi base de datos. Tengo autenticación SQL. Es solo un usuario y contraseña que se crea eSight de la base de datos es la credencial predeterminada. También tienes la Identidad Administrada. Identidad administrada es el usuario que se crea con Data Factory. Por lo que contiene el nombre de la fábrica de datos para que
no puedas obtener la contraseña es todo detrás de bambalinas. Y también tienes la oportunidad de utilizar los principios
de servicio Principal de servicio como credenciales de una cuenta de servicio. Por lo que tienes el arrendatario y tienes a los participantes puntiagudos y la clave del principio de servicio. Entonces esas son cosas que necesitarás configurar. Pero lo que voy a hacer aquí, ya que es menos molestia crear y también más seguro es la identidad administrada. Simplemente me quedaré con esta opción. Solo necesito asegurarme de que mi base de datos haya autorizado el acceso a este objeto. Entonces para hacer eso, abriré mi Management Studio y veremos cómo está configurado.
27. Cómo otorgar permisos en Azure SQL DB a la identidad gestionada de la fábrica: De acuerdo, abrí mi Management Studio y
he iniciado sesión en mi SQL Server, servidor virtual. Y como pueden ver aquí, he creado una base de datos sencilla. Esta base de datos está vacía. No hay tablas en absoluto, ni inicios de sesión también. Entonces lo que tenemos que hacer aquí ahora es crear un usuario con el nombre de la fábrica de datos. De esta manera, SQL Server entenderá que se trata de una identidad administrada. Por lo que la sintaxis para crear el usuario es la siguiente. Vamos a abrir un nuevo editor de consultas, ¿de acuerdo? Y luego escribiremos usuario. Y necesito que me den el nombre de mi Data Factory. Por lo que sólo volveré a eso una fábrica. Lo volveré a copiar. El nombre del usuario, volver a Management Studio. Escriba, el nombre del usuario aquí. Y así es como funciona desde proveedor externo. Como puedes ver, aquí no hay contraseña, solo proveedor externo que
indicará a estos usuarios que existiría dentro de Active Directory. No obstante, hay algo más que tenemos que hacer. En primer lugar. Si vas y haces click en ejecutar, verás que aquí hay un mensaje de error. Dice que las conexiones se pueden establecer si con cuenta de Active Directory. ¿ De acuerdo? Entonces como te mostré al principio, estoy conectado usando, y digo un condado, esto es un registro SQL. Para que pueda crear un usuario desde el Active Directory, debo estar conectado con una cuenta I, una cuenta de AD. Entonces para hacer eso, te
mostraré rápidamente cómo funciona en el portal dentro de Azure AD para que puedas seguir adelante. De acuerdo, esto está un poco fuera de alcance de este entrenamiento, pero para que lo sigas, veremos cómo funciona. Por lo tanto, busca Azure Active Directory. Si tienes derechos para hacerlo, por supuesto, del
lado izquierdo, busca grupos y crea un nuevo grupo. Simplemente me lo nombraré a mí. Y entonces aquí voy a tomar los números dentro. Buscaré a mi usuario, que es un usuario que estoy conectado en un momento. Ahora, tenemos que volver al portal. Y iré a mi SQL Server y seleccionaré varios dominios AD de Active Directory recreados. Como puede ver, no se ha establecido ningún Udemy de Active Directory. Pondré admin, y luego escogeré el grupo otomano que acabamos de crear. Seleccionar. Entonces Guardar. Genial, Ahora está guardado. Al volver a mi estudio de gestión, debería poder iniciar sesión con mi cuenta. De acuerdo, entonces vamos a abrir una nueva conexión, el mismo sever. Ahora una diferencia será universal con MFA. Debes estar usando una de las últimas versiones del Management Studio para que esta opción esté disponible para ti. Está bien. Creo que es a partir de las 18 horas. Entonces esa es mi dirección de correo electrónico. Vería si funciona. Está bien. Me solicitará mi contraseña. Está bien, genial. Ahora soy Conectores sin embargo ahora soy la Udemy de esta cuenta porque acabo de establecer mi propia, mi propia cuenta de Udemy que está dentro del grupo como dominio de Active Directory. Por lo que puedo hacer cualquier cosa aquí en lugar de esta cuenta. Ahora, volvamos y abramos un nuevo editor de consultas bajo mi nueva cuenta, vale, y mi correo electrónico. Copiaré las mismas declaraciones un poco antes,
entonces, básicamente aquí y pegaré Ejecutar. Brillante. Está bien, ahora está creado. Tenemos una nueva cuenta bajo una base de datos. De acuerdo, se trata de un usuario contenido en la base que hace referencia a un objeto dentro de Active Directory. Y luego se puede ver que se está creando aquí. Ahora debemos otorgar permisos a este tipo porque en el momento solo tiene permisos para conectarse. Entonces necesitamos ir y permisos a este tipo. Recuerda, yo o concedió el honor, el usuario. Porque no quiero que me restrinjan nada y voy a golpear ejecutes. De acuerdo, ahora se concede como el más allá. Volvamos a Data Factory y probemos. Está bien, está aquí. Es lo mismo que ves. Esa es la conexión. Y la acción falla. Veamos por qué falla. De acuerdo, si escogemos un más, deberíamos tener un mensaje. De acuerdo, Entonces la dirección API del cliente no está autorizada para acceder a ese servidor. Genial. Por lo que este es un problema con un firewall. Podemos arreglar esto rápidamente. Volvamos al servidor. Y aquí dentro, deberías tener el firewall y las redes virtuales. Aquí tengo mi dirección IP de cliente. Lo que necesito hacer aquí, solo
quiero asegurarme de que nos permitan recursos y recursos al servidor es Dos. Sí. Entonces, lo que significa que todos los servicios de Azure, podrás llegar a mi servidor de base de datos. Así que pulsa Guardar y se actualizará si yo fuera reglas, vale, no está actualizado. Entonces volvamos a ese árbol de efectos y lo probaremos una vez más, alcancemos que se haya conectado con éxito. Ahora, sólo saltaré como es en este momento. Enfriar. Hemos configurado nuestros Servicios Vinculados, nuestra fuente y nuestra fuente de destino B, AWS y dirigido en la base de datos SQL. Ahora, necesitamos seguir adelante y crear el conjunto de datos.
28. Cómo otorgar permisos en Azure SQL DB a la identidad gestionada de la fábrica: Hola a todos. Ahora que tenemos nuestros Servicios Vinculados creados, tenemos que crear nuestros conjuntos de datos. Vayamos al autor. Entonces. En el lado izquierdo, hagamos click en Acciones y nuevos conjuntos de datos. Empecemos con Amazon S3, que es nuestra fuente, convertimos en eso. Y luego continuando. Aquí, tenemos que escoger nuestro tipo Beta, que es un archivo. Seleccionemos y pestillemos. Y mi servicio vinculado sería mi primer Amazon S3. Entonces voy a dar click Ok. Ahora tenemos nuestro conjunto de datos creado o S3. Vamos a crear uno para SQL Server. Vamos a entrar y retocar y buscar Nutella. Vamos a buscar Azure y encuadernado aquí puedes encontrar la base de datos Azure SQL. Vamos a dar click en ese continuum. Entonces obtendré mi primer servicio vinculado a base de datos SQL. Como pueden ver, no tengo ninguna tabla creada. Está bien. Es bastante sencillo. Hemos creado los punteros a nuestros conjuntos de datos. Aquí hay que destacar un interesante que aquí
tenemos que recoger algo que afecte a árbol necesita saber a dónde se enviarán los datos. Por lo que si haces clic en Non aquí, cuando estés creando nuestro ducto, recibirás un mensaje de error. Entonces como no tenemos una tabla creada, nuestro objetivo aquí es crear una tabla a la hora de la sala con el mismo esquema de nuestro archivo de archivo. Entonces para ello, podemos hacer click en Editar y luego le das cualquier nombre que quieras. Tienes que pasar primero el nombre del esquema. Y entonces este será mi usuario o un simple, bien, así es como estoy nombrando a mi mesa. Cu hemos creado nuestras dos fuentes de datos. Ahora, tenemos que crear nuestro ducto que desencadene nuestras actividades. Entonces sigamos adelante y pinchemos aquí Acciones. Y nuevo ducto. También utilizaremos la actividad de copia aquí. Echemos un vistazo a las opciones aquí muy rápido y veamos qué necesitamos. Entonces, pongámoslo como una copia. Ese es el nombre de nuestra actividad. Nuestra fuente será el S3 que acabamos de crear. Después seleccionamos el por kit, y luego aquí tenemos un par de opciones entre las que puedes elegir. Entonces en este caso aquí, estoy pasando información que tengo en mi conjunto de datos. Pero si quisiera crear algo más dinámico, podría conseguir un prefijo de un archivo o algún comodín, o incluso una lista de archivos. Por lo que aquí puedo tener la oportunidad de explorar el cubo S3. Sólo sigamos con esta opción aquí. Adelante y vayamos a sincronizar. Sync será nuestro objetivo, que es la base de datos SQL que creamos. Quiero seleccionar exterior crear tabla, ¿de acuerdo? Porque como puedes ver esto,
esto creará automáticamente un establo en mi fregadero si la tabla no existe, es
decir, el nombre que tenía en mi conjunto de datos. Esto si quiero copiar escrituras para una sala, algún tipo de automatización o algún año de preparación de scripting. Este es el tiempo de espera o mi lote a tamaño de lote si en un escogido a mano eso, digamos para una población y 1000 registros por lote o un número diferente. Por lo general tú, te vas a quedar con el mapeo de opciones por defecto. Podemos dejar esto vacío porque automáticamente Data Factory, crearemos la tabla en función del partido de archivo. Por lo que estas son las unidades de integración de datos. Se trata del tiempo de integración de autoresolución. Aquí puede especificar cuál es la potencia de su motor de ejecución de integración de resolución automática. Si dices auto factory en base a sus propias reglas, localizaremos más recursos, consistencia
automática de datos y verificación aquí solo básicamente especificar si tu conteo de palabras coincide en la fuente y el fregadero. Cualquiera para mover archivos a través, va a conseguir el tamaño de los archivos lo están revisando. Binario de los archivos es que vamos a añadir duración extra tu carga total porque al final, todavía se
necesita procesar la verificación de datos y sistemas. Aquí está la tolerancia a fallas. No necesitamos preocuparnos por eso. Habilita el registro, el registro si querías, digamos si tienes alguna tolerancia a fallas y quieres omitir registros, y quieres ver cuáles fueron los euros que ha pasado. Puede habilitar el registro y especificar un lago de datos o un almacenamiento de Blob para volcar ese mensaje de registro. De acuerdo, Entonces no seleccionaré esto y habilitaré la puesta en escena, lo que significa que antes de cargar tus datos en tu base de datos, puedes escenificar esos datos en tu Blob Storage o Data Lake a veces dependiendo del tamaño de tu carga. Esto puede ser útil porque a medida que estás cargando en un área de puesta en escena, vas a cargar tus datos de manera paralela. Se puede obtener más desempeño. Tus datos deben ir más rápido
del lago de datos a SQL Server debido a la distribución de la red. De nuevo, depende del tamaño de su conjunto de datos. Tendrás que experimentar y ver cómo va. No vamos a habilitar la puesta en escena. Y aquí en nuestra fuente, puedes abrir tu conjunto de datos. Solo necesitas pasar el nombre del cubo que creamos. Y aquí puedes probar la conexión, ¿de acuerdo? Y puedes explorar el cubo S3 si tienes suficientes permisos para hacerlo. Vayamos a explorar. Y aquí puedes ver el nombre de mi cubo S3, y puedo hacer click en eso y puedo ver todos los archivos que tengo dentro de ese cubo. Simplemente seleccionaré UserData Wine dot. Y como puedes ver, está en el nivel de raíces, así que no tengo que especificar el directorio. Y también puedo previsualizar los datos y ver cómo se ve. Eso es bastante bueno. Entonces esa es una buena señal de que podemos conectarnos y podemos llegar. Y vamos a retener, publicar o bien. Vamos a correr eso y ver cómo se ve. Entonces primero, echemos un vistazo rápido a nuestra Instancia de SQL Server y veamos si tenemos alguna tabla creada. Entonces como puedes ver, la gente está vacía. Y volvamos a ese árbol de efectos en nuestra tubería y veamos si tendremos una mesa nueva. Hicimos una visión de conjunto de datos. De acuerdo, entonces vamos a estar arriba. Por lo que está en cola por el momento. Está haciendo progreso. ¿Y qué sabes? ¿ Ha tenido éxito? Es una buena señal. Echemos un vistazo rápido a nuestra instancia de SQL Server. Vamos a refrescar eso. Genial. Nuestra mesa está aquí. Ahora, echemos un vistazo rápido al resultado de esa tabla que está seleccionada los resultados de esta tabla y veamos si los datos están ahí. Sencilla declaración selecta y nuestros datos ya están aquí. Se puede ver que la tabla se creó automáticamente. Sólo una cosa que hay que prestar atención es el tipo de datos de su tabla. Ya que está golpeando tu mesa sobre la marcha, realmente no sabe exactamente cuánto espacio debería darle a tus datos,
tus datos varchar, querrá adivinar en base a tu archivo Parquet. Como puedes ver, si revisas la tabla, los tipos de datos de tus columnas. Todo vino como cualquier varchar max en nulo. Y vamos a ver, el salario llegó COMO flotador. Tienes que hacer tu propia llamada de juicio. De acuerdo, volvamos a nuestra Data Factory y agreguemos un poco de complejidad a nuestro ducto.
29. Copia los archivos de Parquet de AWS S3 en los datos lago y Azure SQL: Hola y bienvenidos de nuevo. En este caso de uso, vamos a obtener el mismo conjunto de datos de Amazon S3. Pero en lugar de enviar los datos directamente a la base de datos, vamos a usar un zoológico que elección a nosotros nuestros aterrizajes en, quizás
quieras tener un lago de datos para complacer a todas tus fuentes como archivo PDF antes de Saint en tu pelea y en este nación. Este es un caso de uso común porque la gente a veces quiere hacer algún tratamiento en sus datos usando Databricks, HDInsight. Entonces intentemos imitar ese caso de uso y utilizar el mismo archivo Parquet para
transferirlo a nuestra base de datos y asegurarnos de que el archivo exista en el lago de datos. Para este ejemplo, empecemos a publicar desde nuestro último ejemplo. Enfriar. Volvamos al autor. Vamos a expandir eso y vamos a crear nuevos conjuntos de datos para transferir nuestro archivo Parquet. Voy a crear un nuevo conjunto de datos. Va a ser Amazon S3. Pero en lugar de ser archivo Parquet, voy a seleccionar archivo binario. Entonces de esta manera no tengo a Egypt Parquet file en Amazon S3 en mi servicio vinculado será el mismo. Sólo mi ruta de archivo aquí, usted proporciona el nombre de nuestro cubo, 2020 0, 0, y esto está vacío. Podemos explorar los cubos desde aquí, y seleccionaremos el mismo archivo. Entonces ve que puedes hacer esto cuando estás creando el conjunto de datos, donde una vez que se crea, realmente no
hay diferencia entre los dos. Vamos a dar click. Está bien. Genial. Tenemos nuestra fuente creada. Ahora. Tenemos que crear nuestros aterrizajes en conjuntos de datos, que será un Data Lake Gen2. Seleccionemos a este tipo. Esto también será un binario. Continuando. Será mi primer servicio vinculado. Es aquí cuando lo creo en nuestro primer ejemplo. Por lo que necesito seleccionar el sistema de archivos, que es un contenedor. Y te puedes ver a eso que creamos previamente. No quiero adjuntar. Entonces aunque no exista, puedo darle un nombre aquí y se creará automáticamente por Azure Data Factory. Bueno, aquí dentro voy a nombrar como AWS es nuestro directorio de archivos. Está bien, así que eso es creativo. Queremos publicar ahora solo para asegurarnos de que nuestros nuevos conjuntos de datos que creé. Lo que tenemos que hacer aquí ahora es que tenemos que crear nuestra tubería que transfiera
a nuestro partido un archivo de AWS a Azure Data Lake. Ese es el nombre de mi ducto. Entonces vamos a usar los datos de copia. Mi fuente se adquirirá transferencia binaria AWS primero, luego me quedaré con el valor predeterminado en su fregadero aprendido es en Data Lake Gen2, ¿verdad? Entonces publiquemos esta opción. ¿Verdad? Entonces, vamos a ejecutar este ducto ahora y ver si podemos traducir los datos a través de las nubes. Enfriar, vamos a depurar. Y va a empezar el dinero. Está en progreso. De acuerdo, falló. Podemos revisar el mensaje de desvanecimientos aquí y así podremos echar un vistazo rápido al motivo. Por lo que dice el sistema de archivos tiene un nombre que no es válido. Por lo que dice que contiene caracteres, que es el guión bajo. Entonces eso es bastante sencillo de resolver. Yo hice esto a propósito, para que ustedes puedan ver qué tipo de barreras a veces podría suceder. Volvamos a nuestro conjunto de datos y podemos eliminar eso. Y vamos a mantenerlo como préstamos, préstamos en bruto sin el subrayado mismo sitio de directorio. Vayamos a nuestro ducto. Mueve los datos a los aprendizajes en, y sigue adelante y depura. Lindo, está en progreso. A ver. Genial, ha tenido éxito. Entonces una forma en que podamos explorar que podamos volver a nuestro conjunto de datos de zona de aterrizaje y puedes hacer clic en Explorar. Y si vuelves a aquí, recuerda antes sólo había dos contenedores, ahora tenemos un tercero. Y aquí tenemos la carpeta AWS, Esa es la carpeta recreada aquí. Y aquí tenemos nuestro expediente del partido. Está bien, eso es genial. Ahora, tenemos que mover ese archivo del lago de datos a la base de datos. Pero antes de hacer eso, asegurémonos de que el archivo exista antes de pasar a la base de datos para que podamos evitar cualquier error o podemos crear algún tipo de validación aquí para enviar un mensaje al proveedor de los datos. El archivo no existe. Muy bien, entonces volvamos a nuestro ducto. Y tomemos un, una actividad general que será de búsqueda. Una actividad de búsqueda. Carrera es cualquier conjunto de datos que soportaba como fuente de datos dentro de Data Factory. También puedes crear tablas. Puede ejecutar el procedimiento almacenado. Entonces vamos a utilizar esta actividad de búsqueda aquí, y vamos a ir a Configuración y tenemos que seleccionar nuestro conjunto de datos fuente, que en este caso será el archivo Parquet que transferimos a nuestra zona de aterrizaje. Entonces sigamos adelante y creemos nuestro nuevo conjunto de datos, porque como puedes ver, no está disponible para nosotros. Entonces vamos a entrar en Nuevo y seleccionar Data Lake Gen2 continuando. Será archivo Parquet. Entonces será mi primer servicio vinculado, ¿verdad? Entonces, vamos a explorar esos servidores enlazados. Vayamos a Londres en RA, que es nuestra carpeta contenedor AWS, y estos son nuestros datos. Vamos a quedarnos con la primera opción. Vamos a dar click Ok. Está bien, así que sólo en primera fila, está bien. Para nuestra muestra. Ni propiedades. Podemos entonces cambiar a este tipo por el lookup. búsqueda se asegurará de que el archivo exista. Ahora que acabamos de crear nuestra búsqueda para asegurarnos de que nuestro archivo exista. Volvamos aquí y obtengamos nuestros datos de copia. Otra vez. Este es un paso. Transferiremos los datos del lago de datos a la base de datos. Muy bien, entonces cambiemos esto a juntos y consigamos nuestra fuente. E hicimos una fuente aquí. ¿ Puede el, el mismo conjunto de datos que acabamos de crear para la actividad de vigía, ya que estará mirando la misma ubicación. Muy bien, para que podamos abrir ese conjunto de datos y validar esto es lo que queremos. Volvamos al gasoducto. Y escojamos nuestro fregadero, que estaremos usando el fregadero Azure SQL DB, que es nuestro objetivo. Aquí nuevamente, tenemos que especificar una opción de tabla conocida si estábamos usando el procedimiento almacenado y auto Crear para crear la tabla. Si no existe, va a depender de la mesa. Lo especificamos en el conjunto de datos. Ya que la tabla que existiríamos, se saltará la creación. Muy bien, entonces volvamos a nuestro ducto. Sí, estamos listos para irnos. Entonces tenemos aquí nuestro escenario que voy a montar. Por lo que transferimos los datos desde el cubo de Amazon S3 al lago de datos, que es un verdadero ingeniero en. Tenemos una revisión final para asegurarnos de que el incendio haya sido trasladado correctamente. Una vez que esto, se trata de datos válidos ya que movemos el archivo, el contenido del archivo a una base de datos. Entonces si quieres, puedes cambiar el nombre de esto. Entonces publiquemos tu butano. Porque terminado. Y sigamos adelante y pinchemos en el bug. Pero primero, solo hagamos unos pueblos rápidos de los datos. En nuestra mesa. Tenemos 1000 registros. Veamos cuántos registros tendremos después de ejecutar nuestro ducto. Entonces vamos a darle a Debug. El primer paso ha sido tenido éxito. Y se comprobará el segundo también tuvo éxito. Y ahora trasladará los datos a la base de datos. Está en progreso. También tuvo éxito grisáceo. Ahora vamos a comprobar cuántos registros tenemos en la base de datos. Y voy a golpear Ejecutar. Hacer 1000 registros, que es nuestro segundo intento. Y fuego arcade superior tiene un 1000 registros. Por lo que aquí podemos asegurarnos de que todo se haya ejecutado con éxito. Aquí uno interesante para notar ahora es cómo monitoreamos todo lo que acabamos de hacer. Nuestra siguiente lección, revisaremos cómo monitoreamos todas esas ejecuciones que ya hacemos. Y los que también corren el pasado. Así que mantente atentos y nos vemos pronto.
30. Monitorización de la ejecución de la pila ADF: Hola, y bienvenidos a otra lección. En esta lección, exploraremos cómo monitoreamos la ejecución de ductos. Debes recordar que en nuestras últimas ilustraciones, estábamos usando la opción de bug. La opción de depuración desencadena la tubería actual. Y esta es tu sesión. Esta opción es para algo que los desarrolladores que trabajan en una rama de funciones o algo que es justo por el momento y no debe ser bloqueado. Si alguien más quiere comprobar la ejecución de mis ductos en una etapa posterior,
esta esfera de ejecuciones no aparecería. Entonces cómo nos aseguramos de que todo esté registrado y cómo
entendemos lo verdadero puso algo que no estábamos presentes cuando se estaba ejecutando. Ten la opción de gatillo ahora. Activar ahora correremos lo que se haya publicado y registraremos la ejecución del ducto. Entonces vamos a darle gatillo ahora para el mismo ducto que hicimos un antes. Y no se pueden ver registros encontrados. Podemos seguir adelante y dar click Ok. Y volverá a ejecutar mi ducto de la misma manera que lo hicimos antes, pero usando la opción trigger now, nuestro ducto ha sido arrancado. Podemos volver al panel izquierdo y dar click en monitor. Y se puede ver que ya se ha logrado. Entonces aquí es donde se pueden ver todas las ejecuciones de sus ductos. Y si hago clic en eso, se
puede ver que las mismas actividades se han ejecutado con éxito. Y puedes revisar usando este pequeño vaso, los detalles de tu traslado. Haga clic en eso. Se puede ver que mi traslado, vino del Data Lake Gen2 y fue a mi base de datos Azure SQL. Y aquí está el rendimiento de mi traslado. Y cuántos registros fueron transferidos. El P conexiones, esto es algo controlado por ADF y el tamaño de los datos escritos en mi base de datos. Enorme cantidad de archivos lee la misma cantidad de congelados y acciones. Y aquí puedes ver un desglose de mis Tareas. Nuevamente, esto es algo ejecutado detrás de bambalinas que no tenemos control. Este es el tiempo de cola, el pre-comp, el sistema de transferencia de scripts. Como se puede ver, ya que no tenemos ningún script de pre copia, fue 0. Y entonces la transferencia en sí es bastante útil en cualquier persona con acceso a mi fábrica de datos sería capaz de ver eso. Podemos ver que también pueden cobrar. Y esas son las ejecuciones de mis ductos, como cuando uno comenzó y terminó. El segundo, que es mi comprobación de datos, y el tercero que se inserta en el destino del archivo. Podemos ejecutarlo de nuevo y ver este proceso real se activa ahora. ¿ De acuerdo? Y si vas directo al monitor, puedes ver que está en progreso. Se puede dar click en eso. Y se puede ver que el primero se ha logrado. Se puede refrescar. El segundo está sesgado. Ahora. Está en progreso. Se ha tenido éxito. El segundo es cuz ahora y está en progreso y terminado. De acuerdo, entonces deberíamos tener 40 mil registros en nuestra mesa, ¿
verdad? Entonces todo está bien. Entonces si volvemos a nuestros ductos, se
puede ver Ahora está registrado. Por lo que cada vez que
abrí mi Fábrica de Datos, debería poder ver la parte militar. De acuerdo, supongamos que tu ducto también ha fallado. Muy bien, así que tienes la opción de ser ejecutado el ducto y lo hará, ejecutamos desde el momento o desde la actividad donde se detuvo. No necesitamos volver a ejecutar todo tu ducto. Entonces imagina que estás trabajando en un traslado muy grande de la noche a la mañana. Y luego tuviste que irte a casa y esperar. Y tú habías terminado el otro día y una de las estadísticas falló, pero ya se transfirieron todos tus datos masivos. Entonces podrías simplemente hacer clic en volver a ejecutar. Y lo haría, empezamos desde el momento en que has terminado, lo cual es bastante guay. Aquí, tienes la opción de hacer click en consumo y ver cuánto ha consumido la UI hora. Entonces cuál es el movimiento de actividades. Está bien. Entonces si tuviéramos más ductos, verías cómo se solapan aquí fletamento, tienes la opción de seleccionar en los últimos siete días y datos
cíclicos personalizados para ver la ejecución de tus ductos. Por defecto, siempre son 24 horas. Sí. Por lo que es un muy completo en bastante simple para que investigues las ejecuciones de tus ductos. Todos ellos tienen un ID de VLAN, un ID de punto de vista único. Y también aquí tienes la opción de ver cuál fue el enorme factor. También es un archivo JSON confirmado por Data Factory. Esta es una muy buena herramienta para investigar y asegurarse de que todo esté funcionando correctamente. Sí, Eso es todo para monitorizar y nos vemos en la siguiente lección. Muchas gracias. Nos vemos pronto.
31. Mapear el flujo de datos: Para empezar con los flujos de datos, podemos llegar al panel izquierdo. Y como se puede ver aquí, justo debajo de los conjuntos de datos, tenemos flujos de datos. Los flujos de datos se pueden crear al igual que cualquier canalización o conjunto de datos. Como puedes ver, puedes hacer click en los tres puntos de aquí y ves un nuevo flujo de datos. Vamos a dar click en eso. Está bien porque si es la primera vez que estás abriendo un flujo de datos, te vas a dar un paseo por aquí, lo cual es bastante útil. Como puede ver, podemos empezar agregando una fuente al flujo de datos. Demos click en Finalizar. Esta es nuestra ubicación, pero los dolores de flujo se dividen en tres partes principales. La primera parte es la barra superior. Por defecto. El bar superior es bastante importante porque es donde podemos validar nuestros flujos de trabajo. Por ejemplo, el JSON o las lógicas en las que estamos trabajando. Además, podemos habilitar la depuración del flujo de datos, lo que significa que vamos a iniciar nuestros clústeres con el fin de ejecutar el código de Spark entre bastidores. Aquí la segunda parte es la gráfica. El gráfico es donde puedes colocar tus transformaciones. Se puede crear un flujo de transformación que muestre el linaje de la fuente de datos a medida que fluye en uno o más sumideros para agregar una nueva fuente de datos, simplemente seleccione usuarios aquí arriba, y luego vea que trae un nuevo para propina aquí para usted. Para iniciar nuestro decano más tanques. Por ejemplo, el lado izquierdo de los nodos muestra el tipo de transformación. El lado derecho del nodo muestra el nombre y la descripción del flujo de datos. Entonces vamos a dar click en Siguiente. Aquí en el nodo, se puede dar click en Configurar haciendo clic derecho. Y luego si hacemos clic en Conectar de nuevo, si haces clic en el pequeño signo plus aquí es donde te lo que una nueva transformación. Demos click en Finalizar. Y aquí tendríamos nuestra primera transformación. Por supuesto, pinchando aquí para agregar otro. Y se puede ver que tenemos muchas transformaciones. Si estás familiarizado con los servicios de integración, te relacionarías con algunas de las transformaciones que tenemos ahí. Por ejemplo, agregados, pivote, y luego pivote. Esas son cosas que podemos encontrar Servicios de Integración también. Entonces iremos a cada una de esas transformaciones y a qué hacen en cómo funcionan. Y por último, tenemos aquí nuestro panel de configuración. Puedes notar que si seleccionas una de las tareas, te devuelve las opciones y configuraciones relacionadas con la tarea seleccionada. Si solo haces clic fuera y no seleccionas entretener, obtienes los ajustes y parámetros específicos, la ejecución general de tu lógica. Podrías agregar más prompting aquí, o podrías agregar diferentes configuraciones aquí y así sucesivamente. Si seleccionas de nuevo a la tarea, puedes ver que tenemos varias opciones. Y esas opciones pueden variar de acuerdo a la tarea en la que estés trabajando. Pero una cosa que podrías encontrar en común, fácil de optimizar, la pestaña Optimizado contiene configuraciones para configurar esquemas de particiones. Entonces, por ejemplo, podría, podría
usar la partición actual, la partición predeterminada o única, o podría establecer una partición. Vamos a pasar por cada una de las opciones y
puede ser útil para ti la pintura sobre el requisito que tengas. Si haces click en Inspeccionar es la opción donde llegas a ver los datos en los que estás trabajando. Ahora pasar a la vista previa de datos es donde
se puede obtener una instantánea interactiva de los datos como cada transformación. Eso es bastante genial porque antes de que una unión interna o un lets vea una agregación, esperarías ver algún tipo de datos o un estado de los datos. Por lo que podrías hacer clic en eso y luego simplemente volver a moverte a tus transformaciones en C, el resultado esperado solo
puedes ver que cuando tienes tu clúster en funcionamiento o tu modo de depuración configurado en uno.
32. Mapeo de las transformaciones de datos: múltiples entradas o salidas: A partir de múltiples entradas y salidas, nos hemos sumado como nuestra primera opción. Nos unimos a la transformación. Se pueden combinar datos de diferentes fuentes de datos o flujos de datos, y la salida de los datos incluirá todas las columnas de ambas fuentes. Fase emparejado en una condición gigante. Las condiciones de unión son interior join, left join, right join, full outer join in custom cross join. Por lo que tenemos cinco tipos diferentes de articulaciones. Después siguiendo al gigante, tenemos divisiones condicionales. Condicionalmente habla, puede enrutar filas de diferentes flujos de datos en función de la condición coincidente. Entonces imagina que quieres enrutar tus registros para cualquier fuente de datos específica ahora es condición. Tu condición podría ser donde se activa o desactiva el estado. Y en base a esa condición, enviarías los datos a una tabla o dos conjuntos de datos diferentes. Entonces tenemos x's. El eje de transformación es la transformación filtrante mundial que comprueba si tus datos existen en otro servicio o en eStream. El flujo de salida incluye todas las filas y el flujo izquierdo que ya existen o no existen en la corriente derecha. Entonces tenemos sindicato. Con la unión, se pueden combinar múltiples flujos de datos verticalmente. El resultado sería como si tuvieras un solo conjunto de datos. Imagina que quieres poner un conjunto de datos encima del otro, y se verían como un solo conjunto de datos. Entonces, al final de nuestra categoría de múltiples entradas y salidas, tenemos lookup. Esta transformación se utiliza para hacer referencia a datos de otra fuente. Por ejemplo, imagina que tienes una tabla de hechos a una tabla de dimensiones. El lookout transformación anexa columnas de la coincidencia de los datos, en ese caso la dimensión a sus datos de origen. En ese caso, el hecho, si lo piensas, la búsqueda es bastante similar a una operación de unión izquierda, donde todos los valores existen en tu flujo de salida en columnas adicionales desde tu look upstream.
33. Mapeo de transformaciones de datos - Modificador de los datos: Entonces nuestro siguiente grupo es el modificador de esquema. Como primera opción, tenemos la columna derivada. Con esta transformación, se pueden generar nuevas columnas o modificar las existentes utilizando el lenguaje de expresión de flujo de datos. Entonces tenemos selecto. Con select, puede renombrar, soltar o reordenar las columnas. Esta transformación no altera rho beta, sino que elige qué columnas se propagan aguas abajo. Entonces digamos si tienes un conjunto de datos muy amplio y luego solo quieres decir selectivo pocos campos de ese conjunto de datos que serían posibles usando esta transformación. Entonces tenemos agregado, agregado para definir diferentes tipos de agregación, como algún recuento min-max. Tienes que comprar columnas existentes o computadas. Entonces tenemos llave sustituta. Claves sustitutos, bastante útiles cuando se trata de dimensiones y tablas de hechos. Puede utilizar esta transformación para agregar e incrementar el valor clave a cada fila de los datos. Esto es útil cuando se diseñan tablas de animaciones. Por ejemplo, en un esquema estrella que se utilizará en el modelo de datos analíticos. Entonces tienes pivote. Pivot, puedes clasificarlo como una agregación donde una o más columnas de agrupación tiene su fila distinta, transformarla en columnas individuales. Después pasar a, um, pivote y pivote hacia usted a la forma opuesta que tiene bros en su conjunto de datos. Y quieres transformarlos de una manera que se
muestren como volúmenes en nuestro conjunto de datos más amplio. Aquí tenemos ventana. Eso es interesante. Durante la transformación es donde definirás unas ocupaciones basadas en ventana de columnas en tu flujo de datos. En el constructor de expresiones de esta transformación, puede definir diferentes tipos de agregaciones que se basan en esa ventana de tiempo. Por ejemplo, esto es bastante similar a la cláusula SQL over donde tiene función de ventana en general. Por ejemplo, se podría pensar en el lag de plomo en detalle. Esas son funciones similares. Podrían encontrarlo aquí. Se genera un nuevo campo en sus salidas que incluyen esas agregaciones. Esto es bastante útil. Se desea trabajar con diferentes tipos de agregaciones dentro del mismo conjunto de datos. Entonces tenemos rango. Qué rango puedes generar un ranking ordenado en
base a la cierta condición que puedes especificar. Puede agregar de una manera que crearía bastidores dentro del conjunto de datos.
34. Mapeo de transformas de datos - Formatters: Entonces tenemos también asuntos D4. Entonces, básicamente, usar el aplanar significa que puedes tomar una matriz que tienes una estructura de código peluda, como un archivo JSON, y luego puedes desenrollarlos en filas individuales. Eso es bastante útil si quieres aplanar tu archivo JSON cuando tienes muchos nodos anidados dentro de JSON, luego siguiendo la secuencia para la que tenemos parse. Es bastante útil cuando necesitas anular columnas de textos, tu flujo diario. Por ejemplo, los ataques limitados para archivos CSV o XML. Entonces eso es bastante importante cuando tienes que lidiar con muchas cadenas y tienes que formatear, analizarlas.
35. Mapeo de las transformaciones de datos - Modificador de la: Entonces tenemos modificador rho. Esto es importante si quieres enriquecer tus datos de una manera que vas a necesitar modificarlos con el futuro. Tienes un filtro basado en esa condición. Al igual que como Excel, has apagado futuro por edad o teléfono me filto por marca de tiempo, es tu elección. Tienes también búsqueda. Puede buscar la fila entrante en el flujo de datos actual. Digamos que quieres buscar por nombre, por edad, por cualquier campo. Queremos que eso sea posible también. Y luego tienes altar remo. Insertas, eliminas, actualizas y alteras políticas en filas. Se puede agregar una a muchas condiciones. Esta condición debe especificarse en orden de prioridad ya que cada fila se marcará con la política correspondiente a la primera expresión coincidente. Por lo que puedes definir si mi expresión regular coincide, quiero insertar este registro si no coincide con mi primera condición, mi segunda condición actualizará esa fila o eliminará esa fila. Por lo que la fila externa puede producir tanto acciones DDL como D y L, supongo la base de datos con la que estás tratando. Por lo que hace lo mismo que la sentencia merge y un poco más.
36. 5Mapeo de los flujos de datos transformaciones: destino: Y entonces finalmente aquí tenemos a esta nación. Esto es lo mismo que hemos visto antes con los ductos. El fregadero es tu destino, es tu lugar donde vas a insertar tus datos. ¿ De acuerdo? Estas son todas las transformaciones con las que podemos trabajar. Recuerda que esas transformaciones son transformaciones visuales que detrás de bambalinas, solo
ejecuto el código para que hagas el, todas las optimizaciones para ejecutarse de manera óptima en clústeres de Spark. En nuestra siguiente lección, vamos a ver cómo podemos usar las fuentes de
datos en algunas transformaciones. Manténgase atentos. Nos vemos pronto.
37. Definición de tipo Source; dataset vs. en línea: Hola chicos y bienvenidos a otra lección. En esta lección, vamos a ver cómo podemos crear fuentes de datos utilizando flujos de datos mapeados. Empezamos, vamos a ir aquí bajo
flujos de datos y dar clic en Acciones y hacer clic en nuevo flujo de datos. Esto está vacío porque vamos a empezar de cero. Por lo que me voy a saltar esto primero para propina aquí. Y como pueden ver, tenemos una caja de puntos. Vamos a dar click en eso. Y también voy a saltarme esta primera guía. Aquí. Contamos con unas opciones de configuración en pocas ocasiones con diferentes configuraciones que podemos elegir también. Por lo tanto, empecemos con la configuración de la fuente. En la primera y más importante decisión que tienes que
tomar es qué tipo de fuente de datos tienes que usar. Por lo que tenemos conjuntos de datos y también tenemos conjunto de datos en línea es solo una entidad que se puede reutilizar a través de flujos de datos y también canalizaciones. Si recuerdas, todos esos conjuntos de datos, los
creamos antes para nuestras otras demostraciones. Entonces esas son sólo entidades. Aquí, en línea. Es algo más dedicado para cada lógica o flujo de trabajo de flujo de datos. Hay beneficios en el uso de ambos, pero hay casos en los que se apoyará a ambos. Por ejemplo, aquí en conjunto de datos de línea, tenemos algunos conjuntos de datos fuera de la caja que podemos elegir. Y esos conjuntos de datos funcionarían con algunos conectores, no todos ellos. Por ejemplo, aquellos conjuntos de datos en línea que no sería que utilizan el conector de base de datos SQL de Azure para tener una lista más definida de cuándo usar el tipo de fuente en línea o conjuntos de datos o Skype. Yo recomendaría echar un vistazo a la documentación. Por ejemplo, si obtengo la documentación aquí, puedes ver en una mejor vista cuáles son
los conectores en qué ID soportan los tipos de fuente. Por lo que tenemos base de datos SQL de Azure. Como puede ver, solo se admite el conjunto de datos. Pero para esos tipos aquí, tenemos la opción de usar ambos. Un elemento importante de usar conjunto de datos o en línea es el hecho de que inline es un tipo de fuente nativo para Spark mientras que el dataset no lo es. Por lo que a veces verás un mejor rendimiento al tratar con archivos en un lago más grande en lugar de en una base de datos o leer los mismos incendios de procuración usando conjuntos de datos. El caso de que no es muy bueno o yo siempre debería ser los principales es solo un caso que cuál es el conector que estás usando y tienes que hacer una llamada de juicio, cuál de ellos está funcionando mejor? Demostración de orina aquí, nos vamos a quedar con los conjuntos de datos porque vamos a ingerir los datos que hemos subido previamente en nuestra base de datos SQL. Para empezar, seleccionemos Azure SQL DB. Y este curso sincronizarlo se hunde porque en ese otro ejemplo, estamos usando como fregadero, pero ahora podemos usarlo como fuente.
38. Definir las opciones de origen: Una vez que tenemos otros, el conjunto de datos, ya
tomamos la decisión importante, que es conjunto de datos para nosotros 0, 0. Y luego tenemos que configurar algunos ajustes aquí. Y empezamos seleccionando la configuración de la fuente. Aquí. Por ejemplo, tenemos el nombre del flujo de salida, que es el nombre de nuestra tarea. Puedes dar cualquier nombre que quieras o simplemente pegarte con este nombre y agregar datos de muestra. No acepta eso ni subraya. Tiene que ser una sola cuerda. Aquí tenemos permitir deriva esquema. Esta opción es la capacidad de enganchar Data Factory LBL, esquemas flexibles. Y esto es útil si tu esquema cambia con bastante frecuencia. El ajuste permite que los campos de fuente de ingresos fluyan a las transformaciones, a la sincronización automáticamente, por lo que no tienes que manejar la modificación del esquema de forma mineral todo el tiempo. Además, tenemos E para tipos de columnas a la deriva. Utilizamos opción. Puede instruir a Data Factory para que detecte y defina tipos de datos para cada nueva columna de descubrimiento. Eso es bastante útil como si estuviera midiendo un rastreador. Data Factory tiene la capacidad de definir y entender los tipos de datos a medida que aparecen nuevas columnas, entonces tenemos esquema de datos válido. Si, pero es esquema está seleccionado, el flujo de datos fallará si los datos de búsqueda entrantes no coinciden con el definir el esquema del conjunto de datos. Esta es una forma de asegurarte de que tienes esquema confiable. Después tenemos datos de muestreo. Esto es para que limites la cantidad de filas que estás recibiendo invitado cuando estás depurando o un testy, tu lógica es útil al ejecutarlo fluye hacia el Bérgamo desde ducto.
39. Spinning hacia la masa de los datos: De acuerdo, Así que aquí como puedes ver, el conjunto de datos está gris. Está gris porque no tenemos nuestro clúster de Spark funcionando. Y eso lo hacemos habilitando aquí esta opción. Podría tomar algunas veces hasta cinco minutos
porque está girando hacia arriba un nuevo clúster de Spark para ti detrás de las bambalinas. Así que sé paciente. Siéntate, relájate y tendrás tu clúster. Pero pronto, Vamos a dar click en eso. Y como puedes ver aquí, tengo la opción de seleccionar un tiempo de ejecución de integración. Entonces esto sigue los mismos aspectos que hemos visto antes. Podría tener un auto alojado aquí y luego puedo elegir la configuración para mi motor de ejecución de integración de resolución automática. Nos vamos a quedar con esta opción. Este es el libro Time to Live, lo que significa que si mi depuración está funcionando inactiva durante una hora, se desplazará ahora mismo. Esta es una característica agradable para que ahorres costo y no seas una factura enorme. No sabía ni un mes porque te olvidaste de convertir no menos clúster de Spark. Entonces vamos a dar click Ok. Una vez que hacemos clic en Ok, podemos ver que se iniciará la creación del clúster. Y luego si se presta atención a este bar aquí, es cuando el clúster se está construyendo en realidad detrás de las bambalinas. Una vez creado esto, veremos aquí una casilla de verificación verde. En este punto, sabemos que tenemos los recursos informáticos para que trabajemos. Esto puede tardar unos minutos. Entonces hay que ser paciente y sólo esperar hasta que se complete. Voy a acelerar este video y volveremos en un segundo. Vete ahora tenemos nuestro clúster en funcionamiento. Y si revisas aquí, la campana de notificaciones, puedes ver que nuestro clúster tardó aproximadamente seis minutos listos, lo cual se espera BC unos cinco minutos, así que para nosotros a seis. Así que vamos a dar clic aquí Ir K y cerrar. Y ahora tenemos nuestros ambientes que arriba. Y ahora podemos probar tu conexión está en theta de Jeff y así sucesivamente y así sucesivamente.
40. Definición de la entrada de datos: Nos vamos a trasladar aquí a opciones de Circe. Y las opciones serias pueden variar dependiendo de la tarea en la que estés trabajando. Entonces en nuestro caso, aquí estarán los datos de origen y aquí nos estamos conectando a una base de datos SQL. Y podemos ejecutar el procedimiento de búsqueda. Hacemos una consulta. Entonces la proyección es en realidad los datos que tienes. Ahora vamos a volver sólo por un momento a nuestra base de datos, hacer lo mismo que hemos creado. Y vamos a revisar nuestra mesa. Como pueden ver, tengo la base de datos que están en funcionamiento, y la tabla que creamos, y sólo decimos unos cuantos miles de registros. Entonces si revisas aquí, tenemos 4 mil filas. Entonces, ¿qué voy a hacer? Yo sólo copiaría este código, es vamos a seleccionar las declaraciones que tenemos. Y vamos a volver a las opciones de fuente. Y pegaré aquí esta declaración.
41. Definir el esquema de datos: El proyección es el servicio o algo que define los formatos de tipos de columnas de datos. Entonces para la mayoría de los tipos de conjuntos de datos como SQL en un parque usted, la proyección es una fuente que refleja su esquema cuando fuente archivos que no están fuertemente tipados. Por ejemplo, si tienes algo que pueda cambiar los archivos CSV de jazz y los archivos de texto en lugar de los archivos de Parquet que tienen un esquema predefinido, puedes definir los tipos de datos aquí. Por lo que se me puede decir a mi esquema o cambiarlo desde aquí. Ahora nuestro caso aquí, no
podremos editar entidad porque ya viene de una base de datos. Y Data Factory entiende que es un esquema fijo. Entonces siempre que haya un cambio, si hacías clic en el esquema, hazlo a la
deriva para construir en cualquier esquema. Pero por ejemplo, si estás tratando con un archivo de texto y tu archivo de texto no tiene un definido el esquema. Podrías hacer click en el texto. Habría una opción aquí para que haga clic en el esquema de base imponible. Y tomaría una muestra de los datos e inferiría el tipo de datos en su producción. Recuerda, si estás definiendo un nuevo esquema para tus datos o si estás cambiando el esquema, si haces clic en imparte rechazo, siempre anulará
lo que hayas hecho. Entonces hay que tener cuidado si estás actualizando muchas cosas aquí.
42. Optimizar las cargas con particiones: Ahora pasando al optimar, tenemos tres opciones principales para seleccionar el tipo de particionamiento que queríamos elegir. En la mayoría de los casos, seleccionaremos utilizar el particionamiento de Grant porque queremos utilizar el conjunto predefinido de reglas que Data Factory tiene para elegir la mejor ruta para encontrar sus datos. Pero por ejemplo, si tienes una base de datos SQL como fuente, es posible que quieras cambiar. Depende del tipo de particionamiento que tengas. Entonces, por ejemplo, tendrías como seis tipos diferentes de particionamiento para elegir. Y luego basado en, digamos, una partición que tienes en esa columna específica. O si una utilizo una condición de consulta y luego creo una partición basada en
eso, también será posible no cada vez que se quiera crear una partición basada en los campos de hoy. En ocasiones tendrás un nuevo rango entero que queríamos averiguar un particionamiento. Por lo que puedes usar tu condición de carrera para hacer eso. Si haces clic en esta superficie, pero peticionando, que es un particionamiento personalizado, Es probable que EDF, leeremos los datos más rápido. Porque aquí que una fábrica puede usar múltiples declaraciones y hacer varias conexiones para obtener sus datos y bien incurre en paralelo. Lo que dictará el año de desempeño para leer aquí son los recursos disponibles que tiene, n cuántas declaraciones concurrentes puede ejecutar al mismo tiempo. El minúscula aquí, vamos a seleccionar columna. Si hace clic aquí en el menú desplegable, puede ver que tenemos todas las columnas que tenemos disponibles en su tabla. Entonces tomemos el campo ID, y estos serán nuestra columna de partición.
43. Introducción a los datos desde la transformación de origen: Después pasando a la Inspect, tenemos una muestra de nuestro esquema de IIS. Entonces como puedes ver aquí, muestra todas las columnas que tenemos. Y luego el tipo de datos que tenemos. Pasando a la vista previa de datos. Muestra una vista previa de nuestros datos en base a la partición que elegimos. Esto es bastante similar al conjunto de datos. Cuando exploras los datos que tienes, tu clicker aquí y
refrescas, puedes ver que va a buscar los datos de nuestra tabla. Genial, como pueden ver aquí, tenemos una muestra de nuestros datos de la tabla que estamos utilizando de nuestro conjunto de datos. Eso es bastante guay porque puedes ver aquí si todo parece correcto, revisión también es agradable porque imaginemos que estás haciendo transformaciones. Después de eso. Podrían ver los datos. En ese punto, nos imaginaremos tu día en gigante interior y quieres ver las columnas que tienes de tu mesa izquierda, en la mesa derecha. En este punto, sólo tendrías una tabla para seleccionar tus datos. Pero mirando el siguiente paso, se verían a partir de la vista previa de datos todas las columnas de acuerdo a las transformaciones que elijas. Por lo que tenemos nuestros datos de búsqueda creados. Hemos pasado por todas las opciones que tenemos disponibles para eso. El siguiente paso que vamos a crear es el lado de sincronización de nuestra transformación. Si traté de verte aquí en este punto, se
va a quejar que no tenemos fregadero y etanoato guardar tu ducto. Tenemos un fregadero. Entonces vamos a crear nuestro fregadero y tal vez crear otra tabla basada en la fuente en la misma base de datos. Secante.
44. Cómo añadir un difunto a un flujo de datos de mapeo: De acuerdo, Ahora necesitamos crear nuestro fregadero muchos donde queremos enviar nuestros datos. Entonces haz click aquí y un signo más. Vamos a enumerar todas las transformaciones disponibles que tenemos. En nuestro caso, vamos a usar destino. Y luego el único fregadero disponible. Haga clic en eso. Y luego de nuevo, aquí tenemos un buen tooltip. En este momento sólo vamos a cerrar esto. Y aquí tenemos opciones similares a las que tenemos para la fuente, tenemos realmente hundir. En nuestro caso aquí necesitamos escoger un conjunto de datos que representará el punto donde vamos a enviar los datos. Demos click en Nuevo para crear un nuevo conjunto de datos basado en la base de datos observada que tenemos. Entonces vamos a dar click en Nuevo. Entonces tenemos la opción de elegir Azure SQL Database. Entonces sigamos. que ya tenemos nuestras serifs se crean, solo
pinchemos en eso. Y entonces diré mi nuevo conjunto de datos. ¿ De acuerdo? Aquí tenemos la opción de seleccionar una tabla existente, por lo que sólo tenemos una. Y entonces también tenemos la opción de crear una nueva tabla. Entonces vamos a crear una nueva tabla. Y entonces solo necesito darle un nombre y un esquema. Por lo que mi esquema será DIYBio, el nombre de la tabla será muestreado datos. Aquí es donde estoy a menudo conseguir búfalo. Y tenemos un botoncito aquí para avanzado. No quiero hacer un idiota es punto porque podría ser usado para la optimización y así sucesivamente. Voy a dar click Ok. En este punto, tenemos una representación de esa mesa de que realmente no fue creada. Sí. Entonces tenemos ajustes. Aquí. Podemos manipular el tipo de permisos que queremos seleccionar de este conjunto de datos. Aquí tenemos acciones de barra p, hemos recreado estable truncar la tabla, es
decir, cada vez que ejecutamos esto, podríamos truncar la tabla si se trata un conjunto de datos completo o si estamos tratando con alguna deriva de esquema, quieres asegurarte de que la tienes mesa limpia o puedes salir y recrear en nuestra mesa. O si estamos lidiando con cargas incrementales, solo
podrías seleccionar Nano. Aquí está el tamaño del lote. Si cuando controlo el número de filas insertadas como una vez, si va a usar datos TempDb, si quieres, por ejemplo, usar scripts SQL sí usa una fauna totalmente, digamos tabla creada antes de eso, si queremos dejar caer la tabla o hace algo con la tabla, crear un índice dejó caer el índice, por ejemplo, imagen uno al soltar existe antes de que se carguen los datos. Para que puedas obtener los datos en más rápido. La mayoría de los datos se cargan, se
puede crear un índice. Podrías usar estas dos opciones. Además, tienes un buen manejo de errores aquí. Podría detener un continuum de error sobre error y cosas de ese mapeo. No tenemos que preocuparnos por el mapeo porque esto será uno a uno. Yo quiero meter todas estas columnas que tenemos en mi fregadero. Entonces eso está bien. Aquí podemos volver a seleccionar PSD particionado es que tenemos, voy a volver a configurar el particionamiento. Voy a conseguir tal vez seguir particionando. Vamos a seleccionar IT GAN y luego inspeccionar algo que una vista previa. Podríamos refrescar los datos para volver a ver los datos. Está bien, así que vamos a publicar. Debería estar bien publicar en este momento. El dato ha sido publicado con éxito. Y en este punto, deberíamos poder ejecutar el ducto y ver si podemos sacar todos los datos a través de una nueva tabla.
45. Cómo ejecutar un flujo de datos de mapeo: ¿ Cómo ejecutamos el flujo de datos de mapeo? Eso es interesante porque desde el ducto estándar, tendrías el libro y luego también dispararás ahora, lo que te permite ejecutar tus ductos tratan lejos. Ese no es el caso para un flujo de datos. Para que Dataflow se ejecute, tiene
que ejecutarse desde dentro de la canalización. En otras palabras, en activo por blanco. Entonces vamos a expandir esas líneas. Y vamos a dar click aquí en nuevo ducto. Y entonces vamos a obtener flujos de datos de las opciones son actividades. Entonces como puedes ver, se muestra como cualquier tarea que teníamos disponible. Y como ya tenemos nuestros datos para creados, podemos llamarlo desde aquí. Por lo que tenemos Configuración. Entonces podemos llegar allí por uno que es nuestro Dataflow. Y luego a partir de aquí, podemos volver a elegir descomponer cada tipo que vamos a correr. Podemos conseguir sólo un propósito general y luego el clúster más pequeño que tenemos disponible para nosotros, no necesitamos un clúster grande. Entonces tenemos las opciones de bloguear. Simplemente nos quedaremos con la proposición. Tenemos que tener en cuenta que si estás promoviendo esta cosa a la producción, podría ser una buena idea trabajar con las diferentes opciones. Cuantas más opciones tengas, más registros obtendrás, más tiempo tardará en realizar todas las actividades. Contamos con propiedades similares. Podemos ejecutar esto en paralelo si queremos. Nuestro solo pegarse con todos los barcos. Aquí está la puesta en escena. No necesitamos una puesta en escena. Esto es algo parecido que hicimos por los otros ductos, es si quieres usar el Baddeley para
un almacenamiento Blob para escenificar tus datos antes de que llegue a esta nación. Y aquí parámetros, no necesitamos ningún parámetro en este punto porque no establecimos ningún parámetro para nuestro Dataflow. Sólo vamos a validar esto. Ha invalidado. Ok, los abogados encontraron así que deberíamos poder publicar esto, pero antes vamos a darle un nombre a esto. Entonces podemos publicar ahora. Ve, se ha publicado. De acuerdo, si te das cuenta, nuestros clústeres es que estás corriendo. Creen que no encontraste el libro. O podemos simplemente ya sea nuevo tutor, me limitaría a dar click en el bug en este punto. Entonces nuestro ducto debería empezar a correr de inmediato y nuestro flujo de datos será arrancado. Enfriar. Tenemos aquí nuestro ducto en progreso, y ahora está ejecutando el código Dataflow. Podemos ver que nuestro ducto ha sido terminado con éxito. Aquí está el, en realidad el tiempo que le llevó a sus pacientes. posible que te hayas dado cuenta ya que tardó un poco hasta que empezó. Pero de nuevo, este es un cúmulo que consigue que se haya subido detrás de las escenas. Por lo que los primeros minutos o segundos, no se
debe considerar realmente porque tubería herramienta fácil, poderosa para trabajar con una enorme cantidad de datos. Y luego una vez que esto esté funcionando, todo debería ser realmente rápido. Para que podamos continuar y revisar nuestra base de datos ahora y ver si tenemos una mesa. Volvamos a nuestra base de datos y todavía tenemos una aquí. Vamos a refrescarnos. Tenemos otra tabla aquí dentro, y luego podemos revisar los datos para ver si todo está ahí. Satélite es genial. Como se puede ver, tenemos 4 mil registros. Del mismo modo que tenemos en nuestros datos fuente. Esto podría ser cualquier día, al igual que lo hicimos para nuestros conjuntos de datos usando ductos, no
podríamos estar trabajando con un tipo diferente de conector. No podría ser Oracle, podría ser archivo Parquet, el lago de datos. Lo bueno aquí es ver y entender cómo podríamos usar las tuberías en los
flujos de datos de mapeo para ingerir datos y transformar los datos utilizando un clúster de Spark sin escribir una sola línea de código. Esto es muy poderoso. Ahora, veamos cómo podemos hacer algunas transformaciones en cómo va a funcionar. Mantente atentos. Gracias por ver.
46. Encurso: módulo 5: Bien.
47. Camino del proyecto: integrar la fábrica de datos de Azure con Databricks: Hola amigos, y bienvenidos a otra lección. Ahora, echemos un vistazo al documento de nuestros proyectos. En este documento contiene un paso a paso lo que se va a requerir de usted si desea integrar eso con Data Factory. Aquí tenemos el caso de uso para esto. Entonces imagina que eres parte de un equipo de analítica que recientemente ha recibido una enorme asignación o analiza datos delictivos para varias ciudades metropolitanas. El equipo de Year ha decidido aprovechar las capacidades de Azure Data Factory Databricks para ingerir transformar en agregado los datos requeridos. Derivado de este caso musical, comprenderás cómo trabajar unas transformaciones de datos rectas usando Databricks y ADF. Para este proyecto, tendremos que tener el campo las cosas ya están en marcha. En nuestro caso, ya tenemos los pasos 12 por lo que podemos saltar y empezar directamente desde el árbol de pasos. Si deseas seguir adelante y crear una nueva cuenta de almacenamiento, tenemos aquí paso a paso ¿cómo hacer eso? Y luego tenemos que agarrar el nombre de los resultados y la clave para usar de Databricks. Una vez que tengamos eso, podemos crear un nuevo nombre de contenedor dentro de nuestra cuenta de almacenamiento. Entonces, solo empecemos directamente con espacio de trabajo de
Azure Databricks y veamos cómo podemos crear eso desde el portal. Empecemos.
48. Cómo crear datas, y importar cuadernos de datos e importar de notas: Voy a mudarme aquí otra vez al portal y buscar otros ladrillos. Podemos simplemente dar click aquí en el botón. Después vas a buscar en tus suscripciones. Tengo sólo una disponible. Vamos a crear un nuevo grupo de recursos en la universidad. Entonces me van a requerir que le dé un nombre a mi espacio de trabajo. Entonces tengo que seleccionar aquí mi región, va a ser del Norte de Europa. Entonces tengo principalmente dos tipos diferentes de categorías de precios. Entonces tengo esto hecho ApachesPark, y luego tengo prima. Lo que me permite tener más granularidad alrededor de la seguridad y el acceso dentro son mi espacio de trabajo. Ese es un estándar de seguridad. Aquí tenemos una opción para seguir con las opciones predeterminadas, lo que significa que vamos a estar usando endpoints públicos para conectarnos a nuestro entorno. O si tienes una infraestructura de estructura, puedes seleccionar una red virtual existente. Entonces vamos a quedarnos con no. Entonces avanzado, no tenemos la opción de seleccionarlo es en este punto. Entonces si quieres agregar algunas etiquetas, esto es importante porque si creas un DAG en este punto, siempre que un nuevo recurso es un engendrado del espacio de trabajo de Databricks, puedes identificar fácilmente a partir de las etiquetas que se heredan de la investigación base. De acuerdo, entonces revisemos. Podemos crear. Genial, nuestro espacio de trabajo está en marcha. Entonces vamos al recurso. Y luego como pueden ver, tenemos un portal para realmente lanzar el espacio de trabajo de Databricks que he leído es un producto no propiedad de Microsoft. Está profundamente integrado, pero no es propiedad de Microsoft. Por esa razón, contamos con un servicio que
nos permite conectarnos al espacio de trabajo real de Databricks. Hagamos click en solos para el espacio. Y luego podemos ver a primera vista cómo se ve. Me va a asignar como mi cuenta de Azure Active Directory. Genial, Así es como se ve. Volvamos aquí a nuestra documentación. Una vez creado esto, tenemos aquí unos pasos más por recorrer. Lanzamos el espacio de trabajo, y luego dentro del espacio de trabajo, podemos ver la barra izquierda, seleccionar usuarios del espacio de trabajo y así sucesivamente. Echemos un vistazo aquí, cómo se ve. Aquí. espacio de trabajo en casa debe darte el mismo conjunto de opciones. Si seleccionas espacio de trabajo y vas aquí directamente a tu nombre de usuario, tienes la opción de importar. Has optado por crear un nuevo cuaderno. Tienes la opción de clonar y cuaderno existente. Y si quieres exportar un existente es de esta opción aquí. Ahora nuestro caso, no vamos a desarrollar nada en este punto. Simplemente comeremos puertos en notebook existente desde la página web de Microsoft GitHub. Entonces vamos a importar, volviendo a la documentación, hemos hecho clic en la placa, y luego vayamos a esta URL y descarguemos el cuaderno. Da clic aquí, y voy a pegar. Y me descargará de inmediato donde vuelvas a portal. Voy a navegar. Genial. Fui a mis carpetas de descarga y luego selecciono el archivo que acabo de descargarlo. Y ahora se puede ver que esto se viola y podemos importarlo. Una vez que importe sus cuadernos. A primera vista, lo harás, puede que no veas nada de inmediato, pero en realidad, cada uno ya ha sido importante. Puedes seleccionar desde el espacio de trabajo o un hogar gatito. Si estamos bajo Workspace, puedes seleccionar a tu usuario. Entonces verás que tienes una nueva carpeta aquí. El directorio contiene los cuadernos que
acabamos de importar y teníamos incluye otra carpeta. Entonces puedes ver aquí tenemos diferentes opciones dando click aquí en el Introducción. Volviendo a nuestra documentación, hay una explicación en video para cada uno de los cuadernos. El cuaderno de Introducción. Te muestra cómo configurar una nueva cuenta de almacenamiento como lo hemos hecho antes, podemos saltarnos esta unidad. Entonces el segundo cuaderno es la ingestión de datos. Se va a ir a aquí, paso a paso, cómo puedes ingerir datos de un pub cuenta de patadas usando Data Factory en una cuenta de almacenamiento. Entonces el tercer cuaderno contiene instrucciones para crear conectividad entre Data Factory y el espacio de trabajo de Databricks. Entonces vamos a ensuciarnos las manos y ver cómo se puede hacer esto.
49. Cómo crear datas, y importar cuadernos de datos e importar de notas: Volver a nuestro espacio de trabajo, como se puede ver aquí, es sólo un paso a paso cómo crear una cuenta de almacenamiento. Y una fábrica de datos. Eso es un omitido es cuaderno porque ya lo
hemos hecho antes y tenemos ambas superficies están promocionando. Entonces si haces click aquí en la oreja, tienes la lista de libretas. Entonces para concluir aquí en el espacio de trabajo otra vez, y luego tienes ingestión de datos. Esa ingestión muestra cómo podemos ingerir el libro, los datos, y luego nos da un token de SaaS para conectarnos a una cuenta de almacenamiento para que podamos ingerir esos datos. Entonces hagámoslo desde Data Factory. Y desde la página principal tenemos los datos del policía. Vamos a dar click en eso. Aquí se puede ver, estamos siguiendo paso a paso. Y luego tenemos al mago de copas al que acabamos de hacer clic. Ahora démosle un nombre a nuestro ducto. Seleccionemos esto y una copia. Ahora vamos a seleccionar los pronombres. Siguiente. Entonces este es el segundo paso. Tenemos que crear una nueva conexión. Entonces si hace clic aquí en nueva conexión, busquemos almacenamiento. Y haga clic en Almacenamiento de blob. Nuevamente, volviendo a aquí, podemos seleccionar Librerías, podemos continuar. Entonces tenemos que mantener un nombre a eso. Y luego tenemos que seleccionar mapa de autenticación que vamos a utilizar el URI SAS. Entonces renombraré será un conjunto de datos perfecto. Si haces click dos veces, No te preocupes, va a reformar
lo cual todo el dolor. Pero eso está bien. Si fuiste a ver el formato de esa información, solo
puedes hacer clic aquí en el panel izquierdo y volverá. Por lo tanto, destacemos este conjunto de datos de libros. Ese va a ser el nombre de nuestro servicio vinculado. Entonces tenemos el tiempo de ejecución de integración va a ser el mismo. Entonces tenemos el método de autenticación. Va a ser Sazzy tu ojo. Ahora vamos a copiar estos sizer. Vuelvo a nuestro servicio vinculado y se pegará aquí. Se puede ver que ya está creado. Entonces podemos probar nuestra conexión. Ahora hay una conexión. Genial, prueba siendo probada con éxito. Volvamos a nuestro cuaderno. Entonces. Hemos hecho esta prueba, la conexión, se terminó, para que podamos terminar la creación de nuestro Servicio Vinculado. Esto es lo que vamos a seleccionar ahora, después e su siguiente. Ahora tenemos que seleccionar nuestra carpeta, la ubicación de los datos dentro del servicio vinculado que acabamos de crear. Volvamos aquí para denotar libro para obtener la ubicación correcta. Se puede ver la ubicación especificada es capacitar datos delictivos 2016. Entonces vamos a navegar por esto entonces tenemos entrenamiento. Es el próximo lote. Datos del crimen, no 16, Eso es lo que queremos. Vamos a elegir esta carpeta. Tenemos que seleccionar una copia binaria y luego ir a continuación. Tenemos que asegurarnos de que hemos seleccionado una copia presumiblemente y también binaria. No necesitas preocuparte por ningún tipo comercial el
momento porque los datos ya son caso Park, lo que está comprimido por defecto. Y podemos dar click en Siguiente. Aquí. Se puede ver que hice este paso está terminado, que es un servicio. Ahora tenemos que concentrarnos en esta nación. Tenemos que crear una nueva conexión para nuestro destino. Usemos una conexión existente que ya tenemos, santos, hemos creado una antes, así que no necesitamos crear esta nueva cuenta de almacenamiento. Eso es todo saltó esta barcaza adentro. Vuelve aquí a nuestra creación. Y tenemos mi primero, vamos a dar click en eso. Vamos AD conectado. No necesitamos obtener la clave ni nada porque
ya estamos conectados usando la identidad administrada. Para que podamos conseguir una de las carpetas o una puede escribir el nombre de carpeta que quiero, para que se cree en tiempo real. Vamos al cuaderno y echemos un vistazo a los requiere este nombre de nación. Vamos a copiar esto. Y aquí están la ruta de la carpeta. Vamos a basar esto. Y entonces no necesitamos preocuparnos por nada de esto. Simplemente puedes quedarte con las opciones predeterminadas. Ahora, sólo tenemos que entrar y nos quedaremos con todas las opciones por defecto. Aquí está la página de resumen, pero todo lo que acabamos de hacer, Está bien. Simplemente iremos a continuación. Y luego se va a crear o por avión. Hará todo por nosotros. Llame está terminado. Entonces tenemos un ducto. Ingerimos un conjunto de datos público. Terminemos. Enfriar. Vayamos al ducto que acabamos de crear, seleccionamos Pipeline y luego tenemos ducto de laboratorio. Aquí. Verás que tiene algunos nombres raros. Entonces vayamos aquí muy rápido y veamos si todo está bien. Ahora lo que podemos hacer es cargar esos datos. Podemos correr el ducto para ingerir al público el desaturado en nuestro lago de datos. Vamos a dar click en el libro y se iniciará el ducto. Enfriar, los datos han sido transferidos. Entonces echemos un vistazo y veamos cómo se ve. Genial. Tenemos inflamaciones de Khomeini volar nos lee esos datos, el tamaño de los datos, el número de conexiones y todo. Genial, se ve bien. Si vamos a nuestro conjunto de datos, deberíamos tener cuándo nueva carpeta. Ahora lo hice Lake.
50. Valorar la transferencia de datos en Databricks y la fábrica de datos: Si vamos a nuestro conjunto de datos, deberíamos poder validar todos los datos transmitidos. Por lo tanto, destacemos nuestra tarea de copia. Entonces ve a nuestro fregadero. Contamos con nuestro conjunto de datos. Abramos el conjunto de datos. Y luego desde aquí podemos navegar cuál es el contenido del conjunto de datos. Por lo que de inmediato podemos ver que tenemos en nuestro conjunto de datos las carpetas que acabamos de crear. Y entonces aquí tenemos el nivel raíz arriba de la carpeta. Después tenemos todos los datos que vimos desde la fuente cuando nos autenticamos usando tokens SAS. Entonces todos los archivos están aquí. Eso es genial. Vamos a dar click. Está bien. Y ahora que tenemos nuestros datos, Vamos a funcionar a pesar de jugar esto, McCrea había salvado. Genial. No obstante, se ha guardado la tubería. Ahora volvamos a nuestro espacio de trabajo y veamos qué son nuestros cuadernos ya que tenemos la parte del monitor de la corrida que acabamos de hacer, después nos aseguramos de que los archivos hubieran sido transferidos al almacenamiento de Blob. Entonces todo está bien. Tenemos el nombre de carpeta correcto. Entonces podemos examinar no adivinó datos. Entonces tenemos esta parte del cuaderno. Entonces aquí es en realidad donde empezamos a trabajar con Databricks para ver qué está pasando con nuestras cuentas de almacenamiento, datos y así sucesivamente y así sucesivamente. Aquí, tenemos que llenar algunas opciones. Empecemos llamado nombre, el que estamos usando. Entonces aquí, desde aquí, desde nuestro conjunto de datos, podemos revisarnos. Entonces si tienes una edición, y entonces aquí tenemos el nombre de nuestra cuenta de almacenamiento. Solo seleccionemos asegurarnos de que todo esté configurado correctamente. Entonces no podemos el nombre de nuestra cuenta de almacenamiento. Ahora tenemos que conseguir la clave para esa cuenta de almacenamiento. Por lo que estos también forma parte de nuestra documentación. Por lo que si lo revisas aquí, no
deberías poder encontrar la ubicación correcta donde conseguir la cuenta de almacenamiento. Vamos al portal. Entonces te hacen una prueba. Busquemos nuestra cuenta de almacenamiento es la primera opción aquí para mí. Y tenemos acceso T's. Vamos a dar click en eso. Entonces mostraré mis llaves y luego copiaré la primera opción que tengo. Y entonces colocaríamos este valor aquí. Entonces podemos ahorrar eso. Pero antes de ejecutar este código, tengo que crear un clúster, que en realidad es lo que se va a ejecutar. Mi código es el recurso informático. Se va a realizar la operación. Para ello, hagamos los siguientes pasos. Aquí en el panel izquierdo, si seleccionas en clústeres, podemos ver que sí no teníamos clústeres ejecutándose por el momento. No hemos creado ningún clúster, sí. Por lo que tenemos que crear un clúster y adjuntar nuestro cuaderno al clúster. Hagamos eso. Yo sólo voy a darle un nombre. Conseguiría un solo nodo. Entonces conseguiré este cluster que tenemos disponible, que es para un curso para una memoria tangente. Pero debe opciones. Asegúrate de que todo esté bien. Y vamos a dar click en Crear cluster. Grado. Nuestro clúster ya está arriba. De ninguna manera. Vas a ser un poco de espacio aquí porque puede tardar unos minutos hasta que sea molesto. Pero entonces también se está ejecutando. Puedes empezar a ejecutar el código usando nuestro clúster. Porque puedes ver aquí no tenemos libros. Tenemos todos los cuadernos adscritos a este cluster. Como se puede ver, no tenemos cuadernos se adjuntan a tres guión. Entonces si uno agrega algunas bibliotecas y así
sucesivamente, así sucesivamente, puedes ir a otras 1000 aquí. Entonces volvamos a nuestro espacio de trabajo e ingestión de datos. Aquí, nuestro cuaderno. Por lo que necesitamos adjuntar esto, como pueden ver aquí, está desligado. Si hacemos clic aquí, ahora
podemos seleccionar el clúster que ya tenemos, el que acabamos de crear. Entonces, vamos a dar click aquí. Y estos adjuntarán nuestro cuaderno a ese clúster. Y luego si seleccionas esta celda, puedes ejecutar la celda y solo la celda. Puedes tener la opción de ejecutar todas las celdas si quieres. Pero en este punto, sólo queremos asignar las variables, los valores que hemos sustituido. Entonces para asegurarnos de que movemos a esos artesanos aquí al final y al principio. Entonces sólo tenemos los valores que queremos. Entonces podemos ejecutar esto. Sigamos aquí en el botón Play y luego ejecutemos celular. Entonces como puedes ver, fue bastante rápido porque solo asignó los valores a las variables. Vamos a saltarnos esto. Esto es justo si quieres ver el contenido del almacenamiento de sangre, ya lo hicimos, así que solo saltaremos esta parte. Y luego aquí es donde vamos a leer nuestro archivo percusivo, los datos del crimen, Nueva York 716 datos Boston en nuestros flujos de datos. De acuerdo, así que resaltemos la celda y corramos la celda. Y luego, lo siento, me gusta DataFrame. Entonces podemos ejecutar esto en nuestro DataFrame. Está bien, Esto se ve bien. Ahora tenemos los dos que ofensa creó y en realidad podemos mostrar el marco de datos. Vamos a ejecutar la celda y Crear. Podemos ver el contenido del archivo. Aquí de nuevo, podemos correr también para asegurarnos de que esté bien. Raspar. Entonces aquí tenemos a los amigos beta creados uno para el arco. Y luego quieres para Boston, puedes usar diferentes nombres para tus amigos de datos. Y la siguiente parada es la transformación. Por lo que vamos a seleccionar el otro cuaderno para hacer la transformación en estos datos.
51. Cómo usar ADF para organizar la transformación de los datos utilizando un cuaderno de datos: El siguiente paso para nosotros aquí es comenzar con las transformaciones de datos. Por lo que puedes dar click aquí y estamos prontos con el tercer cuaderno. Se trata de un libro descriptivo que nos muestra cómo podemos lograr la transformación de datos. Entonces el primer paso es obtener realmente un token de acceso. Y luego como segundo paso, vamos a crear una actividad en ADF para
conectarnos al cuaderno aquí desplegado en Databricks. Después miramos juntos las actividades. Vamos a publicar el ducto y ejecutar el ducto. Una vez que se ejecuta, en realidad
podemos validar desde Data Factory si se ha tenido éxito o no. Después volveremos al de trabajo directo y comprobaremos la ejecución de nuestras transformaciones. Entonces volvamos aquí arriba y empecemos por crear nuestro token de acceso. Hagamos clic aquí en la Configuración de usuario. Entonces hemos generado un nuevo token. Vamos a dar click en eso. Y debes darle un nombre a esta ficha. Así que solo mantén el token negro. Y aquí está la vida de mi ficha. Puedes cambiar a cualquier número que quieras. Voy a fijar 30 días y generan. Entonces esto es importante que copie esto en este momento porque este es el único momento en que estará viendo este token. Entonces vamos a cortar esto. Presiono Control C. Y luego cierro esto por ahora. Y guardaré mi plática aquí mismo. ¿ Cuáles son mis creadores de acciones? Volvamos a nuestro cuaderno. Y luego se puede ver que tenemos que volver a nuestra fábrica de datos y crear nuestro servicio vinculado. Volvamos a eso, una fábrica. Se, Vamos a agarrar aquí una actividad de Databricks, y luego seleccionaremos OK. Entonces desde aquí se puede ver que tenemos algunas opciones. Podemos seleccionar un servicio vinculado, que será el espacio de trabajo en el que estamos trabajando en este momento en la configuración donde podemos establecer la ubicación de nuestro cuaderno. Entonces, empecemos por crear un nuevo enlace en servicio. Puedes dar cualquier nombre que quieras. Simplemente me quedaría con Azure Databricks de Estados Unidos. Voy a estar usando un Zoom Zoom Integration Runtime. Aquí. Puedes agarrar el espacio de trabajo de la suscripción. Voy a seleccionar mi suscripción, y luego seleccionaré mi espacio de trabajo. En este punto, deberías ver dónde espacio de trabajo justo aquí. Tenemos tres opciones de clústeres. Tenemos la opción y seleccionamos un nuevo clúster. Podemos usar una existente o una incidencia para ya que ya hemos creado nuestro clúster, vamos a seleccionar Cluster Directorio Existente. Nuestro tipo de autenticación será token de acceso. Usaremos el token que acabamos de crear desde el espacio de trabajo de Databricks. Simplemente copiaremos este token. Entonces deberíamos poder ver el clúster que creamos. Y está justo aquí. Entonces seleccionemos esto y probemos nuestra conexión. Demos click en Crear. Genial, ya se ha creado. Entonces podemos comprobar aquí el paso a paso, lo que acabamos de hacer del servicio vinculado. Y luego tenemos las ubicaciones de nuestros cuadernos. Por lo que esta es la pestaña Ajustes. Tenemos que seleccionar a tus usuarios, y estos serán tu cuenta de usuario. Y entonces tenemos que apuntar realmente al cuaderno en lugar de sólo a la carpeta. Entonces lo que puedes hacer aquí, podemos volver hacia los espacios. Haga clic en incluye. A partir de aquí, si resalta esta opción, tienes todo el directorio donde te encuentras en este momento. Por lo que si solo resalta esto y café, puedes obtener la URL según lo solicitado. Volvamos a nuestra bien, ya que tenemos esta información, volvamos a eso una fábrica y peguemos esta información aquí mismo. Contamos con la ubicación de nuestro cuaderno. Vamos a los parámetros base. En este punto, necesitaremos 20, unos parámetros que se pasarán a nuestro cuaderno como argumento. Entonces esto es bastante importante. Ya va a ver que tenemos esta información aquí también. Por lo que vamos a necesitar el nombre de la cuenta, clave de
cuenta y el nombre del contenedor. Podemos obtener esta información de mi cuenta de almacenamiento, de propiedades y del portal. Entonces aquí añadiré un parámetro y añadiré segundo, tercero. Ahora, nuestro segundo parámetro será la clave de cuenta. Y habrá un nombre de contenedor. Ahora vamos a obtener los valores para esos parámetros. Aquí en el portal, he buscado la cuenta de almacenamiento. Queremos las claves de acceso. Premier, tienes dos información que necesitamos para mostrar llaves, conseguimos la clave. Entonces podemos básicamente contar clave aquí mismo. Ahora podemos obtener el nombre de la cuenta. Podemos pegar tu rojo aquí. Y luego necesitamos el contenedor. Nuestro contenedor es DWT. Entonces vamos a pegarlo aquí. Genial. Tenemos toda la información que necesitamos. Entonces lo que vamos a hacer, vamos a encadenar a esos dos juntos. Por lo que nos aseguramos de tener el orden correcto,
es decir, vamos a importar los datos que contiene. Procesaremos esos datos. Una vez hecho esto, finalmente podemos publicar nuestro ducto. Entonces vamos a dar click en publicar para asegurarnos de que todo esté guardado. Nuestro ducto ya está publicado. Ahora vamos a ejecutar este ducto. Vamos a hacer clic en gatillo ahora y seguir la ejecución de nuestro ducto. Si vamos a monitorizar, deberíamos ver una nueva IA en progreso. Vamos a dar click en el live en avión, ¿de acuerdo? O si nuestros clientes fallaron. Entonces echemos un vistazo y veamos si podemos solucionar eso. Hagamos click en espejo. Y podemos ver que hay un error con nuestro camino. Debe comenzar con barra inclinada hacia adelante. Si retrocedemos y prestamos atención a la documentación, deberíamos empezar con los usuarios de barra inclinada hacia adelante. Y si copias directamente del propio cuaderno, vas a conseguir espacio de trabajo y no se debe incluir. Volvamos a nuestro ducto. Y si revisamos el ducto y vemos qué tenemos, vemos que esto está incluido por lo que no debemos incluir espacio de trabajo. Eliminemos eso. Vamos a publicar de nuevo nuestro ducto. Genial, se está publicando. Ahora volvamos a ejecutarlo y a ver cómo va a quedar. Pasemos a monitorizar. Vamos a darle un click mal. Nevando para nuestro propósito, primero
vamos a copiar los datos y luego ejecutar nuestro cuaderno. Se ha tenido éxito, y podemos comprobar cuál es la salida de nuestro cuaderno. Vamos a llegar aquí. Y tenemos un poco de información aquí de la ID de carrera. Entonces tenemos el destino de nuestros datos, las tarifas de servicio ejecutadas. Eso es bastante guay. Otra cosa interesante aquí a notar es que si resalta el pequeño vaso aquí, podemos tener un poco de información. Si seleccionas la actividad de cuaderno, podemos ir a los montones de borrado de página equivocados dirigiéndonos al espacio de trabajo, vamos a hacer click en eso y podemos comprobar la actividad que se ha ejecutado desde ducto. Por lo que aquí podemos ver cuánto tiempo tardó cada una de las celdas en terminar. Entonces estás creando los dataframes. Estamos normalizando los marcos de datos para cada ciudad, las transformaciones de auditoría en la creación de un único DataFrame. Y por último, exportamos los datos de los preparadores a una tabla persistente. Y luego desde aquí ya tenemos una mesa. Como se puede ver, la startup llegó tan bien, y los datos persistieron como una tabla. Entonces volvamos a nuestra documentación. Y es podemos ver que solo muy peleamos la ejecución de nuestro cuaderno como un seis pasos aquí, podemos echar un vistazo a los datos usando este cuaderno. Si usted nota aquí no hizo libros desprendidos. Por lo que puede adjuntar al clúster antes de ejecutar. Vamos a llegar aquí. Y voy a adjuntarme a mi primer clúster, y ahora está adherido. Entonces lo que pueda hacer, puedo conseguir los homicidios de mesa, el que acabo de crear a partir de la transformación. Y podemos ejecutar este pH celular. Tenemos la salida de la tabla. Entonces esto es un poco exponencial. De lo que deberíamos ver, podríamos revisar primero varias tablas si queremos, por ejemplo, Nueva York o cualquier otra tabla. Volvamos aquí a los lados OEM otra vez. En este caso, ya que estamos ganando es Park, esto es bastante fácil para nosotros porque
solo puede ejecutar el lenguaje de programación con el que estás más familiarizado. Entonces en ese caso aquí nacemos un SQL para obtener las mismas salidas de la venta de ambos. Demos click en Run cell. Vamos a crear, tenemos la salida de nuestros datos. En ese caso aquí estamos limitando BI desktop primero 20 registros. Eso es bastante guay. Entonces si vuelves aquí, podemos hacer algo de agregación con esos datos. Se trata de los datos transformados que no son los datos brutos. Vamos a volver a hacer clic aquí, ejecutar esta celda. Estamos entrando de nuevo en un DataFrame. Y vamos a, Vamos a mostrar este DataFrame. Vengamos aquí y venderemos. ¿ Y qué sabes? Contamos con una información visual de nuestra agregación. Ese es el poder de Databricks y Data Factory juntos. Una vez que cargues los datos en Data Factory, puedes crear todas estas transformaciones con Databricks e integrarlas ambas juntas. Bastante fácil. Enhorabuena, acabamos de completar nuestro laboratorio en nuestro proyecto. En nuestro próximo módulo, veremos cómo podemos desplegar a la producción. Todas esas cosas geniales que acabamos de hacer usando un pipeline CICD de Azure DevOps. Gracias por ver. Te veré pronto.
52. Encurso: módulo 6: Bien.
53. DevOps - cómo crear una organización y proyecto de Azure DevOps y: Hola amigos, y bienvenidos a otra lección. En esta lección, veremos cómo puede crear una organización de Azure DevOps y un proyecto. Para que podamos empezar a crear nuestros repositorios y ductos. Aquí en el portal, puedes buscar Azure DevOps. A continuación, seleccione Organizaciones de Azure DevOps. Y aquí abajo puedes ver mi organización de Azure DevOps. Vamos a dar click en eso. Serás pronta con esta página. Voy a desenfocar parte de la información aquí. Y luego vamos a dar click en Crear nueva organización. Entonces puedes darle un nombre a tu organización. Seleccionemos una región cercana a tu ubicación física. En mi caso, seleccionaré sal del Reino Unido. Muy bien, amigos, ahora que han creado su organización, es hora de crear un proyecto. En palabras simples, la organización es el nivel padre de un proyecto. Y luego cuando creas repositorios, ductos, esos elementos pertenecen a un proyecto. Entonces empecemos a crear nuestros primeros proyectos y nombrarlo como PDF. Será privado. Eso está bien. Y luego haga clic en Crear proyecto. Este es el primer visual de nuestros proyectos. Como puedes ver viene y T y la mayoría nuestra tarea se hará desde el panel izquierdo aquí en Repositorios y ductos. su próxima lección, veremos cómo podemos crear un repositorio que contendrá todos los archivos JSON de nuestra Data Factory, CH y nos vemos pronto.
54. DevOps - cómo crear un repositorio Git en Azure DevOps: Muy bien amigos, este es el momento de crear nuestro primer repositorio para restaurar el código de nuestra fábrica. En el panel izquierdo, vamos a dar click en repos. Y luego aquí como puedes ver, viene con un repositorio por defecto con el mismo nombre de nuestro proyecto. En ese caso, aún no se inicializa. No hay una unidad, no hay archivos en absoluto. Entonces por eso no vemos nada. Pero vamos a crear un nuevo bot web y ver cómo puede inicializarlo. Hagamos clic aquí en el menú desplegable y pinchemos en Nuevo Repositorio. Y sólo vamos a darle un nombre. Por lo que nos voy a dar su edf QuickBooks, tú eres uno. Y luego agregaremos un archivo readme para iniciar el repositorio. Demos click en Crear. Vamos a crear nuestro primer informe creado. Y luego si vamos a las ramas del lado izquierdo, podemos ver que tenemos a nuestros creadores de sucursales por defecto. Volver al año pasado. A lo mejor tendríamos una rama maestra como nombre por defecto. Microsoft ha comenzado a cambiar esos nombres predeterminados, dominio en lugar de master. Eso está bien, Trabajemos conmigo y luego veamos cómo puede conectar nuestra Data Factory a este repositorio. Esto es todo por ahora. Nos vemos en la siguiente lección.
55. DevOps - cómo enlar la fábrica de datos al repositorio de Azure DevOps: Hola amigos, bienvenidos a otra lección. En nuestra última lección, pudimos ver cómo puede crear una bola web. Ahora, conectemos nuestra Factoría de Datos a este repositorio. Para eso, Volvamos al portal y volvamos a nuestra fábrica de datos. Ahora que estamos aquí en la página principal de nuestra Data Factory, puede que hayas notado que tenemos algo llamado repositorio de configuración. O si vas a gestionar, también
tenemos buena configuración. Entonces volvamos a la página de inicio y haga clic en Configurar repositorio de código. Entonces a partir de aquí tenemos los tipos de repositorios disponibles desde que creamos un repositorio Git, hagamos click en peligro DevOps Git. Después tenemos nuestro directorio, después tenemos cuenta de DevOps. Esta es la organización que creamos. Entonces el nombre del proyecto, que será ADF. Entonces tenemos que crear un nuevo repositorio o hacer clic en existente. Ponemos literaria ya que ya creamos horas, Vamos a utilizar existente y luego seleccionar Azure AD F Repo uno. Y entonces tenemos el rango de colaboración. Ahora nuestro caso aquí, queremos seleccionar el principal, que es nuestra sucursal por defecto. Y luego tenemos lo que se llama Publish branch. Se trata de una sucursal utilizada Data Factory. Entraremos más en detalles alrededor de eso en nuestras próximas lecciones. Entonces esta es nuestra carpeta raíz. Esta es la ubicación donde Data Factory pondrá carpetas, intenta leer carpetas. Entonces vamos a quedarnos con el nivel de la raíz. Y esto aquí es bastante importante en este punto. Ya que hemos estado haciendo muchas demostraciones y creando ductos, ya
tenemos artículos en nuestra Data Factory, y esto es demasiado bajo si esos artículos en nuestra ag para oponerse al árbol, Vamos a asegurarnos de que esto sea seleccionado. Entonces esta es la ubicación donde importaremos los objetos existentes de nuestra API, la fábrica a la llave inglesa. Utilizaremos la rama de colaboración, que SON casos de dominio. Eso es todo lo que se requiere. Demos clic en Aplicar y ver si podemos vincular nuestra Data Factory al repositorio que acabamos de crear. Eso se llama ribosa ahora conectada. Y si seleccionamos todo en el panel izquierdo, podemos ver que aquí tenemos un nuevo elemento, que es el rango de trabajo. Desde aquí, se puede trabajar en diferentes marcas de características. Podrás crear nueva marca para tus compañeros. Y nadie se solaparía con la palabra y evitarías muchos errores. Daré click en Crear Nuevo, y pongo mi nombre y guardo. Entonces como pueden ver, estoy creando una nueva rama a partir de la principal, la cual contiene los ítems que nos importan. Entonces desde aquí puedo trabajar con cualquier tarea que quiera y no afectaría a la rama principal. Eso es todo por ahora, hemos visto cómo conectar nuestra fábrica de datos al hilo ondulado. Siguiente lección, veremos cómo podemos trabajar con los franceses. Mantente atentos. Nos vemos pronto. Gracias por ver.
56. DevOps: cómo hacer la fábrica de datos de Azure con ramas: Hola amigos, bienvenidos a otra lección. Azure Data Factory puede considerarse como el servicio ETL principal para enviar, sondear y transformar datos en Azure. El objetivo de esta lección es explicar cómo es la liberación entre entornos, por ejemplo, se producen
el desarrollo y la producción y cómo podemos aprovechar los repositorios que creamos dos versiones de nuestro código. La imagen que tenemos aquí en frente de burbujas representa el ciclo
de vida de las tuberías ETL se despliega en Azure Data Factory con un repositorio git. En el primer paso, tenemos 12 para el sandbox porque este es el momento en que la Data Factory está asociada a un repositorio Git. Entonces los desarrolladores, pueden comenzar a trabajar en rama de funciones. Y entonces supongamos que John desarrollador está trabajando en una nueva característica. Entonces crea una nueva rama. Una vez que está contento con todas las cadenas, todo lo que hizo. A continuación, crea una solicitud de pull para fusionar este código en la rama maestra. rama maestra, en nuestro caso, como se podía ver antes, es la rama principal. El convenio de nomenclatura ha cambiado para este código al surgido de su rama a la rama principal porque tiene que ser aprobado. Por lo general, existen políticas que impiden que los desarrolladores se fusionen directamente sin aprobación. Este es el momento en que se revisa el código y si todo está bien, el código se fusiona. Por último, como puedes ver aquí, tenemos nuestra codificación, nuestra rama principal, cuando asociamos la fábrica de datos con un repositorio git en nueva rama, se crea entre bastidores, pero aún no es visible. Como recordarán de nuestra última lección, pudimos ver que sólo teníamos una rama, la rama principal. Cuando hacemos click en la acción de publicada en Data Factory, vamos a pasar por esto visualmente en nuestra fábrica. ¿ El código de la sucursal principal va a una sucursal llamada ADF publicado. Y luego en este punto podemos ver la sucursal desde el repositorio. Como se puede ver aquí. Esto es algo que ya está en Artifactory. Algunos de los elementos, se hacen manualmente si eres por el desarrollador o como resultado de una acción. Por ejemplo, hace clic en el botón Publicar una vez que el código esté en el ADF en esta rama, este es el código que está listo para ser enviado a producción. En el lado de las cosas de Azure DevOps, aquí es donde creamos la canalización de lanzamiento para ver este código envuelto y parchearlo para que se libere a la producción. Todos los elementos que tenemos dentro de Data Factory, por ejemplo, ductos, servicios vinculados, flujos de datos. Cada elemento que tenemos se crea como una notación JSON. Entonces este es nuestro código y esto es lo que vuelve a feliz aquí para ser desplegado. Entonces hemos liberado se suelta puede ser manual o automático. Depende de cómo crees que estás lanzando Azure DevOps. Y entonces aquí es cuando el código se envía a una producción que una fábrica, es a veces, podría parecer muy complicada con muchos pasos. Pero mirando desde lo visual, es bastante fácil de entender una vez que lo haces una o dos veces. Entonces volvamos a eso una fábrica y veamos cómo funciona esto visualmente desde el Portal de Datos y también desde Azure DevOps.
57. DevOps: fusión de la fábrica de datos a la fuente de colaboración: Ok chicos, Ahora estoy aquí en el portal cuando se trata de despliegues CISD. El único entorno que asociamos con un repositorio GET son los entornos de audio del fondo de desarrollo. Simplemente recibiríamos el código que publicamos en el repositorio de Git. De acuerdo, así que ahora nos mudamos a nuestra fábrica de datos, tenemos la Fábrica de Datos en la que hemos estado trabajando hasta ahora. Tenemos aquí nuestros ductos y tengo mi sucursal. Por lo que esta es mi rama de funciones. De acuerdo, Echemos un vistazo a nuestro diagrama y veamos cómo hacemos eso paso a paso. En nuestro caso, ya hemos hecho este tipo señalando porque ya
asociamos detalles y luego tenemos nuestros ductos creados en nuestra rama de funciones. Ahora, tenemos que crear una solicitud de pull para fusionar nuestros códigos con la rama maestra. Echemos un vistazo a nuestro repositorio en Azure DevOps para ver si tenemos un código donde tengo abiertas mis DevOps de Azure. Voy a abrir los proyectos que creamos. Entonces revisaré aquí en el lado izquierdo mi repositorio. Entonces hemos creado este repositorio. Como pueden ver, aquí tengo algunos artículos. Creamos esto fueron los commits que hicimos antes. Contamos con nuestra sucursal principal. No tengo una sucursal llamada ADF y describo publicar. Si recuerdas aquí, esta es la rama que se crea automáticamente. Entonces en este punto tenemos algún código aquí en nuestra sucursal principal. Vamos a crear una solicitud de pull para mover lo que tenemos en nuestra rama de características de mi promedio se ramificará a la rama principal, ¿de acuerdo? Desde aquí, puedes hacer clic aquí en el menú desplegable y dar clic en crear una solicitud de pull. Me va a redirigir a Azure DevOps. Y luego desde aquí puedo crear una solicitud de pull. Pero como pueden ver, ya que ya lo hicimos si inicial se fusionó o no hubo cambio para mí también, para fusionarse en la rama principal. Y sólo vamos a agregar algo a Data Factory sólo para que este cambio sea recogido aquí. Y podemos ver cómo creamos una solicitud de pull y emergemos. Bien, Vuelve a la Fábrica de Datos. Tenemos nuestro ducto, así que sólo voy a clonar uno de los ductos de aquí. Y podemos seguir adelante y crear una nueva solicitud de pull. Entonces basta con dar click aquí en acción de pan rallado y podemos clonar. Entonces tenemos un clon de nuestro ducto. El nombre se copia al final. Ya tenemos y se ha recogido el cambio. Lo que podemos hacer, podemos salvar a todos. Entonces estoy ahorrando contra mi sucursal. Aquí se pone gris. No puedo publicar nada. Entonces esta es una de las razones por las que solo podemos ejecutar modo de
depuración para una nueva canalización porque aún no se ha publicado mi código. Ahora vamos a crear una solicitud de pull para fusionar mi copia en la rama maestra. Si cambio mi, mis bromas dos rama principal, puedes ver que no tengo el ducto que acabo de clonar porque aún no se ha fusionado. Por lo que mi característica se ramifica por delante de mi sucursal principal. Bueno, volvamos a hacer clic aquí y crear una solicitud de pull. Se va a ir a retractarme otra vez. Y como pueden ver, me trae aquí a esta página que es de integrador ProQuest, por lo que puedo agregar alguna descripción o cualquier cosa que un ID, pero normalmente recoge el cambio en que hice. Entonces iré a conseguir una creación. Tengo aquí una nueva solicitud de pull, y esto está activo. Este es el estatus. Si vuelves a hacer clic aquí en el lado izquierdo solicita para que veas que tienes mente, tienes actores, has completado un abandonado. Por lo que seguiré adelante y aprobaré mis solicitudes. Por lo general, no tendrías este permiso en nuestro entorno empresarial. Por lo que seguiré adelante y aprobaré solicitudes. Y entonces supongamos que alguien más lo hizo. Es mi deber venir aquí y completar. Entonces y entonces me limitaría a ir y completar la fusión. Fusionando una solicitud de pull. Genial, No es fusión. Volvamos aquí y comprobemos si tenemos esto ahora en la rama principal, que está aquí. Es así como creamos una solicitud de pull. El tercer paso de nuestro, nuestro flujo de trabajo. Ahora que tenemos nuestro código aquí, es hora de pulir. Por lo que realmente podemos publicar este código a Data Factory. Y si queremos ejecutar el ducto con un disparador o si quieres desplegar el código al entorno de producción está en esa versión de los datos. Este es el momento, aquí es donde se puede hacer eso. Entonces sigamos adelante y pinchemos en Publicar. Recuerda, tienes que estar corriendo desde tu sucursal principal. Cuando interesante notar antes de seguir adelante y publicar un código, es que mi sucursal, todo ha desaparecido. Esto por el tipo de los fusionados que hicieron durante mi emerge. Había una casilla aquí. Y luego uno de la caja grande dice que si querías eliminar tu emprendimiento, entonces esta es una buena práctica para que empieces. Siempre limpio. Para que veas que estoy en la sucursal principal y ahora ya no está gris. Puedo seguir adelante y publicar mi código. Se va a seguir adelante y publicar el código. Y luego me va a dar un resumen de eso. Entonces sólo tengo un cambio aquí. Y luego seguiré adelante y pincharé en Publicar. De acuerdo, mi editor ha sido tenido éxito. Entonces como puedes ver, aparece ahora generando plantillas ARM. Entonces este es el momento que podría ADF y describir editor se crea en todos mis ductos en nuestra auditoría Jason's que tengo que componer mi fábrica de datos se empaqueta. De acuerdo, ahora volviendo al repositorio, ahora lo hemos hecho, vamos a refrescar esta página grisácea. Ahora como puedes ver, tenemos el pulimento F. Entonces con eso, podemos terminar nuestro flujo de trabajo aquí porque nuestro código está listo para salir. Estamos contentos y esta es la versión que queremos ir en vivo. Ahora, veremos cómo podemos crear un ducto de liberación para publicar este código. Fábrica de Datos de Producción. Mantente atentos y nos vemos pronto. Gracias por ver.
58. DevOps - cómo crear una piela de CICD para la fábrica de datos en Azure DevOps: Hola amigos, bienvenidos a otra lección. En esta lección, veremos cómo podemos usar Azure DevOps para crear lanzado por persianas que publiqué en Azure DevOps es la herramienta principal que usan varios departamentos para implementar esos objetos
de fábrica desde el desarrollo hasta la producción cuasi ambiental medio ambiente y demás, así sucesivamente. Ahora, pasemos a nuestra cuenta de Azure DevOps. Estoy en la página de inicio de mi proyecto KDF. Entonces para empezar con la creación de nuestros ductos de liberación, Volvamos aquí al panel izquierdo. Y como pueden ver, tenemos lo que se llama liberación. Vamos a dar click en eso. Genial. Estará vacío porque aún no hemos creado nada. Entonces vamos a dar click en mu por blanco. Genial. Primer paso aquí me muestra mi artefacto y escenario. Está todo gris porque tengo que seleccionar algo donde estoy sacando el código y qué tareas quiero usar. Por lo que aquí tienes una serie de opciones fuera de la caja para que elijas. Entonces, si estamos trabajando con un desarrollo de aplicaciones, es muy probable que tengas aquí una opción para ti fuera de la caja. Simplemente vamos a seguir adelante y dar click aquí en el hueco vacío muy superior. Y entonces simplemente lo haremos nosotros mismos. Entonces yo también voy a cerrar este de aquí. Tenemos agregar un artefacto, por lo que esta será nuestra sucursal publicada de ADF desde el repositorio. Vamos a dar click en eso. Entonces aquí tienes diferentes opciones para obtener tu código. Aquí podría construirse. Entonces tienes el repositorio es si somos rápido get hub o inflamaciones, también
tienes la opción. En nuestro caso sería un zoológico repositorios get, Vamos a seleccionar nuestros proyectos serán ADF. Entonces esta será la fuente. El origen es el repositorio. Este es el que creamos y guardamos nuestro código. Entonces tenemos la rama por defecto. Esta es será la ubicación final de nuestros datos. Por lo que tenemos principal y ADF publicado. En este caso, seleccionaremos ADF publicado. Una vez más, estamos en esta etapa aquí y estamos desarrollando y obteniendo los datos de nuestros artefactos de ADF publicados, acuerdo, seleccionamos la solución EDF y luego queremos la última versión. O es la última versión de la sucursal. Y desde aquí, si cuando cambio las áreas de origen, normalmente
me quedo con esta opción. Basta con hacer click en el borde. Ahora, genial. Esta es la ubicación de nuestro código. Estos son los datos que publicaremos a nuestro entorno. Aquí están los estapes. Podrás tener múltiples etapas en el este de Asia como entorno. Por ejemplo, si uno cambio este cuatro o producción, se
puede dar cualquier nombre y seguir agregando más y más. Una vez que haces uno, puedes clonar y usamos la tarea que creaste. Y caso Yara, nos vamos a quedar con el producto porque sólo tenemos una fábrica de datos de producción creada. Aquí ahora es el momento de crear las tareas. Azure DevOps te ofrece un agente de forma gratuita, lo que significa que tienes un recurso de cómputos detrás de escena aquí que procesará tu código. Nos quedaremos con todas estas opciones. Entonces, como pueden ver, tenemos a los agentes de Azure Pipelines, y luego nos dan un contenedor gati que ejecuta Visual Studio 2017, Windows 2016. Podemos atenernos a otras opciones por defecto. Entonces vamos a dar click aquí en el signo más para agregar un nuevo despliegue. Y luego la tarea que queremos, se llama planeta incompleto. Hagamos click aquí dos veces, 1, 2, e Y2. Porque aquí queremos validar nuestro adyacente, simplemente no queremos desplegarnos de inmediato y conseguir un fracaso. Una de las opciones aquí para nosotros es hacer una validación en lugar de despliegues, Empecemos a llenar todas las opciones que tenemos que hacer aquí. Entonces esta es la conexión que tenemos para crear una conexión, lo que significa que tenemos que conectarla a nuestra suscripción. Pero esto es, será mi suscripción predeterminada. Entonces me había sentido levantarme. Gran IPO intenta a mi Azure DevOps para conectarse a mi suscripción. Entonces tengo aquí las suscripciones. Entonces tengo la acción crear o actualizar un grupo de recursos, celeste. Y queremos, no queremos eliminar y grupo de recursos. Y ahora tenemos que escoger los grupos de recursos que queremos. Esta es la segunda opción. Y tenemos la ubicación. Nuevamente, este necesita ser un lugar cercano a ti o donde desarrolles tu fábrica. Entonces tenemos la plantilla. Esto es lo que queríamos publicar. Entonces vamos a llegar aquí en lugar de página. Y luego tenemos el repositorio, y luego tenemos el nombre del repositorio, que será la Data Factory. Entonces tenemos la fábrica de datos, estoy terminada. Esto es lo que queríamos. Este es el código al que vamos a la producción. Ni siquiera están de cerca porque ya está recogido. Entonces los parámetros de plantilla. Estos son los parámetros. Ahora, vamos a seleccionar parámetros para fábrica. Una vez que seleccionamos nuestro archivo de parámetros, este es el modo de despliegue. Aquí es donde te mencioné antes. Contamos con completar un incremental, elimina
por completo cualquier cosa que no forme parte de tu plantilla ARM. Esta es nuestra plantilla ARM y solo tenemos sobre una fábrica. Puede eliminar todo el contenido de su grupo de recursos. Por lo que esto es peligroso ir a Francia para seleccionar incremental cuando querías jugar. Dado que esta es nuestra primera tarea, vamos a seleccionar únicamente la validación. Entonces eso es genial. Esta es nuestra primera tarea que se ha completado. Entonces podemos seguir adelante y darle un nombre. Decir al respecto. Entonces aquí podemos seleccionar. Ahora nos vamos a quedar con las mismas opciones que ya creamos. que ya lo
autorizamos, podemos obtener de conexiones de servicio. Después seleccionamos nuestra suscripción. Nuestra acción será crear o actualizar su grupo de recursos. Después seleccionamos nuevamente el mismo grupo de recursos que seleccionamos antes. Y tenemos que escoger la ubicación aquí. Entonces tenemos que volver a seleccionar una plantilla. Y ahora el perímetro. Estos se van a implementar. Y entonces eso es todo. Vamos a salvar esto. Y vamos a ejecutar nuestro código. Veamos cómo se puede hacer esto.
59. DevOps - cómo ejecutar una tubería de liberación en Azure DevOps para ADF: Genial, Ahora que nuestro ducto está listo, hagamos una revisión rápida aquí. Y los ductos, tenemos, de nuevo, nuestros artefactos, que es nuestro código. Este es el escenario. Esta es la ubicación donde queremos desplegar nuestro código. Entonces tenemos aquí este pequeño letrero. Como pueden ver, esto es para decir si queremos usar disparador de despliegue continuo. Entonces al habilitar esto es queremos decir cada vez que hay un nuevo empuje a nuestra sucursal, me refiero a ADF y describir rama pública. Esto desencadenará este ducto. Esto va a ejecutar el código. De acuerdo, sigamos con el despliegue continuo. Entonces aquí, si hace clic aquí, esta es la ubicación. Si desea agregar aprobadores para dash. Entonces digamos que imagina que quieres seleccionar la aprobación previa al despliegue es de personas específicas. Por lo que cambiarás esta opción en el nuevo tipo, el nombre de las personas aquí. Y entonces el código es sólo despliegue. Desplegado si es aprobado. Está bien, vamos a cerrar. No queremos eso. Sigamos con ese ejemplo. Ahora. Corremos nuestro ducto y veamos si vamos a ver nuestros ductos en producción. Antes de correr, sólo tenemos salvar el ducto. Entonces vamos a ahorrar. Y ahora podemos dar click en Crear. Vamos a dar click aquí en este hipervínculo. De acuerdo, así que si esta es tu nueva organización de Azure DevOps, posible que
hayas recibido un mensaje de error aquí como si pisaras. Vamos a explorar año a menos que puedas mirar y más grande directamente en la caja. Si haces clic aquí, puedes ver que no tenemos ningún anfitrión en la alerta temprana Inglaterra. Esto significa que no tenemos ningún recurso informático gratuito y cuando esté disponible para nuestra organización para obtener eso, solicita uno de forma gratuita a Microsoft enviando un correo electrónico a esta dirección aquí con el nombre de su organización. Tu organización es solo el nombre del nivel de raíces de tus DevOps de Azure. Por lo que solo puedes venir aquí a hacer con copia aplanada eso y enviar el correo electrónico a esa dirección. Y debes obtener una investigación de recómplice para que manejes tus ductos. ¿ De acuerdo? En este punto, ya envié un correo electrónico a Microsoft y obtuve una respuesta de vuelta y Meccans totalmente configurados para poder continuar y ejecutar los ductos que necesito. En realidad, no tengo respuesta alguna para Microsoft. Acabo de volver aquí
al portal y juegos de prueba para ver si funcionaba y todo estaba configurado. Tardó aproximadamente dos días para que volviera aquí y probara. Entonces sigamos adelante y pinchemos en ADF. Vale, sólo se supone que tengo claro en mente lo que estamos tratando de lograr. Vamos a mover nuestros ductos del entorno de desarrollo al entorno de producción. Debe recordar, esta es la fábrica de datos donde creamos el motor de ejecución de integración autoalojado. Se enlaza con uno y está vacío. Es importante que uses la misma fábrica de datos porque hay un permiso asociado a esta Fábrica de Datos. Y si solo escoges otra Data Factory, probablemente obtendrás un error porque los permisos no están configurados correctamente. De acuerdo, volvamos a nuestras DevOps de Azure, y hagamos clic en canalizaciones y lanzamientos. Y aquí todavía tenemos el mismo estatus. Demos click en Editar porque aún necesitamos
asegurarnos de publicar nuestros ductos al objetivo correcto. Aquí tenemos la tarea, que es el despliegue. Y aquí estamos validando las plantillas ARM y aquí estamos usando plantillas ARM para publicar en otro lugar. obstante, si no cambiamos las variables que vienen con el JSON, solo
intentará desplegarse en la misma fábrica de datos porque la plantilla ARM exportada contiene todos los nombres de variables del entorno dev. Entonces es importante que lo cambies. Hagamos clic aquí en anular plato marrón primero. Se puede ver que Azure DevOps, nos
trae todas las variables y valores ya rellenados, lo cual es bastante cool. Aquí, va a ser el objetivo de nuestro despliegue, las nuevas fábricas de datos. Es el mismo nombre, pero agregando un número al final. Entonces esta es la ubicación donde vamos a desplegar nuestros ductos. ¿De acuerdo? Entonces vamos a dar click Ok. Y puedes ver que automáticamente se rellena con todos los parámetros aquí dentro. Si lo deseas, solo puedes seleccionar todo y copiar. Y desde aquí, ya que sólo estamos validando y todo es una réplica entre sí. Podemos simplemente pegar aquí, o simplemente puedes hacer clic aquí en pan rallado y repetir la tarea. Depende de ti de verdad, solo para ahorrar tiempo. ¿De acuerdo? Entonces solo tienes que asegurarte de que sea validación sólo aquí. Aquí, usted está implementando de manera incremental en su grupo de recursos objetivo. Entonces vamos a hacer clic en Guardar. Y vamos a ejecutar nuestra liberación. Demos click en Crear. De acuerdo, vamos a dar click en el hipervínculo aquí. Y ahora nuestros lanzamientos significan cola. Y vamos a dar click en Logs para que podamos seguir lo que está pasando aquí. Los dos primeros pasos suelen ser bastante rápidos porque es una computadora que corre detrás. Se definen algunas variables de entorno. Entonces no perdemos el código localmente al cómputo. Entonces se va a validar la página Soy Tim. Sólo estamos tocando el JSON. No estamos desplegando nada. Y aquí está desplegando el código a nuestro objetivo. El despliegue se ha completado con éxito y podemos validar la fábrica de datos. Vamos a dar clic aquí 0, 2, y vamos a revisar los ductos. Vamos a refrescarnos. Tenemos nuestros ductos aquí en nuestros entornos objetivo. Podemos verificar dos veces entre los dos. Recuerda que es 0, 2 estaba vacío. Y ahora este año, 0, 1, que fue nuestra fuente, ductos en conjuntos de datos están todos coincidentes. Y tenemos una copia completa de nuestro entorno de desarrollo para que
podamos estar seguros de que el código fue validado y desplegado a un proceso, al entorno de producción. Eso está bien. Ahora bien, espero que hayan disfrutado de esta demostración. Gracias por ver. Nos vemos la próxima vez.
60. Encurso: módulo 7: Bien.
61. Conclusión: Enhorabuena por completar este curso. Estoy muy contenta de ver que llegaste hasta el final. Había mucho que ir, pero lo lograste. Espero que hayas aprendido un poco de algo que pueda ayudar a marcar la diferencia en tu vida laboral. Mi recomendación para los próximos pasos sería leer los docs. Hay mucho contenido bueno por ahí, especialmente publicado por Microsoft en GitHub y en la plataforma Microsoft Learn. Además, recuerda, solo puedes arreglar lo que aprendes practicando. Así que prueba cosas, experimenta. De esta forma podrás mejorar alterando los ductos ADF. De verdad espero que hayan disfrutado de este curso y por favor deje una reseña si puede. Significa mucho para mí verlos les gustó chicos y espero verlos pronto en otra curva de la mente son las mejores. Nos vemos pronto. Gracias por ver.