Formation sur les fondamentaux d'Azure Data Factory

Everton Oliveira

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

- 1.
  
  Introduction
  
  1:40
- 2.
  
  Pour commencer
  
  0:43
- 3.
  
  Comprendre les composants d'usine de données d'Azure
  
  0:41
- 4.
  
  Ingérer et transformer des données avec Azure Data Factory
  
  0:56
- 5.
  
  Intégrer une Intégration de données Azure à Databricks
  
  0:55
- 6.
  
  Intégration continue et livraison continue (CI/CD) pour Azure Data Factory
  
  0:50
- 7.
  
  Abonnez-vous à votre compte gratuit Azure
  
  3:51
- 8.
  
  Configuration d'un budget
  
  4:51
- 9.
  
  Comment configurer Azure Data Factory en utilisant le portail Azure
  
  5:31
- 10.
  
  Comment configurer Azure Data Factory utilisant PowerShell
  
  4:51
- 11.
  
  Composants ADF - Services liés
  
  5:48
- 12.
  
  Composants ADF - Pipelines
  
  2:59
- 13.
  
  Composants ADF - Datasets
  
  2:47
- 14.
  
  Composants ADF - Activités
  
  3:58
- 15.
  
  Composants ADF - Paramètres de pipeline
  
  8:00
- 16.
  
  Composants ADF - Paramètres d'activité
  
  6:24
- 17.
  
  4.5.3
  
  2:37
- 18.
  
  Composants ADF - Déclenches
  
  6:35
- 19.
  
  Composants ADF - Exécution d'Azure
  
  1:26
- 20.
  
  Composants ADF - Cours d'intégration Self-Hosted
  
  5:33
- 21.
  
  Composants ADF - Cours d'intégration Self-Hosted liées
  
  5:33
- 22.
  
  Composants ADF - Exécution d'intégration Azure-SSIS
  
  2:53
- 23.
  
  Quiz - Module 3
  
  0:14
- 24.
  
  Comment intégrer des données à l'aide de l'activité de copie dans Azure Data Lake Gen2
  
  12:58
- 25.
  
  Comment copier des fichiers Parquet d'AWS S3 dans une base de données SQL
  
  5:16
- 26.
  
  Créer des services reliés ADF pour Azure SQL
  
  2:39
- 27.
  
  Comment accorder des autorisations sur Azure SQL DB à une identité de données avec usine
  
  6:09
- 28.
  
  Comment accorder des autorisations sur Azure SQL DB à une identité de données avec usine
  
  8:01
- 29.
  
  Copy des fichiers Parquet d'AWS S3 dans des Données Lake et Azure SQL
  
  8:51
- 30.
  
  Surveillance de l'exécution du ADF
  
  5:09
- 31.
  
  Présentation de la cartographie des données
  
  4:04
- 32.
  
  Mappage des transformations de données - Plusieurs entrées ou sorties
  
  2:02
- 33.
  
  Mappie des transformations de flux de données - Modifier.
  
  2:29
- 34.
  
  Mappage des transformations de flux de données - Formatters
  
  0:42
- 35.
  
  Mappage des transformations de flux de données - Modifier Modification de rangée
  
  1:13
- 36.
  
  5Mappage des transformations de données - Destination
  
  0:39
- 37.
  
  Définir le type de Source ; Dataset vs Inline
  
  3:13
- 38.
  
  Définir des options Source
  
  1:42
- 39.
  
  Spinning groupement de données
  
  2:06
- 40.
  
  Définir le type de saisie de source de données
  
  0:55
- 41.
  
  Définir les Schema de données
  
  1:22
- 42.
  
  Optimiser les charges avec des partitions
  
  1:35
- 43.
  
  Aperçu des données à partir de la transformation source
  
  1:35
- 44.
  
  Comment ajouter un Ejet à un flux de données en correspondance.
  
  3:28
- 45.
  
  Comment exécuter un flux de données en How
  
  4:01
- 46.
  
  Quiz -
  
  0:14
- 47.
  
  Promenade du projet- Intégrer une Réunion de données Azure à Databricks
  
  1:16
- 48.
  
  Comment créer des Databricks et importer des caquettes
  
  4:59
- 49.
  
  Comment créer des Databricks et importer des caquettes
  
  5:23
- 50.
  
  Validation de données dans des Databricks et usine de données
  
  6:09
- 51.
  
  Comment utiliser ADF pour orchestre une transformation de données à l'aide d'un registre de Databricks
  
  10:54
- 52.
  
  Quiz -
  
  0:14
- 53.
  
  DevOps - Comment créer une organisation et un projet Azure
  
  1:41
- 54.
  
  DevOps - Comment créer un repository Git dans Azure DevOps
  
  1:19
- 55.
  
  DevOps - Comment relier la usine de données à Azure DevOps Repository
  
  3:12
- 56.
  
  DevOps - Comment version Azure Data Factory avec des branches
  
  3:18
- 57.
  
  DevOps - Code d'usine de données à la collaboration
  
  6:08
- 58.
  
  DevOps - Comment créer un pipeline CICD pour la usine de données dans Azure DevOps
  
  6:34
- 59.
  
  DevOps - Comment exécuter un pipeline de rejetée dans Azure DevOps pour ADF
  
  6:17
- 60.
  
  Quiz -
  
  0:14
- 61.
  
  Synthèse
  
  0:58

Niveau débutant

Niveau intermédiaire

Niveau avancé

Tous niveaux

398

apprenants

projets

À propos de ce cours

TL ;DR.

Ce cours présentera Azure Data Factory et de la façon dont il peut vous aider dans le traitement des données. Les apprenants apprendront avec des activités pratiques, des quizzes, et un projet, comment les données peuvent être utilisées pour intégrer de nombreuses autres technologies ensemble pour créer une solution ETL, notamment une pipeline en CI/CD dans Azure DevOps, notamment une Certains sujets liés à la Data Factory pour l'examen DP-203 : Ingénierie des données sur Microsoft Azure, sont abordés dans ce cours.

DESCRIPTION

Azure Data Factory est un service sans Azure basé sur Azure basée sur le cloud (extrat, transformez, chargez). Il propose une interface intuitive sans code pour auteur, orchestrer et surveiller des flux de travail en fonction de données. Avec plus de 80 connecteurs hors dessus tout, vous pouvez également créer des pipelines complexes complexes qui intègrent de manière native ressources de calcul. Avec des flux de données de connexe, HDInsight Hadoop, Databricks,

Apprenez en faisant

Ensemble, vous apprendrez ensemble tout ce dont vous devez savoir sur l'utilisation de Microsoft Azure Data Factory. Ce cours vous permettra d'obtenir des activités d'apprentissage pratiques et de l'en cours.

À la fin de ce cours, les apprenants auront l'occasion de soumettre un projet qui vous aidera à comprendre comment fonctionne ADF et les composent. À la fin de ce cours, comment intégrer ADF et Databricks.

Tirez sur les éléments clés :

L'apprenante doit comprendre comment ADF orchestre les fonctionnalités des autres technologies pour transformer ou analyser les données.
L'apprenante devrait être capable d'expliquer et utiliser les composants qui font du maquillage ADF.
L'apprenante doit être capable d'intégrer deux ou plusieurs technologies à l'aide d'ADF.
L'apprenant devrait être en mesure de créer des pipelines complexes de moyennes complexes avec des données
The devrait être capable de développer une pipeline CI/CD dans Azure DevOps pour déployer des pipelines à la Data Factory

À qui s'adresse ce cours :

Professionnels de données
Architects de données
Professionnels en matière de intelligence d'affaires
Ingénieurs de données
Développeurs ETL
Développeurs logiciels

Ce que vous apprendrez :

Introduction à la facture. Vous comprendrez comment il peut être utilisé pour intégrer de nombreuses autres technologies dans une liste de connecteurs en toujours croissante.
Comment configurer une équipe de données à partir de rien, à l'aide du portail Azure et PowerShell.
Activités et composants qui mettent en place les données en maquillage. Il comprend des pipelines, des Pipelines, déclencheurs, services reliés, etc.
Comment transformer, ingérer et intégrer des données sans codes libres de correspondants de correspondants.
Comment intégrer Azure Data Factory et Databricks. Nous allons découvrir comment authentifier et gérer quelques carnets à partir d'ADF.
Dépliement Azure Data Factory utilisant Azure DevOps pour une intégration continue et un déploiement continu (CI/CD)

Formation des bases de la Data Factory -

Introduction
Introduction
1. Pour commencer
2. Comprendre les composants d'usine de données d'Azure
3. Ingérer et transformer des données avec Azure Data Factory
4. Intégrer une Intégration de données Azure à Databricks
5. Intégration continue et livraison continue (CI/CD) pour Azure Data Factory
Pour commencer
1. Abonnez-vous à votre compte gratuit Azure
2. Configuration d'un budget
3. Comment configurer Azure Data Factory
  1. Portail Azure
  2. PowerShell
Composants d'usine de données d'Azure
1. Services liés
2. Pipelines
3. Datasets
4. Activités d'usine de données
5. Paramètres
  1. Paramètres pipeline
  2. Paramètres d'activité
  3. Paramètres mondiaux
6. Triggers
7. Runtimes d'intégration (IR)
  1. Azure IR
  2. IR auteure
  3. IR auto-hébergé
  4. Azure-SSIS IR
8. Quiz
Ingérer et transformer des données
1. Ingérer des données à l'aide de Copy dans Data Lake Store Gen2
  1. Comment copier des fichiers Parquet d'AWS S3 dans une base de données SQL
    1. Créer des services reliés ADF pour Azure SQL
    2. Comment accorder des autorisations sur Azure SQL DB à une identité de données avec usine
    3. Ingérer le fichier Parquet de S3 dans une base de données SQL
  2. Copy des fichiers Parquet d'AWS S3 dans Data Lake et Azure SQL Database (intro)
    1. Copy des fichiers Parquet d'AWS S3 dans des Données Lake et Azure SQL
  3. Surveillance de l'exécution du ADF
2. Transformer des données avec du flux de données avec cartographie
  1. Présentation de la cartographie des données
  2. Identifier les transformations dans la cartographie de données
    1. Plusieurs produits/sorties
    2. Modification de diagrama
    3. Formatters
    4. Modification de rangée
    5. Destination
  3. Ajouter la source à un flux de données en source
    1. Définir le type de Source ; Dataset vs Inline
    2. Définir des options Source
    3. Spinning groupement de données
    4. Définir le type de saisie de source de données
    5. Définir les Schema de données
    6. Optimiser les charges avec des partitions
    7. Aperçu des données à partir de la transformation source
  4. Comment ajouter un Ejet à un flux de données en correspondance.
  5. Comment exécuter un flux de données en How
3. Quiz
Intégrer une Intégration de données Azure à Databricks
1. Présentation du projet
2. Comment créer des Databricks et importer des caquettes
3. Comment transférer des données à l'aide de Databricks et d'une usine de données
4. Validation de données dans des Databricks et usine de données
5. Comment utiliser ADF pour orchestre une transformation de données à l'aide d'un registre de Databricks
6. Quiz
Intégration continue et livraison continue (CI/CD) pour Azure Data Factory
1. Comment créer une organisation et un projet Azure
2. Comment créer un repository Git dans Azure DevOps
3. Comment relier une usine de données à Azure DevOps DevOps
4. Comment version Azure Data Factory avec des branches
  1. Flux de travail de décharge d'usine de données
  2. Ferger le code d'usine à la branche de collaboration
5. Comment créer un pipeline CI/CD pour la usine de données dans Azure DevOps
  1. Comment créer un pipeline CICD pour une usine de données dans Azure DevOps
  2. Comment exécuter un pipeline de libération dans Azure DevOps pour ADF
6. Quiz

Rencontrez votre enseignant·e

Everton Oliveira

Enseignant·e

Voir le profil complet

Compétences associées

Développement Plus en développement Science des données

Level: Beginner

Projet de cours pratique

Intégrer une Intégration de données Azure à Databricks

Imaginez que vous êtes membre d'une équipe d'analyse qui a récemment reçu un énorme projet de l'analyse des données du crime de plusieurs villes de metropolitan Le dataset que vous avez reçu a des informations détaillées sur le crime pour les grandes villes de votre The questions. Toutefois, chaque dataset de données est formatée et structuré différente, et enregistrée dans différentes boutiques de données. Chaque ville utilise une catégorie et des termes différents pour un type de données. votre équipe est responsable de analyser toutes les datasets et de signaler le nombre agrégé de crimes par mois par chaque ville.

Votre équipe a décidé de exploiter les capacités d'Azure Data Factory et Azure Databricks pour amelle, transformera et agréger les données requises

Dans ce cours, vous allez :
- Utilisez ADF pour orchestre des transformations de données à l'aide d'une activité Databricks Databricks

1. ADF et Azure

Vous pouvez utiliser Azure Data Factory pour vous servir de toutes les données brutes provenant de différentes sources et travailler avec Azure Databricks pour les restructurer conformément à vos exigences. L'intégration de Azure Dataricks avec ADF vous permet d'ajouter des notebooks de Databricks dans un pipeline ADF afin de tirer parti des capacités d'analyse et de transformation des données. Vous pouvez ajouter un carnet dans votre flux de travail de données pour structurer et transformer des données de masse en ADF à partir de différentes sources. Une fois les données transformées en utilisant des techniques, vous pouvez ensuite les charger à n'importe quelle source de stockage de données.

Exigences

L'ingestion et la transformation des données en utilisant les capacités collectives d'ADF et Azure Databricks implique essentiellement :

Créer un compte de stockage Azure - La première étape est de créer un compte de stockage Azure pour stocker vos données en ingéré et transformées.
Créer une usine de données Azure - Une fois vous avez votre configuration de stockage, vous devez créer votre espace using utiliser le portail Azure.
Créer une pipeline de flux de travail des données. Après votre stockage et votre ADF est terminée, vous commencez par créer une ligne, la première étape est de copier. Vous pouvez copier des données à partir de différentes sources de fondes sur terrain.
Ajoutez le carnet de Databricks au pipeline - une fois vos données sont copied sur ADF, vous ajoutez votre carnet de données sur votre papier au pipeline. Ce carnet peut contenir de la syntaxe et du code pour transformer et nettoyer des données brutes comme nécessaire.
Réaliser une analyse sur des données. Maintenant maintenant votre données est nettoyée et est structurée dans le format requis, vous pouvez utiliser des carnet de notes de Databricks pour les suivre ou les analyser pour produire les résultats requis.

2. Créer un compte de stockage Azure

Dans le portail Azure, sélectionnez « Créer une ressource », entrez « Compte de stockage » dans la boîte Rechercher le marché et sélectionnez Compte Enregistrement - blob, fichier, tableau en queue,
Dans la lame de Créer un compte de stockage, inscrivez les éléments suivants :

Abonnement : Sélectionnez l'abonnement que vous utilisez pour ce module.
Groupe de ressources : Sélectionnez « Créer nouveau » et entrez un nom unique.
Nom du compte : Saisissez un nom unique (assurez-vous d'voir une case verte).
Lieu : Sélectionnez l'endroit la plus proche de votre lieu physique.
Performance : Sélectionnez les normes.
Type de compte : Sélectionnez le type de rangement (usage général v1).
Réplication : Sélectionnez des rangements redondants localement (LRS).

Sélectionnez ensuite : Avancé :
Dans l'onglet Avance, sélectionnez les éléments suivants :
1. Transfert sécurisé :
2. Réseau virtuel : Sélectionnez Aucune
Sélectionnez l'examen et créez.
Dans l'onglet Commentaire, sélectionnez Créer.

2.1. Obtenez le nom et la touche

Une fois une offre, naviguez-vous vers votre compte de stockage.
Sélectionnez des touches Access dans le menu de gauche et copiez-vous le nom du compte et la valeur clés1 dans un éditeur de texte, comme Notepad par la suite.

2.2. Obtenez le nom et la touche

Sélectionnez Blobs dans le menu gauche, puis sélectionnez + conteneur pour créer un nouveau conteneur.
Entrez dwtemp pour le nom du contenir.
Laissez le niveau d'accès du public sélectionné comme privé
Sélectionnez OK.

Vous avez votre compte de stockage et Azure Data Factory et le courage. Il est maintenant temps de passer à votre espace de travail Databricks pour terminer le reste du flux de travail. Nous utiliserons un échantillon de données pour créer un pipeline ADF et utiliser des carnet d'échantillons pour transformer et analyser les données.

3. Créer un espace de travail Azure Databricks

Dans le portail Azure, sélectionnez « Créer une ressource », entrez-vous dans « “Databricks” » dans la boîte Rechercher le marché et sélectionnez Compte Enregistrement - blob, fichier, table, file à partir des résultats et sélectionnez Créer.

3.1. Classez l'archive des Databricks

À partir du portail Azure, navigate dans votre espace de travail Azure Databricks et sélectionnez Lancer.
Dans l'espace de travail, à l'aide du bar de gauche, sélectionnez Espace de travail, utilisateurs et sélectionnez votre nom d'utilisateur (l'icône du nom d'utilisateur (l'entrée avec la maison)).
Dans la lame qui apparaît, sélectionnez le chevron en bas en direction à côté de votre nom, et sélectionnez Importer.
Dans la boîte des bloc-notes importer, sélectionnez URL et paste dans l'URL suivante :
https://github.com/MicrosoftDocs/mslearn-data-ingestion-with-azure-data-factory/blob/master/DBC/03-Data-Ingestion-Via-ADF.dbc?raw=true
Sélectionnez importer.
Un dossier nommé en raison des archives doit apparaître. Sélectionnez ce dossier.
Le dossier contiendra un ou plusieurs carnet de carnet de registre que vous utiliserez pour terminer ce cours.

Complétez les carnet de carton suivantes

01 - Ce carnet contient des instructions pour configurer votre compte de stockage et en Azure Data Factory (ADF). Si vous avez déjà configuré votre compte de stockage dans l'unité précédente, vous pouvez sauter ce carnet.
02 - vous créerez un insigne ADF v2 en matière de l'intégration, d'un ensemble de données publiques dans votre compte Azure Storage Une fois les données est importées, vous utilisez la fonction Databricks pour examiner les données.
03 Transformation de données - Ce carnet contient des instructions pour créer une connectivité entre votre espace de travail Azure Data Factory et Databricks Vous utiliserez un échantillon de notebook qui ajoutera à votre pipeline ADF qui transformera et restructure vos données. Vous réaliserez également quelques agrégations de base dans l'échantillon des données pour générer des rapports requis.

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction: Bonjour chers amis et bienvenue à la formation Microsoft Azure Data Factory Essentials. Mon nom est moyen sur un ion et Microsoft Certified Solutions que j'ai touché et je suis Microsoft Certified Trainer. Ce cours est destiné aux débutants. Vous n'avez pas besoin d'une expérience Thetas dans interface utilisateur Azure Data Factory commencer à modifier le début et nous allons le parcourir étape par étape. En outre, si vous prévoyez d'emmener l'ingénieur de données Microsoft en vacances, discutez est parfait pour vous. Comme nous allons couvrir certains des sujets abordés dans le programme de l'examen. Vous apprendrez tous les principes fondamentaux de Data Factory et comment il peut aider dans le traitement par lots, et comment il se connecte avec la technologie de mini audit avec tous les connecteurs disponibles. Eh bien, nous explorerons également les activités ainsi que les composants qui composent Azure Data Factory. Par exemple, les pipelines, les jeux de données, les déclencheurs, les services liés et bien plus encore. En plus de la compétence, nous aborderons la façon de transformer, d' ingérer et d'intégrer l'arbre de code Theta à l'aide de flux de données cartographiques. Il y aura un petit projet. Nous allons l'intégrer à Azure Data Factory avec Databricks de Rooney et nous ne sentirons pas les gens de ADF, à quel point est-ce cool ? Enfin, vous apprendrez comment déployer tous les déploiements apprendront au ce cours en utilisant Azure DevOps, Continuous Integration and Continuous Deployment, alias CI CD. Eh bien, j'espère vous voir bientôt dans ce cours, et merci d'avoir regardé. 2. Pour commencer: Salut tout le monde. Avant de nous salir les mains, je vais vous faire une petite promenade à travers les modules que nous allons voir tout au long de ce cours. Premier module, nous avons commencé. Dans ce module, nous avons envoyé un compte gratuit Azure. Nous verrons donc comment nous pouvons tirer le meilleur parti du compte Azure. On va jeter un oeil. Tous les services que nous pouvons utiliser gratuitement et les crédits qui sont disponibles pour nous. Nous allons établir un budget pour que nous puissions nous assurer que nos carottes gratuites, je suis toujours sous contrôle. En outre, nous allons voir comment nous pouvons configurer une usine de données Azure à partir du portail et de PowerShell. Voir dans la leçon suivante. 3. Comprendre les composants d'usine de données d'Azure: Bienvenue dans le deuxième module du cours Azure Data Factory Essentials. Dans ce module, nous allons voir sont les éléments fondamentaux qui composent l'écosystème de l'usine de données. Nous allons passer par les services liés, les pipelines, les jeux de données dans les diverses activités disponibles dans ADF. En outre, nous verrons des choses comme comment réutiliser des objets en créant des foules. Étaient également plonger profondément dans les déclencheurs disponibles pour les exécutions de pipeline d'ombre et comment nous pouvons utiliser chacun d'entre eux est le module est plein de bon contenu. Et c'est là que nous commençons notre voyage de 0 à ici dans ADF. Et ça ne peut pas attendre que nous commencions. 4. Ingérer et transformer des données avec Azure Data Factory: Salut tout le monde, ingérant et transformant des données avec Azure Data Factory. Dans ce module, nous allons nous salir les mains et mettre en pratique tout ce que nous avons appris du module précédent, où nous allons utiliser les composants ADF clés pour travailler sur un cas d'utilisation très courant. Par exemple, comment ingérer des données à l'aide de l'activité cardiaque dans ADF dans un Azure Data Lake Gen2 et comment transférer des données d'Amazon S3 vers des bases de données Azure SQL. Nous allons, nous allons mettre en place ces transferts étape par étape. Dans la deuxième partie de ce module, nous allons travailler avec la cartographie des flux de données. Les flux de données cartographiques sont un outil puissant qui nous permet d'exécuter un cluster Spark sans écrire une seule ligne de code, nous allons aller à chaque transformation disponible dans les flux de données cartographiques. Par exemple, joint des salles de classe dérivées, des opérations de recherche, etc. Merci d'avoir regardé. 5. Intégrer une Intégration de données Azure à Databricks: Bonjour, chers amis. Ce module montre comment l'usine a pu permettre à ces ingénieurs d'intégrer pipelines ETL avec Azure Databricks et d'exploiter ApachesPark pour transformer et pourcentages de données à grande échelle. On joue ça. Nous faisons partie de l'équipe d'analyse qui a été difficile de signaler un certain nombre de crimes de plusieurs villes aux États-Unis. Et nous verrons comment nous pouvons provisionner un espace de recherche de base de données Azure à partir du portail si l'espace de travail est créé. Nous créerons ensuite un cluster Apache, suivi de quelques cahiers pour nous aider à travailler avec les données dont nous avons besoin. Et puis nous attacherons les ordinateurs portables au cluster. Ainsi, nous pouvons exécuter tous les ordinateurs portables directement à partir de Data Factory. Soyez assuré que ce sera une voie difficile. Cette vue a apprécié les moniteurs. Je t'ai vu bientôt. Merci d'avoir regardé. 6. Intégration continue et livraison continue (CI/CD) pour Azure Data Factory: Salut les amis. Notre dernier module, si les yeux et le gâteau, nous verrons ce qui est nécessaire pour configurer un pipeline Azure DevOps que nous travaillons comme une intégration continue et un déploiement continu, également connu sous le nom de CISD pour Data Factory. Nous allons créer une organisation Azure DevOps à partir de l'application de foule, qui comprend la création d'un trading positif, versions EHR Data Factory serait branches et la compréhension de la façon dont ils ont publié des mots de workflow pour Data Factory verra également comment nous pouvons créer un pipeline CICD dans Azure DevOps, à quel point est-ce cool ? C' est là que nous apprenons à emballer tous les trucs cool que nous avons appris au cours de ce cours et un environnement supérieur, la production IE. Eh bien, on se voit dans le module suivant, Mise en route. 7. Abonnez-vous à votre compte gratuit Azure: Salut, nous allons aller à beaucoup de manifestations pendant notre malédiction. Et je vous recommande de suivre ce chemin. Vous pouvez vous assurer d'apprendre en pratique ce que nous avons vu, comment vous recommander de créer un compte gratuit Microsoft Azure. Pour ce faire, vous pouvez rechercher sur Google et ensuite nous avons le premier lien ici. Cliquons sur ça. Ici, nous pouvons avoir une idée de comment ça marche. Nous obtenons donc des crédits de 200$ pour explorer comme services pendant 30 jours. Si vous utilisez pour une raison quelconque, tous vos crédits avant les 30 jours, tous vos services seront fermées. Ou si vous n'utilisez pas le crédit de 200$ pour la période de 30 jours, vous perdez tout le reste. Vous ne pouvez pas le porter en molaire. Cependant, vous obtenez beaucoup de services populaires pendant 12 mois, ce qui signifie que même si vous utilisez tous vos 200$, vous pouvez toujours avoir votre compte pendant 12 mois. Oh, c'est des services gratuits. Donc, si nous continuons à défiler ici, nous pouvons avoir une idée d'autres services que nous pouvons utiliser pendant les 12 premiers mois. Donc, fondamentalement, nous pouvons arriver à des machines virtuelles de petite taille. Nous pouvons donc également utiliser d'autres services tels que des disques pour attacher à vos machines virtuelles. Équilibreurs de charge Blob Storage, si nous étudions les équilibreurs de charge, stockage d' archives et bien plus encore. Vous obtenez également toujours des services gratuits. En plus des 12 mois. Vous avez toujours refait surface, par exemple, Event Grid, DevTest Labs et ainsi de suite. Si vous consultez tous les produits de surface libres, vous pouvez cliquer sur ce bouton ici et vous devriez être en mesure de voir la liste complète. Maintenant, nous allons foirer et cliquez sur Démarrer l'année gratuite pour commencer à créer notre compte. Donc, à partir d'ici, vous avez quelques options. Vous devez disposer d'un compte Microsoft pour pouvoir créer un compte gratuit Azure. Si vous n'en avez pas, vous pouvez en créer un dès maintenant. Ou si vous avez un compte GitHub et que vous voulez utiliser, ou je pourrais avoir des comptes que vous pouvez également utiliser et alors vous avez d'autres options ici aussi. J' ai déjà un compte existant et nous verrons comment il peut passer par ce processus. OK, maintenant, cliquez sur Suivant. Une fois que vous avez entré leur mot de passe, il vous redirigera vers la page où vous allez vous inscrire. Il y a donc peu de choses à remplir ici. abord, vous devez accepter les détails qu'ils vous montrent, tels que les déclarations de confidentialité , les détails du logiciel, etc. Comme vous le devez, pour prendre ici, si un, je reçois des e-mails de Microsoft sur les offres, je ne le ferai pas en ce moment. Ici, vous pouvez avoir un résumé des avantages que vous obtenez. Comme vous pouvez voir des scènes et l'Irlande, il a directement à mon courant. Eileen, 70 ans, pas 100$. Ensuite, nous pouvons cliquer sur Suivant. Ensuite, vous devez fournir un numéro de téléphone. Donc Microsoft va vous envoyer un SMS. Vous pouvez recevoir une taxe ou choisir de recevoir un appel. C' est vraiment à vous de décider, donc je vais choisir l'impôt pour moi. Donc, une fois que vous aurez fourni votre code de vérification, vous devrez fournir une carte de crédit. Microsoft confirme qu'il ne vous facturera pas après 30 jours. Ils ne prendront pas d'argent sur vos cartes de crédit. Ceci est juste à des fins de validation. Une fois les 30 jours terminés, ils vous demanderont si vous voulez continuer avec un modèle de paiement à l'utilisation. À ce stade, j'ai déjà reçu le texte, confirme le texte de la page précédente. Maintenant, je peux voir l'endroit où je suis venu pour les informations d'un accident de crédit. Je n'irai pas plus loin d'ici parce que j'avais déjà mon compte. Une fois que vous avez opté pour cette option, vous devriez pouvoir accéder au portail en utilisant votre nouveau compte. Pour accéder au portail. La page d'accueil est Portal azure.com. Cela va vous rediriger vers la page principale du portail. Alors ici, vous avez un tas de services. Nous allons passer par toutes les étapes qui vont être utilisées pendant ce cours. Et restez à l'écoute et à bientôt. 8. Configuration d'un budget: Nos amis, dans notre leçon précédente, nous avons créé un compte gratuit Azure pour commencer à utiliser gratuitement les services Cloud. Dans cette leçon, nous allons jeter un oeil sur la façon dont nous pouvons établir un budget sur notre abonnement pour contrôler nos crédits. Avec un budget en place, nous pouvons être avertis lorsque les protocoles, notre abonnement ou un groupe de ressources dépassent le seuil défini par l'arborescence. Tout au long de ce cours, nous allons nous concentrer sur l'usine BIA, qui ne devrait pas consommer d'autres crédits très bientôt. Mais pour éviter toute surprise, établissons un budget juste pour que nous puissions nous assurer que tout est sous le contrôle. Si nous allons à la boîte de recherche et rechercher la gestion des coûts, nous avons une options de remplissage ici. Sur le volet gauche. Cliquez sur la gestion des coûts. Et aussi ici, sur le volet gauche, nous avons. C' est ici que nous commençons à définir nos budgets. Donc, nous pouvons avoir plus d'un octet et définir la portée pour ce point que nous avons l'abonnement par défaut, probablement vous allez avoir votre abonnement par défaut ici. Cliquez sur Ajouter pour ajouter un nouveau compartiment. Comment définir la portée de l'étape budgétaire que vous allez créer. Et ici, vous pouvez à terme, par exemple, si nous voulions créer un budget pour n'importe quel groupe de ressources spécifique, il serait également possible. Il est donc important que nous définissions un nom unique pour notre budget. Et ce nom unique est dans notre abonnement. Vous ne pouvez donc pas avoir deux bateaux portant le même nom. Ensuite, nous avons la période de réinitialisation. Nous avons deux types. Nous avons des mois calendaires et des factures. Ici, nous avons la date de création. La date de création est le moment où nous créons notre budget. Et pour le mois prochain, notre plage commencera à partir du même jour. Ici, vous avez une petite description à ce sujet ainsi que la date d'expiration pour ces budgets. Donc, vous pouvez le mettre comme à 2030 un an si vous voulez. Je vais juste établir un budget. Et ici, je vais m'en tenir aux mois calendaires mensuels. Je vais commencer à partir du premier Juillet et à la date d'expiration, je partirai comme il est. Et voici l'étude pilote que je veux mettre en place. Imaginez qu'on ait 200$ de crédit. C' est notre équation, commence le montant maximum d'argent que nous pouvons dépenser. Et ici, nous avons aussi quelques petites prévisions basées sur votre utilisation précédente. Donc, nous allons juste rester avec 200 dans cet exemple, dans mon cas serait un 175 ans. Et on peut aller ensuite. C' est là que nous définissons nos conditions, que les conditions sont fondamentalement le seuil de nos budgets. On peut en avoir plus d'un. Et chaque fois que notre coût dépasse le seuil de ce budget, nous ne nous battons pas. Très bien, alors prenons le coût réel. Et là, nous avons un pourcentage pour le budget. Donc je vais être averti quand nous atteindrons et la date mise sur nous est automatiquement retournée 87 ans. Et ici, vous pouvez voir ce petit point est le premier seuil. Maintenant, je vais mettre en place un deuxième et je vais vouloir obtenir une notification quand nous aurons réussi 80 pour cent, ce qui est un an 140. Donc ici, nous avons la deuxième ligne ici, le maximum. Maintenant, nous devons mettre une adresse e-mail pour que nous puissions obtenir une notification. Il y a deux façons d'être notifié. La première consiste à mettre en place un groupe d'action. On ne va pas regarder ça. Et nous avons aussi les destinataires d'alerte, ce qui est suffisant. Donc, vous pouvez simplement mettre votre adresse e-mail ici et vous recevrez un e-mail de Microsoft chaque fois que l'un des seuils ici, il est atteint. Bon, donc je voudrais juste comme exemple, je vais juste mettre le test. Je vais rester avec la valeur par défaut et frapper la création. C' est ça. Nous avons donc créé notre tension et nous serons avertis chaque fois que nous atteindrons le seuil défini pour ces budgets. Donc, ici, nous avons une barre de progrès. Au fur et à mesure que vous progressez avec votre tension, vous commencez à dépenser plus d'argent. Vous voyez ce petit bar ici, il commence à bouger. Cliquons ici. Ce n'est qu'un résumé de notre budget. Nous avons deux seuils. La date d'expiration en âge du patient, notre portée, et les hommes que nous recevrons les notifications. Donc c'est tout pour l'instant les gars. Nous avons maintenant une tranquillité d'esprit. Tu ne vas pas dépenser tout notre argent lundi. Et si vous avez des questions, faites-le moi savoir, envoyez-moi un e-mail ou un post dans les commentaires et je reviendrai vers vous dès que possible. se voit dans la leçon suivante. Merci d'avoir regardé. 9. Comment configurer Azure Data Factory en utilisant le portail Azure: Salut les gens. Comme nous allons passer la plupart du temps, nous pouvons lire les usines de données. Pour commencer par créer notre instance de Data Factory, nous allons voir comment nous pouvons créer une usine en utilisant deux méthodes différentes. La première méthode va être portail amusant, puis la deuxième méthode, nous allons utiliser PowerShell. Je vais fournir tous les codes et le document sera disponible à partir des ressources sur les leçons. Alors commençons. Ici, nous avons le portail, c'est la page principale. Et nous pouvons commencer par taper les usines de données. Et nous allons voir ici la page d'accueil de leur usine. Alors, cliquez sur Créer. Et ici, nous avons quelques options à remplir. Et on va les parcourir pas à pas. Comme vous pouvez le voir, nous avons quelques onglets ici. Microsoft utilise une configuration par onglets lorsque vous avancez ou que vous passez par les étapes pour créer des surfaces ou ouvrir des services existants, vous aurez toujours des onglets. Commençons donc par sélectionner notre abonnement. Je n'en ai qu'une disponible. Et ici, nous avons un groupe de ressources. Ainsi, un groupe de ressources est un ensemble de ressources qui sont généralement créées avec le même cycle de vie. Par exemple, une machine virtuelle aurait des bureaux et des cartes réseau. Tout ce qui est requis pour la machine Ubuntu doit généralement être placé dans le même groupe de ressources. Nous allons donc créer un nouveau groupe de ressources pour notre Data Factory et nous pouvons l'appeler tout ce que vous voulez. Il n'est pas nécessaire d'être un nom unique globalement. Donc, je vais cliquer sur Créer. Et je voudrais juste taper mon groupe de ressources pdf, tiret RG. Cliquez donc sur OK. La région est l'endroit où votre ressource sera déployée physiquement. Il est généralement conseillé de créer une ressource près de votre emplacement physique. Dans mon cas, je vais taper Europe du Nord. Je vais donc devoir donner un nom unique globalement à ma ressource. En effet, lorsque vous accédez à cette usine, vous accédez à un domaine DNS, ce qui signifie qu'il doit être globalement unique. Je voudrais juste taper quelque chose de aléatoire ici. Donc juste pour nous d'aller de l'avant. Et puis nous avons la possibilité de sélectionner un million pour un. Donc, on est juste à des fins de compatibilité. Nous devrions toujours prendre ce qu'ils sont prêts à déplacer et cliquer sur la configuration de la jauge. On va passer par ce qui a peur et comment ça s'intègre. Alors que l'usine relative plus tard sur ces courbes, ce moment, nous allons juste rester quitter configure, obtient plus tard. Ensuite, nous avons le réseautage. Vous disposez donc de deux options pour connecter le moteur d'exécution d'intégration auto-hébergé à votre Data Factory à l'aide d'un point de terminaison privé ou public. Nous allons passer par le temps d'intégration auto-hébergé pendant vos enregistrements. Prenons le point républicain pour l'instant. Et nous ne voulons pas activer le réseau virtuel géré pour l'exécution de l'intégration de la réserve externe, cela est plus nécessaire si vous souhaitez accéder à vos ressources en privé. Il y a un, il y a quelques configurations autour que nous ne voulons pas utiliser à ce stade. Donc, je ne vais pas coller cette option. Allons à avancé. Ici, nous avons la possibilité de chiffrer les ressources Data Factory à l'aide d'une clé gérée. Cela signifie donc que vous pouvez apporter votre propre clé, placer votre clé à l'intérieur du coffre-fort de clés, puis utiliser cette clé pour chiffrer vos ressources. Cependant, par défaut qu'une usine nos crypte vos données au repos. Par exemple, lorsqu'il met en cache des données pour les mouvements de données, ou lorsque vous créez vos services liés, itérateur est chiffré par défaut. Si vous cliquez sur cette option, vous devez fournir l'adresse de votre clé et elle sera chiffrée deux fois. Et celle de la clé gérée Azure, vous aurez également votre clé gérée par le client. Donc, puisque nous n'avons pas de clé gérée par le client à ce stade, passons simplement sans cocher cette case. Ici, nous avons la possibilité de créer des balises si vous voulez, si, chaque fois, par exemple, assigner un centre de coûts pour vos ressources ou quelque chose comme ça, nous sélectionnons ceci, nous n'avons pas de balises pour le moment. On va laisser ça vide. Et enfin, nous avons l'endroit où nous révélons nos configurations. Comme vous pouvez le voir, il est assez simple de créer une usine de données, de rendre une instance d'Artifactory disponible. C' est assez simple. Nous n'avons pas beaucoup de configurations à faire ici. Alors il suffit de cliquer sur Créer et de créer notre premier Artifactory. Créer. Une ressource a été créée avec succès. Allons à la ressource en cliquant sur ce bouton. Et ici, nous avons la page d'accueil qu'une usine, l'instance que nous venons de créer. Donc ici, vous ne pouvez voir que les symétriques. On n'a pas tout le lot ici. Donc Data Factory est vraiment accessible à partir de l'inventaire des auteurs. C' est l'endroit où vous allez modifier et surveiller tous vos pipelines et vos flux de données, n'est-ce pas ? Donc, nous allons cliquer sur auto et moniteur. Cool. C' est la page d'accueil de Data Factory. Nous allons examiner toutes les options que nous avons ici. Et nous allons passer beaucoup de temps ici aussi. Restez à l'écoute, et voyons comment nous pouvons créer la même usine de données à partir de PowerShell. A bientôt. 10. Comment configurer Azure Data Factory utilisant PowerShell: Salut les gens et bienvenue à une autre leçon. Dans cette leçon, nous allons voir comment nous pouvons créer une usine de données en utilisant PowerShell. Dans notre dernière leçon, nous avons vu comment nous pouvions créer une usine de données à partir du portail. Allons donc chercher à nouveau des usines de données. Et voici la Data Factory que nous venons de créer. Voyons maintenant comment nous pouvons créer en utilisant PowerShell. Retournons à la page d'accueil. Et ici, à la barre supérieure, nous avons Cloud Shell. Cliquons sur ça. Cloud Shell est un excellent outil si vous souhaitez gérer vos ressources Azure d'une manière programmatique. Vous avez donc la possibilité de choisir bash à partir de Linux ou PowerShell. Ici, ce qu'il fait, Azure vous fournit un conteneur dans les coulisses avec un stockage non patché. Est, le stockage est éphémère, ce qui signifie qu'une fois que vous avez terminé avec vos créations ou les choses sur lesquelles vous travaillez, toutes vos données seront effacées. Vous avez donc ici vos options pour explorer vos données. Par exemple, vous pouvez modifier les polices, la taille du texte. Vous pouvez télécharger des fichiers et télécharger des fichiers. Vous pouvez également cliquer ici, et il va vous rediriger vers une page à laquelle vous pouvez accéder, le PowerShell ou le Cloud Shell en plein écran. Je dirai que vous avez le rédacteur en chef, ce qui est plutôt cool. Ainsi, vous pouvez et réellement modifier les fichiers directement à partir de l'année et les fichiers enregistrés. Il ressemble donc à l'ordinateur pour que vous puissiez accéder à votre environnement Azure. Alors travaillons à partir d'ici et créons notre usine de données. Je vais tirer ici mon code VS avec les commandes requises que nous devons effectuer. J' ai donc mis en place ici trois variables, qui est le nom de Data Factory, le nom du groupe de ressources et l'emplacement où nous allons déployer notre Data Factory. Comme vous pouvez le voir, c'est assez similaire aux options que nous avions à partir du portail. Ici. À cette étape, nous allons créer à l'aide des valeurs affectées aux variables, n'importe quel groupe de ressources. Ensuite, nous allons créer notre Data Factory V2 à l'intérieur du groupe de ressources que nous créons à la première étape ici. D' accord ? Encore une fois, nous devons fournir un nom de clé unique, Charlie Data Factory. J' ai tapé n'importe quel nom aléatoire ici. Ensuite, mon nom de groupe de ressources sera mon, pourrait être comme emplacement de groupe de ressources dans notre théorème. Ok, je vais vous fournir ce fichier ici pour que vous puissiez le télécharger. Et puis vous pouvez essayer de votre main. Alors copions-le ici. Ensuite, revenons au portail. Maintenant, nous allons coller ceci ici et puis appuyer sur Entrée. Nous avons donc toutes les valeurs assignées. Si une vérification, vous pouvez simplement taper une des variables ici de sorte que notre usine est, vous pouvez voir qu'il retourne la valeur que nous avons assignée. Maintenant, comme deuxième étape, nous devons créer notre groupe de ressources. Alors copions ça. Si vous voulez un commentaire de copie, c'est aussi bien. Revenons à la session partielle qui est confrontée ici. Et automatiquement, partiel ajoute une nouvelle ligne ici à cause de l'inclinaison. Voyons donc pour entrer, le groupe de ressources a été créé. Comme vous pouvez le voir, c'est assez rapide. Et enfin, nous devons créer notre usine de données. Copions encore ça. Laissons de l'espace ici. Appuyez sur Entrée. Et puis c'est prédire la création de notre usine de données. L' usine a été créée. Revenons au portail, à la page d'accueil et voyons le groupe de ressources et aussi la Data Factory. Alors revenons à la pièce pour avoir cette autre section ici, nous pouvons minimiser cela. Ensuite, cherchons des usines de données. Puisque j'ai déjà de mes services de recherche, je vais cliquer dessus. Et si vous faites attention à cette liste, parfois à la réunion, je n'ai pas la ressource que je viens de créer. C' est juste parce que c'est parfois ce n'est pas immédiatement. L' actualisation prend une petite seconde lorsque vous créez la ressource à partir de l'API ou de PowerShell. Rafraîchissons ça. Et confirmons le nom ADF que nous venons de créer. Copions-le et mettons-le ici. Donc, la ressource est visible à partir d'ici. Et si vous vous en souvenez, c'est le groupe de ressources que nous venons de créer. Si nous cliquons dessus, nous pouvons également voir la ressource à partir de la vue du groupe de ressources et confirmer qu'elle a été créée avec succès. Vas-y. Maintenant, nous avons ce qui est nécessaire pour que nous puissions continuer avec nos courbes C réglées et vous voir dans la prochaine leçon. 11. Composants ADF - Services liés: Bienvenue à une autre leçon. Dans cette leçon, nous allons voir comment nous pouvons créer un service lié dans Azure Data Factory. Le service Linkerd est un élément clé pour les workflows basés sur les données de l'histoire, EDF. Il peut associer des services liés, serait chaînes de connexion en utilisant des logiciels d'application, où vous devez fournir certaines informations pour vous connecter à une source de données. Par exemple, l'adresse de la source de données, les informations d'identification et, surtout, quel est le pilote de cette connexion ? Une base de données SQL Server nécessite un pilote spécifique. Une base de données NoSQL nécessiterait un autre lecteur. Une API nécessite un autre ensemble de Brown pour récupérer ou envoyer les données. Les services liés dans ADF sont à peu près les mêmes. Il offre une variété de connecteurs qui sortent de la boîte ont tous les paramètres requis qui vous permettent de vous connecter aux différents services. Et comme exigence pour cette leçon, nous allons créer un Data Lake Storage Gen2. Et nous allons aussi lier cela une usine et le lac de données. Restez à l'écoute. Je connais le portail. Ouvrons ADF pour commencer à travailler avec des services liés. Et nous allons taper mais les usines dans la zone de recherche. Et nous allons utiliser le ADF que nous avons créé plus tôt. Cliquez sur ultra et moniteur. Et attendons qu'il charge la page. Maintenant, nous sommes sur la page d'accueil. Allons à la Gérer sur le côté gauche. Et vous pouvez voir que le lien au service est la toute première option dans le volet de gauche. Ainsi, vous avez l'authentique créatif en cliquant sur nouveau service lié créatif ou nouveau. Cliquons sur ça. Comme nous pouvons le voir, il apparaît un grand nombre de différents types de services liés à votre choix. Au moment de cet enregistrement, il existe plus de 80 types différents de services liés. Et comme vous pouvez le voir, vous avez des services Azure natifs, ainsi que des services tiers tels que SAP, hana, Salesforce, voire Shopify. Donc, pour notre expérience, nous allons utiliser Data Lake Gen2. Puisque c'est une initiative en tant que service. Comme vous pouvez le voir, il y a peu d'options que vous devez remplir, telles que la description du nom, l'intégration , l' exécution, le type d'authentification que vous souhaitez utiliser et l'emplacement de vos services. Puisque je n'ai aucun compte de stockage créé, oui. Créons un et voyons comment cela fonctionne. Revenons au portail. Dans la zone de recherche. Je vais chercher des comptes de stockage. Et devrait-il être la première option ? Cliquez sur Nouveau. Je ne vais pas entrer dans les différents détails qui composent le compte de stockage parce que notre objectif ici est juste de créer un compte de stockage et de connecter EDF à celui-ci. Je vais choisir mon abonnement actuel. Je vais choisir le groupe de ressources que nous avons créé auparavant. Je vais lui donner un nom. Ça va être, je vais rester avec l'Europe du Nord, la région. Et vos options seront par défaut pour moi et je vais sauter toutes ces options, mise en réseau, protection des données, et je vais passer à avancé. Donc, sous Data Lake Gen2, je dirai activer. C' est ce qui a confirmé que je veux un Data Lake, donc je vais sauter les balises, puis Review and Create. Cool. Maintenant, nous avons notre compte de stockage créé. Alors passons à la ressource. Et il n'y a qu'une chose que nous devons faire ici, à savoir l'autorisation ADF pour accéder aux données qui vont être stockées sur cette couche de données. Sinon, nous ne pouvons pas assimiler les services liés. Donc, disons le contrôle d'accès. À, à affectation rurale. Je vais choisir le rôle appelé blob, contributeur de données. Une chose intéressante ici est que lorsque vous créez une Data Factory dans les coulisses sur Azure Active Directory et des identités créées avec le même nom que la fabrique de données. De cette façon, vous pouvez autoriser l'usine de données elle-même à accéder à la ressource au lieu de créer un nouveau compte. Cherchons donc le nom de notre usine de données. Et voilà. Nous avons ici et sauver, et attendons dans le monde est créé, le rôle a été assigné. Vous pouvez le confirmer sur une attribution de rôle. Et vous voyez que vous avez l'icône de la fabrique de données ici, et vous avez également l'ID d'objet, qui est cette grande chaîne qui est composée par l'ID d'abonnement, le nom du groupe de ressources et le type de ressource. Super, Revenons à ADS. Voici toujours sous un service lié, Data Lake Gen2 page ouverte comme lui donnant un nom. Je ne donnerai aucune description. Je vais m'en tenir aux options par défaut et sous la méthode d'authentification, il va être géré identité. Ensuite, sous mon abonnement, je choisirai ma subvention et je chercherai la nouvelle Data Factory qui a jamais été créée. Mais vous pouvez voir que ce n'est pas encore sur la liste. C' est parce que parfois il faut un peu pour propager les nouvelles réserves afin que nous puissions nous rafraîchir. Et on y va. C' est ici. Comme vous pouvez le voir, les identités gérées, le nom de la fabrique de données. C' est ce que nous avons accordé l'autorisation sous le compte de stockage et est l'objet AG. On peut tester la connexion. On y va, avec succès. Créons le service lié. On a juste besoin de publier. Ok, on est tous prêts. Voyons comment nous pouvons utiliser cela à partir d'un jeu de données. 12. Composants ADF - Pipelines: Salut. Avant de plonger dans ces activités, vous comprenez ce qu'est un pipeline ? Un pipeline n'est pas t, mais un regroupement logique d'activités qui exécutent ensemble une tâche. Par exemple, vous pouvez avoir un ensemble d'activités qui ingèrent et reprennent les données du journal. Ensuite, vous auriez un flux de données de mappage pour analyser les données du journal. Le pipeline vous permet de gérer ces activités comme un ensemble au lieu de chacune individuellement. Disons donc que vous déployez un pipeline et que ces pipelines fonctionnent comme un conteneur où vous pouvez regrouper beaucoup d'activités à l'intérieur, obtenir un coup d'envoi. Une fois le pipeline déployé, vous pouvez le mélanger. Au lieu d'observer les activités indépendamment. À l'intérieur d'une usine de données, vous pouvez avoir un ou plusieurs pipelines. Vous pouvez même imbriquer des pipelines d'une manière que vous pouvez appeler une activité dans un pipeline qui provoque un deuxième pipeline, au troisième pipeline, etc. Voyons comment cela fonctionne dans la pratique. Pour créer un pipeline. Il y a deux façons. L'une est de la page d'accueil de Data Factory. Vous pouvez cliquer sur Créer un pipeline. Et il vous redirigera directement vers cette page. Ou vous pouvez venir ici pour offrir et cliquer sur la chapelure ici. Nouveau pipeline. Comme vous pouvez le voir, il s'agit essentiellement d'une toile et toile vide pour commencer à construire vos pipelines complexes. Une fois que vous avez un pipeline, vous pouvez lui donner un nom. Il est important que vous donniez un nom propre, que vous puissiez le trouver facilement après. Sur le côté droit, vous avez le panneau et vous pouvez lui donner un nom, vous pouvez lui donner une description. En outre, vous avez la possibilité de définir la concurrence. Comme vous pouvez le voir, il s'agit du nombre de biplans simultanés qui sont lancés à la fois. E, étant donné que l'usine a une limite molle. Vous pouvez donc contrôler le nombre de pipelines que vous exécutez à tout moment. Et la notation est fondamentalement une balise qui indique quel type de pipeline vous avez affaire. C' est quelque chose que vous pouvez donner et c'est très utile lorsque vous regardez des choses comme le moniteur. Une fois que vous avez décidé du type d'activités que vous souhaitez utiliser, vous pouvez commencer à les faire glisser et les déposer. Dans votre toile vide. n'y a pas grand-chose autour du pipeline. Et nous y plongerons plus au fur et à mesure que nous continuons pendant ce cours. C' est tout pour l'instant. Continuons avec les jeux de données. 13. Composants ADF - Datasets: Maintenant, nous avons déjà commencé à le créer. Nous devons créer un ensemble de données. Vous avez un ensemble est un nom pour afficher les données qui fait simplement référence aux données que vous souhaitez utiliser dans vos activités. Il identifie également les données dans les magasins de données, telles que les tables, les fichiers, les dossiers et les documents. Par exemple, un jeu de données blob spécifie le conteneur et les dossiers de blog. Stockage blob à partir duquel l'activité doit lire les données. Voyons maintenant comment nous créons cela. Jetons un coup d'oeil à l'option alter. Comme vous pouvez le voir, aucun ensemble de données n'a encore été créé, alors créons un. Jetez un oeil à la chapelure ici et cliquez sur Actions. Nouvel ensemble de données. Pour notre ensemble de données depuis que nous avons utilisé Data Lake Storage Gen2. Fractionnons cette option. Maintenant que nous avons notre pointeur vers un service lié, nous devons spécifier le type de fichiers que nous allons utiliser. Alors laissez-moi sélectionner des fichiers. Appuyez sur Continuer. Nous devons lui donner un nom, une valeur de point. Ensuite, notre lien qu'il sert devrait être disponible pour nous. Choisissons cette option. Ici. Je peux définir la source ou l'emplacement où mes données sont stockées. Puisque nous n'avons pas encore de dossier ou de structure créé, je voudrais juste rester avec connu. Cliquez sur OK. A partir de ce panneau, comme vous pouvez le voir, nous avons créé nos objets. Ici. Il peut le pré-remplir pour nous. Et je peux tester à nouveau la connexion. De ces phages. Nous pourrions éditer, voler le service pour changer la connexion ou pour changer la description, quelque chose comme ça. Ou je pourrais créer un nouveau service lipophile directement à partir d'ici aussi. Il y a donc beaucoup de points d'entrée où nous pouvons créer un objet. Allons ici. C' est un type de compression avec lequel je veux travailler. Il pourrait s'agir de sortir mon fichier ou de lire ce type de compression. Allons choisir craquelé. Ici. C' est un assez cool parce que je suis venu navigateur mon lac de données. Si je dirige les dossiers ici, je ne serais pas en mesure de les développer tous. Je pourrais même prévisualiser mes données si j'avais sélectionné le fichier. Cool. Pour l'instant, c'est tout ce qu'il faut faire. Alors appuyez sur Publier, puis publions. Super, nous sommes tous prêts pour le moment. Voyons comment nous travaillons avec les activités. 14. Composants ADF - Activités: Cool. Maintenant, nous avons nos deux exigences de base, pensez serveurs et que l'ensemble, nous devons définir un moyen de déplacer les données ou de transformer données du point a au point B en utilisant notre service de liaison et ensemble de données, les principaux composants pour faire fonctionner les activités de mouvement, pas les activités de transformation et les activités de contrôle. Maintenant, pour que les hôtes travaillent avec des activités, nous devons d'abord créer un pipeline. Allons donc modifier les actions. Nouveau pipeline à partir des trois types d'activités que nous avons classées. C' est un début avec point. L' activité de mouvement. Ou l'activité de déplacement est généralement associée à une tâche d'activité de copie de point, de point ou de copie. Lorsque vous travaillez avec Copy Doc, vous pouvez voir que vous aurez la source et le collecteur, qui pourraient être traduits vers votre source de données et votre destination. Comme vous pouvez le voir ici, il nécessite un jeu de données. C' est ainsi que nous commençons à brancher ensemble sont des services liés et des jeux de données. Ici aussi, nous avons besoin d'un ensemble de données. Il existe une grande variété de jeux de données et la liste évolue toujours pour non pas que les activités de transformation, nous avons différentes options. Nous pourrions transformer les données à partir de Data Factory avec ses propres ressources, que nous pourrions appeler flux de données ou flux de données cartographiques. Avec se moquer faire le post, vous aurez un grand nombre de transformations. En outre, vous pouvez appeler des ressources de calcul pour effectuer les transformations afin que vous atteigniez les données, telles que Databricks, Batch Service, Azure, Synapse et d'autres machines virtuelles. Et la liste ne cesse de croître. Vous avez donc plusieurs options pour travailler avec les transformations. Enfin, avec des activités de contrôle. Vous pouvez orchestrer le flux de vos activités pour les faire exécuter d'une manière ou d'un ordre que vous désirez. Vous pourriez enchaîner des activités dans cette séquence, des ramifications et plus encore. Jetons un coup d'oeil comment ça marche. Supposons que nous voulions changer dans une certaine séquence la façon dont vos activités s'exécutent. Ainsi, vous pouvez les brancher ensemble et même définir quand cela aurait dû être exécuté. Si vous cliquez avec le bouton droit de la souris sur la flèche, vous pouvez voir que vous avez réussi, terminé les fader et bien plus encore, mais cela ne s'arrête pas là. Vous pouvez trouver plus d'options ici. Par exemple, si nous commençons à son intégration et les conditions que nous avons pour chacun, nous avons si condition, nous avons basculer jusqu'à. Ce sont des contrôles. Et vous pouvez les utiliser pour modifier l'exécution de votre pipeline. Pour chaque activité définit un flux de contrôle répétitif dans votre pipeline. Est-ce que l'activité est utilisée pour itérer sur une collection et exécute l'activité spécifiée n'est pas une boucle. La condition if peut être utilisée pour se branche en fonction d'une condition qui peut évaluer à true ou false. Je suis sous. Assez utile. L' activité est celle appelée exécute l'activité de pipeline. Alors recherchons ça. Exécute le pipeline. Donc, active pour vous permet d'appeler un autre pipeline. Mais pourquoi cela est utile lorsque nous parlons de pipelines, il ya une limite maximale d'activités et un pipeline spécifique. Ce nombre est 40. Si nous travaillons sur un entrepôt de Big Data où vous pouvez obtenir beaucoup de tables. Vous devrez peut-être créer une chaîne de pipelines. Ce qui signifie que vous pouvez venir ici et appeler l'exécution d'une seconde par aveugle. Et ici, vous pourriez appeler un autre pipeline. Et aussi à des fins d'organisation, vous pouvez appeler, ils ont mentionné des tables ici. Vous pourriez appeler des tables de faits ici, et ainsi de suite et ainsi de suite. 15. Composants ADF - Paramètres de pipeline: Salut là. Dans l'écosystème de l'usine de données, nous pouvons créer divers objets. Par exemple, les jeux de données, les pipelines, les flux de données et la liste continue. Mais comment créer une solution dynamique de manière à éviter un grand nombre d'objets simplement parce qu'ils ont des paramètres de biais différents. Quels paramètres vous pouvez créer une solution très robuste et dynamique. Créer des jeux de données ou un pipeline du siège social n'est pas une mauvaise chose en soi. C' est juste quand vous commencez à créer de nombreux sujets que les choses prennent un peu de temps. Et pour ne pas mentionner, il y a toujours un risque d' itérations de soudage principales où lorsque vous commencez à créer beaucoup des mêmes objets, vous écoutez et faites beaucoup d'erreurs stupides. Nous allons diviser cette manifestation en trois parties. La première partie, nous allons créer un pipeline dans un jeu de données. Et nous allons passer la valeur du paramètre que nous avons sur le pipeline jusqu'au jeu de données. La deuxième partie consiste à passer les valeurs des paramètres entre les activités. Ce serait donc plus interne dans le pipeline. Et puis la troisième partie, nous allons utiliser un paramètre global d'une manière que nous aurions une portée plus élevée. Puis passez la valeur de ce paramètre à un pipeline ou à un trop grand nombre de pipelines ou à un jeu de données. Il y a certains éléments des manifestations que nous n'avons jamais vus auparavant. Par exemple, comment nous créons un lac de données. Mais ne vous inquiétez pas, je vais juste dans le futur ici un peu pour gagner du temps. Mais nous verrons tout au long de ce cours comment nous créons tous ces objets. Ici, j'ai une toile vide, qui est mon pipeline. Je vais donc renommer le pipeline en PL. Pour notre démonstration, nous allons obtenir les données d'une API de repos et il est stocké ces données sur un retard. Donc, tout d'abord, nous devons obtenir notre activité, que nous pouvons utiliser est la copie bêta. Depuis que vous alliez transférer des données. Il y a deux choses principales ici. On va aller directement au but. Nous avons la source et l'évier. Notre source va être la recette. Nous devons donc utiliser le jeu de données puisque nous n'en avons pas encore, créons un. Alors je vais chercher du repos. Et ça devrait être celui-là. Cliquons. D'accord. Ok, nous avons créé notre jeu de données. Maintenant, nous avons besoin d'un service lié. Sommes-nous liés service est notre chaîne de connexion. Et les jeux de données sont le type de connexion que nous allons utiliser. Alors ouvrons notre jeu de données. Et comme vous pouvez le voir, c'est vide. Donc nous pourrions passer si nous voulions l'URL relative d'ici. Créons un nouveau service lié. En tant que convention de nommage, je vais créer comme ls pour une API de service lié. Et puis pour toutes ces options, nous allons les examiner plus tard sur ce cours. Nous allons simplement rester avec la résolution automatique et le type d'authentification que nous allons utiliser anonyme. Maintenant, nous avons juste à passer l'URL. Donc, je vais juste obtenir l'URL que j' ai déjà et coller ici et nous pouvons tester la connexion. Ok, c'est réussi, ce qui est génial. Cliquez sur Créer. Et maintenant, nous avons nos créateurs de services liés et notre jeu de données appelé rest utilise ce service lié. Donc, modifions le nom de ces jeux de données pour respecter la convention RNA. Et puis je mettrai DS pour Data Service. Et l'API de repos de score. Appelez. C' est maintenant que nous arrivons au point où nous commençons à travailler avec des navigateurs. Alors revenons ici. Et puis je vais ajouter un nouveau paramètre. Ici. Je dis à ce jeu de données, il va le recevoir d'Enter et ensuite il ne peut pas affecter une valeur par défaut fraîche. Nous avons donc trois champs ici. Je vais juste nommer mon prompteur, nous URL relative. Et ma valeur par défaut va être barre oblique. Et c'est tout. Je dis, hey, jeux de données, vous avez un prompteur et une valeur par défaut. Si rien n'est passé, cette valeur va être assumée ici. Sauvegardons ça. Maintenant. Nous avons créé notre ensemble de données et notre service lié. Non, on doit retourner à notre pipeline. Et comme vous pouvez le voir immédiatement, dès que j'ajoute un nouveau paramètre à mon jeu de données, il est rempli ici. Il s'attend à une valeur pour mon pipeline. Donc, ce que nous pouvons faire ici, nous pouvons cliquer ici et n'importe où en dehors des activités. Nous changeons donc à la portée. Et nous pouvons obtenir cette information ici du bas. Et nous avons quelques options ici. L' un d'eux est le prompteur. Créons un nouveau paramètre et appelons-l' URL relative. Chaîne de même type. Et je vais passer la même valeur, qui est les haut-parleurs. D' accord ? Je vais encore sauver ça. Ce qui se passe ici est ce qui suit. Nous avons un paramètre qui est créé à ce sujet en dehors de la portée ici. Et mon activité utilise un jeu de données qui est déjà en terrible. Et ce jeu de données attend un paramètre. Si nous cliquons ici, vous pouvez voir que immédiatement je peux voir le contenu dynamique ABS. Cliquons sur ça. Et à partir de la liste déroulante ici, nous avons une liste des paramètres disponibles. Si j'avais plus de paramètres de mon pipeline, il serait également listé ici. Alors, nous allons cliquer dessus. Et un intéressant à remarquer ici, le nom vient comme entièrement qualifié. C' est donc la portée où mon pipeline a été créé, mais c'est très important. OK, alors on va cliquer sur Finish Charbon. Donc, maintenant, nous utilisons le prompteur que nous avons créé dans notre pipeline pour transmettre cette valeur à notre jeu de données. Maintenant, allons de l'avant et cliquez sur Synchroniser. Et nous allons créer un nouveau jeu de données pour apprendre les données que nous venons d'obtenir de notre API de repos. Ok, alors allons de l'avant et créons un nouveau jeu de données. En elle. On va utiliser Data Lake Gen2. Cliquons dessus et continuons. Et je vais utiliser un type JSON. Continuons. Je vais juste nommer comme le lac de données. Alors. J' ai déjà un service lié est créé à partir d'un lac de données. Et je vais juste sélectionner celui-ci, mais nous pourrions en créer un nouveau à partir d'ici. Donc je viens de choisir celui-là. Et puis d'ici est le chemin où je vais stocker le fichier. Donc, je voudrais juste parcourir cette information ici et voir quels sont les conteneurs, quels sont le dossier routes que j'ai disponible ? Donc, je voudrais juste cliquer ici sur mon CSV. Et ces données seront débarquées sur le niveau du toit du conteneur. Alors, nous allons cliquer. Ok, super. Nous avons tout ce dont nous avons besoin en ce moment. Alors allons de l'avant et testons ce pipeline ici et voyons comment il se comporte. Donc je vais juste aller et cliquer sur le livre. Vous pouvez voir que si je le voulais, je pourrais pousser cette information d'ici aussi. Et puis il sera transmis à mon ensemble de données. Je resterais juste avec la valeur par défaut et cliquez sur OK. Vous pouvez voir qu'il fait maintenant la file d'attente et a été réussi. Notre pipeline utilise donc les paramètres transmis au jeu de données. Maintenant, nous devons créer la deuxième partie de notre démonstration. 16. Composants ADF - Paramètres d'activité: Bon, aller à la deuxième partie de notre démonstration. Maintenant, nous allons utiliser les paramètres entre les activités. Dans cette démonstration, nous allons obtenir métadonnées du fichier est stocké sur le lac de données. Et en utilisant ces informations, nous allons remplir une table sur un SQL Server. Pour ce faire, il y a un test de phase que nous devons faire ici. J' ai donc une table factice qui contiendra si vos champs, par exemple, le nom de l'élément, la dernière date de modification pour le fichier. Et nous avons un surplus ici. Ce sont procéduraux reçoit fondamentalement en tant que paramètre, les mêmes champs que nous avons disponibles sur notre table. Et puis avec ces navigateurs remplira une table que nous avons insérée ici. Et puis nous avons juste ici une déclaration select pour valider les données sur notre table. La table n'est pas encore créée. Nous pouvons vérifier en faisant cela, je vais m'assurer que la table n'existe pas et je vais créer la table. Alors faisons ça. Cool. Notre table est créée. Nous pouvons vérifier le nombre de lignes et la table est vide. Maintenant, nous allons nous assurer que notre procédure a également été créée parce que c'est ce qui va remplir notre table. Je vais tout sélectionner ici et créer un appel de procédure ou une procédure est des données valides. Maintenant, obtenons une activité appelée métadonnées. Donc, en fait spécialement conçu pour obtenir les métadonnées de fichiers sur différents emplacements. Dans notre cas, nous allons accéder aux métadonnées du fichier que nous avons téléchargé à partir de notre démonstration précédente. Nous pouvons utiliser les mêmes jeux de données que nous avions auparavant, TS Data Lake. Et il y a quelques arguments que nous pouvons obtenir à partir du fichier, donc nous pouvons spécifier à partir de la liste disponible. Donc, si nous cliquons sur nouveau, nous avons les arguments. Et à partir de là, nous pouvons ajouter plus d'arguments. On va avoir le nom de l'objet. Et je vais ajouter un nouveau type d'élément. Et le dernier mode cinq. Donc, total trois éléments que nous avons obtenu. Et juste pour vérifier ici sur notre table. Donc, ce sont le nom de l'élément, le type et le fichier d'humeur. Cool. Nous avons donc tous les arguments dont nous avons besoin. Et cela va être récupéré de notre fichier situé sur notre lac de données. Allons de l'avant et obtenons une autre activité appelée procédure de magasin. Donc, avec cette activité, il nous permet d'appeler un chercheur de surface sur des bases de données. Donc, cliquez ici sur les captures d'écran et faites-la glisser vers l'activité suivante, alors assurez-vous qu'elles sont exécutées sur un ordre spécifique. Ensuite, sur notre saisie de surface, nous pouvons sélectionner notre base de données. Alors allons de l'avant et obtenir un service lié. Depuis que j'ai déjà mes créateurs de surface liquide, je viens de sélectionner ici. Et puis je peux tirer ici les saisies de surface disponibles ou ma base de données. Puisque tu n'en as qu'un, on peut l'avoir ici. C' est cool parce que ici je peux bien adapter Mentalement les paramètres que je veux passer. Ou si je le veux, je peux importer le paramètre de la base de données automatiquement. Alors frappons Importer. Super. Ainsi, comme vous pouvez le voir, les paramètres que nous avons sur notre fonction de surface sont maintenant disponibles à partir d'ici. Cool. Notez que nous avons ces deux chaînes ensemble. Nous allons devoir changer notre saisie de surface pour recevoir les paramètres que nous voulons. Donc ce sont les paramètres disponibles et voici les octets. Si nous le voulions, nous pourrions passer une valeur par défaut. Mais ce que nous voulons, c'est le jeu de résultats provenant des métadonnées du ghetto. Si nous cliquons ici, automatiquement, ajoute du contenu dynamique. Cliquons sur ça. Et nous avons la sortie des métadonnées. Donc c'est intéressant parce qu'il vient comme un objet. Donc, pour que nous obtenions les valeurs du jeu de résultats de l'activité de métadonnées, nous devons y accéder en tant qu'objet. Alors, nous allons cliquer dessus. Et je vais cliquer sur Terminer ici. Nous pouvons donc revenir rapidement vers vous pour voir quelles sont les informations que nous avons. Nous avons donc l'article, le nom, le type d' article et moins modifié. Donc ici, nous pouvons cliquer dessus. Ce sera la dernière modification. Ce sera tout à fait. Alors, cliquez sur OK. Celui-ci sera l'un ou l'autre des noms. Donc nous pouvons cliquer sur le lot. Puis tapez à nouveau le nom de l'élément ensemble. Ensuite, nous avons enfin identifié. Cliquons sur ça. Sélectionnez notre sortie. Alors tapez île, non ? Super. Maintenant, nous passons les valeurs associées à cette activité à l'équation de surface ici. Je vais sauver ça. Et lançons cette activité. Frappez le débogage et voyons à quoi cela peut ressembler. C' est biaisé. Incroyable. Non. Le premier a réussi. Vérifions la seconde. Grèce. Les valeurs de notre activité entrer dans les données ont été transmises avec succès à la saisie de surface. Si nous cliquons ici sur Canvas, nous pouvons vérifier l'exécution. Alors cliquez ici. Nous pouvons voir quels sont les arguments que nous avons choisis dans notre activité de données de méthode. Donc le nom de l'élément, il ne s'est pas produit la dernière modification. Ce sont donc les résultats de l'activité. L'entrée. Nous pouvons voir que nous avions une procédure stockée et sont les valeurs que nous avons passées à la surface. Maintenant, si nous revenons au serveur SQL et si nous vérifions à nouveau la table, nous avons maintenant un nouveau volume que je connaissais enregistrements, mais c'est génial pour que nous puissions voir comment nous pouvons passer les valeurs d' une activité à une autre activité qui utilise des paramètres. C' est génial. Nous pouvons réutiliser notre code. 17. 4.5.3: Maintenant, passer à la troisième partie de cette démonstration, nous allons voir comment nous pouvons travailler avec des paramètres globaux. Je suis parti. Le problème global ne s'arrête pas parce que je voulais montrer comment nous pouvons utiliser la proéminente mondiale. Il y a soit pour les pipelines, soit pour les activités. Sur le côté gauche, nous avons réussi. Et ici, sous l'opéra, nous avons des paramètres globaux. Cliquez sur Nouveau. Et gardons le nom URL relative et la valeur sera la même que nous avons fournie précédemment, qui est les haut-parleurs. Touchons sur Sauvegarder. Maintenant, en revenant au pipeline, j'ai ouvert ici les deux pipelines que nous avons déjà travaillés. Celui que nous passons les paramètres à l'intérieur du pipeline et ici entre les activités. Donc, si nous vérifions l'activité et puis nous vérifions la source, nous pouvons voir que nous avons est à la réinitialisation rapide. Cliquons sur ça. Et maintenant, sous les paramètres que nous avons avant, nous avons des paramètres globaux. Et puisque nous avons donné le même nom, c'est le même qu'on voit ici. Nous pouvons donc supprimer cette option en surbrillance ici, qui est le paramètre réel. Ensuite, nous pouvons choisir l'URL relative. Nous pouvons voir que maintenant nous avons un nom entièrement qualifié pointant vers les paramètres globaux. Allons frapper Finish. Et ici, si nous passons à l'autre pipeline où nous le transmettons des activités de discours, si nous cliquons ici, nous pouvons voir que les paramètres globaux sont également disponibles et nous n'avons pas le pipeline disponible ici. C' est la beauté des paramètres globaux. Les paramètres globaux sont hautement réutilisables, soit entre les activités, soit entre plusieurs pipelines, au lieu d'être limités à un seul pipeline. Ok, annulons celui-là. Revenons à celui-là. Et puisque maintenant nous allons utiliser un paramètre global, sauvegardons et exécutons ceci et voyons comment cela va fonctionner. Allons frapper Debug. Encore une fois, je peux imputer le paramètre si je veux. Et ça va déclencher le pipeline. Maintenant, c'est en cours. Super. C'est méchant réussi. Et avec cela, nous concluons une démonstration de plus. J' espère que vous apprécierez ça. Et voyons dans la leçon suivante comment nous pouvons travailler avec les traiteurs est ancien. 18. Composants ADF - Déclenches: Dans cette leçon, nous allons parler des déclencheurs Azure. Les déclencheurs sont un élément fondamental de l'écosystème de l'usine de données. L' utilisation de déclencheurs est la façon dont nous pouvons transporter nos pipelines pour répondre à nos exigences. Au moment de cet enregistrement, il y a quatre types de déclencheurs différents et nous allons les examiner maintenant. Il existe principalement deux façons d'accéder aux déclencheurs existants ou nouveaux. Lorsque vous êtes allé à associé par avion à un déclencheur, nous avons ce bouton ici sont déclenchés et nous pouvons cliquer sur nouveau ou modifications à votre. Aussi sur le côté gauche, nous avons réussi et sous auteur nous avons des déclencheurs. Et ici, nous pouvons voir tous les déclencheurs disponibles que nous avons dans notre usine de données. Revenons donc au pipeline que nous avons créé lors de notre démonstration précédente. Et nous allons cliquer sur Ajouter un nouveau déclencheur. Et ici vous pouvez voir que je pourrais choisir quand déclencheur existant ou je peux en créer un nouveau. Depuis que je n'en ai pas. Cliquez sur Nouveau. D' accord. C' est la fenêtre principale où nous allons mettre en place nos déclencheurs. Il existe principalement quatre types de déclencheurs différents. Nous avons squelettique, nous avons une fenêtre de tumbling, nous avons des événements de stockage et des événements personnalisés. Donc, quand il s'agit de l'échelle, ces bovins soit déclenché qui évoque un pipeline sur un regard de marche. Et la relation entre une échelle dans un pipeline peut être un-à-plusieurs. Par exemple, je peux avoir beaucoup de pipelines en utilisant la même bouilloire. Tous mes pipelines pourraient-ils fonctionner à nouveau à une seule fois ? Oui, ils ont juste besoin de partager la même diffusion. Ok, maintenant nous avons une fenêtre qui roule. La fenêtre Tumbling est un déclenchée qui fonctionne sur un intervalle assez chaotique tout en conservant également la scène. Il pourrait être décrit comme déclenché qui peut être utilisé pour des scénarios plus complexes. Par exemple, vous pouvez créer des dépendances entre les déclencheurs, entre une autre fenêtre de culbutage. Et vous pouvez courir quelques chiens à partir du moment où il a échoué. Vous pouvez définir une nouvelle tentative de l'utilisateur pour les pipelines. Et la relation entre votre commerçant de fenêtres et les pipelines est toujours une relation individuelle. Vous ne pouvez pas utiliser la même fenêtre de temps pour beaucoup de pipelines que nous pouvons le faire avec son bétail. Une autre très bonne caractéristique de la fenêtre bleue. Vous pouvez exécuter une fenêtre de tumulte pour les données passées et futures dénote scandale sauvage. Vous ne pouvez pas, c'est une passerelle parfaite et vous voulez exécuter des carburants pour votre maison plus profonde ou vos bases de données. Et enfin, un autre élément de la fenêtre de tumbling est le fait qu'il a une propriété d'auto-dépendance, ce qui signifie que le déclencheur ne doit pas passer à la fenêtre suivante jusqu'à ce que ce qui précède. Nous savons que c'est fini avec succès. Donc tu dois avoir ça à l'esprit. scandale est toujours à l'avenir. Et w fenêtre, vous pouvez avoir une période de temps définie. C' est l'événement de stockage est un type de déclencheur très cool. Il existe donc de nombreux cas d'utilisation où vous souhaitez réagir aux événements qui peuvent se produire sur votre compte de stockage. Par exemple, imaginez que vous attendez qu'un fichier atterrit sur votre compte de stockage et que vous pouvez ensuite charger ce fichier. Dans ce cas, vous n'avez pas besoin de vérifier périodiquement si le fichier a bien été chargé dans le compte de stockage. utilisation d'événements historiques est parfaite car chaque fois qu'un nouvel événement est créé sur votre compte de stockage, vous pouvez utiliser ce déclencheur pour déclencher un pipeline. Ces événements de stockage utilisent donc Event Grid en coulisses. Donc, chaque fois que vous créez que déclencher un nouveau sujet, iso généré pour vous dans les coulisses. Et si vous allez à Event Grid, vous pouvez voler l'événement là-bas. Maintenant, nous l'ajoutons simplement. Nous avons des événements personnalisés. Donc, non seulement pour les comptes de stockage plus, cela peut être n'importe quel jour. Encore plus grand, super, parce que vous pouvez définir vos propres sujets et créer vos propres événements. Imaginez que vous avez une application qui a un type d'événement très particulier et que vous voulez réagir aux événements. Vous pouvez donc créer une rubrique personnalisée pour la création d'événements. Ensuite, en utilisant les événements personnalisés dans Data Factory, vous pouvez vous abonner à ces événements. Et puis nous agissons chaque fois qu'un nouvel événement se produit. C'est génial. Maintenant, nous avons beaucoup plus de flexibilité lorsque nous réagissons aux événements. Donc ici, comme vous pouvez le voir, ces Gallo est assez simple pour un pipeline, donc vous définissez juste la date et l'heure. Pour la fenêtre de culbutage. Nous avons plus d'options pour que vous puissiez définir la récurrence des événements comme toutes les 15 minutes ou vous pouvez, comme le nôtre, spécifier une date de fin pour cela. Disons que je veux juste courir pour une période ou pour une fenêtre de 30 minutes. Si vous cliquez sur Avancé, vous avez beaucoup plus d'options ici. Donc, vous avez un maximum de concurrence, ce qui est idéal pour Data Factory. Ainsi, vous pouvez définir le maximum conscient de certains déclencheurs de Daniel voulant peut définir un nombre pour vos nouvelles tentatives de la politique de réessayer de la chaise, alors c'est génial aussi bien. Vous pouvez donc penser à cela comme une sorte de validation où vous pouvez définir l'intégrale pour votre réessayer, ce qui est génial. Les limites sont donc semblables à celles que nous avons pour les pipelines. Vous voulez donc ajouter une sorte de descriptions à votre déclencheur. Vous pouvez ajouter une nouvelle notation ici. Et c'est à dire s'il est activé ou désactivé. Et nous allons au magasin les événements sont des événements disjoints. Vous devez définir un compte de stockage. Et puis voici où vous définissez le chemin que vous voulez écouter. Et voici les événements que vous pouvez réagir chaque fois qu'un fichier Blob est créé ou quand un fichier Blob est supprimé, alors vous pouvez vraiment intelligent, vous ne pouvez pas ignorer les fichiers fiscaux ou disons les fichiers Parquet qu'ils sont vides. D' accord. Donc vous, vous n'avez pas besoin de, Vous n'avez pas besoin de faire fonctionner votre pipeline parce qu'il ne chargera rien. D' accord ? Ensuite, les mêmes permutations et activés ou désactivés, puis des événements personnalisés. Parce que certains événements que nous avons ici, l'abonnement et ensuite nous avons David pourrait parler, peut nommer. Ceci est créé en dehors de Data Factory. Donc, vous avez vos sujets, qui est similaire à ce que nous avons pour les comptes de stockage, comme ce que vous voulez écouter pour réagir. Et puis les types donnés, ce sont toutes les douanes que je peux définir. Et avec cela, nous terminons une leçon de plus. J' espère que vous avez aimé. Et si vous avez des questions, montrez-moi juste un message, en passant les commentaires, et je reviendrai vers vous dès que possible. Merci d'avoir regardé. 19. Composants ADF - Exécution d'Azure: Maintenant, parlons de l'exécution de l'intégration, voyons comment cela fonctionne et pourquoi cela est si important dans l'écosystème d'Azure Data Factory. Donc, pour voir où il se trouve et où nous pouvons configurer, gérer. Et vous devriez être en mesure de voir les runtimes d'intégration, comme vous pouvez le voir ici. Par défaut, lorsque vous créez une nouvelle Data Factory, elle est livrée avec un runtime d'intégration par défaut en un mot. Et l'intégration à temps est une infrastructure de calcul qui exécute toutes vos activités en coulisse. Il existe près de trois types d'exécution d'intégration, mais nous voyons ici est l'autre type. Nous pouvons également avoir le type auto-hébergé et l'exécution d'intégration SSIS. Donc, fondamentalement, quelles sont les différences entre les coûts et les restrictions de réseau ? Lorsque nous utilisons Azure Integration Runtime, cela est essentiellement destiné à être utilisé entre les ressources d'Azure. Ou par exemple, quand il est allé se connecter à Amazon S3, ou à d'autres ressources Cloud. La beauté d'Azure Integration Runtime est qu'il fournit un calcul sans serveur entièrement géré. En d'autres termes, il fournit toute l'infrastructure pour vous. Vous n'avez pas à penser à l'installation de logiciels, à l'application de correctifs ou à la mise à l'échelle de capacité. Voyons maintenant comment fonctionne l'exécution d'intégration auto-hébergée. 20. Composants ADF - Cours d'intégration Self-Hosted: Maintenant, si vous voulez travailler avec le runtime d'intégration auto-hébergé, il doit être créé manuellement et pour nous de créer un nouveau runtime d'intégration auto-hébergé. Vous cliquez sur Nouveau. Et nous avons l'option en tant qu'environnement d'exécution d'intégration auto-hébergé xr. Alors continuons et cliquez sur Continuer. Comme vous pouvez le voir, nous avons quelques options à choisir. Et ici, nous pouvons voir plus d'informations sur l'auto-hébergé. Et ici, nous avons un auto-hébergé lié. Alors commençons par l'auto-hébergé. Avec l'auto-hébergé si vous voulez effectuer une sorte d'intégration de données en toute sécurité dans un réseau privé, qui n'a pas une ligne de vue directe de l'environnement public. L' auto-hébergé. L' auto-hébergé signifie que vous disposez d'un calcul sur votre propre réseau. Vous installez le moteur d'exécution de l'intégration sur la ressource informatique spécifique que vous souhaitez valider à l'aide d'une clé fournie au moment de la création. Alors allons de l'avant et continuons. Vous pouvez lui donner un nom. On peut créer. Maintenant, mon runtime d'intégration auto-hébergé est créé. Comme vous pouvez le voir, j'ai une clé et une clé. Ensuite, il me donne un lien pour télécharger le runtime d'intégration. Ensuite, une fois qu' il est installé, il me montre combien de nœuds est installé, s'il est mis à jour ou non, s'il est partagé. Donc, nous allons cliquer sur Télécharger pour me rediriger vers la page Microsoft. Et nous pouvons voir que nous avons ce bouton Télécharger. Téléchargeons-le. Et j'aurai le premier. C' est 700 Mo. Donc, vous devez avoir un peu d'espace sur votre ordinateur et commencer à mettre cette vidéo en pause et revenir. Quand les solos ? J' ai cliqué sur l'installateur et allons de l'avant et voyons à quoi il ressemble. Je vais juste dire ensuite. Accepter. Suivant. C' est une installation assez facile. Je vais l'installer maintenant. Lorsque vous terminez enfin l'installation, C'est la page que vous verrez. C' est ce qui va valider votre runtime d'intégration auto-hébergé avec l'autre. Revenons à celui qu'on vient de créer. On va prendre la clé. Vous pouvez choisir n'importe lequel d'entre eux. La raison pour laquelle nous avons deux clés est pour des raisons de sécurité. Imaginez que vous voulez renouveler la première clé parce que vous n'êtes pas sûr de qui l'a. Et quand j'ai validé, tu devrais être capable d'attraper un des deux et de recycler l'un d'eux. Ok, alors allons-y. Le premier. Ensuite, je vais le coller ici, a validé. Donc, je peux vous montrer les clés d'authentification, ce qui est le même. Ne vous inquiétez pas, c'est juste pour la démonstration et il sera supprimé. Je vais m'inscrire. Maintenant, c'est très daté et vous avez cette astuce ici. C' est quelque chose que vous souhaitez utiliser à partir de votre intranet. Donc, disons que si vous avez plus d'un degré d' exécution exécuté sur le même réseau et que vous voulez qu'ils communiquent les uns avec les autres, les utiliser comme un basculement, quelque chose que vous pouvez activer et puis il y a un moyen pour vous d'acheter les données, mais laissons les telles qu'elles sont pour le moment. Alors finissons. Cool, c'est maintenant validé. Nous avons un nœud qui a été enregistré avec succès. Lancez donc le gestionnaire de configuration. Et c'est à ça que ça ressemble. C'est assez simple. n'y a pas grand-chose à faire ici, c'est juste le cas. Si vous souhaitez dépanner une connexion. Par exemple, vous avez des paramètres ici. Si vous avez des paramètres proxy sur votre ordinateur, il n'est généralement pas nécessaire de le faire ici car il récupère à partir des variables d'environnement. Aidez-nous à diagnostiquer. Si vous voulez afficher les journaux ou si sur une connectivité de test comme il fonctionnerait à partir de l'ADF, vous pouvez obtenir la source et vous pouvez choisir le serveur. Quel type d'authentification vous voulez. Donc, imaginons que je sélectionne SQL Server, se produisent pour obtenir l'authentification Windows sur notre base, qui est une journalisation SQL. Et je passais les identifiants un an et passais ma connexion. Ok, Donc c'est la mise à jour à l'ADA mises à jour automatique est juste à des fins d'information ici et aider Si F trouver des liens pour certaines informations. Alors fermons ça. J' en viendrai à ça. Et comme vous pouvez le voir, il devient vert. Je n'ai pas de configuration VPN. C' est une configuration assez basique ici. Et ma connexion repose sur la connectivité à partir du moment de l'intégration en utilisant mon authentification par clé. Ce petit n'était pas un an. Il est surveillé par activité sur mon intégrale depuis le temps. Il montre l'utilisation de mon CPU ou la minute Qu'est-ce qui se passe avec la version, la mémoire disponible pour moi à exécuter. Les informations de base et le débit ainsi. Nombre de tâches simultanées pouvant être exécutées en même temps. Si vous provisionnez davantage de ressources, vous pouvez avoir plus d'ordres de fabrication simultanés en même temps. Et si vous avez beaucoup de choses en juillet, combien de ressources disponibles pour les pipelines seront allouées à la compétence et elles vont continuer jusqu'à ce qu'il y ait une ressource disponible pour qu'ils puissent fonctionner. Voici donc les activités. Vous pouvez trouver tous les pipelines qui est le temps d'élution a jamais gagné. En regardant cette page, ok, voici les théâtres libres de filtrer pour combien de temps vous voulez vérifier ? Il est généralement défini par défaut pour durer 24 heures. C' est ça. Merci d'avoir regardé. Restez à l'écoute. 21. Composants ADF - Cours d'intégration Self-Hosted liées: Salut, et bienvenue à une autre leçon. Maintenant, nous allons parler de l'exécution d'intégration auto-hébergée liée. Si vous venez pour gérer. Vous devez avoir remarqué que lorsque nous avons sélectionné comme auto-hébergé, il y a une autre option ici, l'IR auto-hébergé lié. Vous pouvez cliquer sur En savoir plus. Et nous pouvons voir qu'il y a une documentation complète ici. Cependant, si nous cliquons ici, le runtime d'intégration auto-hébergée liée, c'est très utile lorsque vous ne pouvez pas vous permettre d'avoir plus d'un runtime d'intégration auto-hébergé dans votre réseau d'entreprise. Ou vous ne voulez tout simplement pas lancer une autre recherche informatique à dédier, le runtime d'intégration auto-hébergé. Donc, dans ce cas, vous pouvez lier à ces arbres d'effets pour utiliser un seul runtime d'intégration auto-hébergé lié. Et en plus de cela, un runtime d'intégration auto-hébergé ne peut être lié qu'à un seul qu'une usine. Cela est donc également utile dans les scénarios où vous souhaitez créer un pipeline CICD pour une usine de données, vous ne faites référence qu'à un seul runtime d'intégration auto-hébergé au lieu d'avoir à gérer plusieurs runtime d'intégration auto-hébergée. Maintenant, regardons comment ça fonctionne dans la pratique, comment on peut le mettre en place. Donc, pour ce faire, nous devrons d'abord créer une autre usine de données parce qu'à ce stade, nous n'en avions qu'une. Alors retournez au portail, recherchez où les usines de données. Nous avons déjà eu un an, donc nous en avons créé un autre. Je vais juste copier ce nom. Créer. Nous allons sélectionner le même groupe de ressources que nous avons créé auparavant. Ma région sera l'Europe du Nord. Je vais juste ajouter un autre numéro ici pour mon nom. Je vais sauter obtenir la configuration, je vais sauter la mise en réseau. Je n'active aucun cryptage. Dans ce cas, je vais vivre vide avec vous et créer K. Donc, il obtient la configuration. Je vais juste sélectionner configurer Git plus tard. D' accord. Alors allez-y et créez. Ok, l'a été créé. Maintenant, passons au groupe de ressources où il est déployé. Fou. On peut voir l'usine de l'utérus qu'on vient de créer. C' est ce vin avec O2 devant. C' est la nouvelle Data Factory que nous venons de créer. Comme vous pouvez le voir, MT, Aucun Pipelines, pas les jeux de données gèrent. Nous n'avons qu'un seul moteur d'exécution d'intégration. C' est d'Azur, celui qui vient avec tout le nouveau répertoire est que vous créez. Supposons maintenant que je veux utiliser le même runtime d'intégration auto-hébergé que nous avons créé pour l'autre Data Factory. Pour ce faire, nous devons passer à quelques étapes. Je veux d'abord autoriser ma nouvelle Data Factory à accéder à mon OS Data Factory. Alors faites cela, nous allons au runtime d'intégration créé précédemment. Nous construisons cette page. Nous devons ouvrir le runtime d'intégration auto-hébergé que nous avons déjà. Et puis il y a un onglet appelé partage. Alors, nous allons cliquer dessus. Et vous pouvez voir qu'il s'agit l'emplacement où vous accordez des autorisations à une autre usine de données. Donc, c'est une relation de un à un. Une fois que j'ai sélectionné ceci, vous pouvez voir qu'il m'apporte toutes les usines de données existantes qui existent sur mon abonnement ou la dentine et connecté. Donc je vais juste choisir ce type ici. C' est celui que nous venons de créer hat, et il accordera les autorisations. Tout est prêt. Maintenant, la deuxième étape que je dois faire est de prendre l'ID de ressource de mon runtime d'intégration auto-hébergé existant. Et puis sur ma nouvelle Data Factory, je veux créer un nouveau runtime d'intégration auto-hébergé. Mais à ce moment, il sera lié auto-hébergé intégration runtime. Et je vais cliquer sur continuer. Comme vous pouvez le voir, il n'y a pas grand-chose à faire ici. Nous avons juste besoin de dire que cela affecte quelle est la ressource que je veux lier. Donc, ce sera mon runtime d'intégration auto-hébergé existant que nous pouvons créer. Et c'est tout. Comme vous pouvez le voir, il n'y a rien au chargement ici. n'y a pas de clé pour un auto-hébergé sur votre ordinateur car c'est déjà fait avant. La clé gérée ici est qu'elle est associée à quelque chose qui a déjà été configuré auparavant. Donc, le type est maintenant auto-hébergé. Et il est en cours d'exécution parce que ces données ici sont également en cours d'exécution. Ok, donc vous pouvez voir auto-hébergé, IR de auto-hébergé. Et si je clique ici, je peux voir qu'il n'y a que deux ressources AG. Et l'autre, si je clique sur match, j'ai les clés, indique les upbeats, shadow ou mon runtime d'intégration auto-hébergé. Et maintenant, je peux voir que j'ai mes autorisations diplômés. C' est tout pour l'instant. C' est ainsi que nous avons mis en place un runtime d'intégration auto-hébergé lié ou fromage pour fonctionnalité. Et pour regarder. A bientôt. 22. Composants ADF - Exécution d'intégration Azure-SSIS: Jetons maintenant un coup d'oeil à notre troisième option, qui est le SSIS ASOR. Allons à New. Et ici, nous pouvons voir que nous avons une deuxième option pour Azure SSIS. Donc, nous allons cliquer sur loquet. Alors pourquoi avons-nous besoin de cette troisième option ? Tant de clients, parfois ils ont du mal à migrer tout le package SSIS dans un package ou des pipelines ADF nativement. Donc, la raison pour laquelle nous avons ce SSIS Azure est à peu près pour soulever et déplacer des paquets de vos ressources sur site vers Azure. Lorsque vous avez Azure SSIS, c'est également un sir entièrement géré. Dans les coulisses, ce sont des ignames dédiées à les exécuter en tant que paquets d'évaluation. Ici, vous pouvez également observer qu'une licence est requise parce que vous exécutez des composants SSIS, ce qui signifie que vous avez besoin d'une licence pour SQL Server. Ainsi, vous pouvez tirer parti d'une fonctionnalité appelée apporter votre propre licence. De cette façon, vous pouvez bénéficier d'une réduction, ce qui signifie que vous utilisez vos licences locales dans le Cloud. De même, vous aurez la possibilité de choisir les ressources de vos propres machines virtuelles sur prem. Ici, vous pouvez également choisir le nombre de nœuds disponibles pour votre exécution d'intégration pure. Et vous pouvez choisir le type de machine que vous voulez. Et bien sûr, plus vous provisionnez de ressources, plus cela vous coûtera à la fin du mois. Si vous souhaitez économiser des coûts, vous pouvez interrompre cette intégration avec le temps que vous le souhaitez. Ici, vous avez l'emplacement où vous souhaitez déployer votre cluster de machines virtuelles. Idéalement, vous souhaitez choisir une région proche de votre emplacement physique ou l'emplacement physique où vos données sont stockées en sélectionnant le bon emplacement de votre runtime d'intégration SSIS est essentiel pour effectuer le débit. De cette façon, vos données peuvent voyager moins pour se rendre à la destination finale. Maintenant, donnons-lui un nom et continuons avec la création de notre runtime d'intégration. Donc, je vais dire mon runtime d'intégration SSIS, va acheter la date, le nom, le nom est. Ok, je peux lui donner une description que je veux. Je dirais juste aller en continu. Une chose intéressante à remarquer ici est le fait que nous avons besoin d'un emplacement pour stocker les paquets SSIS. Dans ce cas, vous devez disposer d'une instance gérée SQL ou une base de données SQL qui sera servie en tant que base de données SSIS. Et vous allez stocker ces paquets là-dedans. Donc, dans mon cas ici, je n'ai pas encore d'instance créée. Donc, je vais juste m'arrêter ici parce que le but de cette démonstration est juste de vous montrer comment l'utilisation de SSAS et quel est le but de cela ? Avec cela, nous terminons une leçon de plus. Merci et restez à l'écoute. A bientôt. 23. Quiz - Module 3: Bien. 24. Comment intégrer des données à l'aide de l'activité de copie dans Azure Data Lake Gen2: Dans cette leçon, nous allons utiliser l' activité de copie pour déplacer des données d'un endroit à un autre. Nous utiliserons un fichier Excel situé sur mon ordinateur comme source et l'ASU Data Lake que nous avons créé comme destination. À titre d'exemple, nous allons utiliser un compartiment S3 sur AWS comme source et une base de données SQL Server comme destination. Je ne vais pas aux détails comment configurer un compartiment Amazon S3 parce que juste à partir de ce code, qui est le même pour la base de données SQL Server, supposons simplement que tout est créé pour nous. Et en tant qu'ingénieur de données, nous avons juste besoin de déplacer les données d'un endroit à un autre. Donc, sans plus tarder, commençons. Salut, Jetons un coup d'oeil à travers les objets que nous avons créés que nous aurons besoin d'aller de l'avant avec cette leçon. Commençons par gérer, et jetons un oeil au service lié. Vous devez vous assurer que l'une des options que vous avez ici est le lac de données que nous avons créé auparavant. Cool. Maintenant, vérifions les runtimes d'intégration. Et vous devez disposer du moteur d'exécution d'intégration auto-hébergé. Et il doit être opérationnel. Si vous avez deux objets ici et qu'ils sont tous verts, vous êtes bon, vous êtes prêt à partir. Maintenant, commençons. Revenir à la page d'accueil. Créons un service lié à notre fichier Excel. Allez donc à Gérer les liens et les services. Cliquez sur Nouveau. Et maintenant, nous allons chercher le système de fichiers. C' est parce que les fichiers sont évidemment stockés sur notre ordinateur local. Et nous aurons besoin d'un service lié au système de fichiers pour obtenir ce fichier et remplir un compte de stockage avec ce fichier. Ce fichier sera disponible en tant que ressource afin que vous puissiez le télécharger à partir de la section leçon. Donc, le fichier est quelque chose comme ça, est juste un exemple de données qui imite un type de système d'ordre. Et vous avez le sida et le nom des gens. Je voudrais juste enregistrer ce fichier sur mon dossier Temp de lecteur C et ensuite nous le prendrons à partir de là. Allons de l'avant et créons notre service lié. Alors continuum. On va utiliser. Ceci est assez important pour que votre scénario fonctionne, est de sélectionner mon runtime d'intégration auto-hébergé. Et maintenant, je vais juste dire où est l'emplacement, où mon fichier est stocké ? Et voici le nom de l'utilisateur sur votre ordinateur. C' est ce qui va autoriser Azure Data Factory à se connecter à votre fichier. Vous pouvez utiliser votre propre utilisateur. Ici, je juste à titre d'exemple, je ne vais pas créer un nouvel utilisateur. J' utilise simplement mon propre compte et je vais tester ma connexion. Qu' est-ce que tu sais ? Il a donc été créé avec succès. Nous pouvons alors aller de l'avant et terminer la création. Et ici, nous devrions voir un nouveau créateurs de système de fichiers. C' est ma violation de paramètres régionaux CSV. Comme vous pouvez le voir, nous avons notre source et nos cibles sont vraiment créées. Maintenant, nous devons aller de l'avant et créer un jeu de données. Donc, sur le côté gauche, allez à l'auteur, allez dans les jeux de données. Et ici, sur les actions de chapelure, nouveau jeu de données. Ici, nous devons trouver le signe des jeux de données que nous allons traiter. Rappelez-vous, nous avons créé un lien severs en tant que système de fichiers. Alors recherchons le système de fichiers. Dans notre cas, c'est un fichier csv. C' est donc du texte délimité que j'ai créé en tant que fichier délimité. Ok, alors sélectionnons ça. C' est mon nom de jeu de données. Rappelez-vous que ce n'est pas le nom de fichier, et j'obtiendrai ma connexion locale ici. Je dois dire que ramified est localisé. Je pourrais avoir des sous-dossiers à l'intérieur de mon chemin, mais puisque je n'en ai pas, je peux simplement exclure cette partie et dire quel est le fichier. Alors, voilà. Il est maintenant sélectionné. J' ai quelques options à choisir ici. Donc, je pourrais importer le schéma ou obtenir un échantillon du fichier. J' aurais pu savoir ici si je voulais quelque chose plus tard ou juste de la connexion, magasin slash. Va éclore. Voyons maintenant. Brillant. Nous avons notre premier ensemble de données. On peut se connecter. Il devrait aussi être couronné de succès. Et ici, j'ai plein de choses à manipuler mon dossier si je veux. Par exemple, si je voulais citer le fichier de configuration du champ car il pourrait y avoir des virgules au lieu de la cellule. Il y a beaucoup de choses que je peux faire ici. Donc, nous schéma et je peux dire import, mon schéma et moi avons aussi des paramètres. Tout est déjà réglé. Alors allons de l'avant et publions pour enregistrer notre jeu de données. Parfait, nous avons notre recherche. Maintenant, nous devons créer un autre jeu de données pour notre destination. Nouveau jeu de données. Je vais sélectionner Azure Data Lake. Est-ce que je sélectionne le texte ? Et je dirai, ok, parce que je n' ai aucun emplacement ou aucun fichier dans mon compte de stockage, je pourrais créer une structure de dossier à l'intérieur de celui-ci à une autorisation spécifique sur un dossier spécifique. Mais restons juste avec la valeur par défaut. Et le fichier doit être supprimé au niveau racine du compte de stockage. Ok, et perfectionnés, on avait notre deuxième jeu de données. Il est créé. Alors, allons le publier à nouveau. Les publications parfaites sont terminées. Maintenant, nous devons créer notre pipeline. Notre pipeline se souvient, c'est ce qui va encapsuler tous les objets que nous venons de créer, qui est le service lié, qui est le jeu de données ici sur la bonne taille. Maintenant, nous avons la possibilité de cacher cela un peu. Donc, pour cet exemple, nous allons utiliser l'activité bêta de lit et cet arbre d'effets. Nous avons une seule tâche qui contient la source et le puits, qui est votre destination. Voici où nous allons sélectionner les jeux de données que nous venons de créer. Donc ma source, nous serons dans mon ordinateur local. Ma destination de test de fichier CSV Azuri sera le Data Lake Gen2. Alors, cliquez sur cette caisse. Il y a tous les deux sélectionnés. Si je n'ai pas sélectionné dans un fichier spécifique sur mon jeu de données, je pourrais obtenir une myopathie générique et tout ce qui se trouve sous ce fichier serait copié. Je pourrais lister les fichiers aussi bien si je le voulais. Vous avez également une fonctionnalité très cool ici, qui est les données d'aperçu. Cliquons sur cela et voyons ce qui nous revient. Brillant, si vous vous souvenez, c'est le fichier que nous avons enregistré sur notre ordinateur local. Ici, comme vous pouvez le voir, il traite notre en-tête comme une véritable récréation, configurez le fichier, et nous ne voulons pas cela. Donc, excluons ceci. Avait il y aura la pratique. L' un sera la date de commande, la région et ainsi de suite, ainsi de suite. Pour ce faire, nous devons revenir à notre jeu de données pour résoudre ce problème. Développons cela à nouveau pour voir nos jeux de données. Dans ce cas sera le test de mon fichier CSV. Et ici, je peux configurer où est la toute première ligne de mon fichier ? Vous pouvez sélectionner cette première ligne comme en-tête. Ok, tout est prêt. Revenons à notre pipeline. Et ici, sur l'ensemble des choses que nous pouvons encore, pour vos données, nous devrions avoir l'en-tête approprié. Bien, tout est parfait et configurez-le. Maintenant, jetons un coup d'oeil à notre évier. Et il n'y a pas grand-chose à faire ici, c'est juste le cas où si nous avons affaire à beaucoup d'informations à transférer, vous pouvez configurer l'extension de fichier que vous voulez. Vous pouvez configurer le comportement de copie. Si, par exemple, pour traiter des fichiers JSON, vous voulez aplatir la hiérarchie du fichier. Et ici, vous pouvez dire quelle est l'extension que je serai prêt dans mon dossier. Il peut changer si vous voulez. Dans mon cas, je vais l'enregistrer en tant que fichier CSV. Dans ma cartographie. Je n'ai pas besoin de faire l'entité ici parce que les étudiants ont déjà importé. Alors allez simplement dans Paramètres. Et voici comment mes 50 sont parallélisés avec toutes les options par défaut. Et voici les propriétés de l'utilisateur et quelque chose que je ne veux pas faire de chaînes en ce moment. Notre premier pipeline est donc correctement configuré. Alors publions. Freeland. Nous avons tous des ensembles, nous avons nos jeux de données, des créations, nous avons nos pipelines, nous avons nos services liés créés. C' est plutôt cool. Maintenant, lançons ça et voyons comment ça va marcher. Cependant, avant d'aller de l'avant, Il ya une piste sur la défécation que nous devons faire sur notre jeu de données, aller à la cible CSV cette direction aussi. Et si tu te souviens bien, j'avais laissé vide. Nous avons besoin d'un dossier pour accéder au fichier. Si j'avais navigateur distinct ici, j'ai maintenant un dossier et mis en place le lac de données. Mais vous n'avez pas besoin de créer cela à l'avance. Vous pouvez juste donner n'importe quel nom que vous voulez un an. Et s'il n'existe pas, cet effet, nous le créerons pour vous. Mon emplacement CSV un. Et puis je publierai ceci. Ok, les jeux de données maintenant publiés, c'était la seule modification que j'ai faite. Tout le reste est pareil. Ok, alors nous allons maintenant faire fonctionner notre pipeline. Ok, pour que nous exécutions le pipeline, nous pouvons avoir l'option de débogage, qui est, je veux exécuter ceci maintenant, et cela ne dépend pas de chaque doigt. Et puis j'ai aussi un déclencheur, ce qui signifie que je déclenche maintenant ou j'ai nouveau et édité pour créer un nouveau déclencheur. Alors allons juste appuyer sur Debug et aller de l'avant et voir comment cela va fonctionner. Ok, notre pipeline est maintenant énorme. C' est dans la file d'attente des données. Et c'est la beauté que, cet arbre d'effet créé pour notre activité. Alors rappelez-vous, c'est combiner tout ici, rassembler toutes les pièces pour transférer nos données. Et qu'est-ce que tu sais ? Notre dossier a été transféré ? Rappelez-vous, nous n'avions pas un dossier appelé souris oui, géolocalisation. Et il a été créé à coup sûr. Donc, vous pouvez voir qu'il était mignon avec succès, il a été transféré avec succès. Eh bien, dans la durée qu'il a fallu pour chacune de ces étapes, les jours heureux, nous avons tout mis et notre dossier devrait être sur le lac de données. Mais maintenant, comment pouvons-nous nous assurer qu'il est dans le lac de données ? Jetons un coup d'oeil. J' irai sur le portail. Je voudrais simplement taper portail dot azure.com. Ici, sur l'ensemble de choses Data Lake, je vais chercher des comptes de stockage. Et j'ai mon ADF Data Lake que nous avons créé pour ce projet. Et nous avons Storage Explorer aperçu et nous avons des conteneurs. Donc ici, à l'intérieur de mon conteneur, il y a mon feu un an. reviens juste à mon jeu de données. C' est ainsi que les fichiers que je fractionne. Chaque fois que vous voyez des aides auditives du système de fichiers coincées dans un conteneur, vous devez avoir un conteneur. Je vais juste alors principal dossier différent ici. Dossier un. Comme vous pouvez le voir, revenant à l'Explorateur de stockage Data Lake, aucun dossier n'est défini au niveau racine, donc vous n'avez pas à vous soucier de la création d'un nouveau dossier. Vous pouvez simplement revenir, donner un nom à votre jeu de données, un nom de dossier à l'intérieur de vos jeux de données. Publier. Ok, génial, It Snow a publié. Maintenant, nous pouvons relancer notre pipeline, inclinant notre pipeline et L, il devrait fonctionner dans quelques secondes. Donc notre fichier a été créé. Donc on peut vérifier de deux façons. Vous pouvez vérifier à nouveau à partir du système de fichiers ici au lieu de l'ensemble de données, si je reviens au compte de stockage, je vois mes nouveaux emplacements. Peut être deux conteneurs créés. Je vais sélectionner cette ligne. Et maintenant j'ai un nouveau dossier et le fichier précédent que j'avais laissé tomber. Donc, il doit y avoir un nouveau dossier dans l'année. Super, ou des fichiers ici, c'est parfait. De notre vue explorateur de stockage, nous pouvons revenir avec frais. Vous pouvez voir que nous avons un nouveau dossier et les fichiers ici. Cool, c'est tout pour l'instant. J' espère que vous avez aimé. Notre exemple suivant va être de transférer le fichier de support de stockage de sang Amazon. D'accord. Et puis ne voulez pas dire ce fichier à l'intérieur d'une base de données. Merci. Restez à l'écoute. 25. Comment copier des fichiers Parquet d'AWS S3 dans une base de données SQL: Salut les gars, bienvenue à une autre leçon. J' espère que vous avez apprécié notre dernière manifestation. Maintenant, nous allons examiner comment nous pouvons charger les données d' Amazon S3 dans SQL Server en utilisant l'activité de copie. C' est la même activité que nous avons utilisée auparavant. La différence est maintenant le service lié qui aura un format différent. Donc, juste comme un préeq, vous devez avoir configuré votre propre compartiment S3. La configuration des compartiments S3 sur AWS est hors de portée. Idem pour la configuration d'un serveur SQL. Ok, alors allons nous salir les mains et voir comment ça marche. J' ai ici les AWS. Je vais ouvrir. J' ai mon S3 que j'avais nommé Ozzie test training 2020 000. Et comme vous pouvez le voir, le seau est vide. Avant de faire quoi que ce soit, il téléchargera les données dans Amazon S3. Je vais le rendre disponible le fichier que j'utilise ici, C'est juste un fichier simple. Alors avant d'aller de l'avant et de vous montrer à quoi ressemble le dossier. C' est un projet qui est sur GitHub. Vous pouvez prévisualiser vos fichiers de paquets ici. Si vous avez des erreurs sur votre ordinateur, cela fonctionne aussi, d'accord ? Donc, mon fichier de sauvegarde est appelé support de point de données utilisateur. Donc, je viens de sélectionner ceci et cette table de spectacle ici sélectionné. Et je vais soumettre le fichier parce que je veux juste voir rapidement à quoi il ressemble. Donc vous voyez ici ce sont juste des données simples, un tas de trucs aléatoires, ok ? Il y a, il y a assez de données ici pour nous gâcher. Donc, si vous voulez jeter un oeil à ces sites Web lorsque vous en avez une chance, cela s'appelle votre taux online.com. Donc, nous savons à quoi ressemble notre dossier. Maintenant, nous allons télécharger ce fichier dans Amazon S3. C' est assez simple, il suffit de télécharger ou de télécharger ici. Votre choix. Donc, ajoutez des fichiers. Je vais prendre ce fichier et les données de l'utilisateur un, C'est tout à fait comme modificateurs, juste un 100 kilo-octets. Je vais télécharger le fichier. Ça ne devrait pas prendre longtemps. Il a réussi. Ok, c'est fini. Nous avons donc notre ville de données sur Amazon S3. Ok, revenons à Azure Data Factory. Je vais mettre en place notre premier service Linkerd, que nous examinerons, Amazon S3. Alors allons de l'avant et cliquez sur Gérer et les services liés. Le nouvel Amazon S3 sera là en haut. Je pense qu'une exigence très courante pour ingérer des données à partir d'Amazon S3. Je sais que Microsoft a investi énormément d' argent pour rendre cette connectivité fiable et rapide. Alors allons de l'avant et cliquez sur Amazon S3 et nommez-le comme Mon premier Amazon S3. Maintenant, si vous vous en souvenez, l' un des cas d'utilisation est le temps d'intégration de résolution automatique ou l'exécution d'intégration de Zurich est de déplacer des données ou d'accéder à des ressources dans différents clouds. Ce cas ici, nous aurions utilisé mon contrat de spécification Microsoft nous parle AWS. Ici, nous avons deux options. On a la clé d'accès. Lorsque vous créez un utilisateur sur AWS, vous recevez une clé d'accès et une clé secrète. Il s'agit de la première option ici pour vous authentifier auprès du service Amazon, ou vous disposez d'informations d'identification de sécurité temporaires. Donc, fondamentalement, c'est un jeton qui vous est accordé et il expire après un certain temps. Donc nous allons utiliser la clé d'accès pour cette affaire. Et je vais juste coller ici et cette clé sera temporaire. Et je vais coller ma clé d'accès, et maintenant je vais récupérer ma clé d'accès secrète. Ok, maintenant que nous avons notre clé d'accès secrète, nous avons une option ici appelée sert l'URL. Donc, fondamentalement, c'est si vous voulez accéder à S3 via un point de terminaison différent, vous pouvez sélectionner ceci. L' université a trois connecteurs que vous voulez changer pour quelque chose de différent ici. Si vous savez vraiment ce que les larmes dans la plupart des cas, il sera vide. Maintenant, vous pouvez tester votre connexion pour voir si votre S3 existe ou si votre utilisateur fonctionne correctement. Ok, donc c'est une bonne idée de choisir le chemin du fichier. Ici, nous passons le nom de notre seau, qui sera la formation ADF ou juste copié à partir du seau. Donc nous ne perdons pas de temps. Donc n ici, puisque nous n'avons pas de répertoire à l'intérieur des compartiments, que nous pourrions créer si nous voulions ajouter. Mais c'est au niveau de la racine. Ok, alors donnons-nous ceci et Test Connection. Oui, tout fonctionne. Maintenant, nous sommes tous prêts à commencer à obtenir des données d'Amazon S3. Appuyez sur Créer année. Et il a été créé. Maintenant, nous devons regarder notre base de données SQL. 26. Créer des services reliés ADF pour Azure SQL: Je vais passer au portail Azure maintenant. Donc, je voudrais juste rechercher ou base de données SQL que j'ai créée. J' ai créé une assez petite base de données SQL. Et voyons comment ça se passe. Vous avez un tas de configurations. Donc, comme vous pouvez le voir, je n'ai que 20 méga espace, mais comme notre supérieur occupe seulement ouais, 100 Ko, nous devrions aller bien. Bon, donc ce que nous devons faire ici maintenant, c'est ce qui suit. Nous devons obtenir le nom du serveur afin que nous puissions créer sont prêts à servir. Donc je vais copier ceci, revenir à Data Factory et cliquer sur le nouveau service Lincoln. Ensuite, je vais chercher SQL. Je vais juste sélectionner de CSER entendre base de données SQL. Et encore une fois, nous allons utiliser le moteur d'exécution de l'intégration de résolution automatique, accord, parce que nous sommes dans l'épine dorsale Azure, il n'y a aucun intérêt pour nous de sortir de l'auto-hébergé et de revenir. Donc on va, on peut, si on veut une cassette sur un argent de démarrage pour, pour une raison quelconque, et n'utilise pas les ressources de calcul du CSER. C' est possible, mais il y a une pénalité de rendement pour cela. Donc, restons juste avec cette option. Et je viens de sélectionner mon abonnement. Je vais avoir mon 78 parce qu'il est peuplé. Je n'avais pas besoin de faire quoi que ce soit là-bas. Donc d'accord. Comme vous pouvez le voir, j'ai déjà créé une base de données ici. C' est un train ADF est égal à un. Et ce que je vais faire ici maintenant, c'est créer un identifiant pour ma base de données SQL. Je n'ai pas ma configuration traditionnelle, oui. Comme vous pouvez le voir, j'ai trois méthodes et méthodes pour m'authentifier dans ma base de données. J' ai l'authentification SQL. Il est juste un utilisateur et un mot de passe qui est créé eSight de la base de données il est l'identifiant par défaut. Vous disposez également de l'identité gérée. L' identité gérée est l'utilisateur qui est créé avec Data Factory. Donc, il contient le nom de l'usine de données afin que vous ne puissiez pas obtenir le mot de passe est tout dans les coulisses. Vous avez également la possibilité d'utiliser les principes de service Service Principal comme les informations d'identification d'un compte de service. Donc, vous avez la location et vous avez les participants pointé et clé de principe de service. Ce sont donc des choses que vous devrez configurer. Mais ce que je vais faire ici, car c'est moins de tracas à créer et aussi plus sûr, c'est l'identité gérée. Je vais juste m'en tenir à cette option. J' ai juste besoin de m'assurer que ma base de données a autorisé l'accès à cet objet. Donc, pour ce faire, je vais ouvrir mon Management Studio et voir comment il est configuré. 27. Comment accorder des autorisations sur Azure SQL DB à une identité de données avec usine: Ok, j'ai ouvert mon Management Studio et je me suis connecté sur mon serveur SQL Server, serveur virtuel. Et comme vous pouvez le voir ici, j'ai créé une base de données simple. Cette base de données est vide. Il n'y a pas de tables, pas de connexions aussi bien. Donc, ce que nous devons faire ici maintenant est de créer un utilisateur avec le nom de l'usine de données. De cette façon, SQL Server comprendra qu'il s'agit d'une identité gérée. Donc, la syntaxe pour créer l'utilisateur est la suivante. On va ouvrir un nouvel éditeur de requêtes, d'accord ? Et puis nous allons taper utilisateur. Et j'ai besoin du nom de ma Data Factory. Donc je reviendrai à ça une usine. Je vais le copier à nouveau. Nom de l'utilisateur, revenez à Management Studio. Tapez, le nom de l'utilisateur ici. Et c'est ainsi que cela fonctionne à partir d'un fournisseur externe. Comme vous pouvez le voir, il n'y a pas de mot de passe ici, juste un fournisseur externe qui indiquera ces utilisateurs que j'existerais dans Active Directory. Cependant, il y a autre chose que nous devons faire. D' abord. Si vous allez et cliquez sur exécuter, vous verrez qu'il y a un message d'erreur ici. Il dit que les connexions peuvent être établies si avec le compte Active Directory. D' accord ? Donc, comme je vous l'ai montré au début, je suis connecté en utilisant, et je dis un comté, c'est une journalisation SQL. Pour que je puisse créer un utilisateur à partir d'Active Directory, je dois être connecté à un compte I, un compte AD. Donc, pour ce faire, je vais vous montrer rapidement comment cela fonctionne sur le portail à l'intérieur d'Azure AD afin que vous puissiez suivre. Ok, c'est un peu hors de portée de cette formation, mais pour que vous suiviez, nous verrons comment ça marche. Recherchez donc Azure Active Directory. Si vous avez le droit de le faire, bien sûr, sur le côté gauche, recherchez des groupes et créez un nouveau groupe. Je vais juste nous le nommer à moi. Et là, je prendrai les chiffres. Je vais chercher mon utilisateur, qui est un utilisateur que je suis connecté dans un instant. Maintenant, nous devons revenir sur le portail. Et je vais aller à mon SQL Server et sélectionner plusieurs domaines Active Directory AD recréés. Comme vous pouvez le voir, aucun Udemy Active Directory n'a été défini. Je vais définir admin, puis je vais choisir le groupe ottoman que nous venons de créer. Sélectionnez. Ensuite, sauvegardez. Super, c'est maintenant sauvé. En revenant à mon studio de gestion, je devrais pouvoir me connecter avec mon compte. Ok, alors ouvrons une nouvelle connexion, le même sever. Une différence sera désormais universelle avec MFA. Vous devez utiliser l'une des dernières versions de Management Studio pour que cette option soit disponible pour vous. D' accord. Je pense que c'est à partir des 18 heures. Donc c'est mon adresse e-mail. Je verrais si ça marche. D' accord. Il m'invitera à entrer mon mot de passe. Ok, super. Je suis maintenant Connecteurs encore maintenant je suis l'Udemy de ce compte parce que je viens de définir mon propre compte Udemy qui est dans le groupe comme domaine Active Directory. Donc je peux faire n'importe quoi ici à la place de ce compte. Maintenant, revenons et ouvrons un nouvel éditeur de requêtes sous mon nouveau compte, ok, et mon email. Je vais copier les mêmes déclarations un peu avant, puis, fondamentalement ici et appuyer sur Exécuter. Brillant. Ok, c'est maintenant créé. Nous avons un nouveau compte sous une base de données. Ok, il s'agit d'une base de données contenant un utilisateur qui fait référence à un objet dans Active Directory. Et puis vous pouvez voir que c'est en train d'être créé ici. Nous devons maintenant accorder des autorisations à ce type car au moment où il n'a que des autorisations pour se connecter. Il faut qu'on y aille et qu'on donne des permissions à ce type. Souviens-toi, j'ai accordé l'honneur, l'utilisateur. Parce que je ne veux pas être restreint quoi que ce soit et je vais frapper les exécutions. Ok, c'est maintenant accordé comme l'au-delà. Revenons à Data Factory et testons. Ok, c'est là. C' est la même chose que vous voyez. C' est le lien. Et l'action échoue. Voyons pourquoi ça échoue. Ok, si on en choisit un autre, on devrait avoir un message. Ok, donc l'adresse de l'API client n'est pas autorisée à accéder à ce serveur. Super. Il s'agit donc d'un problème avec un pare-feu. Nous pouvons rapidement réparer ça. Retournons au serveur. Et ici, vous devriez avoir le pare-feu et les réseaux virtuels. Ici, j'ai l'adresse IP de mon client. Ce que je dois faire ici, je veux juste m'assurer que nous permettre des ressources et des ressources pour le serveur est deux. Oui. Donc, ce qui signifie que tous les services Azure, vous serez en mesure d'atteindre mon serveur de base de données. Alors appuyez sur Enregistrer et il sera mis à jour si j'étais des règles, ok, ce n'est pas mis à jour. Revenons donc à cet arbre d'effets et nous allons le tester une fois de plus, atteindre il a réussi à se connecter. Maintenant, je vais juste sauter comme il est en ce moment. Cool. Nous avons configuré nos services liés, notre source et notre source cible B, AWS et ciblé dans la base de données SQL. Maintenant, nous devons aller de l'avant et créer le jeu de données. 28. Comment accorder des autorisations sur Azure SQL DB à une identité de données avec usine: Salut tout le monde. Maintenant que nous avons créé nos services liés, nous devons créer nos jeux de données. Allons à l'auteur. Alors. Sur le côté gauche, cliquez sur Actions et nouveaux jeux de données. Commençons simplement par Amazon S3, qui est notre source, devenir cela. Et puis continuer. Ici, nous devons choisir notre type Bêta, qui est un fichier. Sélectionnons et verrouillons. Et mon service lié serait mon premier Amazon S3. Alors je vais cliquer sur OK. Maintenant, nous avons notre jeu de données créé ou S3. Créons un pour SQL Server. Allons à la recherche et à la recherche de Nutella. Cherchons Azure et lié ici vous pouvez trouver la base de données SQL Azure. Cliquez sur ce continuum. Ensuite, je vais obtenir mon premier service lié à la base de données SQL. Comme vous pouvez le voir, je n'ai aucune table créée. D' accord. C' est assez simple. Nous avons créé les pointeurs vers nos jeux de données. Un intéressant ici à noter est que nous devons choisir quelque chose qui affecte arbre a besoin de savoir où les données seront envoyées. Donc, si vous cliquez sur Non ici, lorsque vous créez notre pipeline, vous obtiendrez un message d'erreur. Donc, comme nous n'avons pas de table créée, notre objectif ici est de créer une table à l'heure de la pièce avec le même schéma de notre fichier d'archive. Donc, pour ce faire, nous pouvons cliquer sur Modifier et ensuite vous lui donnez le nom que vous voulez. Vous devez d'abord passer le nom du schéma. Et puis ce sera mon utilisateur ou un simple, ok, c'est comme ça que je nomme ma table. Cu nous avons créé nos deux sources de données. Maintenant, nous devons créer notre pipeline qui déclenchera nos activités. Alors allons de l'avant et cliquez sur Actions ici. Et un nouveau pipeline. Nous utiliserons également l'activité de copie ici. Examinons les options ici très rapidement et voyons ce dont nous avons besoin. Alors appelons-le comme une copie. C' est le nom de notre activité. Notre source sera le S3 que nous venons de créer. Ensuite, nous sélectionnons le par kit, puis ici nous avons quelques options que vous pouvez choisir. Donc, dans ce cas ici, je transmets des informations que j'ai dans mon jeu de données. Mais si je voulais créer quelque chose de plus dynamique, je pourrais obtenir un préfixe d'un fichier ou d'un caractère générique, ou même une liste de fichiers. Donc ici, je peux avoir la chance d'explorer le seau S3. Reste juste avec cette option ici. Allons de l'avant et allons à la synchronisation. La synchronisation sera notre cible, qui est la base de données SQL que nous avons créée. Je veux sélectionner une table de création externe, d'accord ? Parce que comme vous pouvez le voir, cela créera automatiquement une stable dans mon lavabo si la table n'existe pas, ce qui signifie le nom que j'avais sur mon jeu de données. C' est si je veux copier les Écritures pour une pièce, sorte d'automatisation ou une année de préparation de l'écriture. C' est le délai d'expiration ou mon lot à la taille du lot si sur un trié à la main que, disons pour une population et 1000 enregistrements par lot ou un nombre différent. Habituellement, vous allez rester avec le mappage des options par défaut. Nous pouvons laisser cela vide car automatiquement Data Factory, nous allons créer la table en fonction de la partie du fichier. Voici donc les unités d'intégration de données. Il s'agit du temps d'intégration de résolution automatique. Ici, vous pouvez spécifier quelle est la puissance de votre moteur d'exécution d'intégration de résolution automatique. Si vous dites usine automatique basée sur ses propres règles, nous allons localiser plus de ressources, cohérence automatique des données et la vérification ici juste spécifier fondamentalement si votre nombre de mots correspond à la source et le puits. Tout pour déplacer des fichiers à travers, il va obtenir la taille des fichiers vérifient. Binary des fichiers est que nous allons ajouter une durée supplémentaire votre charge totale car à la toute fin, il est encore nécessaire de traiter les données et la vérification des systèmes. Voici la tolérance aux pannes. On n'a pas besoin de s'en soucier. Activez la journalisation, la journalisation si vous le souhaitez, disons que si vous avez une tolérance aux pannes et que vous voulez ignorer les enregistrements, et que vous voulez voir quels sont les euros qui se sont produits. Vous pouvez activer la journalisation et spécifier un lac de données ou un stockage Blob pour vider ce message de journal. Ok, Donc, je ne vais pas sélectionner cela et activer le staging, qui signifie qu'avant de charger vos données dans votre base de données, vous pouvez mettre en scène ces données sur votre Blob Storage ou Data Lake parfois en fonction de la taille de votre charge. Cela peut être utile car lorsque vous chargez dans une zone de transit, vous allez charger vos données de manière parallèle. Vous pouvez obtenir plus de débit. Vos données devraient passer plus rapidement du lac de données à SQL Server en raison de la distribution du réseau. Encore une fois, cela dépend de la taille de votre jeu de données. Vous devrez expérimenter et voir comment ça se passe. Nous n'allons pas permettre la mise en scène. Et ici, à notre source, vous pouvez ouvrir votre jeu de données. Vous avez juste besoin de passer le nom du compartiment que nous avons créé. Et ici, vous pouvez tester la connexion, d'accord ? Et vous pouvez explorer le compartiment S3 si vous avez suffisamment d'autorisations pour le faire. Allons explorer. Et ici vous pouvez voir le nom de mon compartiment S3, et je peux cliquer dessus et je peux voir tous les fichiers que j'ai à l'intérieur de ce compartiment. Je vais juste sélectionner UserData Wine dot. Et comme vous pouvez le voir, c'est au niveau des racines, donc je n'ai pas besoin de spécifier le répertoire. Et je peux également prévisualiser les données et voir à quoi elles ressemblent. C' est plutôt bien. C' est donc un bon signe que nous pouvons nous connecter et que nous pouvons atteindre. Et gardons, publions ou bien. Laissons ça et voyons à quoi ça ressemble. Donc, d'abord, jetons un coup d'œil à notre instance SQL Server et voyons si nous avons créé des tables. Comme vous pouvez le voir, les gens sont vides. Et revenons à cet arbre d'effets dans notre pipeline et voyons si nous aurons une nouvelle table. Nous avons fait un aperçu des jeux de données. Ok, alors soyons au-dessus. Donc, il est mis en file d'attente pour le moment. Ça fait du progrès. Et qu'est-ce que tu sais ? Il a réussi ? C' est un bon signe. Jetons un coup d'œil à notre instance SQL Server. Rafraîchissons ça. Super. Notre table est là. Maintenant, regardons rapidement le résultat de table qui a sélectionné les résultats de cette table et voyons si les données sont là. Déclaration de sélection simple et nos données sont ici. Vous pouvez voir que la table a été créée automatiquement. Juste une chose que vous devez faire attention est le type de données de votre table. Comme il frappe votre table à la volée, il ne sait pas vraiment combien d'espace il devrait donner à vos données, vos données varchar, il voudra deviner en fonction de votre fichier Parquet. Comme vous pouvez le voir, si vous vérifiez la table, les types de données de vos colonnes. Tout est venu comme n'importe quel varchar max en null. Et voyons, le salaire est venu comme flotteur. Tu dois faire ton propre jugement. Ok, revenons à notre usine de données et ajoutons un peu de complexité à notre pipeline. 29. Copy des fichiers Parquet d'AWS S3 dans des Données Lake et Azure SQL: Salut et bienvenue. Dans ce cas d'utilisation, nous allons obtenir le même jeu de données d'Amazon S3. Mais au lieu d'envoyer les données directement à la base de données, nous allons utiliser un zoo qui élection à nous nos débarquements sur, vous pourriez vouloir avoir un lac de données pour plaire à toutes vos sources sous forme de fichier PDF avant Saint dans votre combat et sur ce nation. Il s'agit d'un cas d'utilisation courant car les gens veulent parfois traiter vos données à l'aide de Databricks, HDInsight. Essayons donc d'imiter ce cas d'utilisation et d'utiliser le même fichier Parquet pour transférer à notre base de données et en nous assurant que le fichier existe sur le lac de données. Pour cet exemple, commençons à publier à partir de notre dernier exemple. Cool. Revenons à l'auteur. Élargissons cela et créons un nouveau jeu de données pour transférer notre fichier Parquet. Je vais créer un nouvel ensemble de données. Ce sera Amazon S3. Mais au lieu d'être un fichier Parquet, je vais sélectionner un fichier binaire. Donc, de cette façon, je n'ai pas à Egypt Parquet fichier sur Amazon S3 dans mon service lié sera le même. Juste mon chemin de fichier ici, vous fournissez le nom de notre compartiment, 2020 0, 0, et ceci est vide. Nous pouvons explorer les compartiments à partir d'ici, et nous sélectionnerons le même fichier. Voyez donc que vous pouvez le faire lorsque vous créez le jeu de données, où une fois qu'il est créé, il n'y a pas vraiment de différence entre les deux. Cliquons. D'accord. Super. Nous avons créé notre source. Maintenant. Nous devons créer nos débarquements sur des ensembles de données, qui seront un Data Lake Gen2. Choisissons ce type. Ce sera aussi un binaire. Continuer. Ce sera mon premier service lié. C' est alors que je le crée dans notre premier exemple. J' ai donc besoin de sélectionner le système de fichiers, qui est un conteneur. Et vous pouvez vous voir à ce que nous avons créé précédemment. Je ne veux pas attacher. Donc, même s'il n'existe pas, je peux lui donner un nom ici et il sera créé automatiquement par Azure Data Factory. Eh bien, ici à l'intérieur, je vais nommer car AWS est notre répertoire de fichiers. Très bien, donc c'est créatif. Nous voulons publier maintenant juste pour nous assurer que nos nouveaux jeux de données que j'ai créés. Ce que nous devons faire ici maintenant, c'est que nous devons créer notre pipeline qui transférera à notre partie un fichier d'AWS vers Azure Data Lake. C' est le nom de mon pipeline. Nous allons donc utiliser des données de copie. Ma source sera acheté transfert binaire AWS d'abord, puis je vais rester avec la valeur par défaut dans votre évier appris est sur Data Lake Gen2, non ? Alors publions cette option. Droit ? Alors lançons ce pipeline maintenant et voyons si nous pouvons traduire les données à travers les nuages. Cool, allons déboguer. Et ça va commencer l'argent. C' est en cours. Ok, ça a échoué. Nous pouvons vérifier le message de fondu ici et ainsi nous pouvons jeter un coup d'oeil rapide à la raison. Donc, il dit que le système de fichiers a un nom qui n'est pas valide. Donc, il dit qu'il contient des caractères, qui est le trait de soulignement. Donc c'est assez simple à résoudre. Je l'ai fait exprès, pour que vous puissiez voir quel genre de barrières parfois ça peut arriver. Revenons à notre jeu de données et nous pouvons le supprimer. Et gardons-le comme prêt, prêt brut sans le soulignement même site d'annuaire. Allons à notre pipeline. Déplace les données vers les apprentissages sur, et aller de l'avant et déboguer. Mignon, c'est en cours. Voyons voir. Super, c'est réussi. Donc, une façon d'explorer que nous pouvons revenir à notre jeu de données de zone d'atterrissage et vous pouvez cliquer sur Explorer. Et si vous revenez ici, souvenez-vous avant qu'il n'y ait que deux conteneurs, maintenant nous en avons un troisième. Et ici, nous avons le dossier AWS, C'est le dossier recréé ici. Et ici, nous avons notre dossier de fête. Ok, c'est génial. Maintenant, nous devons déplacer ce fichier du lac de données vers la base de données. Mais avant de faire cela, allons nous assurer que le fichier existe avant de passer dans la base de données afin que nous puissions éviter toute erreur ou nous pouvons créer une sorte de validation ici pour envoyer un message au fournisseur des données. Le fichier n'existe pas. Bon, alors revenons à notre pipeline. Et prenons une, une activité générale qui sera à la recherche. Une activité de recherche. Career est tous les jeux de données pris en charge en tant que source de données dans Data Factory. Vous pouvez également créer des tables. Il peut exécuter la procédure stockée. allons donc utiliser cette activité de recherche ici, et nous allons dans Paramètres et nous devons sélectionner notre jeu de données source, qui dans ce cas sera le fichier Parquet que nous avons transféré à notre zone d'atterrissage. Donc, continuons et créons notre nouveau jeu de données, car comme vous pouvez le voir, il n'est pas disponible pour nous. Allons donc dans Nouveau et sélectionnez Data Lake Gen2 en continuant. Ce sera le dossier Parquet. Alors ce sera mon premier service lié, n'est-ce pas ? Alors explorons ces serveurs liés. Allons à Londres en RA, qui est notre dossier AWS conteneur, et ce sont nos données. Reste juste avec la première option. Cliquez sur OK. Bon, donc au premier rang seulement, c'est bon. Pour notre échantillon. Ni les propriétés. On peut alors changer ce type à la recherche. recherche s'assurera que le fichier existe. Maintenant que nous venons de créer notre recherche pour nous assurer que notre fichier existe. Revenons ici et récupérez nos données de copie. Encore une fois. C'est un pas. Nous transférerons les données du lac de données dans la base de données. Bon, alors changeons ça ensemble et prenons notre source. Et on a fait une source ici. Peut le, le même jeu de données que nous venons de créer pour l'activité de surveillance, car il sera à la recherche au même emplacement. Bon, pour que nous puissions ouvrir ce jeu de données et valider que c'est ce que nous voulons. Revenons au pipeline. Et choisissons notre puits, que nous utiliserons le puits Azure SQL DB, qui est notre cible. Ici encore, nous devons spécifier une option de table connue si nous utilisions la procédure stockée et Auto Create pour créer la table. S' il n'existe pas, il va s'appuyer sur la table. Nous le spécifions dans le jeu de données. Puisque la table que nous existerions, il sautera la création. Bon, alors revenons à notre pipeline. Oui, on est prêts à partir. Donc nous avons ici notre scénario que je vais mettre en place. Donc, nous transférons les données du compartiment Amazon S3 dans le lac de données, qui est un réel ingénieurs sur. Nous avons une dernière vérification pour nous assurer que le feu a été correctement transféré. Une fois cela, ce sont des données valides que nous déplaçons le fichier, le contenu du fichier dans une base de données. Donc, si vous le voulez, vous pouvez renommer ceci. Alors publions votre butane. Parce que terminé. Et allons de l'avant et cliquez sur le bug. Mais d'abord, faisons juste un rapide villes des données. Sur notre table. On a 1000 dossiers. Voyons combien d'enregistrements nous aurons après l'exécution de notre pipeline. Alors allons frapper Debug. La première étape a été couronnée de succès. Et il vérifiera la seconde a également réussi. Et il va maintenant déplacer les données dans la base de données. C' est en cours. Également réussi grisâtre. Maintenant, vérifions combien d'enregistrements nous avons sur la base de données. Et je vais frapper Execute. Faites 1000 enregistrements, ce qui est notre deuxième tentative. Et le feu d'arcade supérieur a un 1000 records. Donc, ici, nous pouvons nous assurer que tout a été exécuté avec succès. Un intéressant ici à remarquer maintenant est comment nous surveillons tout ce que nous venons de faire. Notre prochaine leçon, nous allons vérifier comment nous surveillons toutes ces exécutions que nous faisons déjà. Et ceux qui courent aussi le passé. Alors restez à l'écoute et à bientôt. 30. Surveillance de l'exécution du ADF: Salut, et bienvenue à une autre leçon. Dans cette leçon, nous allons explorer comment nous surveillons l'exécution des pipelines. Vous devez vous rappeler que dans nos dernières illustrations, nous utilisions l'option bug. L' option de débogage déclenche le pipeline actuel. Et c'est votre séance. Cette option est pour quelque chose que les développeurs travaillant sur une branche de fonctionnalité ou quelque chose qui est juste pour le moment et ne devrait pas être verrouillé. Si quelqu'un d'autre veut vérifier l'exécution de mes pipelines à un stade ultérieur, ces exécutions sphère n'apparaîtront pas. Alors, comment nous nous assurons que tout est enregistré et comment nous comprenons le vrai mis en place quelque chose que nous n'étions pas présents quand était en cours d'exécution. Avoir la possibilité de déclencher maintenant. Déclencher maintenant, nous allons exécuter tout ce qui a été publié et nous allons enregistrer l'exécution du pipeline. Alors frappons la gâchette maintenant pour le même pipeline que nous avons fait un avant. Et vous ne pouvez voir aucun enregistrement trouvé. On peut y aller et cliquer sur OK. Et il réexécutera mon pipeline de la même manière que nous l'avons fait auparavant, mais en utilisant l'option trigger now, notre pipeline a été lancé. Nous pouvons revenir dans le volet gauche et cliquer sur le moniteur. Et vous pouvez voir qu'il a déjà été réussi. Donc, voici où vous pouvez voir toutes les exécutions de vos pipelines. Et si je clique dessus, vous pouvez voir que les mêmes activités ont été exécutées avec succès. Et vous pouvez vérifier à l'aide de ce petit verre, les détails de votre transfert. Cliquez dessus. Vous pouvez voir que mon transfert, il est venu de Data Lake Gen2 et est allé à ma base de données SQL Azure. Et voici le débit de mon transfert. Et combien de dossiers ont été transférés. Les connexions P, c'est quelque chose contrôlé par ADF et la taille des données écrites dans ma base de données. Un grand nombre de fichiers lisent la même quantité de gelé et d'actions. Et ici, vous pouvez voir une répartition de mes Tâches. Encore une fois, c'est quelque chose exécuté dans les coulisses que nous n'avons aucun contrôle. Il s'agit de l'heure de la file d'attente, du pré-comp, du système de transfert de script. Comme vous pouvez le voir, puisque nous n'avons pas de script de pré-copie, c'était 0. Et puis le transfert lui-même est très utile dans n'importe qui avec accès à mon usine de données serait en mesure de voir cela. On peut voir qu'ils peuvent aussi facturer. Et ce sont les exécutions de mes pipelines, comme quand on a commencé et fini. Le deuxième, qui est ma vérification de données, et le troisième qui est inséré dans la destination du fichier. Nous pouvons l'exécuter à nouveau et voir ce déclencheur de processus réel maintenant. D' accord ? Et si vous allez directement sur le moniteur, vous pouvez voir qu'il est en cours. Vous pouvez cliquer dessus. Et vous pouvez voir que le premier a été réussi. Peut rafraîchir. Le second est biaisé. Maintenant. C'est en cours. A été couronnée de succès. Le second est cuz maintenant et il est en cours et terminé. Ok, donc on devrait avoir 40 000 disques dans notre table, non ? Donc, tout est bon. Donc, si nous revenons à nos pipelines, vous pouvez voir qu'il est maintenant connecté. Donc, à chaque fois que j'ouvre mon usine de données, je devrais pouvoir voir la partie militaire. Ok, supposons que votre pipeline ait aussi échoué. Très bien, donc vous avez la possibilité d'exécuter le pipeline et il sera, nous exécutons à partir du moment ou de l'activité où il s'est arrêté. Nous n'avons pas besoin de réexécuter l'intégralité de votre pipeline. Imaginez que vous travaillez sur un très gros transfert du jour au lendemain. Et puis tu devais rentrer à la maison et attendre. Et vous aviez terminé l'autre jour et l'une des statistiques a échoué, mais toutes vos données massives ont déjà été transférées. Ensuite, vous pouvez simplement cliquer sur réexécuter. Et il serait, nous commençons à partir du moment où vous avez terminé, ce qui est assez cool. Ici, vous avez la possibilité de cliquer sur la consommation et de voir combien l'heure UI elle a consommée. Alors, qui est le mouvement des activités. D' accord. Donc, si nous avions plus de pipelines, vous verrez comment ils se chevauchent l'affrètement ici, vous avez la possibilité de sélectionner au cours des sept derniers jours et données personnalisées cycliques pour voir l'exécution de vos pipelines. Par défaut, c'est toujours 24 heures. Oui. C' est donc un très complet en assez simple pour vous d'enquêter sur les exécutions de vos pipelines. Tous ont un ID VLAN, un ID de point de vue unique. Et aussi ici, vous avez la possibilité de voir quel était le facteur énorme. Est également un fichier JSON confirmé par Data Factory. C' est un très bon outil pour enquêter et s'assurer que tout fonctionne correctement. Ouais, c'est tout pour surveiller et te voir dans la prochaine leçon. Merci beaucoup. A bientôt. 31. Présentation de la cartographie des données: Pour commencer avec les flux de données, nous pouvons venir sur le panneau de gauche. Et comme vous pouvez le voir ici, juste sous les jeux de données, nous avons des flux de données. Les flux de données peuvent être créés comme n'importe quel pipeline ou jeu de données. Comme vous pouvez le voir, vous pouvez cliquer sur les trois points ici et vous voyez un nouveau flux de données. Cliquons sur ça. C' est cool parce que si c'est la première fois que vous ouvrez un flux de données, vous allez faire une promenade ici, ce qui est très pratique. Comme vous pouvez le voir, nous pouvons commencer par ajouter une source au flux de données. Cliquez sur Terminer. C' est notre emplacement, mais les douleurs d'écoulement sont divisées en trois parties principales. La première partie est la barre supérieure. Valeur par défaut. La barre supérieure est très importante car c'est là que nous pouvons valider nos workflows. Par exemple, le JSON ou les logiques sur lesquelles nous travaillons. En outre, nous pouvons activer le débogage du flux de données, ce qui signifie que nous allons démarrer nos clusters afin d'exécuter du code Spark dans les coulisses. La deuxième partie ici est le graphique. Le graphique est l'endroit où vous pouvez placer vos transformations. Vous pouvez créer un flux de transformation qui affiche la lignée de la source de données telle qu'elle circule dans un ou plusieurs puits pour ajouter une nouvelle source de données, suffit de sélectionner les utilisateurs ici, puis vous voyez qu'il apporte une nouvelle astuce ici pour vous. Pour commencer notre doyen plus de chars. Par exemple, le côté gauche des nœuds indique le type de transformation. Le côté droit du nœud affiche le nom et la description du flux de données. Alors, cliquez sur Suivant. Ici, sur le nœud, vous pouvez cliquer sur Configurer en cliquant avec le bouton droit de la souris. Et puis si nous cliquez à nouveau sur Connecter, si vous cliquez sur le petit signe plus ici est où vous quelle nouvelle transformation. Cliquez sur Terminer. Et ici, nous aurions notre première transformation. Bien sûr, en cliquant ici pour en ajouter un autre. Et vous pouvez voir que nous avons beaucoup de transformations. Si vous êtes familier avec les services d'intégration, vous vous rapporterez à certaines des transformations que nous y avons. Par exemple, agrégats, pivot, puis pivot. Ce sont des choses que nous pouvons également trouver Integration Services. Nous irons donc à chacune de ces transformations et à ce qu'elles font dans la façon dont elles fonctionnent. Et enfin, nous avons ici notre panneau de configuration. Vous pouvez remarquer que si vous sélectionnez l'une des tâches, elle vous renvoie les options et les configurations associées à la tâche sélectionnée. Si vous cliquez simplement à l'extérieur et ne sélectionnez pas divertain, vous obtenez les paramètres et paramètres spécifiques, l'exécution globale de votre logique. Vous pouvez ajouter d'autres invites ici, ou vous pouvez ajouter différents paramètres ici et ainsi de suite. Si vous sélectionnez revenir à la tâche, vous pouvez voir que nous avons plusieurs options. Et ces options peuvent varier en fonction de la tâche sur laquelle vous travaillez. Mais une chose que vous pourriez trouver en commun, optimisation facile, l'onglet Optimisé contient des paramètres pour configurer les schémas de partition. Ainsi, par exemple, vous pouvez, vous pouvez utiliser le partitionnement actuel, la partition par défaut ou une partition unique, ou vous pouvez définir un partitionnement. Nous allons passer en revue chacune des options et cela peut vous être utile pour la peinture sur l'exigence que vous avez. Si vous cliquez sur Inspecter est l'option où vous obtenez pour voir les données sur lesquelles vous travaillez. Maintenant, passer à l'aperçu des données est l'endroit où vous pouvez obtenir un instantané interactif des données que chaque transformation. C' est assez cool parce qu'avant une jointure interne ou un permet de voir une agrégation, vous vous attendez à voir un type de données ou un état des données. Donc, vous pouvez cliquer dessus et puis juste émeuter vos transformations en C, le résultat attendu, vous ne pouvez voir que lorsque vous avez votre cluster en cours d'exécution ou votre mode de débogage défini sur un. 32. Mappage des transformations de données - Plusieurs entrées ou sorties: En commençant par plusieurs entrées et sorties, nous avons rejoint comme première option. Nous avons rejoint la transformation. Vous pouvez combiner des données provenant de différentes sources de données ou flux de données, et la sortie des données inclura toutes les colonnes des deux sources. Phase appariée sur une condition géante. Les conditions de jointure sont la jointure interne, jointure gauche, la jointure droite, jointure externe complète dans la jointure croisée personnalisée. Nous avons donc cinq types différents d'articulations. Puis après le géant, nous avons des divisions conditionnelles. Conditionnellement vocale, vous pouvez acheminer des lignes de différents flux de données en fonction de la condition correspondante. Donc, imaginez que vous voulez acheminer vos enregistrements pour n'importe quelle source de données spécifique est maintenant condition. Votre condition peut être l'endroit où l'état est activé ou désactivé. Et en fonction de cette condition, vous enverriez les données à une table ou deux jeux de données différents. Ensuite, nous avons des X. La transformation d'axe est la transformation de filtrage du monde qui vérifie si vos données existent dans un autre service ou eStream. Le flux de sortie inclut toutes les lignes et le flux de gauche qui existent ou n'existent pas dans le flux de droite. Ensuite, nous avons un syndicat. Avec l'union, vous pouvez combiner plusieurs flux de données verticalement. La sortie serait comme si vous aviez un seul jeu de données. Imaginez que vous voulez placer un jeu de données sur l'autre, et qu'ils ressemblent à un seul jeu de données. Ensuite, à la fin de notre catégorie de multiples entrées et sorties, nous avons la recherche. Cette transformation est utilisée pour référencer des données provenant d'une autre source. Par exemple, imaginez que vous avez une table de faits dans une table de dimensions. La transformation de l'avis de surveillance ajoute des colonnes à partir de la correspondance des données, dans ce cas la dimension à vos données source. Dans ce cas, le fait, si vous y pensez, la recherche est assez similaire à une opération de jointure gauche, où toutes les valeurs existent sur votre flux de sortie dans des colonnes supplémentaires de votre look en amont. 33. Mappie des transformations de flux de données - Modifier.: Ensuite, notre groupe suivant est le modificateur de schéma. Comme première option, nous avons la colonne dérivée. Avec cette transformation, vous pouvez générer de nouvelles colonnes ou modifier des colonnes existantes à l'aide du langage d'expression de flux de données. Ensuite, nous avons sélectionné. Avec select, vous pouvez renommer, supprimer ou réorganiser des colonnes. Cette transformation ne modifie pas rho beta, mais choisit les colonnes qui sont propagées en aval. Donc, disons que si vous avez un jeu de données très large et que vous voulez juste dire quelques champs sélectifs de ce jeu de données qui serait possible en utilisant cette transformation. Ensuite, nous avons agrégé, agrégat pour définir différents types d'agrégation, comme un nombre min-max. Vous devez acheter des colonnes existantes ou calculées. Ensuite, nous avons la clé de substitution. Touches de substitution, très utiles lorsque vous avez affaire à des dimensions et des tables de faits. Vous pouvez utiliser cette transformation pour ajouter et incrémenter une valeur de clé à chaque ligne des données. Ceci est utile lors de la conception des tables d'animations. Par exemple, dans un schéma en étoile qui sera utilisé dans le modèle de données analytiques. Ensuite, vous avez pivot. Pivot, vous pouvez le classer comme une agrégation où une ou plusieurs colonnes de regroupement ont sa ligne distincte, transformez-la en colonnes individuelles. Ensuite, passez à, um, pivotez et pivotez vers vous de la manière opposée que vous avez des bros sur votre jeu de données. Et vous voulez les transformer de manière à ce qu'ils soient affichés sous forme de volumes dans notre ensemble de données plus large. Ici, nous avons une fenêtre. C'est intéressant. Au cours de la transformation est l'endroit où vous définissez une fonction de fenêtre des colonnes dans votre flux de données. Dans le générateur d'expressions de cette transformation, vous pouvez définir différents types d'agrégation basés sur cette fenêtre temporelle. Par exemple, cela est assez similaire à la clause SQL over où vous avez une fonction de fenêtre en général. Par exemple, vous pourriez penser au retard de plomb en détail. Ce sont des fonctions similaires. Vous pourriez trouver ici. Un nouveau champ est généré dans vos sorties qui incluent ces agrégations. C'est très utile. Vous souhaitez travailler avec différents types d'agrégation dans le même jeu de données. Alors on a un rang. Quel rang vous pouvez générer un classement ordonné en fonction de la condition que vous pouvez spécifier. Vous pouvez agréger de manière à créer des racks dans le jeu de données. 34. Mappage des transformations de flux de données - Formatters: Ensuite, nous avons aussi des questions de D4. Donc, fondamentalement, en utilisant l'aplatir signifie que vous pouvez prendre un tableau que vous avez une structure de code poilue, comme un fichier JSON, puis vous pouvez les dérouler dans des lignes individuelles. C' est très utile si vous voulez aplatir votre fichier JSON lorsque vous avez beaucoup de nœuds imbriqués à l'intérieur de JSON, puis en suivant la séquence que nous avons analysé. C' est très utile lorsque vous avez besoin d'analyser des colonnes de texte, votre flux quotidien. Par exemple, les attaques limitées pour les fichiers CSV ou XML. Donc, c'est assez important lorsque vous devez faire face à beaucoup de chaînes et que vous devez les formater, les analyser. 35. Mappage des transformations de flux de données - Modifier Modification de rangée: Ensuite, nous avons le modificateur rho. Ceci est important si vous souhaitez enrichir vos données d'une manière que vous devrez les modifier à l'avenir. Vous disposez d'un filtre basé sur cette condition. Tout comme en tant qu'Excel, vous avez désactivé l'avenir par âge ou téléphone que je filtre par horodatage, c'est votre choix. Vous avez aussi une recherche. Vous pouvez rechercher la ligne entrante sur le flux de données actuel. Supposons que vous vouliez rechercher par nom, par âge, par n'importe quel champ. Nous voulons que cela soit possible aussi. Et puis vous avez la rangée de l'autel. Vous insérez, supprimez, mettez à jour et modifiez les stratégies sur les lignes. Vous pouvez en ajouter une à de nombreuses conditions. Cette condition doit être spécifiée par ordre de priorité car chaque ligne sera marquée avec la stratégie correspondant à la première expression correspondante. Donc, vous pouvez définir si mon expression régulière correspond, je veux insérer cet enregistrement s'il ne correspond pas à ma première condition, ma deuxième condition mettra à jour cette ligne ou supprimera cette ligne. Ainsi, la ligne externe peut produire à la fois des actions DDL et D et L, je suppose que la base de données à laquelle vous avez affaire. Donc, il fait la même chose que l'instruction merge et un peu plus. 36. 5Mappage des transformations de données - Destination: Et puis, enfin, nous avons cette nation. C' est la même chose que nous avons déjà vu avec les pipelines. Le lavabo est votre destination, c'est votre endroit où vous allez insérer vos données. D' accord ? C' est toutes les transformations avec lesquelles nous pouvons travailler. Rappelez-vous que ces transformations sont des transformations visuelles qui, dans les coulisses, j'exécute juste le code pour vous faire le, toutes les optimisations à exécuter de manière optimale sur les clusters Spark. Dans notre prochaine leçon, nous allons voir comment nous pouvons utiliser sources de données dans certaines transformations. Restez à l'écoute. A bientôt. 37. Définir le type de Source ; Dataset vs Inline: Salut les gars et bienvenue à une autre leçon. Dans cette leçon, nous allons voir comment nous pouvons créer des sources de données à l'aide de flux de données cartographiques. Nous commençons, nous allons aller ici sous flux de données et cliquez sur Actions et cliquez sur nouveau flux de données. C' est vide parce que nous allons commencer à partir de zéro. Donc, je vais juste sauter ce premier pour pourboire ici. Et comme vous pouvez le voir, nous avons une boîte en pointillés. Cliquons sur ça. Et je vais aussi sauter ce premier guide. Ici. Nous avons des options de configuration dans quelques fois avec différents paramètres que nous pouvons choisir aussi. Commençons donc par les paramètres source. Dans la première décision importante que vous devez prendre est le type de source de données que vous devez utiliser. Donc, nous avons des jeux de données et aussi nous avons ensemble de données en ligne est juste une entité qui peut être réutilisée à travers les flux de données et aussi les pipelines. Si vous vous souvenez, tous ces jeux de données, nous les avons créés avant pour nos autres démonstrations. Ce ne sont donc que des entités. Ici, en ligne. C' est quelque chose de plus dédié à chaque logique ou workflow de flux de données. Il y a des avantages à utiliser les deux, mais il y a des cas où les deux seront pris en charge. Par exemple, ici dans le jeu de données en ligne, nous avons quelques jeux de données prêts à l'emploi parmi lesquels nous pouvons choisir. Et ces jeux de données fonctionneraient avec quelques connecteurs, pas tous. Par exemple, les jeux de données en ligne que vous ne seriez pas qui utilisent le connecteur de base de données SQL Azure pour avoir une liste plus définie de quand utiliser le type de source en ligne ou les jeux de données ou Skype. Je recommande de jeter un oeil à la documentation. Par exemple, si je reçois la documentation ici, vous pouvez voir dans une meilleure vue quels sont les connecteurs dans quel ID les types de source pris en charge. Nous avons donc une base de données SQL Azure. Comme vous pouvez le voir, seul le jeu de données est pris en charge. Mais pour ces types ici, nous avons la possibilité d'utiliser les deux. Un élément important de l'utilisation du jeu de données ou en ligne est le fait qu' ligne est un type source natif pour Spark alors que le jeu de données ne l'est pas. Ainsi, vous verrez parfois de meilleures performances lorsque vous traitez des fichiers sur un plus grand lac plutôt que sur une base de données ou que vous lisez les mêmes incendies d'approvisionnement en utilisant des jeux de données. Le cas où ce n'est pas très bon ou que je devrais toujours être les principaux est juste un cas où quel est le connecteur que vous utilisez et vous devez faire un appel de jugement, lequel d'entre eux fonctionne mieux ? Démonstration d'urine ici, nous allons nous en tenir aux jeux de données parce que nous allons ingérer les données que nous avons précédemment chargées dans notre base de données SQL. Pour commencer, sélectionnons Azure SQL DB. Et ce cours synchronise le couler parce que dans cet autre exemple, nous utilisons comme un évier, mais maintenant nous pouvons l'utiliser comme source. 38. Définir des options Source: Une fois que nous avons d'autres, l'ensemble de données, nous avons déjà pris la décision importante, qui est jeu de données pour nous 0, 0. Et puis nous devons configurer quelques paramètres ici. Et nous commençons par sélectionner les paramètres source. Ici. Par exemple, nous avons le nom du flux de sortie, qui est le nom de notre tâche. Vous pouvez donner le nom que vous voulez ou simplement coller avec ce nom et ajouter des exemples de données. Il n'accepte pas cela ou souligne. Il doit être une seule chaîne. Ici, nous avons autoriser la dérive du schéma. Cette option est la possibilité de verrouiller Data Factory LBL, schémas flexibles. Et cela est utile si votre schéma change assez souvent. Le paramètre permet aux champs source de revenu de circuler vers les transformations, vers la synchronisation automatiquement, sorte que vous n'avez pas à gérer la modification de schéma de manière mineure tout le temps. En outre, nous avons E pour les types de colonnes dérivées. Nous utilisons l'option. Vous pouvez demander à Data Factory de détecter et de définir des types de données pour chaque nouvelle colonne de découverte. C' est très utile comme s'il mesurait un robot de chenille. Data Factory a la capacité de définir et comprendre les types de données à mesure que de nouvelles colonnes apparaissent, alors nous avons un schéma de données valide. Si, mais qu'il s'agit d'un schéma est sélectionné, le flux de données échouera si les données de recherche entrantes ne correspondent pas à la définition du schéma de l'ensemble de données. C' est un moyen de vous assurer que vous avez un schéma fiable. Ensuite, nous avons des données d'échantillonnage. Ceci est pour vous de limiter la quantité de lignes que vous obtenez invité lorsque vous déboguez ou un testy, votre logique est utile lors de l'exécution de son flux dans le pipeline Bergame. 39. Spinning groupement de données: Ok, Donc ici, comme vous pouvez le voir, le jeu de données est grisé. Il est grisé parce que nous n'avons pas notre cluster Spark en cours d'exécution. Et nous le faisons en activant cette option ici. Cela peut prendre quelques fois jusqu'à cinq minutes parce qu' il fait tourner un nouveau cluster Spark pour vous dans les coulisses. Alors sois patient. Asseyez-vous, détendez-vous et vous aurez votre groupe. Mais bientôt, Cliquons sur ça. Et comme vous pouvez le voir ici, j'ai la possibilité de sélectionner un runtime d'intégration. Donc, cela suit les mêmes aspects que nous avons vus auparavant. Je pourrais avoir un auto-hébergé ici, puis je peux choisir la configuration pour mon exécution d'intégration de résolution automatique. On va s'en tenir à cette option. C' est le livre Time to Live, ce qui signifie que si mon débogage est inactif pendant une heure, il se déplacera maintenant lui-même. C' est une fonctionnalité agréable pour vous d'économiser des coûts et de ne pas être une facture énorme. Je ne savais pas un mois parce que tu as oublié de tourner pas moins le cluster Spark. Alors, cliquez sur OK. Une fois que nous cliquerons sur OK, nous pouvons voir que la création du cluster sera initiée. Et puis si vous faites attention à cette barre ici, c'est à ce moment que le cluster est en train d'être construit dans les coulisses. Une fois cela créé, nous verrons une case à cocher verte ici. À ce stade, nous savons que nous avons les ressources de calcul pour que nous puissions travailler. Cela peut prendre quelques minutes. Donc tu dois être patient et attendre jusqu'à ce que ça soit terminé. Je vais accélérer cette vidéo et nous reviendrons dans une seconde. Allez maintenant, nous avons notre cluster en cours d'exécution. Et si vous vérifiez ici, les notifications sonnent, vous pouvez voir que notre cluster a pris environ six minutes prêt, ce qui est prévu BC environ cinq minutes, donc pour nous à six. Alors, cliquez sur Go K ici et fermez. Et maintenant, nous avons nos environnements comme ça. Et nous pouvons maintenant tester votre connexion est dans la thêta de Jeff et ainsi de suite et ainsi de suite. 40. Définir le type de saisie de source de données: Nous allons passer ici aux options Circe. Et les options sérieuses peuvent varier en fonction de la tâche sur laquelle vous travaillez. Donc, dans notre cas, voici les données source et ici nous nous connectons à une base de données SQL. Et nous pouvons exécuter la procédure de recherche. Nous exécutons une requête. Donc, la projection est en fait les données que vous avez. Maintenant, nous allons revenir juste une seconde dans notre base de données, faire la même chose que nous avons créée. Et on va vérifier notre table. Comme vous pouvez le voir, j'ai la base de données que vous êtes en cours d'exécution, et la table que nous avons créée, et nous disons juste quelques milliers d'enregistrements. Donc, si vous vérifiez ici, nous avons 4 mille rangées. Alors, qu'est-ce que je vais faire ? Je voudrais juste copier ce code, c'est que nous allons sélectionner les déclarations que nous avons. Et nous allons revenir aux options de la source. Et je vais coller cette déclaration ici. 41. Définir les Schema de données: La projection est le service ou quelque chose qui définit les types de colonnes de données formats. Ainsi, pour la plupart des types de jeux de données tels que SQL dans un parc vous, la projection est une source qui reflète votre schéma lorsque vous source des fichiers qui ne sont pas fortement typés. Par exemple, si vous avez quelque chose qui peut modifier les fichiers CSV jazz et les fichiers texte au lieu des fichiers Parquet qui ont un schéma prédéfini, vous pouvez définir les types de données ici. Donc je peux soit être dit à mon schéma, soit le changer d'ici. Maintenant, notre cas ici, nous ne serons pas en mesure de modifier l'entité car elle provient déjà d'une base de données. Et Data Factory comprend que c'est un schéma fixe. Donc, chaque fois qu'il y a un changement, si vous avez cliqué sur le schéma, dériver pour construire n'importe quel schéma. Mais par exemple, si vous avez affaire à un fichier texte et votre fichier texte n'a pas défini le schéma. Vous pouvez cliquer sur le texte. Il y aurait une option ici pour vous de cliquer sur le schéma de l'assiette fiscale. Et cela prendrait un échantillon des données et déduirait le type de données dans votre production. N' oubliez pas que si vous définissez un nouveau schéma pour vos données ou si vous modifiez le schéma, si vous cliquez sur Transmet le rejet, il remplacera toujours tout ce que vous avez fait. Donc, vous devez être prudent si vous mettez à jour beaucoup de choses ici. 42. Optimiser les charges avec des partitions: Passant maintenant à l'optimisation, nous avons trois options principales pour sélectionner le type de partitionnement que nous voulions choisir. Dans la plupart des cas, nous choisirons d'utiliser le partitionnement Grant car nous voulons utiliser l'ensemble prédéfini de règles que Data Factory doit choisir le meilleur chemin pour trouver ses données. Mais par exemple, si vous avez une base de données SQL en tant que source, vous pouvez modifier. Cela dépend du type de partitionnement que vous avez. Ainsi, par exemple, vous auriez le choix entre six types de partitionnement différents. Et puis basé sur, disons, une partition que vous avez sur cette colonne spécifique. Ou si j'utilise une condition de requête et puis crée une partition basée sur cela, il est également possible de ne pas chaque fois que vous voulez créer une partition basée sur les champs d'aujourd'hui. Parfois, vous aurez une nouvelle plage d'entiers que nous voulions trouver un partitionnement. Vous pouvez donc utiliser votre condition de carrière pour le faire. Si vous cliquez sur cette surface, mais pétition, qui est un partitionnement personnalisé, Il est probable que EDF, nous allons lire les données le plus rapide. Parce qu'ici qu'une usine peut utiliser plusieurs instructions et faire plusieurs connexions pour obtenir vos données et bien engage en parallèle. Ce qui dictera l'année de performance pour la lecture ici est les ressources disponibles que vous avez, n combien d'instructions simultanées vous pouvez exécuter en même temps. La minuscule ici, sélectionnons la colonne. Si vous cliquez ici dans le menu déroulant, vous pouvez voir que nous avons toutes les colonnes disponibles dans votre tableau. Prenons donc le champ ID, et ce sera notre colonne de partition. 43. Aperçu des données à partir de la transformation source: Ensuite, en passant à l'Inspecter, nous avons un échantillon de notre schéma IIS. Donc, comme vous pouvez le voir ici, il montre toutes les colonnes que nous avons. Et puis le type de données que nous avons. Passer à l'aperçu des données. Il affiche un aperçu de nos données en fonction de la partition que nous choisissons. Ceci est assez similaire à l'ensemble de données. Lorsque vous explorez les données que vous possédez, votre clicker ici et actualisez, vous pouvez voir qu'il va récupérer les données de notre table. Excellent, comme vous pouvez le voir ici, nous avons un échantillon de nos données de la table que nous utilisons à partir de notre jeu de données. C' est assez cool parce que vous pouvez voir ici si tout semble correct, examen est aussi agréable parce que imaginons que vous faites des transformations. Après ça. Vous seriez en mesure de voir les données. À ce moment-là, nous allons imaginer votre journée en géant intérieur et vous voulez voir les colonnes que vous avez de votre table de gauche, dans la table de droite. À ce stade, vous n'auriez qu'une seule table pour sélectionner vos données. Mais en regardant l'étape suivante, vous verrez à partir des données prévisualiser toutes les colonnes en fonction des transformations que vous choisissez. Nous avons donc créé nos données de recherche. Nous avons passé en revue toutes les options dont nous disposons pour cela. La prochaine étape que nous allons créer est le côté synchronisation de notre transformation. Si j'ai essayé de vous voir ici, il se plaindra que nous n'avons pas d'évier et d'éthanoate pour sauver votre pipeline. On a un évier. Donc, créons notre évier et peut-être créer une autre table basée sur la source sur la même base de données. Sécante. 44. Comment ajouter un Ejet à un flux de données en correspondance.: Ok, Maintenant, nous devons créer notre évier beaucoup où nous voulons envoyer nos données. Alors cliquez ici et un signe plus. Nous allons énumérer toutes les transformations disponibles que nous avons. Dans notre cas, nous allons utiliser la destination. Et puis le seul évier disponible. Cliquez dessus. Et encore une fois, nous obtenons une belle info-bulle ici. En ce moment, nous allons juste fermer ça. Et ici, nous avons des options similaires que nous avons pour la source, nous avons vraiment couler. Dans notre cas, nous devons choisir un ensemble de données qui représentera le point où nous allons envoyer les données. Cliquez sur Nouveau pour créer un nouveau jeu de données basé sur la base de données observée que nous avons. Alors, cliquez sur Nouveau. Ensuite, nous avons la possibilité de choisir Azure SQL Database. Alors continuons. Puisque nous avons déjà nos serifs sont créés, nous allons simplement cliquer dessus. Et puis je dirai mon nouveau jeu de données. D' accord ? Ici, nous avons la possibilité de sélectionner une table existante, donc nous n'en avons qu'une. Et puis nous avons aussi la possibilité de créer une nouvelle table. Alors créons une nouvelle table. Et puis j'ai juste besoin de lui donner un nom et un schéma. Donc, mon schéma sera DiyBio, le nom de la table sera échantillonné des données. C' est là que j'ai souvent des buffles. Et nous avons un petit bouton ici pour avancé. Je ne veux pas faire un idiot est point parce qu'il pourrait être utilisé pour l'optimisation et ainsi de suite. Je vais juste cliquer sur OK. À ce stade, nous avons une représentation de cette table qu'elle n'a pas vraiment été créée. Oui. Ensuite, nous avons des paramètres. Ici. Nous pouvons manipuler le type d'autorisations que nous voulons sélectionner dans ce jeu de données. Ici, nous avons des actions de barre p, nous avons recréé stable tronquer la table, signifie à chaque fois que nous exécutons ceci, nous pourrions tronquer la table si c'est un ensemble de données ou si nous avons affaire à une dérive de schéma, vous voulez vous assurer que vous avez table propre ou vous pouvez laisser et recréé dans notre table. Ou si nous avons affaire à des charges incrémentielles, vous pouvez simplement sélectionner Nano. Voici la taille du lot. Si lorsque je contrôle le nombre de lignes insérées en tant que temps, si cela va utiliser des données TempDB, si vous voulez, par exemple, utiliser des scripts SQL utilise une faune entièrement, disons que la table créée avant cela, si nous voulons laisser la table ou fait quelque chose avec la table, créer un index a abandonné l'index, par exemple, l'image un à la suppression existe avant que les données sont chargées. Ainsi, vous pouvez obtenir les données plus rapidement. La plupart des données sont chargées, vous pouvez créer un index. Vous pouvez utiliser ces deux options. En outre, vous avez une bonne gestion des erreurs ici. Vous pouvez arrêter un continuum d'erreurs sur l'erreur et les choses de ce mappage. Nous n'avons pas à nous soucier de la cartographie car ce sera un à un. Je veux mettre toutes ces colonnes dans mon évier. Donc, c'est bon. Ici, nous pouvons à nouveau sélectionner le partitionnement PSD est que nous avons, Je vais régler le partitionnement à nouveau. Je vais peut-être continuer à partitionner. Nous allons sélectionner IT GAN, puis inspecter quelque chose qu'un aperçu. Nous pourrions actualiser les données pour les revoir. Très bien, alors publions. Il devrait être acceptable de publier en ce moment. Les données ont été publiées avec succès. Et à ce stade, nous devrions être en mesure d'exécuter le pipeline et de voir si nous pouvons obtenir toutes les données à travers une nouvelle table. 45. Comment exécuter un flux de données en How: Comment faire pour exécuter le flux de données de mappage ? C' est intéressant car à partir du pipeline standard, vous auriez le livre et ensuite aussi déclencher maintenant, ce qui vous permet d'exécuter vos pipelines traiter loin. Ce n'est pas le cas pour un flux de données. Pour que Dataflow soit exécuté, il doit être exécuté à partir du pipeline. En d'autres termes, en actif par blanc. Alors élargissons ces lignes. Et nous allons cliquer ici sur le nouveau pipeline. Et puis nous allons obtenir des flux de données à partir des options sont des activités. Donc, comme vous pouvez le voir, cela montre comme n'importe quelle tâche que nous avions disponible. Et parce que nous avons déjà nos données pour créé, nous pouvons l'appeler à partir d'ici. Nous avons donc des paramètres. Ensuite, nous pouvons y arriver pour un qui est notre Dataflow. Et puis à partir d'ici, nous pouvons à nouveau choisir décomposer chaque type que nous allons exécuter. Nous pouvons obtenir juste un but général et ensuite le plus petit cluster que nous avons disponible pour nous, nous n'avons pas besoin d'un gros cluster. Ensuite, nous avons les options de blogs. Nous allons simplement nous en tenir à la proposition. Nous devons garder à l'esprit que si vous faites la promotion de cette chose à la production, ce serait peut-être une bonne idée de travailler avec les différentes options. Plus vous avez d'options, plus vous obtenez de journaux, plus il faudra de temps pour effectuer toutes les activités. Nous avons des propriétés similaires. Nous pouvons exécuter cela en parallèle si nous le voulons. Notre juste bâton avec tous les bateaux. Voici la mise en scène. On n'a pas besoin d'une mise en scène. C' est quelque chose comme nous l'avons fait pour les autres pipelines, c'est si vous voulez utiliser le Baddeley pour un stockage Blob pour mettre en scène vos données avant qu'elles ne parviennent à ce pays. Et ici les paramètres, nous n'avons pas besoin de paramètres à ce stade parce que nous n'avons pas défini de paramètres pour notre Dataflow. On va juste valider ça. Il a été invalidé. Ok, les avocats ont trouvé donc on devrait pouvoir publier ça, mais avant de donner un nom à ça. Ensuite, nous pouvons publier maintenant. Allez, il a été publié. Ok, si vous remarquez, nos grappes sont que vous êtes en cours d'exécution. Ils pensent que tu n'as pas trouvé le livre. Ou nous pouvons juste soit nouveau tuteur, je voudrais juste cliquer sur le bug à ce stade. Ensuite, notre pipeline devrait commencer à fonctionner immédiatement et notre flux de données sera lancé. Cool. Nous avons ici notre pipeline en cours, et il exécute maintenant le code Dataflow. Nous pouvons constater que notre pipeline a été terminé avec succès. Voici le, en fait le temps qu'il a fallu à leurs patients. Vous avez peut-être remarqué que cela a pris un peu de temps jusqu'à ce que ça commence. Mais encore une fois, c'est une grappe qui l'a fait monter dans les coulisses. Donc, les premières minutes ou secondes, vous ne devriez pas vraiment considérer parce que pipeline facile, outil puissant pour travailler avec une quantité massive de données. Et puis une fois que cela est en cours d'exécution, tout devrait être très rapide. Donc, nous pouvons continuer et vérifier notre base de données maintenant et voir si nous avons une table. Revenons à notre base de données et nous en avons encore une ici. Allons nous rafraîchir. Nous avons une autre table ici, et ensuite nous pouvons vérifier les données pour voir si tout est là. Le satellite est génial. Comme vous pouvez le voir, nous avons 4 mille records. Tout comme nous l'avons fait dans nos données sources. Cela pourrait être n'importe quel jour, tout comme nous l'avons fait pour nos jeux de données utilisant des pipelines, nous ne pourrions pas travailler avec un type différent de connecteur. Ça ne pouvait pas être Oracle, ça pourrait être le fichier Parquet, le lac de données. La bonne chose ici est de voir et de comprendre comment nous pourrions utiliser les pipelines dans les flux de données de mappage pour ingérer des données et transformer les données en utilisant un cluster Spark sans écrire une seule ligne de code. C' est très puissant. Maintenant, voyons comment nous pouvons faire quelques transformations dans la façon dont ça va fonctionner. Restez à l'écoute. Merci d'avoir regardé. 46. Quiz -: Bien. 47. Promenade du projet- Intégrer une Réunion de données Azure à Databricks: Salut les gens, et bienvenue à une autre leçon. Maintenant, jetons un coup d'oeil au document de nos projets. Ce document contient une étape par étape ce qui vous sera demandé si vous souhaitez l'intégrer à Data Factory. Ici, nous avons le cas d'utilisation pour cela. Imaginez donc que vous faites partie d'une équipe d'analyse qui a récemment reçu une énorme mission ou analysez les données de criminalité pour plusieurs villes métropolitaines. L' équipe Year a décidé de tirer parti des capacités d' Azure Data Factory Databricks pour ingérer les données requises en transformant en agrégat. À la suite de ce cas de musique, vous comprendrez comment travailler une transformations de données directes en utilisant Databricks et ADF. Pour ce projet, nous devrons avoir les choses sur le terrain sont déjà en cours d'exécution. Dans notre cas, nous avons déjà les étapes 12 afin que nous puissions sauter et commencer directement à partir de l'arbre à pas. Si vous souhaitez créer un nouveau compte de stockage, nous avons ici comment procéder étape par étape ? Ensuite, nous devons saisir le nom et la clé des résultats à utiliser à partir de Databricks. Une fois que nous avons cela, nous pouvons créer un nouveau nom de conteneur à l'intérieur de notre compte de stockage. Commençons donc directement avec espace de travail Azure Databricks et voyons comment nous pouvons créer cela à partir du portail. Commençons. 48. Comment créer des Databricks et importer des caquettes: Je vais repartir sur le portail et chercher d'autres briques. Nous pouvons simplement cliquer ici sur le bouton. Ensuite, vous allez rechercher vos abonnements. Je n'ai qu'un seul disponible. Créons un nouveau groupe de ressources à l'université. Ensuite, je vais devoir donner un nom à mon espace de travail. Ensuite, je dois sélectionner ici ma région, ce sera l'Europe du Nord. Ensuite, j'ai principalement deux types différents de niveaux de tarification. Donc, je l'ai fait ApachesPark, et puis j'ai prime. Ce qui me permet d'avoir plus de granularité autour de la sécurité et de l'accès à l'intérieur, c'est mon espace de travail. C' est une norme de sécurité. Ici, nous avons une option pour respecter les options par défaut, ce qui signifie que nous allons utiliser des points de terminaison publics pour nous connecter à notre environnement. Ou si vous disposez d'une infrastructure de structure, vous pouvez sélectionner un réseau virtuel existant. Alors restons avec non. Puis avancé, nous n'avons pas la possibilité de le sélectionner est à ce stade. Ensuite, si vous voulez ajouter des balises, c'est important car si vous créez un DAG à ce stade, chaque fois qu'une nouvelle ressource est une source de l'espace de travail Databricks, vous pouvez facilement identifier à partir des balises héritées de la recherche base. Ok, alors passons en revue. On peut créer. Super, notre espace de travail est opérationnel. Alors passons à la ressource. Et puis comme vous pouvez le voir, nous avons un portail pour lancer réellement l'espace de travail Databricks que j'ai lu est un produit qui n'appartient pas à Microsoft. Il est profondément intégré, mais n'appartient pas à Microsoft. Pour cette raison, nous avons un service qui nous permet de nous connecter à l'espace de travail Databricks réel. Cliquez sur seul pour l'espace. Et puis nous pouvons voir à première vue à quoi ça ressemble. Il va m'affecter en tant que compte Azure Active Directory. Super, c'est à ça que ça ressemble. Revenons ici à notre documentation. Une fois cela créé, nous avons ici quelques autres étapes à franchir. Nous avons lancé l'espace de travail, puis dans l'espace de travail, nous pouvons voir la barre de gauche, sélectionner les utilisateurs de l'espace de travail et ainsi de suite. Jetons un coup d'oeil ici, à quoi ça ressemble. Ici. espace de travail à domicile devrait vous offrir le même ensemble d'options. Si vous sélectionnez espace de travail et allez ici directement à votre nom d'utilisateur, vous avez la possibilité d'importer. Vous avez choisi de créer un nouveau bloc-notes. Vous avez la possibilité de cloner et le bloc-notes existant. Et si vous voulez exporter un existant est de cette option ici. Maintenant, notre cas, nous n'allons pas développer quoi que ce soit à ce stade. Nous allons simplement manger des ports dans le bloc-notes existant à partir de la page Web Microsoft GitHub. Donc, nous allons importer, revenant à la documentation, nous avons cliqué sur la plaque, puis allons à cette URL et télécharger le bloc-notes. Cliquez ici, et je vais coller. Et il va télécharger pour moi tout de suite où vous revenez au portail. Je vais naviguer. Super. Je suis allé à mes dossiers de téléchargement, puis je sélectionne le fichier que je viens de télécharger. Et maintenant, vous pouvez voir que cela est violé et nous pouvons l'importer. Une fois que vous avez importé vos ordinateurs portables. À première vue, vous ne verrez peut-être rien tout de suite, mais en fait, chacun a déjà été important. Vous pouvez sélectionner un espace de travail ou une maison de chaton. Si nous sommes sous Workspace, vous pouvez sélectionner votre utilisateur. Ensuite, vous verrez que vous avez un nouveau dossier ici. Le dossier contient les blocs-notes que nous venons d'importer et nous avions inclut un autre dossier. Ensuite, vous pouvez voir ici nous avons différentes options en cliquant ici sur le Mise en route. Pour revenir à notre documentation, il y a une explication vidéo pour chacun des cahiers. Le bloc-notes de mise en route. Il vous montre comment configurer un nouveau compte de stockage comme nous l'avons fait auparavant, nous pouvons ignorer cette unité. Ensuite, le deuxième ordinateur portable est l'ingestion de données. Il va aller ici, étape par étape, comment vous pouvez ingérer des données à partir d'un compte de coup de pied de pub en utilisant Data Factory dans un compte de stockage. Ensuite, le troisième bloc-notes contient des instructions pour créer une connectivité entre l'espace de travail Data Factory et Databricks. Alors allons nous salir les mains et voir comment cela peut être fait. 49. Comment créer des Databricks et importer des caquettes: Revenir à notre espace de travail, comme vous pouvez le voir ici, n'est qu'une étape par étape comment créer un compte de stockage. Et une usine de données. C' est un bloc-notes ignoré parce que nous l' avons déjà fait avant et nous avons les deux surfaces font la promotion. Ensuite, si vous cliquez ici sur l'oreille, vous avez la liste des cahiers. Donc, pour conclure ici sur l'espace de travail à nouveau, et puis vous avez l'ingestion de données. Cette ingestion montre comment nous pouvons ingérer le livre, les données, puis elle nous donne un jeton SaaS pour nous connecter à un compte de stockage afin que nous puissions ingérer ces données. Alors faisons ça à partir de Data Factory. Et à partir de la page d'accueil, nous avons les données du flic. Cliquons sur ça. Vous pouvez voir ici, nous suivons étape par étape. Et puis on a l'assistant de coupe sur lequel on vient de cliquer. Donnons un nom à notre pipeline. Sélectionnons ceci et une copie. Nous allons sélectionner les pronoms maintenant. Suivant. Alors c'est la deuxième étape. Nous devons créer une nouvelle connexion. Donc, si vous cliquez ici sur une nouvelle connexion, recherchons le stockage. Et cliquez sur Stockage blob. Encore une fois, revenir à ici, nous pouvons sélectionner Librairies, nous pouvons continuer. Alors nous devons garder un nom pour ça. Et puis nous devons sélectionner la carte d'authentification que nous allons utiliser l'URI SAS. Donc, je vais renommer sera un jeu de données parfait. Si vous cliquez deux fois, Ne vous inquiétez pas, il va réformer qui toute la douleur. Mais c'est bon. Si vous êtes allé voir le format que les informations, vous pouvez simplement cliquer ici sur le volet gauche et il retournera. Nous allons donc mettre en évidence ce jeu de données de livre. Ce sera le nom de notre service lié. Ensuite, nous avons le runtime d'intégration va être le même. Ensuite, nous avons la méthode d'authentification. Ça va être Sazzy ton oeil. Maintenant, nous allons copier ces tailleurs. Je retourne à notre service lié et il va coller ici. Vous pouvez voir qu'il est déjà créé. Ensuite, nous pourrons tester notre connexion. Il y a un lien maintenant. Super, test étant testé avec succès. Revenons à notre cahier. Alors. Nous avons fait ce test, la connexion, c'est terminé, afin que nous puissions terminer la création de notre service lié. C' est ce que nous allons sélectionner maintenant, puis le prochain. Maintenant, nous devons sélectionner notre dossier, l'emplacement des données à l'intérieur du service lié que nous venons de créer. Revenons ici pour indiquer le livre pour obtenir le bon emplacement. Vous pouvez voir l'emplacement spécifié est la formation des données de criminalité 2016. Donc, regardons cela puis nous avons de la formation. C' est le prochain lot. Les données sur le crime ne sont pas 16, c'est ce qu'on veut. Nous allons choisir ce dossier. Nous devons sélectionner une copie binaire, puis aller ensuite. Nous devons nous assurer que nous avons sélectionné une copie probablement et aussi binaire. Vous n'avez pas besoin de vous soucier de n'importe quel type commercial le moment car les données sont déjà des cas de Park, donc elles sont compressées par défaut. Et nous pouvons cliquer sur Suivant. Ici. Vous pouvez voir que j'ai fait cette étape est terminée, ce qui est un service. Maintenant, nous devons nous concentrer dans ce pays. Nous devons créer une nouvelle connexion pour notre destination. Utilisons une connexion existante que nous avons déjà, saints, nous en avons déjà créé une auparavant, donc nous n'avons pas besoin de créer ce nouveau compte de stockage. C' est ça qui a sauté cette barge. Revenez à notre création ici. Et nous avons mon premier, allons cliquer dessus. Nous allons AD connecté. Nous n'avons pas besoin d'obtenir la clé ou quoi que ce soit parce que nous sommes déjà connectés à l'aide de l'identité gérée. Donc, nous pouvons obtenir un des dossiers ou un peut taper le nom du dossier que je veux, sorte qu'il est créé en temps réel. Allons à l'ordinateur portable et jeter un oeil à la demande ce nom de la nation. Copions ça. Et voici le chemin du dossier. Basons ça. Et on n'a pas besoin de s'inquiéter de tout ça. Vous pouvez simplement rester avec les options par défaut. Maintenant, nous avons juste à entrer et nous allons rester avec toutes les options par défaut. Voici la page récapitulative, mais tout ce que nous venons de faire, c'est bon. On va aller ensuite. Et puis il va créer ou par avion. Il fera tout pour nous. Appelez que c'est fini. Nous avons donc un pipe-line. Nous ingérons un jeu de données public. Finissons. Cool. Allons au pipeline que nous venons de créer, sélectionnez Pipeline et ensuite nous avons le pipeline de laboratoire. Ici. Vous verrez qu'il a des noms bizarres. Allons ici très vite et voyons si tout va bien. Maintenant, ce que nous pouvons faire, c'est que nous pouvons charger ces données. Nous pouvons faire fonctionner le pipeline pour ingérer le public dans notre lac de données. Cliquez sur le livre et il démarrera le pipeline. Cool, les données ont été transférées. Jetons un coup d'oeil et voyons à quoi ça ressemble. Super. Nous avons des inflammations de Khomeini voler nous lire que les données, la taille des données, le nombre de connexions et tout. Super, ça a l'air bien. Si nous allons à notre jeu de données, nous devrions avoir quand nouveau dossier. Maintenant, j'ai fait Lake. 50. Validation de données dans des Databricks et usine de données: Si nous allons à notre jeu de données, nous devrions être en mesure de valider toutes les données transmises. Nous allons donc mettre en évidence notre tâche de copie. Alors va à notre évier. Nous avons notre ensemble de données. Ouvrons le jeu de données. Et puis à partir d'ici, nous pouvons parcourir quel est le contenu de l'ensemble de données. Donc immédiatement, nous pouvons voir que nous avons dans notre jeu de données les dossiers que nous venons de créer. Et puis ici, nous avons le niveau racine dans le dossier. Ensuite, nous avons toutes les données que nous avons vues à partir de la source lorsque nous nous sommes authentifiés en utilisant des jetons SAS. Donc tous les fichiers sont là. C' est génial. Cliquons. D'accord. Et maintenant que nous avons nos données, fonctionnons malgré cela, McCrea avait sauvé. Super. Toutefois, le pipeline a été enregistré. Revenons maintenant à notre espace de travail et voyons ce que nos ordinateurs portables car nous avons la partie moniteur du pipeline exécutée que nous venons de faire, puis nous nous sommes assurés que les fichiers avaient été transférés vers le stockage Blob. Donc tout va bien. Nous avons le bon nom de dossier. Ensuite, nous pouvons examiner n'a pas deviné les données. Ensuite, nous avons cette partie du cahier. C' est donc là que nous commençons à travailler avec Databricks pour voir ce qui se passe avec nos comptes de stockage, nos données, etc. Ici, nous devons remplir quelques options. Commençons appelé nom, celui que nous utilisons. Donc, ici, à partir de notre jeu de données, nous pouvons nous vérifier. Donc, si vous avez une modification, et puis ici nous avons le nom de notre compte de stockage. Nous allons simplement sélectionner assurez-vous que tout est configuré correctement. Ensuite, nous ne pouvons pas le nom de notre compte de stockage. Maintenant, nous devons obtenir la clé de ce compte de stockage. Ils font donc aussi partie de notre documentation. Donc, si vous le cochez ici, vous ne devriez pas être en mesure de trouver le bon endroit où obtenir le compte de stockage. Allons au portail. Donc tu fais un test. Cherchons notre compte de stockage est la première option ici pour moi. Et nous avons accès à T's. Cliquons sur ça. Ensuite, je vais montrer mes clés et ensuite je vais copier la première option que j'ai. Et puis nous placerions cette valeur ici. Alors nous pouvons sauver ça. Mais avant d'exécuter ce code, je dois créer un cluster, qui est en fait ce qui va s'exécuter. Mon code est la ressource informatique. Il va effectuer l'opération. Pour ce faire, faisons les étapes suivantes. Ici, dans le volet gauche, si vous sélectionnez sur des clusters, nous pouvons voir que nous n'avons pas de clusters en cours d'exécution pour le moment. Nous n'avons pas créé de cluster, oui. Nous devons donc créer un cluster et attacher notre bloc-notes au cluster. Faisons ça. Je vais juste lui donner un nom. J' obtiendrais un seul nœud. Ensuite, je vais obtenir ce cluster que nous avons disponible, qui est pour un cours pour une mémoire tangente. Mais il doit des options. Assurez-vous que tout va bien. Et nous allons cliquer sur Créer un cluster. Grade. Notre grappe est maintenant en service. Pas moyen. Vous allez être un peu d'espace ici parce que ça peut prendre quelques minutes jusqu'à ce que ce soit ennuyeux. Mais aussi il est en cours d'exécution. Vous pouvez commencer à exécuter le code en utilisant notre cluster. Parce que vous voyez ici, nous n'avons pas de livres. Nous avons tous les cahiers attachés à ce cluster. Comme vous pouvez le voir, nous n'avons pas de cahiers sont attachés à trois tirets. Ensuite, si l'on ajoute des bibliothèques et ainsi de suite, vous pouvez aller à d'autres 1000 ici. Revenons donc à notre espace de travail et à l'ingestion de données. Ici, notre cahier. Donc nous devons attacher ceci, comme vous pouvez le voir ici, il est détaché. Si nous cliquons ici, nous pouvons maintenant sélectionner le cluster que nous avons déjà, celui que nous venons de créer. Alors, cliquez ici. Et ceux-ci attacheront notre ordinateur portable à ce cluster. Ensuite, si vous sélectionnez cette cellule, vous pouvez exécuter la cellule et uniquement la cellule. Vous pouvez avoir la possibilité d'exécuter toutes les cellules si vous le souhaitez. Mais à ce stade, nous voulons juste attribuer les variables, les valeurs que nous avons remplacées. Donc, pour nous assurer que nous déplaçons ces artisans ici à la fin et au début. Nous n'avons donc que les valeurs que nous voulons. Alors on peut faire ça. Continuons ici sur le bouton Play, puis lançons cellule. Donc, comme vous pouvez le voir, c'était assez rapidement parce que juste assigné les valeurs aux variables. On va sauter ça. C' est juste si vous voulez voir le contenu du stockage de sang, nous l'avons déjà fait, donc nous allons juste sauter cette partie. Et puis voici où nous allons lire notre fichier percussif, données du crime, New York 716 données Boston dans nos flux de données. Ok, alors mettons-en évidence la cellule et lançons la cellule. Et puis, désolé, je suis dans DataFrame. Donc, nous pouvons exécuter ceci dans notre DataFrame. Ok, ça a l'air bien. Maintenant, nous avons les deux qui offense créé et nous pouvons réellement afficher le bloc de données. Exécutons la cellule et Créer. Nous pouvons voir le contenu du fichier. Ici encore, nous pouvons courir aussi bien pour nous assurer que c'est bien. Gratter. Donc, voici les amis bêta créés un pour l'arche. Et puis vous voulez pour Boston, vous pouvez utiliser des noms différents pour vos amis de données. Et le prochain arrêt est la transformation. Nous allons donc sélectionner l'autre ordinateur portable pour effectuer la transformation de ces données. 51. Comment utiliser ADF pour orchestre une transformation de données à l'aide d'un registre de Databricks: La prochaine étape pour nous ici est de commencer par les transformations de données. Donc, vous pouvez cliquer ici et nous sommes prompts avec le troisième ordinateur portable. C' est un livre descriptif qui nous montre comment nous pouvons réaliser la transformation des données. Donc, la première étape est d'obtenir réellement un jeton d'accès. Et puis, comme une deuxième étape, nous allons créer une activité dans ADF pour se connecter au portable ici déployé sur Databricks. Ensuite, nous regardons ensemble les activités. Nous allons publier le pipe-line et faire fonctionner le pipe-line. Une fois qu'il est exécuté, nous pouvons réellement valider à partir de Data Factory s'il a été réussi ou non. Nous reviendrons ensuite à l'espace de travail direct et vérifierons l'exécution de nos transformations. Revenons donc ici et commençons par créer notre jeton d'accès. Cliquez ici sur les paramètres utilisateur. Ensuite, nous avons généré un nouveau jeton. Cliquons sur ça. Et vous devez donner un nom à ce jeton. Alors gardez juste un jeton noir. Et voici la vie de mon jeton. Vous pouvez passer à n'importe quel nombre que vous voulez. Je vais définir 30 jours et ils génèrent. C' est donc important que vous copiiez ceci en ce moment car c'est le seul moment que vous verrez ce jeton. Alors coupons ça. J' appuie sur Contrôle C et puis je ferme ça pour l'instant. Et je sauverai ma conversation ici. Quels sont mes créateurs d'actions ? Revenons à notre cahier. Et puis vous pouvez voir que nous devons retourner à notre usine de données et créer notre service lié. Revenons à ça, une usine. Il, Prenons ici une activité Databricks, puis nous allons sélectionner OK. Ensuite, à partir d'ici, vous pouvez voir que nous avons quelques options. Nous pouvons sélectionner un service lié, qui sera l'espace de travail sur lequel nous travaillons actuellement dans les paramètres où nous pouvons définir l'emplacement de notre ordinateur portable. Commençons donc par créer un nouveau lien au service. Vous pouvez donner le nom que vous voulez. Je voudrais juste garder US Azure Databricks. Je vais utiliser un Zoom Intégration Runtime. Ici. Vous pouvez récupérer l'espace de travail de l'abonnement. Je vais sélectionner mon abonnement, puis je vais sélectionner mon espace de travail. À ce stade, vous devriez voir où l'espace de travail ici. Nous avons trois options de grappes. Nous avons l'option et sélectionnons un nouveau cluster. Nous pouvons utiliser un existant ou une incidence pour puisque nous avons déjà créé notre cluster, sélectionnons le cluster de répertoire existant. Notre type d'authentification sera le jeton d'accès. Nous utiliserons le jeton que nous venons de créer à partir de l'espace de travail Databricks. Nous allons juste copier ce jeton. Ensuite, nous devrions être en mesure de voir le cluster que nous avons créé. Et c'est juste là. Alors sélectionnons ceci et testons notre connexion. Cliquez sur Créer. Super, il a été créé maintenant. Donc, nous pouvons vérifier ici l'étape par étape, ce que nous venons de faire du service lié. Et puis nous avons les emplacements de nos cahiers. C' est donc l'onglet Paramètres. Nous devons sélectionner vos utilisateurs, et ceux-ci seront votre compte d'utilisateur. Et puis nous devons réellement pointer vers le bloc-notes au lieu de seulement le dossier. Donc, ce que vous pouvez faire ici, nous pouvons retourner vers les espaces. Cliquez sur Comprend. De là, si vous mettez en surbrillance cette option, vous avez tout le répertoire où vous êtes en ce moment. Donc, si vous venez de mettre en surbrillance ceci et le café, vous pouvez obtenir l'URL comme demandé. Revenons à notre accord, puisque nous avons cette information, revenons à ça une usine et collez cette information ici. Nous avons l'emplacement de notre ordinateur portable. Allons aux paramètres de base. À ce stade, nous aurons besoin de 20, quelques paramètres qui seront passés à notre ordinateur portable en argument. C' est donc très important. Il va voir que nous avons cette information ici aussi. Nous allons donc avoir besoin du nom du compte, clé de compte et du nom du conteneur. Nous pouvons obtenir ces informations à partir de mon compte de stockage, des propriétés et du portail. Ensuite, ici, j'ajouterai un paramètre et j'ajouterai deuxième, troisième. Maintenant, notre deuxième paramètre sera la clé de compte. Et il y aura un nom de conteneur. Maintenant, obtenons les valeurs pour ces paramètres. Ici, dans le portail, j'ai cherché le compte de stockage. On veut les clés d'accès. Premier ministre, vous avez deux informations dont nous avons besoin pour montrer les clés, la clé. Ensuite, nous pouvons fondamentalement la clé de compte juste ici. Maintenant, nous pouvons obtenir le nom du compte. On peut coller ton rouge ici. Et puis nous avons besoin du conteneur. Notre conteneur est DWT. Ensuite, collons-le ici. Super. Nous avons toutes les informations dont nous avons besoin. Donc ce qu'on va faire, on va enchaîner ces deux-là ensemble. Nous nous assurons donc que nous avons le bon ordre, ce qui signifie que nous allons importer les données qu'il contient. Nous traiterons ces données. Une fois cela fait, nous pourrons enfin publier notre pipeline. Nous allons donc cliquer sur Publier pour nous assurer que tout est sauvegardé. Notre pipeline est maintenant publié. Maintenant, nous allons exécuter ce pipeline. Cliquez sur trigger maintenant et suivez l'exécution de notre pipeline. Si nous allons surveiller, nous devrions voir une nouvelle IA en cours. Cliquons sur le live par avion, d'accord ? Ou si nos clients ont échoué. Jetons un coup d'oeil et voyons si nous pouvons résoudre ça. Cliquons sur le miroir. Et nous pouvons voir qu'il y a une erreur dans notre chemin. Il doit commencer par une barre oblique. Si nous revenons en arrière et faisons attention à la documentation, nous devrions commencer par les utilisateurs de barre oblique. Et si vous copiez tout de suite depuis le bloc-notes lui-même, vous allez obtenir de l'espace de travail et ne devriez pas être inclus. Retournons à notre pipeline. Et si nous vérifions le pipeline et voyons ce que nous avons, nous voyons que cela est inclus donc nous ne devrions pas inclure l'espace de travail. Supprimons ça. Republions notre pipeline. Super, c'est en cours de publication. Maintenant, nous allons recommencer et voir à quoi ça va ressembler. Passons à la surveillance. Cliquons-lui mal. neigeant dans notre but, nous allons d'abord copier les données, puis exécuter notre cahier. Il a été réussi, et nous pouvons vérifier quelle est la sortie de notre ordinateur portable. Allons ici. Et nous avons un peu d'informations ici sur l'ID de course. Ensuite, nous avons la destination de nos données, les tarifs de service exécutés. C' est plutôt cool. Une autre chose intéressante à remarquer ici est que si vous mettez en évidence le petit verre ici, nous pouvons avoir un peu d'information. Si vous sélectionnez l'activité du bloc-notes, nous pouvons aller à la mauvaise page effacer tas en nous dirigeant vers l'espace de travail, allons cliquer dessus et nous pouvons vérifier l'activité qui a été exécutée à partir du pipeline. Donc, ici, nous pouvons voir combien de temps chacune des cellules a pris pour finir. Donc, vous créez les dataframes. Nous normalisons les trames de données pour chaque ville, les transformations d'audit dans la création d'un seul DataFrame. Et enfin, nous avons exporté les données de preppers vers une table persistante. Et puis d'ici, nous avons déjà une table. Comme vous pouvez le voir, le démarrage est venu comme OK, et les données ont persisté sous forme de table. Revenons à notre documentation. Et on peut voir que nous avons juste très lutter contre l'exécution de notre ordinateur portable en six étapes ici, nous pouvons jeter un oeil aux données à l'aide de ce bloc-notes. Si vous remarquez ici, il n'a pas de livres détachés. Vous pouvez donc vous attacher au cluster avant d'exécuter. Allons ici. Et je vais m'attacher à mon premier cluster, et il est maintenant attaché. Donc ce que je peux faire, je peux avoir les homicides de table, celui que je viens de créer à partir de la transformation. Et on peut faire le pH de cette cellule. Nous avons la sortie de la table. Alors c'est un peu exponentiel. Ce que nous devrions voir, nous pourrions d'abord vérifier plusieurs tables si nous voulons, par exemple, New York ou toute autre table. Revenons ici sur les côtés OEM à nouveau. Dans ce cas, puisque nous gagnons est Park, c'est assez facile pour nous car il peut simplement exécuter le langage de programmation que vous êtes plus familier avec. Donc, dans ce cas ici, nous sommes nés un SQL pour obtenir les mêmes sorties de la vente des deux. Cliquez sur Exécuter la cellule. Créons, nous avons la sortie de nos données. Dans ce cas, nous limitons BI Desktop premier 20 enregistrements. C' est plutôt cool. Ensuite, si vous revenez ici, nous pouvons faire un peu d'agrégation avec ces données. Ce sont les données transformées qui ne sont pas les données brutes. Cliquons ici à nouveau, lancez cette cellule. Nous entrons à nouveau dans un DataFrame. Et nous allons, Affichons ce DataFrame. Allons ici et on vendra. Et qu'est-ce que tu sais ? Nous avons une information visuelle de notre agrégation. C' est la puissance de Databricks et Data Factory ensemble. Une fois que vous avez chargé les données dans Data Factory, vous pouvez créer toutes ces transformations avec Databricks et les intégrer ensemble. Assez facile. Félicitations, nous venons de terminer notre labo dans notre projet. Dans notre prochain module, nous verrons comment nous pouvons déployer en production. Toutes ces choses cool que nous venons de faire en utilisant un pipeline CICD d'Azure DevOps. Merci d'avoir regardé. Je te verrai bientôt. 52. Quiz -: Bien. 53. DevOps - Comment créer une organisation et un projet Azure: Salut les gens, et bienvenue à une autre leçon. Dans cette leçon, nous allons voir comment il peut créer une organisation Azure DevOps et un projet. Nous pouvons donc commencer à créer nos dépôts et pipelines. Ici, sur le portail, vous pouvez rechercher Azure DevOps. Sélectionnez ensuite les organisations Azure DevOps. Et ici, vous pouvez voir mon organisation Azure DevOps. Cliquons sur ça. Vous serez invité avec cette page. Je vais brouiller certaines informations ici. Ensuite, nous allons cliquer sur Créer une nouvelle organisation. Ensuite, vous pouvez donner un nom à votre organisation. Sélectionnez une région proche de votre emplacement physique. Dans mon cas, je vais sélectionner le sel du Royaume-Uni. Très bien, maintenant que vous avez créé votre organisation, il est temps de créer un projet. En termes simples, l'organisation est le niveau parent d'un projet. Et puis, lorsque vous créez des référentiels, des pipelines, ces éléments appartiennent à un projet. Commençons donc à créer nos premiers projets et nommez-le au format PDF. Ce sera privé. C' est OK. Puis cliquez sur Créer un projet. C' est le premier visuel de nos projets. Comme vous pouvez le voir, il vient et T et la plupart de notre tâche se fera à partir du volet gauche ici sur les dépôts et les pipelines. Votre prochaine leçon, nous allons voir comment nous pouvons créer un dépôt qui contiendra tous les fichiers JSON de notre Data Factory, CH et vous voir bientôt. 54. DevOps - Comment créer un repository Git dans Azure DevOps: Très bien, c'est le moment de créer notre premier dépôt pour restaurer le code de notre usine. le volet gauche , cliquez sur les repos. Et puis ici, comme vous pouvez le voir, il est livré avec un dépôt par défaut avec le même nom de notre projet. Dans ce cas, il n'est pas encore initialisé. n'y a pas d'unité, pas de fichiers du tout. C' est pour ça qu'on ne voit rien. Mais créons un nouveau robot web et voyons comment il peut l'initialiser. Cliquez ici sur le menu déroulant et cliquez sur Nouveau référentiel. Et donnons-lui un nom. Donc je vais nous donner son Edf QuickBooks, vous êtes un. Et puis nous allons ajouter un fichier readme pour initier le dépôt. Cliquez sur Créer. Créons notre premier rapport créé. Et puis si nous allons sur les branches de gauche, nous pouvons voir que nous avons nos créateurs de branche par défaut. Retour à l'année dernière. Peut-être que nous aurions une branche maître comme nom par défaut. Microsoft a commencé à modifier ces noms par défaut, domaine au lieu de maître. C' est bon, Travaillons avec moi et voyons comment il peut connecter notre Data Factory à ce dépôt. C' est tout pour l'instant. se voit dans la leçon suivante. 55. DevOps - Comment relier la usine de données à Azure DevOps Repository: Salut les gars, bienvenue à une autre leçon. Dans notre dernière leçon, nous avons pu voir comment cela peut créer une boule web. Maintenant, connectons notre Data Factory à ce référentiel. Pour cela, Revenons sur le portail et revenons à notre usine de données. Maintenant que nous sommes ici sur la page d'accueil de notre Data Factory, vous avez peut-être remarqué que nous avons quelque chose appelé le dépôt de configuration. Ou si vous allez à gérer, nous avons également une bonne configuration. Revenons donc à la page d'accueil et cliquez sur Référentiel de code d'installation. Ensuite, à partir d'ici, nous avons les types de dépôts disponibles depuis que nous avons créé un dépôt Git, allons cliquer sur le risque DevOps Git. Ensuite, nous avons notre répertoire, puis nous avons un compte DevOps. C' est l'organisation que nous avons créée. Ensuite, le nom du projet, qui sera ADF. Ensuite, nous devons soit créer un nouveau référentiel ou cliquer sur existant. Nous mettons littéraire puisque nous avons déjà créé des heures, Utilisons existant, puis sélectionnez Azure AD F Repo un. Et puis nous avons la gamme de collaboration. Maintenant, notre cas ici, nous voulons sélectionner le principal, qui est notre branche par défaut. Et puis nous avons ce qu'on appelle la branche Publier. Ceci est une branche utilisée Data Factory. Nous reviendrons plus en détail à ce sujet dans nos prochaines leçons. Alors c'est notre dossier racine. C' est l'emplacement où Data Factory placera des dossiers, essayez de lire des dossiers. Donc, restons juste avec le niveau racine. Et cela ici est assez important à ce stade. Puisque nous avons fait beaucoup de démonstrations et créé des pipelines, nous avons déjà des éléments dans notre usine de données, et c'est trop bas si ces éléments dans notre ag pour s'opposer à l'arbre, allons nous assurer que cela est sélectionné. Ensuite, c'est l'endroit où nous allons importer les objets existants de notre API, l'usine à la clé. Nous utiliserons la branche de collaboration, qui ARE cas domaine. C' est tout ce qu'il faut. Cliquez sur Appliquer et voyons si nous pouvons lier notre Data Factory au référentiel que nous venons de créer. Ça s'appelle ribose maintenant connecté. Et si nous sélectionnons tout sur le volet gauche, nous pouvons voir que nous avons un nouvel élément ici, qui est la plage de travail. De là, vous pouvez travailler dans différentes marques de fonctionnalités. Vous pouvez créer une nouvelle marque pour vos pairs. Et personne ne chevaucherait le mot et vous éviteriez beaucoup d'erreurs. Je vais cliquer sur Créer un nouveau, et je mets mon nom et enregistrer. Donc, comme vous pouvez le voir, je crée une nouvelle branche à partir du principal, qui contient les éléments que nous importons. Donc, à partir d'ici, je peux travailler avec n'importe quelle tâche que je veux et cela n'affecterait pas la branche principale. C' est tout pour l'instant, nous avons vu comment connecter notre usine de données au fil ondulé. Prochaine leçon, nous verrons comment nous pouvons travailler avec les Français. Restez à l'écoute. A bientôt. Merci d'avoir regardé. 56. DevOps - Comment version Azure Data Factory avec des branches: Salut les gars, bienvenue à une autre leçon. Azure Data Factory peut être considéré comme le service ETL principal pour pousser, interroger et transformer des données dans Azure. L' objectif de cette leçon est d'expliquer comment la version est entre les environnements, par exemple, développement et la production se produisent et comment nous pouvons tirer parti des référentiels que nous avons créés deux versions de notre code. L' image que nous avons ici en bulles représente le cycle de vie des pipelines ETL est déployé dans Azure Data Factory avec un référentiel git. Dans la première étape, nous avons 12 pour le sandbox car c'est le moment où la Data Factory est associée à un dépôt Git. Ensuite, les développeurs, ils peuvent commencer à travailler dans la branche de fonctionnalité. Et puis supposons que John développeur travaille sur une nouvelle fonctionnalité. Il crée ensuite une nouvelle branche. Une fois qu'il est satisfait de toutes les chaînes, de tout ce qu'il a fait. Il crée ensuite une requête d'extraction pour fusionner ce code dans la branche principale. La branche principale, dans notre cas, comme on pouvait le voir auparavant, est la branche principale. La convention de dénomination a changé pour ce code à l' émergé de sa branche dans la branche principale parce qu'il doit être approuvé. Généralement, il existe des stratégies qui empêchent les développeurs de fusionner directement sans approbation. C' est le moment où le code est examiné et si tout va bien, le code est fusionné. Enfin, comme vous pouvez le voir ici, nous avons notre codage, notre branche principale, lorsque nous associons l'usine de données à un dépôt git dans une nouvelle branche, est créé dans les coulisses, mais ce n'est pas encore visible. Comme vous vous en souvenez peut-être de notre dernière leçon, nous avons pu voir que nous n'avions qu'une seule branche, la branche principale. Lorsque nous cliquons sur l'action de publié dans Data Factory, nous allons passer par cela visuellement dans notre usine. Est-ce que le code de la branche principale va à une branche appelée ADF publié. Et puis à ce stade, nous pouvons voir la branche du dépôt. Comme vous pouvez le voir ici. C' est quelque chose qui est déjà dans Artifactory. Certains des éléments, ils sont faits manuellement si vous êtes par le développeur ou à la suite d'une action. Par exemple, vous cliquez sur le bouton Publier une fois que le code est sur l'ADF de cette branche, c'est le code qui est prêt à être envoyé à la production. Du côté Azure DevOps, c' est là que nous créons le pipeline de version pour examiner ce code enveloppé et le patcher pour être publié dans la production. Tous les éléments que nous avons à l'intérieur de Data Factory, par exemple, les pipelines, les services liés, les flux de données. Chaque élément que nous avons est créé en tant que notation JSON. Donc, c'est notre code et c'est ce qui revient à heureux ici d'être déployé. Ensuite, nous avons publié est libéré peut être manuel ou automatique. Cela dépend de la façon dont vous créez que vous publiez Azure DevOps. Et puis voici quand le code est envoyé à une production qu'une usine, c'est parfois, peut sembler très compliquée avec beaucoup d'étapes. Mais en regardant à partir du visuel, il est assez facile de comprendre une fois ou deux fois. Revenons donc à cette usine et voyons comment cela fonctionne visuellement à partir du portail de données et aussi à partir d'Azure DevOps. 57. DevOps - Code d'usine de données à la collaboration: Ok les gars, maintenant je suis ici sur le portail quand il s'agit de déploiements CISD. Le seul environnement que nous associons à un dépôt GET est les environnements audio du fonds de développement. Nous recevrions juste le code que nous publions dans le dépôt Git. Ok, donc maintenant en train de passer à notre usine de données, nous avons l'usine de données sur laquelle nous avons travaillé jusqu'à présent. Nous avons nos pipelines ici et j'ai ma succursale. Donc, c'est ma branche de fonctionnalité. Ok, regardons notre diagramme et voyons comment nous le faisons pas à pas. Dans notre cas, nous avons déjà fait ce type pointant vers parce que nous avons déjà associé des détails et ensuite nous avons nos pipelines créés dans notre branche de fonctionnalité. Maintenant, nous devons créer une requête de traction pour fusionner nos codes à la branche principale. Examinons notre référentiel sur Azure DevOps pour voir si nous avons un code dans lequel j'ai mon Azure DevOps ouvert. Je vais ouvrir les projets que nous avons créés. Ensuite, je vais vérifier ici sur le côté gauche mon dépôt. Ensuite, nous avons créé ce dépôt. Comme vous pouvez le voir, j'ai quelques articles ici. Nous avons créé ce sont les commits que nous avons fait auparavant. Nous avons notre branche principale. Je n'ai pas de branche appelée ADF et décrire publication. Si vous vous souvenez ici, c'est la branche qui est créée automatiquement. Donc, à ce stade, nous avons du code ici dans notre branche principale. Créons une requête de traction pour déplacer ce que nous avons dans notre branche de fonctionnalité de ma branche moyenne vers la branche principale, ok ? De là, vous pouvez cliquer ici dans le menu déroulant et cliquer sur Créer une demande de tirage. Il va me rediriger vers Azure DevOps. Et puis à partir d'ici, je peux créer une requête de traction. Mais comme vous pouvez le voir, puisque nous l'avons déjà fait si initial fusionné ou pas de changement pour moi aussi, pour fusionner dans la branche principale. Et nous allons simplement ajouter quelque chose dans Data Factory juste pour que ce changement soit pris en compte ici. Et nous pouvons voir comment nous créons une demande de traction et émergeons. Bien, revenez à l'usine de données. Nous avons notre pipeline, donc je vais cloner un des pipelines ici. Et nous pouvons passer à autre chose et créer une nouvelle demande de traction. Il suffit de cliquer ici sur l'action de la chapelure et nous pouvons cloner. Nous avons donc un clone de notre pipeline. Le nom est copié à la fin. Nous l'avons maintenant et le changement a été repris. Ce qu'on peut faire, on peut tout sauver. Donc j'économise contre ma branche. Il est grisé ici. Je ne peux rien publier. C' est donc l'une des raisons pour lesquelles nous ne pouvons exécuter mode de débogage que pour un nouveau pipeline parce que mon code n'a pas encore été publié. Maintenant, nous allons créer une requête d'extraction pour fusionner ma copie dans la branche principale. Si je change ma, mes blaguettes deux branche principale, vous pouvez voir que je n'ai pas le pipeline que je viens de cloner parce qu'il n'a pas encore été fusionné. Donc, ma fonctionnalité se branche en avant de ma branche principale. Eh bien, nous allons cliquer à nouveau ici et créer une demande de tirage. Ça va aller me rétracter à nouveau. Et comme vous pouvez le voir, cela m'amène ici à cette page que c'est de l'intégrateur ProQuest, donc je peux ajouter une description ou n'importe quoi qu'un ID, mais généralement il reprend le changement dans ce que j'ai fait. Alors j'irai chercher une création. J' ai ici une nouvelle demande de traction, et ceci est actif. C'est le statut. Si vous cliquez ici à nouveau sur la demande du côté gauche afin que vous puissiez voir que vous avez l'esprit, vous avez des acteurs, vous avez terminé un abandonné. Je vais donc y aller et j'approuverai mes demandes. Habituellement, vous n'avez pas cette autorisation sur notre environnement d'entreprise. Je vais donc aller de l'avant et approuver les demandes. Et supposons que quelqu'un d'autre l'ait fait. C' est mon devoir de venir ici et de terminer. Donc, puis j'irais juste et terminer la fusion. Fusion d'une demande d'extraction. Super, ce n'est pas une fusion. Revenons ici et vérifions si nous avons ceci maintenant dans la branche principale, qui est ici. C' est ainsi que nous créons une demande de traction. La troisième étape de notre, notre flux de travail. Maintenant que nous avons notre code ici, il est temps de polir. Donc, nous pouvons réellement publier ce code à Data Factory. Et si nous voulons exécuter le pipeline avec un déclencheur ou si vous voulez déployer le code dans l'environnement de production est dans cette version des données. C' est le moment, c'est là que vous pouvez le faire. Alors allons de l'avant et cliquez sur Publier. Souviens-toi, tu dois fuir de ta branche principale. Quand intéressant de remarquer avant d'aller de l'avant et de publier un code, est que ma branche, tout a disparu. C' est à cause du type de la fusion qu'ils ont fait pendant mon émerge. Il y avait une case à cocher ici. Et puis l'une des grandes boîtes dit que si vous vouliez supprimer votre entreprise, c'est donc une bonne pratique pour vous de commencer. Toujours propre. Donc vous pouvez voir que je suis sur la branche principale et maintenant ce n'est plus grisé. Je peux aller de l'avant et publier mon code. Il va aller de l'avant et publier le code. Et puis ça va me donner un résumé de ça. Donc, je n'ai qu'un seul changement ici. Et puis je vais aller de l'avant et cliquez sur Publier. Ok, mon éditeur a réussi. Ainsi, comme vous pouvez le voir, il apparaît maintenant en générant des modèles ARM. Donc, c'est le moment qui pourrait ADF et décrire éditeur est créé dans tous mes pipelines dans notre audit Jason que j'ai qui compose mon usine de données est emballé. Ok, maintenant revenir au dépôt, maintenant nous avons fait, actualisons cette page grisâtre. Maintenant, comme vous pouvez le voir, nous avons le vernis F. Donc, avec cela, nous pouvons terminer notre flux de travail ici parce que notre code est prêt à être utilisé. Nous sommes heureux et c'est la version que nous voulons aller en direct. Maintenant, nous allons voir comment nous pouvons créer un pipeline de publication pour publier ce code. Usine de données de production. Restez à l'écoute et à bientôt. Merci d'avoir regardé. 58. DevOps - Comment créer un pipeline CICD pour la usine de données dans Azure DevOps: Salut les gars, bienvenue à une autre leçon. Dans cette leçon, nous allons voir comment nous pouvons utiliser Azure DevOps pour créer publié par les stores que j'ai publiés sur Azure DevOps est le principal outil utilisé par divers services pour déployer ces objets d'usine du développement à la production quasi environnementale environnement et ainsi de suite, ainsi de suite. Passons maintenant à notre compte Azure DevOps. Je suis sur la page d'accueil de mon projet KDF. Donc, pour commencer par créer nos pipelines de libération, Revenons ici dans le volet de gauche. Et comme vous pouvez le voir, nous avons ce qu'on appelle une libération. Cliquons sur ça. Super. Il sera vide parce que nous n'avons encore rien créé. Donc, nous allons cliquer sur mu par vide. Super. Première étape ici, il me montre mon artefact et la scène. Tout est grisé parce que je dois sélectionner quelque chose où je reçois le code et quelles tâches je veux utiliser. Donc, ici, vous avez un certain nombre d'options hors de la boîte pour vous de choisir. Donc, si nous travaillons avec un développement d'applications, il est très probable que vous aurez une option ici pour vous. Nous allons juste aller de l'avant et cliquer ici à l'écart vide tout en haut. Et puis nous le ferons nous-mêmes. Donc je vais fermer celui-là aussi. Nous avons ajouté un artefact, donc ce sera notre branche publiée ADF à partir du dépôt. Cliquons sur ça. Ensuite, ici, vous avez différentes options pour obtenir votre code. Ici pourrait être construit. Ensuite, vous avez le dépôt est si nous sommes rapidement obtenir hub ou inflammations, vous avez également l'option. Dans notre cas, ce serait un dépôt de zoo obtenir, allons sélectionner nos projets seront ADF. Alors ce sera la source. La source est le référentiel. C' est celui que nous avons créé et enregistré notre code. Ensuite, nous avons la branche par défaut. Ce sera l'emplacement final de nos données. Donc, nous avons principal et ADF publié. Dans ce cas, nous sélectionnerons ADF publié. Encore une fois, nous en sommes à ce stade et nous développons et obtenons les données de nos artefacts d'ADF publiées, ok, nous sélectionnons la solution EDF et ensuite nous voulons la dernière version. O est la dernière version de la branche. Et à partir d'ici, si quand je change les zones sources, je m'en tiens généralement à cette option. Il suffit de cliquer sur le bord. Maintenant, super. C' est l'emplacement de notre code. Ce sont les données que nous publierons dans notre environnement. Voici les stapes. Vous pouvez avoir plusieurs étapes en Asie de l'Est en tant qu'environnement. Par exemple, si un je change ce quatre ou la production, vous pouvez donner n'importe quel nom et continuer à ajouter de plus en plus. Une fois que vous en faites une, vous pouvez cloner et nous utilisons la tâche que vous avez créée. Et le cas de Yara, nous allons simplement rester avec le produit parce que nous n'avons qu'une seule usine de données de production créée. C' est maintenant le moment de créer les tâches. Azure DevOps vous fournit un agent gratuitement, ce qui signifie que vous disposez ici d'une ressource de calcul qui traitera votre code. Nous nous en tiendrons avec toutes ces options. Ainsi, comme vous pouvez le voir, nous avons les agents Azure Pipelines, puis nous recevons un conteneur gati exécutant Visual Studio 2017, Windows 2016. Nous pouvons rester avec d'autres options par défaut. Ensuite, nous allons cliquer ici sur le signe plus pour ajouter un nouveau déploiement. Et puis la tâche que nous voulons, ça s'appelle planète inachevée. Cliquez ici deux fois, 1, 2 et Y2. Parce qu'ici, nous voulons valider notre adjacent, nous ne voulons pas tout de suite déployer et obtenir un échec. Une des options ici pour nous est de faire une validation au lieu de déploiements, Commençons à remplir toutes les options que nous avons à faire ici. C' est donc la connexion que nous avons pour créer une connexion, ce qui signifie que nous devons la connecter à notre abonnement. Mais c'est, sera mon abonnement par défaut. Puis je me suis senti lever. La grande introduction en bourse tente de me connecter à mon abonnement Azure DevOps. Ensuite, j'ai ici les abonnements. Ensuite, j'ai l'action créer ou mettre à jour un groupe de ressources, azure. Et nous voulons, nous ne voulons pas supprimer et groupe de ressources. Et maintenant, nous devons choisir les groupes de ressources que nous voulons. C' est la deuxième option. Et nous avons l'emplacement. Encore une fois, cela doit être un endroit proche de vous ou où vous développez votre usine. Ensuite, nous avons le modèle. C' est ce que nous voulions publier. Alors arrivons ici plutôt que de page. Et puis nous avons le dépôt, et ensuite nous avons le nom du dépôt, qui sera la Data Factory. Ensuite, nous avons l'usine de données, je suis terminé. C' est ce que nous voulions. C'est le code que nous allons à la production. Ils ne sont même pas près parce qu'il est déjà récupéré. Ensuite, les paramètres du modèle. Ce sont les paramètres. Maintenant, sélectionnons les paramètres pour l'usine. Une fois que nous avons sélectionné notre fichier de paramètres, il s' agit du mode de déploiement. C' est là que je vous ai déjà parlé. Nous avons terminé une incrémentielle, supprime complètement tout ce qui ne fait pas partie de votre modèle ARM. Ceci est notre modèle ARM et nous avons seulement sur une usine. Il peut supprimer tout le contenu de votre groupe de ressources. C' est donc dangereux d'aller en France pour sélectionner incrémental quand vous vouliez jouer. Puisqu' il s'agit de notre première tâche, nous allons sélectionner uniquement la validation. Donc c'est génial. C' est notre première tâche qui a été accomplie. Alors on peut y aller et lui donner un nom. Dis à ce sujet. Ensuite, ici, nous pouvons sélectionner. Maintenant, nous allons simplement rester avec les mêmes options que nous avons déjà créées. Puisque nous avons déjà autorisé, nous pouvons obtenir des connexions de service. Ensuite, nous sélectionnons notre abonnement. Notre action sera de créer ou de mettre à jour votre groupe de ressources. Ensuite, nous sélectionnons à nouveau le même groupe de ressources que nous avons sélectionné précédemment. Et nous devons choisir l'endroit ici. Ensuite, nous devons sélectionner un modèle à nouveau. Et maintenant, le périmètre. Celles-ci vont être mises en œuvre. Et puis c'est tout. On va sauver ça. Et nous allons exécuter notre code. Voyons comment cela peut être fait. 59. DevOps - Comment exécuter un pipeline de rejetée dans Azure DevOps pour ADF: Super, Maintenant que notre pipeline est prêt, faisons un examen rapide ici. Et les pipelines, nous avons, encore une fois, nos artefacts, qui est notre code. C'est la scène. C' est l'endroit où nous voulons déployer notre code. Alors nous avons ici ce petit signe. Comme vous pouvez le voir, il s'agit de dire si nous voulons utiliser le déclencheur de déploiement continu. Donc, en activant ceci est que nous voulons dire chaque fois qu'il y a une nouvelle impulsion à notre succursale, je veux dire ADF et décrire la branche publique. Cela déclenchera ce pipeline. Cela va exécuter le code. Ok, restons au déploiement continu. Ensuite, ici, si vous cliquez ici, c'est l'emplacement. Si vous souhaitez ajouter des approbateurs pour le tiret. Imaginons donc que vous souhaitiez sélectionner l'approbation préalable au déploiement provient de personnes spécifiques. Vous allez donc basculer cette option dans le nouveau type, le nom des personnes ici. Et puis le code n'est que le déploiement. Déployé s'il est approuvé. Ok, nous allons fermer. On ne veut pas ça. Reste à cet exemple. Maintenant. allons faire fonctionner notre pipeline et voir si nous allons voir nos pipelines entrer en production. Avant de courir, nous avons juste sauvé le pipeline. Alors sauvegardons. Et maintenant, nous pouvons cliquer sur Créer. Allons-y et cliquez ici sur ce lien hypertexte. D' accord, donc s'il s'agit de votre nouvelle organisation Azure DevOps, vous avez peut-être reçu un message d'erreur ici comme vous l'avez fait. Nous allons explorer l'année à moins que vous pouvez regarder et plus grand directement dans la boîte. Si vous cliquez ici, vous pouvez voir que nous n'avons pas d'hôte à alerte précoce Angleterre. Cela signifie que nous n'avons pas de ressources de calcul gratuites et lorsque notre organisation est disponible pour obtenir cela, demande une gratuitement auprès de Microsoft en envoyant un e-mail à cette adresse avec le nom de votre organisation. Votre organisation n'est que le nom du niveau racine de votre DevOps Azure. Donc, vous pouvez juste venir ici pour faire avec copie aplatie que et envoyer l'e-mail à cette adresse. Et vous devriez obtenir des recherches recalculées pour que vous puissiez faire fonctionner vos pipelines. D' accord ? À ce stade, j'ai déjà envoyé un e-mail à Microsoft et j'ai reçu une réponse et Meccans complètement configurés pour que je puisse continuer et exécuter les pipelines dont j'ai besoin. En fait, je n'ai pas de réponse pour Microsoft. Je suis juste revenu ici sur le portail et les jeux de tests pour voir si cela fonctionnait et tout était configuré. Il m'a fallu environ deux jours pour revenir ici et tester. Alors allons de l'avant et cliquez sur ADF. Ok, juste supposé avoir clairement à l'esprit ce que nous essayons d'accomplir. Nous allons déplacer nos pipelines de l'environnement de développement vers l'environnement de production. Vous devez vous rappeler, c'est l'usine de données où nous avons créé le runtime d'intégration auto-hébergé. Il est lié à un et il est vide. Il est important d'utiliser la même usine de données car il existe une autorisation associée à cette usine de données. Et si vous choisissez simplement une autre Data Factory, obtiendrez probablement une erreur car les autorisations ne sont pas configurées correctement. OK, revenons à nos DevOps Azure, et nous allons cliquer sur les pipelines et les versions. Et ici, nous avons toujours le même statut. Cliquez sur Modifier car nous devons toujours nous assurer que nous publions nos pipelines sur la bonne cible. Ici, nous avons la tâche, qui est le déploiement. Et ici, nous validons les modèles ARM et ici, nous utilisons des modèles ARM pour publier ailleurs. Cependant, si nous ne modifions pas les variables fournies avec le JSON, il essaiera simplement de déployer dans la même usine de données car le modèle ARM exporté contient tous les noms de variables de l'environnement de développement. Il est donc important que vous le modifiiez. Cliquons ici sur la plaque de remplacement brun d'abord. Vous pouvez voir que Azure DevOps, nous apporte toutes les variables et les valeurs déjà remplies, ce qui est assez cool. Ici, ce sera la cible de notre déploiement, les nouvelles usines de données. C' est le même nom, mais en ajoutant un nombre à la fin. C' est l'endroit où nous allons déployer nos pipelines. D'accord ? Alors, cliquez sur OK. Et vous pouvez voir qu'il se remplit automatiquement avec tous les paramètres ici. Si vous le souhaitez, vous pouvez simplement tout sélectionner et copier. Et à partir d'ici, puisque nous sommes juste en train de valider et que tout est une réplique l'un entre l'autre. Nous pouvons simplement coller ici, ou vous pouvez simplement cliquer ici sur la chapelure et répéter la tâche. C' est à vous de décider, juste pour gagner du temps. D'accord ? Donc, vous devez juste vous assurer que c'est la validation seulement ici. Ici, vous effectuez un déploiement incrémentiel vers votre groupe de ressources cible. Donc, cliquez sur Enregistrer. Et nous allons lancer notre libération. Cliquez sur Créer. OK, cliquez sur le lien hypertexte ici. Et maintenant, nos versions signifient en file d'attente. Et nous allons cliquer sur Logs pour que nous puissions suivre ce qui se passe ici. Les deux premières étapes sont généralement assez rapides parce que c'est un ordinateur qui tourne derrière. Il est défini certaines variables d'environnement. Ensuite, nous ne perdons pas le code localement au calcul. Alors ça va valider la page Je suis Tim. On touche juste le JSON. On ne déploie rien. Et ici, il déploie le code sur notre cible. Le déploiement a été terminé avec succès et nous pouvons valider l'usine de données. Cliquez ici 0, 2, et vérifions les pipelines. Rafraîchissons. Nous avons nos pipelines ici sur nos environnements cibles. On peut vérifier entre les deux. Rappelez-vous qu'il est 0, 2 était vide. Et maintenant cette année, 0, 1, qui était notre source, pipelines dans les jeux de données correspondent tous. Et nous avons une copie complète de notre environnement de développement afin que nous puissions être assurés que le code a été validé et déployé dans un processus, dans l'environnement de production. C' est bon. J'espère que vous avez apprécié cette démonstration. Merci d'avoir regardé. À la prochaine fois. 60. Quiz -: Bien. 61. Synthèse: Félicitations pour avoir terminé ce cours. Je suis très heureux de voir que tu es arrivé jusqu'à la fin. Il y avait beaucoup de choses à faire, mais tu l'as fait. J' espère que vous avez appris quelque chose qui peut aider à faire une différence dans votre vie professionnelle. Ma recommandation pour les prochaines étapes serait de lire les documents. Il y a beaucoup de bons contenus, en particulier publiés par Microsoft sur GitHub et sur la plateforme Microsoft Learn. Aussi, rappelez-vous, vous ne pouvez réparer ce que vous apprenez en pratiquant. Essaie des trucs, expérimente. De cette façon, vous pouvez améliorer la modification des pipelines ADF. J' espère vraiment que vous avez apprécié ce cours et s'il vous plaît laisser un avis si vous le pouvez. Cela signifie beaucoup pour moi de voir que vous avez aimé ça et j'espère vous voir bientôt dans une autre courbe d'esprit sont les meilleurs. A bientôt. Merci d'avoir regardé.

Formation sur les fondamentaux d'Azure Data Factory

Everton Oliveira

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

Introduction

1:40

2.

Pour commencer

0:43

3.

Comprendre les composants d'usine de données d'Azure

0:41

4.

Ingérer et transformer des données avec Azure Data Factory

0:56

5.

Intégrer une Intégration de données Azure à Databricks

0:55

6.

Intégration continue et livraison continue (CI/CD) pour Azure Data Factory

0:50

7.

Abonnez-vous à votre compte gratuit Azure

3:51

8.

Configuration d'un budget

4:51

9.

Comment configurer Azure Data Factory en utilisant le portail Azure

5:31

10.

Comment configurer Azure Data Factory utilisant PowerShell

4:51

11.

Composants ADF - Services liés

5:48

12.

Composants ADF - Pipelines

2:59

13.

Composants ADF - Datasets

2:47

14.

Composants ADF - Activités

3:58

15.

Composants ADF - Paramètres de pipeline

8:00

16.

Composants ADF - Paramètres d'activité

6:24

17.

4.5.3

2:37

18.

Composants ADF - Déclenches

6:35

19.

Composants ADF - Exécution d'Azure

1:26

20.

Composants ADF - Cours d'intégration Self-Hosted

5:33

21.

Composants ADF - Cours d'intégration Self-Hosted liées

5:33

22.

Composants ADF - Exécution d'intégration Azure-SSIS

2:53

23.

Quiz - Module 3

0:14

24.

Comment intégrer des données à l'aide de l'activité de copie dans Azure Data Lake Gen2

12:58

25.

Comment copier des fichiers Parquet d'AWS S3 dans une base de données SQL

5:16