Transcription
1. Bande-annonce du cours: vous avez probablement lu dans les nouvelles. Un apprentissage profond est la recette secrète derrière de nombreux développements passionnants et a fait de nombreux rêves de nos mondes. Et peut-être aussi les cauchemars se réalisent. Qui aurait pensé que Deep Mines Alphago pourrait battre Lisa Dole dans un jeu de bateau, qui a plus de mouvements possibles qu'il n'y a d'atomes dans l'univers entier ? Beaucoup de gens, y compris moi, ne l'ont jamais vu venir. C' est même impossible, mais c'est là maintenant. L' apprentissage profond est partout. Il bat les médecins pour diagnostiquer le cancer. Il est responsable de la traduction des pages Web et de la quantité de quelques secondes aux
véhicules autonomes . Par William Only Tesla. Bonjour, mon nom est Jason et bienvenue dans cette côte et deep learning où vous apprenez tout ce
dont vous avez besoin pour commencer avec deep learning et python. Comment construire des algorithmes remarquables capables de résoudre des problèmes complexes avait un possible il y a quelques décennies. On parlera de conseil. L' apprentissage profond est une différence entre l'intelligence artificielle et l'apprentissage automatique. Je vais vous présenter de nouveaux livres de cou, ce qu'ils sont et à quel point ils sont essentiels pour souffler en profondeur. Vous allez en apprendre davantage sur la façon dont les modèles d'apprentissage profond s'entraînent et apprennent, ainsi que sur l'étape même de l'apprentissage de l'ID associé
supervisé, non supervisé et renforcé. Nous allons parler des fonctions de perte, optimiser l'algorithme de descente de notation, les différents types de nouvelles architectures de réseau et les étapes mêmes impliquées dans le deep learning. Alors qu'attendez-vous pour le contrôle aujourd'hui et je vous verrai sur la côte.
2. Introduction à l'apprentissage prode: toute la côte est centrée sur la notion d'apprentissage profond. Mais qu'est-ce que c'est ? L' apprentissage profond est un bourdonnement machine sous-ensemble, qui à son tour est un sous-ensemble de l'intelligence artificielle, qui implique seulement des méthodes plus traditionnelles. représentations directement à partir de l'apprentissage automatique de données consistent à enseigner aux ordinateurs à reconnaître des modèles dans les données de la même manière que notre cerveau à faire conduit les humains. Il est facile pour nous de distinguer un chat dans l'obscurité, mais il est beaucoup plus difficile d'apprendre à une machine à le faire. Et on en parlera plus tard dans les Ecossais. Avant de vous en occuper, je veux vous donner une idée des réussites extraordinaires de l'apprentissage profond dans le passé. En 1997 Gary Kasparov, le champion le plus réussi dans l'histoire des échecs perdu orteil IBM est Deep Blue, l'
un des premiers systèmes artificiels informatiques. Il s'agissait de la première défaite d'un champion du monde d'échecs en titre par ordinateur En 2011, Watson d'IBM a participé au jeu Jeopardy contre ses champions, Brad Rutter et Ken Jennings, et a remporté le premier prix un million de dollars en 2015 Alphago, un programme informatique d'apprentissage profond créé par la division Deepmind de Google, vaincu Lisa Door et 18 fois champion du monde et aller un jeu de Google plus complexe et d'échecs. Mais l'apprentissage profond peut faire plus que l'être. Est-ce que les deux jeux. Il trouve des applications n'importe où, des véhicules autoconduits à la détection de fausses nouvelles, même en prédisant les tremblements de terre. Ce sont des moments étonnants, non seulement parce que les machines battent les humains à leurs propres jeux, mais aussi à cause des possibilités infinies qu'il a ouvertes. Ce qui a suivi ces événements a été le sérieux de percées spectaculaires dans les domaines de l'
intelligence artificielle , l'apprentissage
automatique et, oui, l'apprentissage
profond. En termes simples, Deep Learning est une technique d'apprentissage automatique qui apprend, fonctionnalités et tâches directement à partir des données en exécutant des entrées via une architecture de
réseau inspirée biologiquement . Ces livres de réseau neuronal contiennent un certain nombre de couches cachées. Les données riches sont traitées, alliant la machine à approfondir son apprentissage, en établissant des connexions et en pesant les entrées pour obtenir les meilleurs résultats. On passera dans vos cahiers dans la prochaine vidéo. Alors pourquoi l'apprentissage profond ? Le problème avec les algorithmes d'apprentissage automatique de la tradition est que peu importe la complexité qu'ils deviennent, ils sont toujours machine comme ils avaient besoin de beaucoup d'expertise dans le domaine, d'intervention
humaine et ne sont capables que de ce que la conception sert. Par exemple, si je vous montre l'image de son visage, vous reconnaîtrez automatiquement son visage. Mais comment un ordinateur saurait-il ce que c'est ? Eh bien, si nous suivons l'apprentissage automatique traditionnel, nous devrions définir manuellement et minutieusement un ordinateur lorsqu'il est confronté. Par exemple, il a des yeux, des années et du mois. Mais maintenant, comment définissez-vous un œil ou une quantité à un ordinateur ? Eh bien, si vous regardez un oeil, les coins à un certain angle, le définitivement non. 90 degrés le définitivement Non. Zéro degrés que certains querelles entre afin que nous puissions réserver avec cela et former un classificateur à reconnaître ce genre de lignes et certaines orientations. C' est compliqué pour
moi, les pétitionnaires et le reste du monde. C' est là que l'apprentissage profond est un peu prometteur. L' idée clé dans le deep learning est que vous pouvez apprendre ces fonctionnalités juste à partir des données brutes afin que je puisse alimenter un tas d'images de visages à mon algorithme d'apprentissage profond, et il va développer une sorte de représentation hiérarchique des lignes de détective et bords, puis en utilisant ces lignes et bords pour détecter les yeux et une bouche et en le composant ensemble pour finalement le visage détective. Comme il s'est avéré, les algorithmes sous-jacents pour la formation de ces modèles existent depuis assez longtemps. Alors pourquoi a plus profond dans gagner en popularité ? Beaucoup de ponts plus tard ? Eh bien, pour un jour, un est devenu beaucoup plus répandu vivaient à l'ère du Big Data, et ces algorithmes nécessitent une quantité massive de données pour être efficacement mis en œuvre. Deuxièmement, nous avons dans l'architecture du matériel capable de gérer la grande quantité de données et puissance de
calcul que ces algorithmes nécessitent du matériel qui n'était tout simplement pas disponible il y a
quelques décennies. Troisièmement, construire et déployer ces modèles d'algorithmes, comme je l'ai appelé, est extrêmement rationalisé avec la popularité croissante des
logiciels open source comme Tensorflow et Pytorch.
3. Qu'est-ce que les réseaux Neural ?: premiers mortels profonds ont parlé de l'entraînement des choses. Cornu laisse box nouvelle boîte à lettres former la base de l'apprentissage profond, un sous-ensemble de l'apprentissage automatique où les algorithmes sont inspirés par la structure du cerveau
humain, tout comme la nuance, composent le cerveau. Les éléments fondamentaux d'un nouveau Let Buck est aussi un neurone. De nouveaux livres Net ont pris des données entre eux pour reconnaître les tendances dans ces données et prédire les
sorties d'un nouvel ensemble de données similaires dans un nouveau réseau. Les informations se propagent à travers trois composants centraux qui forment la base de chaque nouvelle architecture
réseau, la couche d'entrée, la couche de sortie et plusieurs couches cachées entre les deux. Dans la vidéo suivante, nous allons passer en revue le processus d'apprentissage d'un nouveau réseau.
4. Processus d'apprentissage d'un réseau Neural: le processus d'apprentissage de Anu laisser, mais peut être divisé en deux processus principaux. Propagation vers l'avant et propagation en arrière. La propagation complète est la propagation de l'information. De la couche en entrée à la couche en sortie. Nous pouvons définir notre entrée. Coucher plusieurs neurones, x un au centre de rec. Ces neurones se connectent aux neurones de la couche suivante à travers des canaux, et ce sont des valeurs numériques signées appelées pondérations. Les entrées sont multipliées par les poids, et il y a certains de ses centres entrée dans les neurones dans la couche cachée, où chaque neurone à son tour est associé à une valeur numérique appelée le biais, qui est ensuite ajouté à l'impuissant. Ça a attendu. Certains sont ensuite passés par une fonction non linéaire appelée la fonction d'activation, qui, essentiellement la santé mentale de ce neurone particulier peut contribuer à la couche suivante. Dans la couche de sortie. C' est essentiellement une forme de probabilité. Le neurone avec la valeur la plus élevée détermine ce que la sortie est finalement. Alors passons quelques fois. Le poids d'un neurone nous dit combien il est important que le vôtre. Plus la valeur est élevée, plus elle est importante dans la relation. Le biais est comme le nouveau sur avoir une opinion à la relation elle-même est de déplacer la fonction
d'activation vers la droite ou vers la gauche. Si vous avez eu une certaine expérience des mathématiques de l'école secondaire, sachez que l'ajout de l'échelle de valeur à une fonction déplace un graphique vers la gauche ou vers la droite. Et c'est exactement ce que le biaisé comme il déplace la fonction d'activation vers la droite ou arrière
gauche est presque comme quatre propagation, sauf dans la direction inverse. Les informations ici sont transmises de la couche de sortie aux couches cachées sont l'entrée. Mais quelles informations sont transmises à partir de la couche de sortie ? Notre endroit n'est-il pas censé être la couche finale où nous obtenons la sortie finale ? Eh bien, oui, mais pas de propagation arrière est la raison pour laquelle les nouveaux livres Net sont si puissants. C' est la raison pour laquelle vos réseaux peuvent apprendre par eux-mêmes. Dans la dernière étape avant la propagation, un nouveau réseau crache une prédiction. Cette prédiction pourrait avoir deux possibilités soit bien ou mal et retour propagation. Le nouveau réseau a évalué les performances et vérifie s'il est correct ou incorrect. Si c'est faux, le réseau utilise quelque chose appelé une fonction de perte pour quantifier l'écart par rapport à la sortie
attendue. Et ce sont ces informations qui ont été renvoyées aux couches cachées pour que le poids et les biais
soient ajustés de sorte que le niveau de précision des réseaux augmente. Visualisons le processus d'entraînement avec l'exemple rial. Supposons que nous ayons un ensemble de données, ces données dit, nous
donne le poids du véhicule au nombre de marchandises transportées par le véhicule, et Ultra nous dit si ces véhicules sont la cause de camions. Nous voulons passer par ce bac de données et de nouveaux livres Net pour prédire la cause de nos camions en fonction leur poids et va commencer. Initialisons le nouveau livre Net en lui donnant des poids et des vices aléatoires. Ça peut être tout ce dont nous ne nous soucions pas vraiment. Ces valeurs sont aussi longues qu'il y a dans la première entrée d'un ensemble de données, nous avons le poids du véhicule égal à une valeur qui dans ce cas est 15 et les marchandises comme à. D' après ça, c'est une voiture. Nous commençons maintenant à déplacer ces dimensions d'entrée à travers le nouveau réseau, donc fondamentalement ce que nous voulons faire est de prendre les deux entrées, multiplier par leur poids et de les conseiller, et c'est là que la magie se produit, nous courons. Cela en a attendu certains grâce à une fonction d'activation. Disons maintenant que la sortie de cette fonction d'activation est 0,1 Ceci est encore multiplié par les poids et ajouté aux bys et enfin, dans la couche de sortie. On a une supposition. Maintenant, selon ce nouveau livre Net, le type de légal avec le 15 mai et les marchandises à a une plus grande probabilité d'être un camion. Bien sûr, ce n'est pas vrai. Et un nouveau pronostic net. Donc, nous avons utilisé la propagation en arrière. Nous allons quantifier la différence entre le résultat attendu et la sortie prévue en utilisant presque la fonction dans une mauvaise propagation, non ? Je vais retourner avec un ajusteur. Le poids initial conseille. Rappelez-vous que lors de l'initialisation du nouveau réseau, nous avons choisi complètement aléatoire avec des conseils tout en faisant la propagation arrière. Ces valeurs seront ajustées pour bénéficier à la loi de prédiction. Ok, donc c'était un interational à travers la première partie de l'ensemble de données dans la deuxième entrée, nous avons le poids du véhicule, 30 personnes et marchandises 67. Nous allons utiliser le même processus avant que Mère entrée sanglante avec le poids et les passes
alibis résultent en une fonction d'activation et couche de sortie répétée, vérifier l'air une différence et utiliser la propagation arrière pour ajuster le poids dans. Le biais est que votre nouveau réseau continuera à faire ce processus répété de quatre propagation , en calculant la flèche, puis la propagation arrière. Mais comme il y a beaucoup d'entrées sur cet ensemble
de données, plus vous donnez de données au nouveau livre Net, mieux c'est. Il va prédire la droite sortie. Mais il y a un compromis parce que trop de données et vous finirez avec un problème comme le
sur-ajustement , que je discuterai plus tard sur les étendues. Mais c'est essentiellement comme ça que fonctionne le travail terrestre de Manu. Vous alimenter l'entrée, le réseau initialise. Il était poids aléatoire et vices qui sont ajustés à chaque fois pendant la propagation arrière jusqu'à ce que les réseaux passant par toutes vos données et est maintenant en mesure de faire des prédictions. Cet algorithme d'apprentissage peut être résumé comme suit. abord, nous initialisons l'ambiance du réseau, les valeurs
aléatoires pour les réseaux, les
paramètres ou le chemin des biais. Nous prenons un ensemble de données d'entrée et les passons à travers le réseau. Nous comparons ces prédictions obtenues avec les valeurs des étiquettes attendues et calculons la perte. Utilisation de la fonction de perte. Nous effectuons une propagation en arrière afin de propager cette perte à chaque poids et biais. Nous utilisons cette information propagée pour mettre à jour les poids et les vices du nouveau réseau avec le grand dans l'algorithme de descente de telle sorte que les pertes totales réduites et le
matin de bataille est obtenu. La dernière étape est de continuer à itérer les étapes précédentes jusqu'à ce que nous considérons que nous avons un modèle assez
bon.
5. Fonctions d'activation: dans cette section, nous allons parler. terminologie la plus courante consiste à utiliser le Deep Learning. Aujourd'hui, commençons par la fonction d'activation. La fonction d'activation sert à introduire quelque chose appelé non linéarité dans le réseau et décide également si un neurone particulier peut contribuer à la couche suivante. Mais comment décidez-vous de la nouvelle sur Peut tirer ou activer ? Eh bien, nous avions quelques idées, ce qui a conduit à la création de différentes fonctions d'activation. La première idée que nous avions est que diriez-vous d'activer votre sur si elle est au-dessus d'une certaine valeur ou seuil. S' il est inférieur à ce seuil, ne l'activez pas. Fonction d'activation A est égal orteil activé si sage, grande preuve et seuil sinon ce n'est pas. Il s'agit essentiellement d'une fonction étape. Sa sortie est une ou activée. Lorsque la valeur est supérieure à zéro, sa sortie est activée lorsque la valeur est supérieure à certains seuils et les sorties non activées autrement. Super. Donc, cela fait une fonction d'activation pour une nouvelle sans confusions. La vie est parfaite, sauf qu'il y a quelques inconvénients avec cela. Pour comprendre, il vaut mieux penser à l'avant-propos. Pensez à un cas où vous voulez classer plusieurs telles nuances dans des classes qui classe une classe à la classe trois, etcetera. Que se passe-t-il si plus d'un neurone est activé ? Tous ces neurones produiront un puits. Comment décidez-vous maintenant ? Comment décidez-vous quelle classe de remuement long ? C' est compliqué, non ? Vous voudriez que le livre Net pour activer un seul votre propre et crié, Il devrait être zéro quand. Ensuite, vous serez en mesure de dire qu'il a été classé. Probablement dans la pratique réelle, cependant, il est plus difficile de former convergent de cette façon. Ce serait mieux. L' activation n'était pas binaire. Au lieu de cela, certaine valeur probable, comme 75% activé ou 16% activé. Il y a 75% de chances qu'il appartienne à la classe à etcetera. Ensuite, si plus d'un neurone s'active, vous pourriez trouver quels incendies de neurones basés sur lesquels a la probabilité la plus élevée. Ok, peut-être que tu t'es perdue. Je veux quelque chose pour me donner une valeur plus analogique plutôt que de simplement dire activé ou non activé quelque chose d'autre qu'en binaire. Et peut-être qu'on vous a pensé à une fonction linéaire. Fonction de ligne droite où l'activation est proportionnelle à l'entrée par un appel de valeur. La pente de la ligne de cette façon. Il nous donne une gamme d'activations. Donc il n'est pas acheter Réactivation, affaiblir. Certainement connecter quelques neurones ensemble. Et si plus d'un feu, nous pourrions prendre la valeur maximale et assigné en fonction de cela. Donc, c'est OK pour. Et quel est le problème avec cela ? Eh bien, si vous êtes fermement était grand dans la dissidence, que je vais venir à vous dans un peu, vous remarquerez que la dérivée d'une fonction linéaire est une constante a du sens parce que c'est des bits lents et changer à tout moment pour une fonction. F X est égal orteil MX plus. Vous voyez, le dérivé est M. Cela signifie que le classement n'a aucun rapport avec X. Il y a aussi des moyens que pendant la propagation arrière, les ajustements apportés aux poids et dispositifs en fonction de X du tout, et ce n'est pas une bonne chose. En outre, pensez à si vous avez des couches connectées, quel que soit le nombre de couches dont vous disposez. Si tous sont de nature linéaire, la fonction d'activation de
la couche finale n'est rien d'autre qu'une fonction linéaire de l' entrée du lit d'affiche de la première couche. Et pensez-y. Cela signifie que l'ensemble du nouveau net book de dizaines de couches peut être remplacé par une seule couche. Rappelez-vous, une combinaison de fonctions linéaires de manière linéaire est encore une autre fonction linéaire. Et c'est terrible parce qu'on vient de perdre la capacité de localiser Leah comme ça. Peu importe combien vous re putain, l'ensemble du réseau encore équivalent à un seul là avec une seule activation. Ensuite, nous avons une fonction sigmoïde, et si vous avez déjà regardé une fonction d'inactivation vidéo, c'est le genre d'années de fonction dans les exemples. Une fonction sigmoïde est définie pour dire que si X est égal à 1/1 plus e au négatif X bien, cela semble lisse et un peu comme une fonction étape ce que ses avantages en pensent un
instant . Alors que les premières choses d'abord, il est connu nature linéaire. Les combinaisons de dysfonctionnement sont également non linéaires. Excellent pour affaiblir la pile depuis des années. Qu' en est-il de Norm acheter une nouvelle activations ? Oui, que pour cette fonction le met sur l'activation du journal comme la fonction étape et a également une petite radio. Sur l'avantage de cette fonction d'activation est que contrairement à la fonction linéaire, la sortie de cette fonction va être dans la gamme 01 inclut par rapport à l' infini
négatif à l'infini de cette dernière. Donc, nous avons une activations liées dans la gamme et cela ne fera pas exploser les activations, et c'est génial. Et les fonctions de signal sont l'une des fonctions d'activation les plus utilisées aujourd'hui. Mais la vie n'est pas toujours rose et le signal est d'avoir tendance à avoir les inconvénients de la part. Si vous regardez de près entre X est égal à deux négatifs et X est égal à deux. Les valeurs Y sont très raides. Toute petite modification des valeurs de X dans cette région appellera les valeurs de large à changer radicalement. Également vers la fin de la fonction, les valeurs blanches ont tendance à répondre très moins. Il change le grade suivant dans ces régions. Ça va être vraiment,
vraiment petit, presque nul, et ça donne lieu à la disparition de Grady en problème. On est comme ça. Si l'entrée de la fonction d'activation est grande ou petite, le signal va écraser cela jusqu'à une valeur comprise entre zéro et un,
et le gris ne s'est pas éteint. La dysfonction devient vraiment petite, et vous verrez pourquoi, quand nous parlons beaucoup incent. C' est un énorme problème. Une autre fonction d'activation qui est utilisée. C' est un bronzage. Chaque fonction Cela semble très similaire à la signalisation. En fait, mathématiquement, c'est
ce qu'on appelle une fonction sigmoïde décalée. Ok, donc comme le sigmoïde, il a des caractéristiques que nous avons discutées ci-dessus. Il est connu dans la nature, sorte que nous pouvons commencer les joueurs, il est tenu d'organiser de négatif recherché un. Donc, il n'y a pas de soucis à propos des activations qui explosent. , la dérivée de la fonction tangente Cependant est plus raide que celle du sigmoïde. Donc, décider entre le sigmoïde et le bronzage dépendrait vraiment de votre exigence
du grand intérêt. Comme sigmoid, tanager est également très populaire et largement années fonction d'activation. Et, oui, comme la danse sigmoïde tanager, ont un problème ridien disparaissant. L' unité de Rectification LTD, ou fonction de valeur, nous
est définie. Si X est égal au maximum de zéro impôt investi, cela ressemblerait à une fonction linéaire. Graphique droit est linéaire dans les parties d'accès, Permettez-moi de vous dire, plutôt était en fait, la nature linéaire
connue et les combinaisons de relatifs sont également non linéaires. Super, donc ça veut dire que nous pouvons supporter les joueurs. Cependant, contrairement aux deux fonctions précédentes seront discutées n'est pas limité la portée de la Ray Lewis de zéro à l'infini. Cela signifie qu'il y a une chance de faire sauter l'activation. Un autre point qui voudrait discuter ici est un passage e d'une activation. Imaginez un grand nouveau réseau avec beaucoup de neurones. L' utilisation d'un sigmoïde ou d'un bronzage provoquera presque tous les neurones feu de manière analogique. Cela signifie que presque toutes les activations seront traitées pour décrire la sortie des réseaux. En d'autres termes, l'activation sera des dettes, et cela est coûteux. Idéalement, nous ne voulons que quelques neurones dans le réseau pour activer, et ils sont à propos de rendre le conjoint d'activation et efficace. Voici où le rallye arrive, imaginez, et le réseau a été initialisé aléatoirement attend sur près de 50% du réseau que vous zéro activation . En raison de la caractéristique relative, il produit zéro pour les valeurs négatives de X. Cela signifie que seulement 50% des neurones déclenchent l'activation clairsemée, ce qui rend le réseau plus léger. Mais quand la vie vous donne une pomme, elle vient avec un peu chaud à l'intérieur. En raison de cette ligne horizontale en valeur pour les valeurs négatives de X, le râpé est égal à zéro dans cette région, ce qui signifie une propagation arrière durable. L' attente ne sera pas ajustée pendant la descente. Cela signifie que les nuances qui vont dans cet état cesseront de répondre aux variations l'époque simplement parce que le classement zéro rien ne change. C' est ce qu'on appelle le problème mourant. Ce problème peut causer sept yuans, donc juste mourir et ne pas répondre. Cela rend une partie substantielle du réseau passive plutôt que ce que nous voulons après il y ait des pistes de travail pour celui-ci, en particulier est de simplement faire de la ligne horizontale un composant non horizontal en ajoutant une pente. Habituellement, la pente est autour de 10.1 Sur ce, cette nouvelle version du Ray Lewis appelé Leaky Value. L' idée principale est que le classement ne devrait jamais être 01 avantage majeur de la pertinente est le fait qu'il est moins de calcul, le cher que les fonctions aiment gérer et sigmoid parce qu'il implique symbole, un mathématique opérations. C' est un très bon point à considérer lorsque vous conceviez vos propres
réseaux neuronaux profonds . Super. Alors maintenant, la question est de savoir quelle fonction d'activation utiliser en raison des avantages qu' offre
plutôt ? Cela signifie-t-il que vous devriez utiliser tout ce que vous faites ? Ou pourriez-vous considérer sigmoïde et les dommages ? Eh bien, les deux. Lorsque vous savez que la fonction que vous essayez d'approximer a certaines caractéristiques, vous devez choisir une fonction d'activation, mais qui approchera la fonction plus rapidement, conduisant à des processus d'entraînement plus rapides. Par exemple, une fonction sigmoïde fonctionne bien pour les problèmes de classification binaire, car l'approximation d'un classificateur fonctionne comme des combinaisons de l'enseigne est
plus facile que peut-être le parent. Ce soulagement des processus d'entraînement plus rapides et une plus grande convergence, vous pouvez utiliser vos propres
fonctions personnalisées pour. Si vous ne connaissez pas la nature de la fonction que vous essayez d'apprendre, je vous suggère de rester avec des parents et de travailler à l'envers avant de passer à la section suivante. Je veux parler de la raison pour laquelle nous utilisons des fonctions d'activation linéaires connues par opposition à celles de n'importe qui. Si vous vous souvenez dans ma définition, hors fonctions d'activation, j'ai mentionné que la fonction d'activation servait à faire quelque chose appelé Naledi déjà dans le livre
Net à toutes fins intensives. L' introduction de la non-linéarité signifie simplement que votre fonction d'activation doit être longue linéaire. Ce n'est pas une ligne droite. Les fonctions mathématiquement linéaires, consternées ,
un degré normal , celles qui ont été greffées dans le plan X Y sont des lignes droites inclinées à l'axe X à une certaine valeur. Nous appelons cela la pente de la ligne. Pas de nouvelles fonctions sur les normales de degré supérieur à un, et quand bourré, le faire forme des prêts de rue plutôt que plus de code. Si nous utilisons des fonctions d'activation linéaire pour modéliser une donnée, peu importe
le nombre de couches cachées et de mains réseau, cela deviendra toujours équivalent à une seule journée en réseau et en deep learning. Voulez-vous être en mesure de matin chaque données de temps avec cela étant limité, comme ce serait le cas devrait être utilisé fonctions de prêt.
6. Fonctions de perte: nous avons discuté précédemment dans le processus d'apprentissage des livres New Net que nous avons commencé avec un poids
aléatoire et des biais. Le nouveau et je mets fait une prédiction. Cette prédiction est comparée à la production attendue, et le poids et les vices ajustés en conséquence. Eh bien, fonctions
Lois de la raison pour laquelle nous sommes en mesure de calculer cette différence vraiment simplement perdu la fonction est un moyen de quantifier l'écart de la sortie prévue par le nouveau réseau à la sortie attendue est aussi simple est que rien mote, rien de moins. Il y a beaucoup de fonctions los là-bas. Par exemple, sous régression, nous avons carré jamais perdu, absolu jamais perdu à Cuba, perte et achat d'un reclassement. Nous avons été très proches entropie et perte de charnière et des problèmes de classification de plusieurs classes. Nous avons l'entropie croisée de classe mère sur la perte de diffamation de rappel ou de diversions, et ainsi de suite. Le choix de la meilleure fonction dépend vraiment de quel type de projet de travail sur différents projets étaient des fonctions de perte tout à fait différentes. Maintenant, je ne veux pas parler d'autres fonctions de perte en ce moment. Nous allons le faire dans la section d'optimisation parce que c'est vraiment là que la plupart des fonctions sont utilisées
7. Optimiseurs: dans la section précédente lire F avec des fonctions perdues avec vos façons mathématiques de mesurer comment les mauvaises prévisions faites par un nouveau networker Pendant le processus de formation, nous modifions et modifions les paramètres des poids du modèle pour essayer de minimiser que fonction de perte et les dépendances de maquillage aussi correcte et optimiser que possible. Mais comment faites-vous ça exactement ? Comment changez-vous les paramètres de l'immortel par combien et quand nous avons les ingrédients, Comment pouvons-nous faire le gâteau ? C' est là que les optimisations entrent en jeu. Ils essaient d'obtenir la fonction perdue sur les paramètres moraux ou les conseillers de poids en mettant à jour le réseau en réponse à la sortie de la fonction perdue. Dans les villes plus simples, optimise la forme et le moulage de votre modèle en modèles plus précis en ajustant les poids et les biais. La fonction de perte est son guide. Il indique à l'optimiseur qu'
il se déplace dans la bonne direction ou dans la mauvaise direction. Tu veux mieux envoyer ça ? Imaginez. Vous avez juste du chou frisé Mount Everest ? Et maintenant, vous décidez de descendre la montagne aveugle vers l'avant. Il est impossible de savoir dans quelle direction aller. Vous pourriez soit monter, ce qui est loin d'il y a, soit descendre. Nous ne sommes que des mots. Tu y vas, mais ils commencent. Tu supposerais de prendre des mesures. En utilisant vos pieds, vous serez en mesure de mesurer si vous allez monter ou descendre. Dans cette analogie, vous ressemblez au réseau le plus récent. En descendant. Votre objectif est d'essayer de minimiser l'erreur. Dans vos pieds ressemblent aux fonctions los qu'ils mesurent, si vous allez de la bonne façon ou de la mauvaise façon. De même, il est impossible de savoir ce que vos poids matinaux devraient être dès le début. Mais avec quelques essais et erreurs basés sur la fonction perdue, vous pourriez finir par y arriver éventuellement. Mais nous arrivons maintenant à niveler descente. Souvent appelé grand-père des Optimizers, la descente de
grading est un algorithme itératif qui commence un peu de point aléatoire de la
fonction de perte et a parcouru cette pente par étapes jusqu'à ce qu'il atteigne le point Louis avec un minimum de fonction c'est l'optimisation la plus populaire réutilisée de nos jours. Il est rapide, robuste et flexible, et voici comment cela fonctionne. Mais nous ne pouvons pas mener ce petit changement dans chaque poids individuel. En raison de la fonction de perte, nous avions juste chaque taux individuel basé sur son int gourmand, c'est-à-dire, faire un petit pas dans la direction de déterminer. La dernière étape consiste à répéter la première et la deuxième étape jusqu'à ce que la fonction perdue soit aussi basse que possible. Je veux parler de cette notion de grande tante. L' int Grady d'une fonction est le vecteur des dérivées partielles par rapport à toutes les variables
indépendantes. Le grand dans toujours les points dans le sens de l'augmentation la plus forte de la fonction. Supposons que nous ayons un graphique comme ça, avec la perte sur l'axe Y sur la valeur du poids sur l'axe X, nous avons ici un petit point de données qui correspond à l'attente initialisée aléatoirement pour minimiser un lent. Donc, c'est pour obtenir ce point de données du minimum avec la fonction, nous devons prendre la grille négative. Et puisque nous voulons trouver la diminution et la fonction la plus raide, ce processus se produit. Interprétation létale OSI minimise possible, et c'est génial et descendant. En un mot. Lorsque vous traitez des ensembles de données à haute dimension, cela est beaucoup disponible. Il est possible que vous vous retrouviez dans une zone où il semble que vous avez récemment été valeur
possible pour votre fonction de perte, mais en réalité, c'est juste un minimum local pour éviter de rester coincé dans un minimum local. Nous nous assurons d'utiliser un taux d'apprentissage approprié. Le changement attend trop vite en ajoutant ou en soustrayant trop, c'est-à-dire en prenant des mesures trop grandes ou trop petites peut entraver votre capacité à minimiser la
fonction de perte . Nous ne voulons pas faire un saut si grand que nous ignorons la valeur optimale pour une attente donnée assurer que cela ne se produit pas. Nous utilisons une variable appelée le taux d'apprentissage. Si cette chose est généralement juste un petit nombre comme Point le Receiver un que nous multiplions le vert en achat pour réduire l'échelle, cela garantit que tous les changements que nous faisons tous attendre un assez petit dans le discours mathématique. Prendre des mesures trop volumineuses peut signifier que l'algorithme ne convergera jamais vers un optimum. Dans le même temps, nous ne voulons pas prendre des mesures trop petites, car alors nous pourrions ne jamais nous retrouver avec les bonnes valeurs. Pour tous les taux en mathématiques, étapes de
conversation qui sont trop petites peuvent conduire à optimiser une convergence sur un minimum local pour la fonction de perte, mais jamais le minimum absolu pour un simple résumé. Rappelez-vous simplement que le taux d'apprentissage garantit que nous changeons notre poids au bon rythme, sans faire de changements trop grands ou trop petits. Au lieu de calculer les INT Grady, tous vos exemples de formation sur chaque passage de la tombe en pourcentage il parfois plus de pêche à utiliser seulement un sous-ensemble des exemples de formation à chaque fois. grade sarcastique dans la dissidence est une implémentation qui utilise soit des lots d'exemples à fois sur des exemples aléatoires à chaque passage. Restez le gaz d'accord. À cette fin, des
années de la notion de dynamisme accumulent Grady INT des étapes passées pour
dicter ce qui pourrait se passer dans les prochaines étapes. De plus, parce que nous n'incluons pas l'ensemble de la formation, S g d est moins computationnel, cher. Il est difficile de surestimer à quel point la descente de nivellement est vraiment populaire. Back Propagation est essentiellement la descente de réseau implémentée sur un réseau. Ils sont tous les onglets d'optimisations contreventement, excellent dans la dissidence qui sont utilisés aujourd'hui, et un gain adapte le taux d'apprentissage spécifiquement aux fonctionnalités individuelles, alors signifie qu'une partie du poids dans votre ensemble de données aura un apprentissage différent taux que d'autres. Cela fonctionne très bien pour les jeux de données rares, où beaucoup d'exemples d'entrée sont manquants. Adigrat a un problème majeur, bien que le taux d'apprentissage adaptatif ait tendance à obtenir des heures supplémentaires
vraiment, vraiment faibles. RMS prop est une version spéciale d'Adigrat, développée par le professeur Geoffrey Hinton. Au lieu de laisser tous les grades Ian s'accumuler de l'élan, il accumule les salutations dans une fenêtre fixe. RMS prop est similaire à ajouter un prop, qui est un autre optimiseur qui cherche à résoudre une partie du problème qu'à un Grand laisse ouvert, Adam représente une estimation de moment adaptatif et est une autre façon d'utiliser la créance passée pour calculer le rayonnement de carbone. Adam utilise également le concept de l'élan, qui est fondamentalement notre façon de dire au nouveau bug de gauche si nous voulons que les changements de passe affectent le nouveau changement. En ajoutant des fractions des grands ins précédents à l'actuel, Cet optimiseur est devenu assez répandu, et il est pratiquement accepté pour une utilisation dans la formation de nouveaux réseaux. Il est facile de se perdre dans la complexité de certains de ces nouveaux optimiseurs. Rappelez-vous juste qu'ils ont tous le même but. Minimiser la fonction de perte et d'essai et d'erreur vous y arrivera
8. Paramètres VS Hyperparamètres: vous m'avez peut-être entendu parler un peu des paramètres des mots, et souvent cela est confondu avec les paramètres hyper de tome et cette vidéo. Je vais décrire la différence de base entre les deux. Un paramètre moderne est une variable interne au nouveau réseau et dont les valeurs peuvent être estimées à partir des données elles-mêmes. Ils sont requis par le modèle lors de la réalisation des prédictions. Ces valeurs définissent la compétence hors du modèle sur votre problème. Ils peuvent être estimés directement à partir du cerf et ne sont souvent pas fixés manuellement par le pétitionnaire. Et souvent, lorsque vous sauvegardez votre modèle, vous sauvegardez essentiellement vos mortels. Paramètres. Les paramètres sont essentiels aux algorithmes d'apprentissage automatique, dont le poids et les biais sont des exemples. Ah, paramètre
hyper est une configuration externe au modèle et dont la valeur ne peut pas être estimée à partir des données. n'y a aucun moyen que nous puissions trouver la meilleure valeur pour un hyper paramètres de modèle. Sur un problème donné, nous pouvons utiliser des règles de valeurs de copie de pouce, utiliser un autre problème ou rechercher la meilleure valeur en essayant une erreur. Lorsqu' un algorithme d'apprentissage automatique est réglé pour un problème spécifique, exemple lorsque vous utilisez une grande recherche de recherche aléatoire,
alors vous étiez, en fait, en fait, réglant les paramètres hyper du modèle. Dans l'ordre découvert les paramètres qui ont résulté des prédictions les plus minutieuses. Les paramètres hyper moraux sont souvent appelés paramètres, ce qui peut rendre les choses confuses. Donc, une bonne règle de base pour surmonter cette confusion est la suivante. Si vous devez spécifier un paramètre manuellement, alors ce sont probablement, ah, hyper paramètres. terriers sont au ciel jusqu'au matin même. Quelques exemples de paramètres hyper comprennent le taux d'apprentissage pour la formation, un nouveau réseau, voir dans Sigma, hyper paramètres pour les machines vectorielles sportives à la clé et Can Uriss voisins.
9. Époques, lots et itérations de lots: Nous avons besoin de terminologies comme les époques, mauvaises tailles et les inspirations seulement lorsque les données sont trop volumineuses, ce qui arrive tout le temps dans l'apprentissage automatique et quand nous ne pouvons pas transmettre toutes ces données à l' ordinateur en même temps. Donc, pour surmonter ce problème, nous devons diviser l'ensemble de données en morceaux plus petits, le
donner à un ordinateur un par un sur mettre à jour le poids du nouveau réseau à la fin de chaque étape pour l'intégrer dans les données. Étant donné qu'une époque est quand une donnée entière dit est transmise vers l'avant à travers le réseau. Une fois, dans la majorité des modèles d'apprentissage profond, nous utilisons plus d'une époque. Je sais que cela a du sens au début. Pourquoi avons-nous besoin d'une politique ? Données entières dit plusieurs fois à travers le même dans votre réseau, passant l'ensemble des données à travers le réseau une fois qu'il essaie de lire les
paroles entières d'une chanson. Une fois qu'il ne sera pas en mesure de se souvenir de la chanson entière immédiatement, vous devez relire les paroles quelques fois de plus avant de pouvoir dire, vous connaissez la chanson par mémoire. Il en va de même pour le nouveau réseau. Nous avons passé les données dit plusieurs fois à travers le nouveau réseau, donc sa capacité de généraliser une meilleure descente de nivellement est un processus itératif. Et la mise à jour des paramètres et la propagation arrière en une seule passe ou a gagné un Polk ne suffit pas. Au fur et à mesure que le nombre de papes augmente, plus
les paramètres sont ajustés, conduisant à un mortel plus performant. Mais pour beaucoup, les parcs pourraient provoquer un désastre. En effet, est quelque chose appelé sur l'ajustement, où le modèle a essentiellement des souvenirs de modèles dans les données de formation. Sur la performance terriblement. Il n'a jamais été vu avant. Alors quel est le bon nombre de livres E ? Malheureusement, il n'y a pas de bonne réponse. La réponse est différente pour différents ensembles de données. Parfois, vos données en second lieu incluent des millions d'exemples qui dirigent ces données entières dites à la fois. Cela devient extrêmement difficile. Donc, ce que nous faisons à la place est de diviser l'ensemble de données en un certain nombre de lots plutôt que de suspendre l'ensemble des données dit une fois que le nombre total d'exemples de formation présents dans un seul lot il est appelé une situation de taille de lot est le nombre de lots nécessaires pour remplir un livre e , non le nombre de lots, est égal au nombre de ses orations. Pour un livre électronique, disons que nous avons un ensemble de données de 34$ exemples de formation. Si nous divisons les données dites en deux lots de 500 alors il faudra 60. donné l'inspiration pour compléter un iPAQ.
10. Conclusion aux terminologies: Eh bien, j'espère que cela vous donne une sorte de sens à propos de la terminologie très fondamentale est les années et
l'apprentissage profond avant de passer à l'étape. Je tiens à le mentionner, et vous le verrez beaucoup. Dans le Deep Learning, vous avez souvent un tas de choix différents à faire. Combien de couches cachées dois-je choisir ou quelle fonction d'activation doit utiliser et où. Et pour être honnête, il n'y a pas de lignes directrices claires quant à ce que vous essayez toujours d'être. C' est une partie amusante de l'apprentissage profond. Il est extrêmement difficile de savoir au début quelle est la bonne combinaison à utiliser pour votre projet ? Quelle boîte de moi, mon cahier pour vous et une suggestion de ma fin serait que vous tapisser avec matériaux, montrer dr diverses combinaisons et voir ce qui fonctionne pour votre mieux. En fin de compte, c'est un processus d'apprentissage pour conduire involontairement cette côte. Je vais vous donner un peu d'intuition quant à ce qui est populaire pour que quand il s'agit de
construire un projet d'apprentissage profond, vous ne vous retrouviez pas perdus
11. Regularization: un problème central dans le deep learning est de savoir comment faire un algorithme qui fonctionnera bien. Non, juste dans les données de formation, mais aussi sur les nouvelles entrées. L' un des défis les plus courants que vous rencontrerez lorsque des modèles d'entraînement est un problème d'adaptation une situation où votre matinée fonctionne exceptionnellement bien sur les données d'entraînement. Les données de test de Norden. Tu vois, j'ai un rencard de côté. Greffe dans le plan X Y comme ça Maintenant, je veux construire un modèle qui correspondrait le mieux à l'
ensemble de données . Ce que je pourrais faire est de tracer la ligne d'un insecte aléatoire, lent, été. Maintenant, évidemment, ce n'est pas le meilleur de plus et en fait, cela est appelé sous ajustement parce qu'il ne correspond pas au modèle. Eh bien, en fait, il sous-estime l'ensemble de données. Il a dit. Ce qu'on pourrait faire, c'est tracer une ligne qui ressemble à ça. Que cela correspond vraiment sont en deuil le meilleur. Mais c'est trop approprié. Rappelez-vous, au cours de la formation, nous montrons nos réseaux et nos données de formation, et une fois cela fait, nous nous attendions à être presque parfaits. Le problème avec ce graphique est que, bien qu'il soit probablement la meilleure ligne d'ajustement pour ce graphique, c'est la meilleure ligne d'ajustement. Seul vous vous sentez compte tenu de vos données de trading, n'est-ce pas ? Net Book est en bas dans ce graphique est mémorisé modèles entre les données d'entraînement et ne
donnerait pas de prédictions précises à toutes les données. On ne l'a jamais vu avant. Et cela est logique parce que l'ensemble des modèles de mémorisation généralement pour bien fonctionner à la
fois sur la formation ainsi que de nouvelles données de test. Notre réseau, en fait, a mémorisé les modèles uniquement sur les données de formation. Donc, évidemment, vous voulez bien effectuer sur les nouvelles données n'a jamais vu auparavant. C' est un problème sur le montage. Ça s'est trop bien ajusté. Et en passant, ce serait le type de montage le plus précis. Ce n'est pas parfait, mais un peu bien dans les deux entraînements, ainsi que de nouvelles données de test avec une précision considérable. Il y a plusieurs façons de s'attaquer au surajustement. Le type de régularisation le plus intéressant est l'abandon. Il a produit de très bons résultats et est donc la
technique de régularisation la plus fréquemment utilisée et le domaine de l'apprentissage profond. Pour comprendre, décrochez. Disons que nous avons un nouveau réseau avec deux couches cachées va tomber, mais le fait est qu'à chaque itération, il sélectionne aléatoirement quelques notes et les supprime, ainsi que leurs connexions entrantes et sortantes et montré donc Chaque itération a un ensemble différent de notes, ce qui se traduit par un ensemble différent de sorties. Alors pourquoi ces modèles fonctionnent-ils mieux ? Ces modèles fonctionnent généralement mieux qu'un seul modèle car il capture plus aléatoire et mémorise moins de données d'entraînement et sera donc forcer il généralisé mieux et construire un plus robuste, prédit plus. Parfois, la meilleure façon de généraliser un modèle d'apprentissage profond est de le former sur plus de données. Dans la pratique, la quantité de données dont nous disposons est limitée, et une façon de contourner ce problème est de créer de fausses données et attitudes. L' ensemble de formation pour certaines tâches d'apprentissage profond. Il est assez simple de créer de nouveaux faux cerfs. Cette approche est la plus facile pour la classification. Classé doit prendre une entrée compliquée, haute dimension X et résumer avec l'identité de la catégorie. Pourquoi cela signifie que la tâche principale de son classificateur est d'être dans une grande variété de transformations. Recon générer de nouveaux X y pez facilement simplement en appliquant des transformations sur l'entrée X Y Dans notre ensemble de données de
formation, l'augmentation de l'ensemble de données a été une technique particulièrement efficace pour un problème de classification
spécifique. Les images de reconnaissance d'objets sont de grande dimension et comprennent une vaste gamme de facteurs de variation, dont
beaucoup peuvent facilement être simulées des opérations comme la traduction des images d'entraînement. Quelques pixels dans chaque direction peuvent souvent améliorer considérablement la généralisation de nombreuses autres opérations, telles que la rotation de l'image. mise à l'échelle de l'image s'est également avérée très efficace. Vous devez faire attention à la transformation multiplier qui changerait la classe correcte. Par exemple, reconnaissance
optique des caractères doit reconnaître la différence entre un B et A D et la différence entre
un six et des flips horizontaux ennuyeux et des
invitations à 180 degrés ne sont pas appropriés. Rayons d'organisation des ensembles de données pour ces maisons Lorsque la formation de grands modèles avec une capacité de
représentation suffisante correspondent à la tâche. Nous observons souvent que l'erreur d'entraînement diminue régulièrement avec le temps, mais chaque jeu de validation commence à augmenter à nouveau. Cela signifie que nous pouvons obtenir un modèle avec une meilleure validation, ladite erreur, et donc, espérons-le, de meilleurs tests que la flèche en arrêtant l'entraînement au point où l'air dans l'ensemble de validation commence à augmenter. Cette stratégie est connue sous le nom d'arrêt précoce. C' est probablement l'ancienne régularisation la plus couramment utilisée dans l'apprentissage profond aujourd'hui. Sa popularité est due à sa fois à son efficacité et à sa simplicité.
12. Introduction à l'apprentissage: dans cette section, nous allons parler des différents types d'exécution,
qui sont des concepts d'apprentissage automatique. Mais j'ai étendu à l'apprentissage profond de sa corde cette côte, nous allons passer à l'apprentissage supervisé, l' apprentissage
non supervisé et l'apprentissage du renforcement.
13. Apprentissage supervisé: l' apprentissage supervisé est l'apprentissage machine sous-branche le plus courant aujourd'hui. Typiquement, même utiliser une machine learning, votre parcours commence par des algorithmes d'apprentissage supervisés. Examinons ce qu'ils sont supervisés. Les algorithmes d'apprentissage automatique sont conçus pour apprendre par l'exemple. Le nom d'apprentissage supervisé provient de l'idée d'une formation. Ce type d'algorithme est presque comme s'il y avait un humain qui supervise tout le processus. Dans l'apprentissage supervisé, nous formons des modèles sur des données bien étiquetées. Chaque exemple est un pack insistant souvent objet d'entrée, qui est généralement un vecteur, et une valeur de sortie de conception. Vieux à appeler le signal de supervision faisant de la formation est supervisé. L' algorithme d'apprentissage recherche des modèles dans les données qui sont en corrélation avec les
sorties de conception . Après la formation, il faudra ajouter de nouveaux éléments invisibles et déterminer quelle étiquette les nouveaux intrants seront classés en fonction des données de formation préalable. L' objectif du modèle d'apprentissage
hors supervision est de prédire les données d'entrée correctes qui viennent d'être présentées. À sa forme la plus basique, un algorithme d'apprentissage supervisé peut simplement être écrit comme des vents égaux fx. Pourquoi la sortie prévue qui est déterminée par la fonction de mappage qui attribue une classe a
été valeur d'entrée ? X, la fonction utilisée pour connecter des entités en entrée à une sortie prédite est créée par la machine . Très modèle. Pendant le métier, l'apprentissage
supervisé peut être divisé en faire certaines catégories classification et régression faire la formation. Un algorithme de classification se verra attribuer un point de données dans la catégorie attribuée. Le travail d'une classification argo eux est alors de prendre cette valeur d'entrée et affecté à un coût de catégorie dans lequel il s'intègre. Sur la base des données de formation fournies, l'exemple le plus courant de classification est de déterminer pour un e-mail est le spam ou non avec deux classes de jus de spam ou pas de spam ? Ce problème est appelé un problème de classification binaire. L' algorithme recevra des données de formation avec des courriels qui sont à la fois spam et non spam. Sur le modèle trouvera les entités dans les données que Corleto classe et crée fonction de
mappage. Ensuite, lorsqu'il est fourni avec un e-mail non vu, le modèle utilise vraiment la fonction pour déterminer si l'e-mail a été emballé ou non. Un exemple de problème de classification serait l'ensemble de données de chiffres manuscrits le plus moyen où les images d'entrée de chiffres manuscrits Bixel, vedo et la sortie est une étiquette de classe. Pour quel chiffre ? L' image représente le numéro zéro ce soir. Il existe de nombreux algorithmes pour résoudre les problèmes de classification chacun, qui dépendent des données et de la situation. Voici quelques algorithmes de classification populaires. Beaucoup classent IRS support retour les machines. Les arbres de décision sont venus les voisins les plus proches sur Dragon Forest. La régression est un processus statistique prédictif dans lequel le modèle tente de trouver la relation
importante entre les variables dépendantes et les variables indépendantes. L' objectif d'un algorithme de régression est de prédire un nombre continu tel que les étendues d'un
indice de revenu de vente . L' équation pour fondamentalement dans la régression peut être écrite comme plis Rex. Si je représente les caractéristiques des données et W de I et B sont des paramètres qui sont développés pendant l'entraînement pour simple, alors vous êtes des modèles de régression avec une seule fonctionnalité dans les données. La formule ressemble à ceci. Où W est une pente X est la caractéristique unique, et B est la raison pour laquelle les insectes familiers Pour des problèmes de régression simples comme celui-ci, les prévisions du modèle sont représentées par la ligne de meilleur ajustement pour les modèles utilisant deux caractéristiques, un plan est années, et pour les modèles avec plus de deux fonctionnalités, Ah, problèmes
hyper plan. Imaginez que nous voulions dire à de nombreux étudiants note de test basé sur combien toujours une étude la semaine du test. Disons que les données plus avec la ligne de Best fit ressemble à ceci. Il y a une corrélation positive claire entre sont étudiés, la variable indépendante et la finale des étudiants. La variable dépendante de Tesco ah, ligne de la meilleure forme peut être tracée à travers les points de cerfs pour montrer les prédictions morales quand donne de nouveaux commentaires, disant que nous voulions savoir comment un étudiant ferait avec cinq heures d'étude, nous pouvons utiliser la ligne de meilleur ajustement pour prédire le Tesco en fonction des performances d'autres étudiants. Un autre exemple de problème de régression serait l'ensemble des données sur les prix de la maison de Boston avec l' entrée de variables qui décrivent le quartier et la sortie est un prix de la maison en dollars. Il existe de nombreux types différents d'algorithme de régression trois. plus courantes sont la régression vigna, la
perte de régression et la régression multivariante. L' apprentissage supervisé détecte des applications et des problèmes de classification et de régression comme bioinformatique, comme une empreinte digitale de l'iris et de la reconnaissance faciale et des smartphones, reconnaissance
d'objets, la détection de
spam et la parole reconnaissance.
14. Apprentissage non supervisé: l' apprentissage non supervisé est une branche de l'apprentissage automatique qui est utilisée pour se manifester contrairement aux modèles et aux données et qui est souvent utilisée dans l'analyse exploratoire des données. Contrairement à la réponse d'apprentissage supervisée. Alors que l'apprentissage n'utilise pas les données d'étiquette mais se concentre plutôt sur les caractéristiques des données, données de formation sur les
étiquettes ont une sortie correspondante pour chaque entrée. L' algorithme d'apprentissage,
souvent non supervisé, a pour but d'analyser les données et de trouver des caractéristiques importantes. Dans ces données, l'apprentissage
non supervisé trouve souvent des sous-groupes ou des modèles cachés à l'intérieur. Les données indiquaient qu'un observateur humain pourrait ne pas reprendre, et cela est extrêmement utile dès la construction bientôt. Découvrez que l'apprentissage non supervisé peut être de deux types. Groupement d'une association. regroupement est l'application la plus simple et la plus courante de l'apprentissage non supervisé . C' est un processus de chute des données données données dans différents groupes ou groupes. Les classes conditionneront les points de données aussi semblables que possible les uns aux autres et aussi semblables que possible aux données pointées. Maintenant, le plâtrage des grappes aide à trouver des modèles sous-jacents dans les données qui peuvent ne pas être perceptibles par un observateur humain. Donne-moi un décomposé en pop. Partition supplémentaire de clustering et de clustering hiérarchique. Tous les clusters font référence à un ensemble d'algorithmes de clustering où chaque point de données d'un ensemble de données peut appartenir qu'à un seul cluster. mise en cluster hiérarchique trouve des clusters par système de Rocheuses. Chaque point de données peut appartenir à plusieurs remuements de classe. Certaines classes contiendront des clusters plus petits à l'intérieur. Ce système hiérarchique peut être organisé sous la forme d'un diagramme arborescent. Certains des algorithmes de clustering les plus couramment utilisés sont k signifie maximisation de l'attente. L' analyse hiérarchique des grappes de l'association U. C A, d'autre part, tente de trouver des relations entre différentes entités. L' exemple classique des règles d'association est l'analyse du panier de marché. Cela signifie utiliser une base de données des transactions dans le supermarché pour trouver des articles fréquemment achetés ensemble. Par exemple, une personne et des pommes de terre biaisées dans les hamburgers achètent généralement de la bière. Par exemple, personne a conseillé les tomates et le fromage à pizza pourraient vouloir être du pain à pizza. Donc, sur supervisé, solitaire trouve des applications presque partout. Par exemple, un B et un B, qui aide à accueillir des journées et des expériences et à connecter les gens partout dans le monde. Cette application utilise des algorithmes d'apprentissage non supervisés où la requête du client potentiel est une exigence et A B et B apprend ces modèles et recommande des séjours et des expériences qui relèvent du même groupe de joueur de cluster à la recherche de maisons à San ne
serait peut-être pas intéressé à trouver des maisons à Boston. Amazon utilise également l'apprentissage non supervisé pour apprendre aux clients qu'ils achètent et recommandent des
produits fréquemment regroupés, ce qui est un exemple d'exploration de règles d'association. La détection de la fraude par carte de crédit est un autre algorithme d'apprentissage non supervisé qui apprend les différents modèles d'un utilisateur et l'utilisation de la carte de crédit. Les problèmes de carte dans les parties qui ne correspondent pas au comportement et l'alarme est générée, ce qui pourrait éventuellement être marqué comme fraude. Et dans certains cas, votre banque vous a appelé pour confirmer si vous utilisez la carte ou non.
15. Apprendre de renforcement: renforcement. L' apprentissage est un type de technique d'apprentissage automatique qui permet à un agent d'apprendre dans un environnement
interactif par essai et erreur, en utilisant les retours de ses propres actions et expériences comme l'apprentissage supervisé, en utilisant le mappage entre les entrées et la sortie. Mais contrairement à l'apprentissage supervisé où il se nourrit, celui fourni à l'agent est un ensemble correct d'actions pour effectuer une tâche. Le renforcement de l'apprentissage utilise des récompenses et des punitions comme des signaux pour un
comportement positif et négatif lorsque vous comparez à l'apprentissage non supervisé renforcement apprentissage apprentissage est différent en termes de ses objectifs, tandis que l'or non supervisé l'apprentissage consiste à trouver des similitudes et des différences entre les points de données dans le renforcement. L' apprentissage de l'objectif est de trouver un modèle d'action approprié qui maximiserait la récompense totale accumulée du renforcement de l'agent. L' apprentissage fait référence à des algorithmes orientés vers des objectifs qui apprennent à atteindre un objectif
ou un objectif complexe , ou à maximiser le long d'une dimension particulière sur de nombreuses étapes. Par exemple, ils peuvent maximiser le point d'un dans le jeu sur de nombreux mouvements. Les algorithmes d'apprentissage de renforcement peuvent commencer à partir d'une ardoise vierge et, dans les bonnes conditions, atteindre des performances surhumaines comme un animal de compagnie encouragé par gronder et friandises, ces algorithmes sont pénalisés quand ils font le mauvais décisions et récompensés quand ils prennent les bonnes décisions. C' est un renfort de renfort. L' apprentissage est généralement un modèle comme une marque de processus décisionnel, bien que d'autres cadres comme vous apprenant n'utilisent pas certains termes clés. J' ai décrit les éléments d'un problème d'apprentissage de renforcement hors de l'environnement, qui est le monde physique dans lequel l'agent opère. L' état représente une situation actuelle de l'agent. La récompense est une rétroaction reçue de l'environnement. stratégie est parfois la méthode permettant de mapper l'état de l'agent aux actions des agents. Enfin, la valeur est une récompense future qu'un agent recevra en prenant une action dans un
état particulier . Un problème d'amour de renfort peut être mieux expliqué par des gains. Prenons le jeu de Patman si l'or de l'agent ou Pacman est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l'environnement interactif de l'agent. Packman reçoit une récompense pour avoir mangé de la nourriture et de la punition. S' il est tué par le fantôme, c'est-à-dire qu'il perd le jeu. L' état de l'emplacement au large de Pac Man dans la baguette de la grille et la récompense totale accumulée est Packman remportant la partie. Renforcement des découvertes, applications et de la stratégie d'entreprise de la robotique planification du trafic comme un système Web conduit, configuration et le contrôle des mouvements des avions et des robots.
16. Introduction aux architectures de réseaux Neural: dans cette section, je vais présenter les trois types les plus courants de nouvelles architectures de livre de plomb aujourd'hui pour frais de
reconnexion pour lorsque vos réseaux récurrents vos réseaux et convolution seuls vos réseaux.
17. Réseaux de Neural à l'avance entièrement entièrement connectés: Le premier type de nouvelle architecture réseau dont nous allons discuter est un pied en
avant entièrement connecté . Nouveau réseau. Par entièrement connecté, je veux dire que chaque neurone de la couche précédente est connecté à chaque neurone de la couche
suivante, sans aucune connexion vers l'arrière. n'y a pas de cycles ou de boucles dans les connexions dans le réseau. Comme je l'ai mentionné précédemment, chaque neurone d'un nouveau réseau contient une fonction d'activation qui change la sortie d'un neurone lorsqu'il est donné son entrée. Il existe plusieurs types de fonctions d'activation. Je peux changer cette relation de sortie d'entrée pour en faire une nouvelle. Se comporter dans une variété d'ondes certaines des fonctions d'activation les plus connues du rail d'une
fonction linéaire , qui est une ligne droite qui multiplie essentiellement l'entrée par une valeur constante. Fonction sigmoïde comprise entre 0 et 1. La fonction tangente hyperbolique ou botanique, allant de négatif un positif sur l'unité de penche rectifiée ou la fonction rela, qui est une fonction blanche de pièce qui sortie zéro. Si l'entrée est inférieure à une certaine valeur, tous Alinea multiple si l'entrée est supérieure à une certaine valeur. Chaque type de fonction d'activation a ses avantages et ses inconvénients. Donc, nous les utilisons dans différentes couches dans le nouveau réseau profond basé sur le problème chacun de conçu pour saler. En outre, les dernières fonctions de réactivation que nous appelons fonctions non linéaires parce que la sortie
n'est pas un multiple linéaire de l'entrée savoir Lenny est déjà ce qui permet de nouveaux réseaux de
modéliser des fonctions complexes. En utilisant tout ce que nous avons appris jusqu'à présent, nous pouvons créer une grande variété de pieds entièrement connectés pour lorsque votre lecture Net books crée des réseaux avec différentes entrées. Très récent mis divers calques cachés, nuance pour couche cachée et une variété de fonctions d'activation. Ces nombreuses combinaisons nous permettent de créer une variété de nouveaux réseaux puissants et
profonds qui peuvent résoudre les problèmes du vin. La lune que vous voulez être à chaque couche cachée, la large du livre Net devient. En plus de tondre, couché caché nous et plus le réseau devient profond, cependant, chaque nouveau sur nous ajoutons augmente la complexité, et c'est une ressource de calcul nécessaire pour former. Un nouveau réseau augmente. Cette complexité croissante n'est pas linéaire dans le nombre de neurones commencés, elle conduit
donc à une explosion et une complexité et un temps d'entraînement pour de grands nouveaux réseaux. C' est tout droit. Si vous devez tenir compte du moment où vous construisiez desréseaux
plus récentset plus profonds réseaux
plus récents
18. Réseaux Neural récurrents: tous les nouveaux réseaux. Vraiment, Scott. Jusqu' à présent, j'ai connu comme alimentation pour un de vos réseaux la prise d'entrée de taille fixe et vous donner un correctif. Effort des yeux. C' est tout ce que nous. Et c'est ce que nous attendons des nouveaux réseaux. Pris une entrée et donner un Appert de taille. Mais il s'avère que ces livres simples ou vanillés ne sont pas capables de modéliser tous les problèmes avec la désintox aujourd'hui. Pour mieux comprendre cela, utilisez cette analogie. Supposons que je vous montre l'image d'un bol, d'un bol sphérique rond qui bougeait dans l'espace dans une certaine direction. Je viens de prendre une photo du bol ou un instantané du bol à un moment donné. T Maintenant, je veux que tu prédises la prochaine position du bol et que tu dises deux ou trois secondes. Tu ne vas probablement pas me donner une réponse exacte. Maintenant, regardons un autre exemple. Supposons que je me sois réveillé et que je dise, le canard en bois. Vous ne comprendrez jamais ma déclaration parce que, eh bien, ça n'a pas de sens. Il y a des combinaisons de trilling utilisant uniquement le mot chien et parmi ces trillions de combinaisons que je ne m'attends pas à utiliser. Et maintenant devine ce que j'essaie de vous dire ce que ces deux exemples ont en commun, c'est que cela n'a pas de sens. Ce n'est pas le cas. Dans le premier cas, je m'attends à ce que vous prédisiez la prochaine position dans le temps et dans la seconde je m'attends à comprendre ce que je veux dire par chien. Ces deux exemples ne peuvent être compris et interprétés à moins que des renseignements sur le passé n'aient été fournis. Maintenant, dans le premier exemple, si je vous donne les états de position précédents de la balle et maintenant vous demande de prédire la trajectoire
future de la balle, vous allez pouvoir le faire avec précision. Et dans la deuxième porte, donnez une phrase complète disant que j'ai un docteur. Cela a du sens parce que maintenant vous comprenez que sur les trillions de combinaisons possibles impliquant un chien, mon intention initiale était que vous compreniez que j'ai un canard. Pourquoi vous ai-je donné cet exemple ? Comment cela s'applique-t-il aux nouveaux réseaux ? Dans l'introduction, je l'ai dit, vanille dans vos réseaux peut matin chaque situation unique de problème que nous avons. Et le plus gros problème, il s'avère, est une alimentation pure à la vanille. Lorsque vos réseaux ne peuvent pas modéliser des données séquentielles, les données
séquentielles sont des données dans la séquence. Par exemple, une phrase est une séquence de ce qu'est une boule se déplaçant dans l'espace. Une séquence des états de position d'Ola dans la phrase qui vous avait montré que vous comprenez chaque mot basé sur votre compréhension des parties précédentes. Ceci est appelé membre séquentiel. Vous pouvez comprendre le point de données dans la mémoire bio de séquence du point de données précédent dans cette séquence. Les nouveaux réseaux traditionnels ne peuvent pas le faire, et cela semble être une lacune majeure. L' un des inconvénients des séquences matinales était le fait
qu' elles ne partagent pas les paramètres dans le temps. Prenons, par
exemple, ces deux phrases. Mardi, il pleuvait et il pleuvait mardi. Ces phrases signifient la même chose, bien que les détails soient dans différentes parties de la séquence. En fait, lorsque nous alimentons les phrases dans un flux complet sur votre réseau pour une tâche de prédiction, le modèle attribuera différents poids faire mardi, et il pleut à chaque moment dans le temps. Les choses que nous apprenons sur la séquence ne seront pas transférées si elles apparaissent à différents points de la séquence. Le partage des paramètres donne au livre Net la possibilité de rechercher une entité donnée partout dans la séquence, plutôt que dans une certaine zone. C' est les séquences mobiles. Nous avons besoin d'un cadre d'apprentissage spécifique capable de gérer les variables et les séquences, maintenir l'ordre des séquences et de garder une trace des dépendances à long terme plutôt que de couper trop court dans la
pomme de terre et enfin de partager les paramètres dans la séquence afin de ne pas compter sur les choses. Et c'est là que récupérer de nouveaux Laissez les livres entrer. Orrin Ends sont un type de nouvelle architecture de carnet de lettres qui utilisent quelque chose appelé une
boucle de rétroaction dans la couche cachée. Contrairement au feed forward New Net répertorie la récupération de votre réseau ou dans et peut fonctionner efficacement sur des séquences de données avec une longueur d'entrée variable. C' est ainsi que dans nos nounous UT représenté cette petite boucle ici est appelée la boucle de rétroaction . Parfois, vous pouvez trouver les extrémités RN représentées au fil du temps comme ceci. La première partie représente le réseau lors de la première étape de la note cachée. Chacun utilise l'entrée X un pour produire la sortie. Pourquoi un ? C' est exactement ce que nous avons vu avec la peur de base lorsque vos dollars nets. Cependant, à la deuxième étape, la note cachée à l'heure actuelle. étape H deux utilise à la fois la nouvelle entrée X deux ainsi que l'état de l'étape de temps précédente chacun comme entrée pour faire de nouvelles prédictions. Cela signifie que dans une voiture dans un nouveau réseau, utiliser la connaissance de ses états précédents comme entrée pour sa prévision actuelle. Et nous pouvons répéter ce processus pour un nombre arbitraire d'étapes, permettant au réseau de propager l'information via son état caché. Tout au long du temps. C' est presque comme donner à un nouveau réseau une mémoire à court terme. Ils ont ce concept abstrait de la mémoire séquentielle et de cette façon, capables de modéliser certaines zones de données séquentielles que les nouveaux réseaux autonomes ne sont pas en mesure de modéliser. L' enregistrement de vos réseaux se souvient de leur passé, et leurs décisions sont influencées par ce qu'il a appris du passé. réseaux de transfert de base se souviennent
aussi de choses, aussi de choses, mais ils se souviennent de choses qu'ils ont apprises pendant l'entraînement. Par exemple, une image classer les prêts à quoi ressemble un trois pendant la formation, puis utiliser cette connaissance pour classer les choses en production. Alors comment on s'entraîne à Auburn ? N ? Eh bien, c'est presque la même chose que la formation de base, personnes
entièrement connectées avec le réseau, sauf que la propagation arrière sur les a grandi s'applique à chaque point de données de séquence plutôt que la séquence entière. Cet algorithme est parfois appelé l'algorithme de propagation arrière à travers le temps sera l'
algorithme DT . Pour vraiment comprendre comment cela fonctionne, imaginez où créer un nouveau réseau récurrent pour prédire la prochaine lettre qu'une personne est susceptible de taper en fonction des lettres précédentes qu'elle a déjà tapées. La lettre qu'il a utilisée juste serrée est très importante pour prédire la nouvelle lettre. Cependant, toutes les lettres précédentes sont également très importantes pour cette prédiction aussi. À la première étape de temps, disons, les années de types de lettre F. Donc, quand réseau pourrait prédire que les lettres suivantes et E basé sur tous l'exemple de
formation précédent qui incluait le mot F d à l'étape de temps suivante l'utilisateur tape une lettre sont donc où Network utilise à la fois la nouvelle lettre R plus un état du premier neurone caché. Afin de calculer la prévision suivante. L. Le réseau nous prédit en raison de la fréquence élevée des monnaies dans le bois F e l. Dans notre ensemble de données de formation, ajoutant la lettre a mon poids prédit, en ajoutant une fin prédit la lettre K, qui correspondrait au mot que j'utilise destiné à taper, ce qui est franc. Il y a
cependant cependant un problème avec nos noms connus une mémoire à court terme, souvenirs
plus courts causés par les tristement célèbres disparitions et explosives problèmes de classement comme ils sont dans et processus Mo Woods. Il a du mal à conserver les informations des étapes précédentes. Un peu comme notre mémoire. Si on vous donne une longue séquence de nombres comme pi et que vous essayez de les lire, vous allez probablement oublier les premiers chiffres. Droit ? mémoire à court terme et la disparition du classement est due à la nature de la propagation arrière, l'algorithme utilisé pour former et optimiser de nouveaux réseaux après la propagation vers l'avant sur le passage, le réseau compare cette prédiction à la vérité au sol. En utilisant la fonction des lois, qui sont mis dans une rangée, évaluer une estimation de la façon dont le livre Net fonctionne mal. Le réseau utilise cette valeur pour effectuer une rétropropagation, qui calcule les ingrédients pour chaque note du réseau. Le classement est une valeur utilisée pour ajuster les attentes internes des réseaux, permettant au réseau d'apprendre plus le grand est, plus
les ajustements sont importants et vice versa. Voici où se trouve le problème lors de la reproduction de chaque note dans un ingrédient
calculé de baleine en ce qui concerne les effets des salutations dans la couche avant elle. Donc, si l'ajustement des couches avant qu'il soit petit, alors les ajustements du joueur seront encore plus petits. Et cela provoque la grandeur d'être exponentiellement rétrécir comme une propagation du dos que les personnes âgées n'ont pas réussi à faire de course car les poids internes sont à peine ajustés de service, extrêmement faible éclat, et c'est le grand disparaissant en problème. Voyons comment cela s'applique. Pour récupérer de nouveaux réseaux, vous pouvez penser à chaque étape de temps dans un enregistrement de votre réseau comme une couche pour former l'enregistrement de votre livre Net. Vous utilisez une application de propagation rétroactive appelée propagation. Au fil du temps, les valeurs de grille vont se rétrécir exponentiellement à l'arrière, se propager à chaque fois. Encore une étape. Le classement est utilisé pour effectuer des ajustements dans les nouveaux tarifs du réseau. Ainsi, le long de lui, apprendre les petits grains. Moyenne de petits ajustements sur cette cause de l'ancien plus tôt n'est pas seul. En raison de la disparition des grains, la douzaine de R N N a appris les dépendances à longue distance à travers les étapes temporelles. Cela signifie que dans une séquence, il pleuvait mardi. Il est possible que les mots qu'il met fin aux guerres ne soient pas pris en compte lorsque l'on essaie de prédire l'intention des
utilisateurs. Le réseau doit alors faire le meilleur invité avec mardi, et c'est assez ambigu et serait difficile même pour Human. Donc, ne pas être en mesure d'apprendre toutes les étapes de temps provoque The Net book d'avoir une
mémoire à court terme . Nous pouvons venir à la mémoire à court terme Finneran en utilisant deux variantes de nouveaux
réseaux d'enregistrement . Gated R N N N et ordonnance de mémoire à court terme à long terme, également connu comme jamais. Il semble que ces deux variantes fonctionnent comme nos réseaux, mais elles sont capables d'apprendre les dépendances à long terme en utilisant des mécanismes appelés Gates. Ces portails sont différentes opérations de traction qui apprennent les informations qui peuvent apprendre quelles informations ajouter ou supprimer à l'état caché de la rétroaction. Boucle. La principale différence entre un gated ou nn et un LS iam est à la fermée. Arnett a deux portes pour contrôler sa mémoire et mettre à jour porte et réinitialiser porte, tandis que dans Elysium a trois portes et il met porte une porte de sortie, et si vous obtenez porte ou dans les extrémités, fonctionne bien pour les applications qui impliquent des séquences de données qui changent au fil du temps. Ces applications comprennent le traitement du langage naturel, sentiments, la classification séquences d'
ADN, la reconnaissance
vocale et la traduction linguistique.
19. Réseaux Neural CONvolutionnels: une convolution sur votre dernier livre ou CNN, bref, est un type de nouvelle architecture réseau profonde conçu pour une
classification spécifique de Tallis comme image . CNN ont été inspirés par l'organisation des neurones dans le cortex visuel du cerveau animal . En conséquence, ils fournissent quelques fonctionnalités très intéressantes qui sont utiles pour le traitement de certains types de données comme les images, audio et vidéo. Comme un livre New Net entièrement connecté, un CNN est composé d'une couche d'entrée et d'une couche de sortie et de plusieurs couches cachées entre les deux. CNN dérivent leurs noms du type de couches cachées cohérentes des couches cachées de l' ASEAN et se compose généralement de convolution, une couche tirant les couches entièrement connectées de grayer et les couches de normalisation. Cela signifie qu'au lieu de l'activation traditionnelle, les fonctions utilisaient le flux pour lorsque vos réseaux convolution et pooling fonctions un an place. plus souvent, l'entrée du CNN est généralement un tableau bidimensionnel de neurones, qui correspondent aux pixels d'une image. Par exemple, si vous effectuez une classification d'image, la couche en sortie est généralement une dimension. convolution est une technique qui permet d'extraire une caractéristique visuelle d'un tableau
à deux D en petits morceaux. Chaque neurone d'une couche de convolution est responsable d'un petit groupe de neurones de la manière précédente. Le cadre englobant qui détermine une classe de neurones qu'il s'appelle un filtre. Appelez aussi un colonel. Conceptuellement, vous pouvez le considérer comme un film filtrant et croiser une image en effectuant une
opération mathématique et des lectures individuelles de l'image. Il envoie ensuite ce résultat du correspondant sur lequel vous êtes dans la couche de convolution. Mathématiquement, une convolution de deux fonctions, F N G est défini comme des chutes, qui est en fait le produit point de la fonction d'entrée et la fonction de regroupement
alternance de la fonction du noyau . L' échantillonnage sous-échantillonnage est la prochaine étape d'une convolution sur votre réseau. Son objectif est de réduire davantage le nombre de neurones nécessaires dans les couches ultérieures
du réseau, tout en conservant les informations les plus importantes. Il existe deux types différents de tirage qui peuvent être effectués Max tirant et tirant. Comme son nom l'indique. mise en commun maximale est basée sur la récupération de la valeur maximale de la région sélectionnée, et les hommes tirant sont basés sur la récupération de la valeur minimale de cette région. Lorsque nous mettons toutes ces techniques ensemble, nous obtenons une architecture pour un réseau Deep Newell, assez différente d'un nouveau réseau entièrement connecté pour la classification des images où CNN et utilisé lourdement. Nous avons d'abord pris l'image d'importation, qui est une matrice bidimensionnelle de pixels, généralement avec trois canaux de couleur rouge, vert et bleu. Ensuite, réutilisez une couche de convolution avec plusieurs filtres pour créer une matrice d'entités bidimensionnelle comme sortie pour chaque filtre. Nous tirons ensuite les résultats pour produire vers le bas la matrice d'entités de l'échantillon pour chaque filtre de la couche de
convolution. Ensuite, nous répétons généralement les étapes de convolution et de traction plusieurs fois, en utilisant les fonctions précédentes comme entrée. Ensuite, nous avons eu quelques calques cachés entièrement connectés pour aider à classer l'image. Et enfin, nous produisons une prédiction de classification dans la convolution du lecteur de sortie seule. Nouveaux réseaux que j'ai fortement utilisé dans le domaine de la vision par ordinateur et fonctionnent bien pour une variété de tâches, y compris la reconnaissance d'image, traitement
d'
image, la segmentation d'image, l'analyse
vidéo et naturel traitement de la langue.
20. Les 5 étapes pour créer un modèle de Deep Appren: dans cette section, je vais discuter des cinq étapes qui sont courantes dans chaque projet d'apprentissage profond que vous avez construit. Ceux-ci peuvent être étendus pour inclure d'autres aspects très vus, mais et il fait très froid là, très fondamentalement cinq étapes.
21. Rassembler des données et des ensembles de données: les données sont au cœur de ce qu'est l'apprentissage profond. Votre modèle sera seulement aussi puissant que les données que vous apportez. Ce qui m'amène à la première étape de la collecte de vos données. Le choix des données et la quantité de données dont vous auriez besoin dans minuscule dépend du problème que vous essayez de résoudre. Choisir les bonnes données est essentiel, et je ne peux pas insister sur l'importance des données de bande de ce parti. Un mauvais mobile. Une bonne règle consiste à formuler des hypothèses sur les données dont vous avez besoin et à prendre soin d'enregistrer ces hypothèses afin que vous puissiez les tester plus tard si nécessaire. Les données sont disponibles dans une variété de tailles. Par exemple, ensemble de données
Iris défectueux contient environ 150 images dans l'ensemble total. Gmail Smart Reply a environ 238 millions d'exemples dans l'ensemble de formation, et Google Translate aurait des billions de points de données. Lorsque vous choisissez un ensemble de données, il n'y a pas de taille unique. Mais la règle générale de venir est que la quantité de données dont vous avez besoin pendant un
modèle tout en exécutant devrait être 10 fois le nombre de paramètres que plus. Cependant, cela peut différer de temps en temps, en fonction du type de matinée que vous construisez, par
exemple, et de l'analyse de régression, vous devez utiliser environ 10 exemples par variable de prédicteur pour l'image classification. Le minimum que vous devriez avoir est d'environ 1000 images, mais la classe que vous essayez de
bien classer , la
quantité de données compte. La qualité compte aussi. Il n'est pas utile d'avoir beaucoup de données. S' il s'agit de mauvaises données, il y a certains aspects de la qualité qui tendent à correspondre à des matins performants. Un aspect est la fiabilité. Fiabilité inversée. Est-ce que le degré dans lequel vous pouvez faire confiance à votre train de modèle de données sur un ensemble de données fiable est plus susceptible de produire des prédictions utiles que le train de modèle et les données non fiables. Quelle est la fréquence des erreurs étiquetées ? Si vos données sont étiquetées par des humains, il peut
parfois y en avoir. Les erreurs sont vos caractéristiques. Bruyant est un tout à fait précis quelques bruits. Vieux droit, tu ne pourras jamais le purger. Données sur tout le bruit. Il y a beaucoup d'autres facteurs qui déterminent l'égalité. Dans le but de cette vidéo, cependant, je sais que je vais parler du reste, bien que si vous êtes intéressé, je les laisse dans les notes de spectacle ci-dessous Lucky Ferraris. Ils sont levés. 20 de nos sources sur le Web qui offrent de bons ensembles de données gratuitement. Vous êtes quelques sites où vous pouvez commencer votre rendez-vous. C' est comme ça ? Vous voyez, je machine Learning Repository maintient environ 500 jeux extrêmement réels et de données que vous pouvez utiliser dans vos projets Deep Learning. Le bétail est un autre que tu aimes. Quelle est la précision des données mises en place pour donner des fonctionnalités
informées, des types de données, le
nombre d'enregistrements et ainsi vous pouvez utiliser un colonel deux. Et vous n'aurez pas à télécharger les données. Définissez les dates de Google. Cette recherche est toujours en version bêta, mais est l'un des sens les plus étonnants si vous confiné aujourd'hui, prêt à est un excellent endroit pour demander les données que vous voulez. Mais encore une fois, il y a une chance qu'elle ne soit pas bien organisée. Créez votre propre ensemble de données qui va marcher vers vous pouvez utiliser des grattoirs Web comme belle soupe pour obtenir vos données requises. Avec l'ensemble de données
22. Les données pré-traitement: fois que vous avez sélectionné votre date, vous devez maintenant réfléchir à la façon dont vous allez utiliser ces données. Il y a quelques étapes de pré-traitement courantes que vous devriez tromper d'abord, divisant l'ensemble de données en sous-ensemble en général, nous divisons généralement un ensemble de données en trois parties formation, test et validation ensembles, motifs de
recyclage avec les formations évaluées sur l'ensemble de validation. Et enfin, une fois prêt à l'emploi, testé une dernière fois sur l'ensemble de données de test. Maintenant, il est raisonnable de poser la question suivante. Pourquoi ne pas avoir deux cents de formation et de test De cette façon, le processus sera beaucoup plus simple. Il suffit de former le moment sur les données d'entraînement et testé sur les données de test. La réponse à cela est de développer un modèle implique d'ajuster sa configuration en d'autres termes, choisir certaines valeurs pour les hyper paramètres ou les conseils de poids. Ce réglage se fait avec les retours reçus de la validation définie sur est essentiellement de forme d'apprentissage. Assistez qu'on ne peut pas diviser les Davis au hasard, et vous obtiendrez des résultats aléatoires. Il doit y avoir une sorte de logique pour diviser l'ensemble de données essentiellement ce que vous voulez, c'est pour les trois ensembles les tests de formation sur les validations qui sont très semblables les uns aux autres et pour éliminer le biais autant que possible. Ces deux choses dépendantes. abord, le nombre total d'échantillons dans vos données et le second ou le plus réel que vous essayez former des modèles avec très peu de paramètres hyper seront très faciles à valider en accord, sorte que vous pouvez probablement réduire la taille de votre jeu de validation. Mais si vous êtes mortel n'a pas beaucoup de paramètres hyper, vous voudriez avoir un grand ensemble de validation ainsi que la validation croisée considérée. En outre, si vous avez un modèle sans paramètres hyper, ceux qui ne peuvent pas être facilement réglés, vous n'avez probablement pas besoin d'un ensemble de validation ni, comme beaucoup d'autres choses dans l'apprentissage automatique et en profondeur l'apprentissage. Le test de rêve du ratio de propagation de validation est également assez spécifique à votre cas d'utilisation, et il devient plus facile de faire du jugement lorsque vous entraînez et construisez de plus en plus de modèles. Voici donc une note rapide sur la validation croisée. Habituellement, vous ne divisez pas votre ensemble de données en train et en test. Après cela, vous gardez de côté l'ensemble de test et choisissez aléatoirement un pourcentage de l'ensemble d'entraînement pour être le train réel défini sur le reste pour être l'ensemble de validation. Le modèle est, puis il s'entraîne relativement et validé sur ces différents ensembles. Il existe plusieurs façons de le faire,
et cela est communément connu sous le nom de validation croisée. Fondamentalement, vous utilisez votre jeu d'entraînement pour générer plusieurs divisions du train et de l'ensemble de validation. La validation croisée évite le surajustement et devient de plus en plus populaire avec la
validation croisée K fold étant la méthode la plus populaire. En outre, si vous travaillez sur des données de séries chronologiques, ah, technique
fréquente consiste à diviser les données par le temps. Par exemple, si vous avez une date est en avance avec 40 jours de données, vous pouvez former vos données à partir de jours voulu 39 évaluer votre modèle sur les données du jour 40. Pour des systèmes comme celui-ci, le train cher est plus vieux que les données de service, donc cette technique et montre votre validation, ledit miroir un lank entre la formation et le service. Cependant, gardez à l'esprit que les scissions basées sur le temps fonctionnent mieux révèlent. Des ensembles de données très volumineux comme le fait avec des dizaines de millions d'exemples. La deuxième méthode que nous avons dans le pré-traitement. C' est le formatage, disent
les données. Vous avez choisi pourrait ne pas être dans le bon format que vous aimez. Par exemple, les données peuvent être sous la forme d'une base de données, mais vous l'aimez comme un vaisseau de souris de fichier CS. Bien sûr, il y a quelques façons de le faire, et vous pouvez les Google si vous le souhaitez. Traiter les données manquantes est l'une des étapes les plus difficiles dans la collecte de données pour vos projets de Deep Learning. À moins que vous soyez extrêmement chanceux d'atterrir avec l'ensemble de données parfait, qui est assez rouge, traiter avec cher manquant prendrait probablement une partie importante de votre temps. C' est tout à fait Coleman et des problèmes du monde réel de manquer certaines valeurs de nos échantillons de données. Cela peut être dû à des erreurs dans la collecte des données, espaces
vides dans les enquêtes, à
des
mesures sans objet, etc. Valeurs manquantes a généralement représenté avec les indicateurs n'importe quelle fin ou aucun. Le problème avec cela est que la plupart des algorithmes peuvent gérer ce genre de valeurs manquantes, donc nous devons prendre soin d'eux avant de fournir des données à nos modèles. Il y a deux façons d'y faire face. La première consiste à éliminer les échantillons des entités avec des valeurs manquantes. L' inconvénient, bien
sûr, que vous risquez de supprimer les informations pertinentes. La deuxième étape consiste à imputer les valeurs manquantes une façon commune de définir les valeurs manquantes comme valeur moyenne pour le reste des échantillons. Mais bien sûr, il existe d'autres façons de traiter des données spécifiques. Set. Sois intelligent. Est la gestion des données manquantes de la mauvaise manière dans les catastrophes orthographiques,
Parfois, vous pouvez avoir trop de données que ce que vous avez besoin, données
mo peuvent entraîner des exigences de calcul et de mémoire plus grandes. Dans des cas comme
celui-ci, ce sont les meilleures pratiques. Vous étiez un petit échantillon de l'ensemble de données. Il serait plus rapide et finalement une augmentation du temps pour vous d'explorer et de prototypes illusions. Dans la plupart des ensembles de données du monde réel, vous allez rencontrer des données de déséquilibre. Ce sont des données de classification. C' est des proportions de classe mignonnes conduisant aux droits d'une classe minoritaire dans une classe majoritaire . Si nous formons un modèle sur des données comme celle-ci, ah, modèle ne passera que du temps à apprendre sur la classe majoritaire et beaucoup moins de temps sur la classe
minoritaire et le montant des mains sera finalement biaisé à la classe majoritaire et donc dans dans des cas comme celui-ci, nous utilisons habituellement un processus appelé échantillonnage vers le bas et l'attente,
qui consiste essentiellement à réduire le coût majoritaire d'un certain facteur et à ajouter des exemples de poids de ce facteur à la toile de l'échantillon vers le bas. Par exemple, chaque échantillon réduit les coûts majoritaires par un facteur de 10. Ensuite, l'exemple. Attends, nous ajoutons à ce tissu devrait être 10. Ça peut sembler. Ou, pour ajouter l'exemple, poids après le bas quelque chose. Quel est son but ? Eh bien, il y a quelques raisons, au
moins une convergence plus rapide. Pendant la formation, nous voyons la minorité classe plus souvent, ce qui l'aide tous. Vous convergez plus vite mais en consolidant la classe majoritaire dans quelques exemples avec des
poids plus grands , nous dépensons moins cet espace, les
stocker sont en attente et frissons. Le multi est toujours étalonnage. Nous additionnons l'attente après trébuchement afin de garder l'ensemble de données dans une proportion similaire. Ces processus aident essentiellement une matinée semble sur les coûts minoritaires plutôt que
seulement la classe majoritaire. Cela a une matinée mieux réalisée dans des situations réelles. Caractéristique. mise à l'échelle est une étape cruciale dans le visage de pré-traitement pour la majorité des
algorithmes de deep learning avant beaucoup mieux lorsqu'il s'agit de fonctionnalités qui sont à la même échelle. Les techniques les plus courantes sont la normalisation, qui inverse la mise à l'échelle re ou les caractéristiques à organiser entre zéro et un, ce qui est en fait un cas particulier de Min Max Scaring. Pour normaliser ces données, nous devons appliquer la mise à l'échelle Min Max à chaque colonne d'entités. La normalisation consiste à centrer le champ et la moyenne zéro avec
un écart type, de sorte que les colonnes d'entités aient les mêmes paramètres qu'une loi normale standard qui est la moyenne zéro et la variance unitaire. Cela rend beaucoup plus facile pour les algorithmes d'apprentissage d'apprendre le poids des paramètres . En outre, il garde des informations jeunes sur nos pinces sur rend les algorithmes moins sensibles à eux.
23. Formation de votre modèle: une fois que je l'ai fait est en cours de préparation Nous alimentons maintenant cela en un seul réseau pour le commerce. Nous avons discuté du processus d'apprentissage d'un nouveau réseau dans le module précédent, donc si vous n'êtes pas sûr, je vous conseille de laver ce travail d'abord. Mais essentiellement, une
fois qu'une date a été alimenté, quatre propagation se produit sur les pertes par rapport à la fonction perdue sur les paramètres sont ajustés en fonction de cette perte et couper à nouveau, rien de trop différent de serait discuté précédemment.
24. Évaluer votre modèle: votre modèle a formé avec succès Félicitations. Maintenant, nous devons tester à quel point notre mortel utilise les validations au Reitz. Je décide. Ici, le processus d'évaluation nous permet de tester un motile par rapport à des données qu'il n'avait jamais vues auparavant. Et cela est censé être représentatif de la qualité du modèle dans le
monde réel .
25. Optimiser la précision de votre modèle: après le processus d'évaluation, il y a de fortes chances que votre matinée soit optimisée davantage. Rappelez-vous, nous avons commencé avec des poids de course et des vices, et ceux-ci trouveront Tune faisant la propagation de retour. Eh bien, dans un bon nombre de cas, mauvaise propagation ne réussirait pas la première fois. Et c'est bon. Il y a plusieurs façons d'optimiser votre matinée. D' autres paramètres hypertrophiés sont un bon moyen d'optimiser les performances d'un modèle. Une façon de le faire est de montrer au mortel tout le plus tard a dit plusieurs fois. Autrement dit, en augmentant le nombre d'époques. Ceci est parfois démontré pour améliorer la précision d'autres façons. En ajustant la table à manger, nous avons parlé du taux d'apprentissage dans le module précédent, donc si vous ne savez pas ce que font les générateurs, invitez à consulter le module précédent. Mais essentiellement, l'apprentissage redéfinit jusqu'où nous déplaçons la ligne au cours de votre pas. Basées sur les informations de l'étape précédente de l'entraînement dans la propagation du dos, ces valeurs jouent un rôle dans la façon dont l'immortel peut devenir précis et la durée de l' entraînement pour les modèles complexes. Les conditions initiales peuvent jouer un rôle important dans la détermination du résultat de la formation, il
y a beaucoup de considérations à cette étape de la formation, et il est important que vous définissiez un fait moderne assez bon. Sinon, vous pourriez vous trouver à tweeter des paramètres pendant une longue, longue période. L' ajustement de ces hyper paramètres reste un peu d'un pas et se déplace
processus expérimental qui dépend fortement des spécificités de l'ensemble de données, Morgan et processus de formation. Vous développerez cela au fur et à mesure que vous allez de plus en plus dans l'apprentissage profond, alors ne vous inquiétez pas trop à ce sujet maintenant. L' un des problèmes les plus courants que vous rencontrez est lorsque vous êtes des performances mortelles bien sur les données d'
entraînement, mais que les performances terribles vos données qu'il n'a jamais vu auparavant. C' est un problème ou un ajustement. Cela se produit lorsque le modèle apprend un chemin spécifique à l'ensemble de données de formation qui est pertinent pour d'autres données invisibles. Il y a deux façons d'éviter ce surajustement. Obtenir plus de données et régularisation. Obtenir des données de déplacement est généralement la meilleure édition. Un modèle de données de mode d'entraînement généralisera naturellement mieux. Réduire les côtés mortels en réduisant le nombre de paramètres de volonté d'apprentissage dans le modèle sur avec
elle, sa capacité d'apprentissage est une autre façon, cependant, en abaissant la capacité du réseau que vous l'avez forcé à apprendre modèle qui importe, ou ensuite minimiser la perte. D' un autre côté, réduction trop importante de la capacité du réseau conduira à une sous-installation. Le matin ne sera pas en mesure d'apprendre les modèles pertinents dans les données du train. Malheureusement, il n'y a pas de formules magiques pour déterminer cet équilibre. Il doit être testé et évalué en définissant un nombre différent de paramètres sur l'observation de ses performances. La deuxième méthode pour traiter le surajustement consiste à appliquer la régularisation du poids au modèle. Une façon courante d'y parvenir est de limiter la complexité du réseau en le
forçant à ne prendre que de petites valeurs régularisant la distribution des valeurs de poids. Ceci est fait en ajoutant à la fonction perdue du réseau, un coût associé à avoir des tarifs plus élevés. Et ce coût intervient pour augmenter L 1 régularisation au coût en ce qui concerne la valeur
absolue du coefficient de poids ou le taux normal de L 1 jusqu'à la régularisation au coût. De meilleures protections avec une valeur au carré hors du coefficient de poids qui est le L au poids normal . Une autre façon de réduire le surajustement est de vieilles données de menting pour une forme plus limitée. Eh bien, un satisfaisant. Nous avons besoin de beaucoup de données. On sonne juste est déjà. Mais généralement, si vous travaillez avec des images, il y a toujours une chance que votre forme avertie matinale aussi bien que vous le souhaitez. Peu importe la quantité de données que vous avez dans des cas comme celui-ci, lorsque vous avez des ensembles de données limités, des données, augmentation est un bon moyen d'augmenter un ensemble de dates sans vraiment l'augmenter. Nous organisons artificiellement ces données ou, dans ce cas, des images afin d'obtenir deux autres données à partir de données déjà existantes. De quel genre d'augmentation parlons-nous ? Eh bien,
n'importe quoi, du retournement de l'image de l'axe Y, du
renversement du flou vide de l'axe X jusqu'au zoom sur l'image. Ce que ça fait, c'est que ça montre que tu es mortel plus que ce qui rencontre l'œil. Il expose votre modélisé plus les données existantes de sorte que dans le test, il sera automatiquement mieux
performer parce qu'ils ont vu des images représentées dans presque toutes les formes. Enfin, la dernière méthode que nous allons parler de son compte-gouttes est une technique utilisant l'
apprentissage profond qui laisse tomber des unités ou des neurones dans le réseau. Il suffit de mettre la diversité de l'abandon en ignorant sur les neurones pendant la tendance face à un ensemble de neurones
choisis au hasard . En ignorant, je veux dire que ces unités ne sont pas prises en compte lors d'une passe en avant ou en arrière particulière. Alors pourquoi avons-nous besoin d'un robot ? Pourquoi devons-nous fermer une partie d'un nouveau réseau ? Une partie antérieure entièrement connectée occupe la plupart des paramètres et donc la
dépendance de développeur nuancée entre les uns des autres pendant l'entraînement, ce qui limite la puissance individuelle de chaque neurone sur lequel conduit finalement sur l'ajustement de la données de formation, donc abandonnez un bon moyen de réduire le surajustement.