Pochodna reguł łańcuchowych w uczeniu maszynowym: wyjaśnienie

Opublikowany: 2021-06-30

Uczenie maszynowe ewoluowało, aby stać się jedną z najczęściej omawianych i badanych dziedzin w obecnych latach, i to ze wszystkich dobrych powodów. Każdego dnia odkrywane są nowe modele i zastosowania uczenia maszynowego, a naukowcy na całym świecie pracują nad kolejnym wielkim osiągnięciem.

W rezultacie wzrosło zainteresowanie profesjonalistami z różnych środowisk, którzy przestawią się na uczenie maszynowe i będą częścią trwającej rewolucji. Jeśli jesteś jednym z takich entuzjastów uczenia maszynowego, którzy chcą stawiać pierwsze kroki, powiedzmy, że zaczyna się od zrozumienia podstaw matematyki i statystyki przed wszystkim innym.

Jednym z takich ważnych tematów w matematyce, które są bardzo istotne dla uczenia maszynowego, są pochodne. Z podstawowego rozumienia rachunku różniczkowego pamiętasz, że pochodną dowolnej funkcji jest chwilowa szybkość zmian tej funkcji. W tym blogu zagłębimy się w instrumenty pochodne i omówimy zasadę łańcucha. Zobaczymy, jak zmienia się wyjście danej funkcji, gdy zmienimy niektóre zmienne niezależne w równaniu. Dzięki znajomości pochodnych reguł łańcucha będziesz mógł pracować nad różnicowaniem bardziej złożonych funkcji, które z pewnością napotkasz w uczeniu maszynowym.

Uzyskaj certyfikat uczenia maszynowego online z najlepszych światowych uniwersytetów — studiów magisterskich, programów podyplomowych dla kadry kierowniczej i zaawansowanego programu certyfikacji w zakresie uczenia się maszynowego i sztucznej inteligencji, aby przyspieszyć swoją karierę.

Spis treści

Zrozumienie pochodnej reguły łańcucha

Reguła łańcucha jest zasadniczo formułą matematyczną, która pomaga obliczyć pochodną funkcji złożonej. Funkcja złożona to taka, która składa się z dwóch lub więcej funkcji. Tak więc, jeśli f i g są dwiema funkcjami, to reguła łańcucha pomogłaby nam znaleźć pochodną funkcji złożonych, takich jak mgła lub go f.

Biorąc pod uwagę mgłę funkcji złożonej , oto jak wyglądałaby pochodna reguły łańcucha:

Powyższa reguła może być również zapisana jako:

Gdzie funkcja F jest złożeniem f i g w postaci f(g(x)).

Załóżmy teraz, że mamy trzy zmienne takie, że trzecia zmienna (z) zależy od drugiej zmiennej (y), która z kolei zależy od pierwszej zmiennej (x). W takim przypadku pochodna reguły łańcucha wyglądałaby mniej więcej tak:

W przypadku uczenia głębokiego jest to również formuła regularnie używana do rozwiązywania problemów z propagacją wsteczną. Teraz, ponieważ wspomnieliśmy, że z zależy od y, a y od x, możemy napisać z = f(y) i y = g(x). To podstawienie zmodyfikowałoby nasze równanie różniczkowe w następujący sposób:

Przyjrzyjmy się teraz kilku przykładom pochodnych reguł łańcucha, aby lepiej zrozumieć kryjącą się za nimi matematykę.

Przykłady i zastosowania pochodnej reguł łańcuchowych

Weźmy dobrze znany przykład z Wikipedii, aby lepiej zrozumieć pochodną reguły łańcucha. Załóżmy, że spadasz swobodnie z nieba. Ciśnienie atmosferyczne, które napotkasz jesienią, będzie się stale zmieniać. Oto wykres, który przedstawia tę zmianę ciśnienia atmosferycznego z poziomami wysokości:

Załóżmy, że Twój upadek zaczął się na wysokości 4000 metrów nad poziomem morza. Początkowo twoja prędkość wynosiła zero, a wartość przyspieszenia wynosiła 9,8 metra na sekundę do kwadratu z powodu grawitacji.

Porównajmy teraz tę sytuację z poprzednią metodą reguły łańcucha. W tym przykładzie użyjemy zmiennej 't' dla czasu zamiast x.

Wówczas zmienną y = g(t), która mówi o przebytej odległości od początku upadku, można podać jako:

g(t) = 0,5*9,8t^2

A wysokość od poziomu morza można podać za pomocą zmiennej 'h', która będzie równa 400-g(t).

Załóżmy, że na podstawie modelu możemy również zapisać funkcję ciśnienia atmosferycznego na dowolnej wysokości h jako:

f(h) = 101325 e−0,0001h

Teraz możesz rozróżnić te dwa równania na podstawie ich zmiennych zależnych, aby uzyskać następujące wyniki:

g′(t) = -9,8t,

Tutaj g'(t) określa wartość twojej prędkości w dowolnym momencie t.

f′(h) = -10,1325e−0,0001h

Tutaj f′(h) jest szybkością zmian ciśnienia atmosferycznego w odniesieniu do wysokości h. Teraz pytanie brzmi, czy możemy połączyć te dwa równania i obliczyć szybkość zmian ciśnienia atmosferycznego w stosunku do czasu? Zobaczmy za pomocą reguły łańcucha:

Ostatnie równanie, które otrzymaliśmy, podaje nam zmieniające się tempo ciśnienia atmosferycznego w zależności od czasu, jaki upłynął od upadku. Jeśli chodzi o uczenie maszynowe, sieci neuronowe nieustannie potrzebują aktualizacji wagi dotyczących błędu neuronu w przewidywaniu. Reguła łańcucha pomaga dostosować te wagi i przybliżyć model uczenia maszynowego do prawidłowego wyniku.

Wniosek

Jak widać, zasada łańcucha jest korzystna dla wielu celów. Zwłaszcza jeśli chodzi o uczenie maszynowe lub uczenie głębokie, reguła łańcucha znajduje zastosowanie w aktualizacji wag neuronów i poprawie ogólnej wydajności modelu.

Teraz, gdy znasz już podstawy reguły łańcucha, spróbuj samodzielnie rozwiązać kilka problemów. Wyszukaj kilka funkcji złożonych i spróbuj znaleźć ich pochodne. Im więcej ćwiczysz, tym jaśniejsze będą Twoje koncepcje i tym łatwiej będzie Ci trenować modele uczenia maszynowego! To powiedziawszy, jeśli jesteś entuzjastą uczenia maszynowego, ale starasz się stawiać pierwsze kroki w tej dziedzinie, upGrad Cię wspiera!

Nasz program Executive PG w zakresie uczenia maszynowego i sztucznej inteligencji jest oferowany we współpracy z IIIT-Bangalore i daje wybór sześciu specjalizacji istotnych dla branży. Kurs rozpoczyna się od poziomu gruntu i prowadzi na szczyt, zapewniając jednocześnie wsparcie 1 na 1 ze strony ekspertów branżowych, silną grupę studentów i wsparcie kariery 360 stopni.

W jaki sposób gradienty są wykorzystywane w uczeniu maszynowym?

Wektor gradientu jest często używany w problemach klasyfikacji i regresji. Gradient descent jest rodzajem algorytmu optymalizacyjnego. Zejście gradientowe jest szeroko stosowane w modelach uczenia maszynowego do identyfikacji optymalnych parametrów, które minimalizują funkcję kosztu modelu, ponieważ opracowano go w celu znalezienia lokalnego minimum funkcji różniczkowej.

Jaki jest cel wykorzystania funkcji aktywacji w sieciach neuronowych?

Celem funkcji aktywacji jest oferowanie funkcji w sieci neuronowej o cechach nieliniowych. Sztuczna sieć neuronowa z funkcją aktywacji jest wykorzystywana do wspomagania sieci w zrozumieniu skomplikowanych wzorców w danych. Sieć neuronowa może wykonywać jedynie liniowe mapowania od wejść do wyjść bez funkcji aktywacji, z iloczynami skalarnymi między wektorem wejściowym a macierzą wag działającą jako operacja matematyczna podczas propagacji w przód. Korzystając z funkcji aktywacji, możesz uzyskać wiarygodne prognozy dotyczące tego, co model może stworzyć.

Czy ważna jest dobra znajomość rachunku różniczkowego dla uczenia maszynowego?

Rachunek różniczkowy jest niezbędny do zrozumienia wewnętrznej dynamiki algorytmów uczenia maszynowego, takich jak metoda gradientu, która minimalizuje funkcję błędu opartą na obliczaniu szybkości zmian. Jeśli jesteś początkującym, nie musisz rozumieć wszystkich idei stojących za rachunkiem różniczkowym, aby dobrze radzić sobie z uczeniem maszynowym. Możesz sobie poradzić, znając tylko zasady algebry i rachunku różniczkowego, ale jeśli jesteś naukowcem zajmującym się danymi i chcesz wiedzieć, co dzieje się za kulisami twojego projektu uczenia maszynowego, musisz dogłębnie poznać zasady rachunku różniczkowego .