Proces nauki o danych: zrozumienie, zbieranie danych, modelowanie, wdrażanie i weryfikacja

Opublikowany: 2021-02-09

Projekty Data Science w branży są zwykle śledzone jako dobrze zdefiniowany cykl życia, który nadaje strukturę projektowi i definiuje jasne cele dla każdego kroku. Dostępnych jest wiele takich metodologii, takich jak CRISP-DM, OSEMN, TDSP itp. Istnieje wiele etapów procesu nauki o danych odnoszących się do określonych zadań, które wykonują różni członkowie zespołu.

Za każdym razem, gdy klient zgłasza problem związany z Data Science, należy go rozwiązać i przedstawić klientowi w ustrukturyzowany sposób. Taka struktura zapewnia, że ​​cały proces przebiega bezproblemowo, ponieważ angażuje wiele osób pracujących nad ich określonymi rolami, takimi jak architekt rozwiązań, kierownik projektu, kierownik produktu, inżynier danych, specjalista ds. danych, kierownik ds. DevOps itp. Przestrzeganie procesu nauki o danych również upewnić się, że jakość produktu końcowego jest dobra, a projekty realizowane są na czas.

Pod koniec tego samouczka poznasz następujące rzeczy:

  • Zrozumienie biznesowe
  • Zbieranie danych
  • Modelowanie
  • Zastosowanie
  • Walidacja klienta

Spis treści

Zrozumienie biznesowe

Posiadanie wiedzy o biznesie i danych ma ogromne znaczenie. Musimy zdecydować, jakie cele musimy przewidzieć, aby rozwiązać dany problem. Musimy również zrozumieć, z jakich źródeł możemy uzyskać dane i czy trzeba budować nowe źródła.

Modelowymi celami docelowymi mogą być ceny domów, wiek klienta, prognozy sprzedaży itp. Te cele należy określić, współpracując z klientem, który ma pełną wiedzę na temat jego produktu i problemu. Drugim najważniejszym zadaniem jest poznanie rodzaju przewidywania celu.

Niezależnie od tego, czy jest to regresja, klasyfikacja, klastrowanie, a nawet rekomendacja. Należy ustalić role członków, a także co i ile osób będzie potrzebnych do realizacji projektu. Decyduje się również na metryki sukcesu, aby upewnić się, że rozwiązanie daje wyniki, które są co najmniej akceptowalne.

Należy zidentyfikować źródła danych, które mogą dostarczyć danych potrzebnych do przewidzenia celów określonych powyżej. Może również zaistnieć potrzeba budowy rurociągów w celu zbierania danych z określonych źródeł, co może być ważnym czynnikiem powodzenia projektu.

Zbieranie danych

Po zidentyfikowaniu danych potrzebujemy systemów, które skutecznie przyjmą dane i wykorzystają je do dalszego przetwarzania i eksploracji poprzez tworzenie potoków. Pierwszym krokiem jest określenie typu źródła. Czy to lokalnie, czy w chmurze. Musimy wprowadzić te dane do środowiska analitycznego, gdzie będziemy na nich wykonywać dalsze procesy.

Po przyswojeniu danych przechodzimy do najważniejszego etapu procesu nauki o danych, jakim jest eksploracyjna analiza danych (EDA). EDA to proces analizy i wizualizacji danych, aby zobaczyć, jakie są wszystkie problemy z formatowaniem i brakujące dane.

Wszystkie rozbieżności należy znormalizować przed przystąpieniem do eksploracji danych w celu znalezienia wzorców i innych istotnych informacji. Jest to proces iteracyjny, który obejmuje również wykreślanie różnego rodzaju wykresów i wykresów, aby zobaczyć relacje między cechami i cechami z celem.

Należy skonfigurować potoki, aby regularnie przesyłać nowe dane do środowiska i aktualizować istniejące bazy danych. Przed ustawieniem rurociągów należy sprawdzić inne czynniki. Na przykład, czy dane mają być przesyłane strumieniowo w trybie wsadowym lub online, czy będą to dane o wysokiej czy niskiej częstotliwości.

Modelowanie i ocena

Proces modelowania jest kluczowym etapem, na którym odbywa się uczenie maszynowe. Należy określić odpowiedni zestaw funkcji i wytrenować na nich model przy użyciu odpowiednich algorytmów. Wytrenowany model należy następnie ocenić, aby sprawdzić jego wydajność i wydajność na rzeczywistych danych.

Pierwszy krok nazywa się Inżynierią Cech, gdzie wykorzystujemy wiedzę z poprzedniego etapu, aby określić ważne cechy, które sprawiają, że nasz model działa lepiej. Inżynieria funkcji to proces przekształcania funkcji w nowe formy, a nawet łączenia funkcji w celu utworzenia nowych funkcji.

Należy to zrobić ostrożnie, aby uniknąć używania zbyt wielu funkcji, które mogą pogorszyć wydajność, a nie ją poprawić. Porównanie metryk, jeśli każdy model może pomóc w podjęciu decyzji o tym czynniku wraz z ważnością funkcji w odniesieniu do celu.

Gdy zestaw funkcji jest gotowy, model musi zostać przeszkolony na wielu typach algorytmów, aby zobaczyć, który z nich działa najlepiej. Nazywa się to również algorytmami kontroli wyrywkowej. Najskuteczniejsze algorytmy są następnie rozwijane w celu dostrojenia ich parametrów w celu uzyskania jeszcze lepszej wydajności. Metryki są porównywane dla każdego algorytmu i każdej konfiguracji parametrów, aby określić, który model jest najlepszy ze wszystkich.

Zastosowanie

Model, który został sfinalizowany po poprzednim etapie, musi teraz zostać wdrożony w środowisku produkcyjnym, aby stał się użyteczny i można go przetestować na rzeczywistych danych. Model musi zostać zoperacjonalizowany w postaci aplikacji mobilnych/sieciowych lub pulpitów nawigacyjnych lub oprogramowania wewnętrznego firmy.

Modele mogą być wdrażane w chmurze (AWS, GCP, Azure) lub na serwerach lokalnych, w zależności od oczekiwanego obciążenia i aplikacji. Wydajność modelu musi być stale monitorowana, aby zapobiec wszystkim problemom.

Model musi również zostać ponownie przeszkolony na nowych danych, ilekroć przychodzą za pośrednictwem potoków ustawionych na wcześniejszym etapie. To przekwalifikowanie może odbywać się w trybie offline lub online. W trybie offline aplikacja jest wyłączana, model jest przeszkolony, a następnie ponownie wdrożony na serwerze.

Do tworzenia aplikacji zaplecza wykorzystywane są różne typy frameworków internetowych, które pobierają dane z aplikacji frontendowej i przesyłają je do modelu na serwerze. Ten interfejs API następnie odsyła prognozy z modelu z powrotem do aplikacji frontonu. Niektóre przykłady frameworków internetowych to Flask, Django i FastAPI.

Walidacja klienta

Jest to ostatni etap procesu Data Science, w którym projekt zostaje ostatecznie przekazany klientowi do użytku. Klient musi przejść przez aplikację, jej szczegóły i parametry. Może również zawierać raport wyjściowy, który zawiera wszystkie techniczne aspekty modelu i jego parametry oceny. Klient musi potwierdzić akceptację wydajności i dokładności osiągniętej przez model.

Najważniejszą kwestią, o której należy pamiętać, jest to, że klient lub klient może nie mieć technicznej wiedzy z zakresu Data Science. Dlatego obowiązkiem zespołu jest przekazanie im wszystkich szczegółów w sposób i języku łatwo zrozumiałym dla klienta.

Zanim pójdziesz

Proces nauki danych różni się w zależności od organizacji, ale można go uogólnić w 5 głównych etapach, które omówiliśmy. Pomiędzy tymi etapami może być więcej etapów, aby uwzględnić bardziej szczegółowe zadania, takie jak czyszczenie danych i raportowanie. Ogólnie rzecz biorąc, każdy projekt Data Science musi zająć się tymi 5 etapami i przestrzegać ich we wszystkich projektach. Podążanie za tym procesem jest ważnym krokiem w zapewnieniu sukcesu wszystkich projektów Data Science.

Struktura Programu Data Science ma na celu ułatwienie Ci stania się prawdziwym talentem w dziedzinie Data Science, co ułatwia znalezienie najlepszego pracodawcy na rynku. Zarejestruj się już dziś, aby rozpocząć swoją przygodę ze ścieżką edukacyjną z upGrad!

Jaki jest pierwszy krok w procesie nauki o danych?

Pierwszym krokiem w procesie analizy danych jest określenie celu. Przed zebraniem danych, modelowaniem, wdrożeniem lub jakimkolwiek innym krokiem, musisz określić cel swoich badań.
Powinieneś być dokładny w „3W” swojego projektu – co, dlaczego i jak. „Jakie są oczekiwania Twojego klienta? Dlaczego Twoja firma ceni Twoje badania? A jak zamierzasz kontynuować swoje badania?”
Jeśli jesteś w stanie odpowiedzieć na wszystkie te pytania, jesteś gotowy do następnego etapu badań. Aby odpowiedzieć na te pytania, Twoje umiejętności nietechniczne, takie jak przenikliwość biznesowa, są ważniejsze niż umiejętności techniczne.

Jak modelujesz swój proces?

Proces modelowania jest kluczowym etapem w procesie nauki o danych i do tego celu używamy uczenia maszynowego. Dostarczamy naszemu modelowi odpowiedni zestaw danych i trenujemy go odpowiednimi algorytmami. Podczas modelowania procesu brane są pod uwagę następujące kroki:
1. Pierwszym krokiem jest inżynieria funkcji. Ten krok uwzględnia wcześniej zebrane informacje, określa podstawowe cechy modelu i łączy je w celu utworzenia nowych i bardziej rozwiniętych funkcji.
2, Ten krok należy wykonywać ostrożnie, ponieważ zbyt wiele funkcji może spowodować pogorszenie naszego modelu, a nie jego ewolucję.
3. Następnie wyznaczamy algorytmy sprawdzania wyrywkowego. Te algorytmy to te, na których model musi zostać przeszkolony po nabyciu nowych funkcji.
4. Spośród nich wybieramy najlepiej działające algorytmy i dostrajamy je, aby jeszcze zwiększyć ich możliwości. Aby porównać i znaleźć najlepszy model, bierzemy pod uwagę metrykę różnych algorytmów.

Jakie powinno być podejście do zaprezentowania projektu klientowi?

Jest to ostatni etap cyklu życia projektu analizy danych. Ten krok musi być traktowany ostrożnie, w przeciwnym razie wszystkie twoje wysiłki mogą pójść na marne. Klient powinien dokładnie przejść do każdego aspektu twojego projektu. Prezentacja PowerPoint na Twoim modelu może być dla Ciebie zaletą.
Jedną rzeczą, o której należy pamiętać, jest to, że Twój klient może, ale nie musi, pochodzić z branży technicznej. Nie możesz więc używać podstawowych słów technicznych. Postaraj się przedstawić aplikacje i parametry swojego projektu w języku laików, aby było to zrozumiałe dla Twoich klientów.