Proses Ilmu Data: Pemahaman, Pengumpulan Data, Pemodelan, Penerapan & Verifikasi

Diterbitkan: 2021-02-09

Proyek Ilmu Data di industri biasanya diikuti sebagai siklus hidup yang terdefinisi dengan baik yang menambahkan struktur ke proyek & mendefinisikan tujuan yang jelas untuk setiap langkah. Ada banyak metodologi yang tersedia seperti CRISP-DM, OSEMN, TDSP, dll. Ada beberapa tahapan dalam Proses Ilmu Data yang berkaitan dengan tugas-tugas khusus yang dilakukan oleh anggota tim yang berbeda.

Setiap kali masalah Ilmu Data datang dari klien, itu perlu dipecahkan dan diproduksi ke klien dengan cara yang terstruktur. Struktur ini memastikan bahwa proses lengkap berjalan mulus karena melibatkan banyak orang yang mengerjakan peran spesifik mereka seperti Arsitek Solusi, Manajer Proyek, Pemimpin Produk, Insinyur Data, Ilmuwan Data, Pemimpin DevOps, dll. Mengikuti Proses Ilmu Data juga membuat memastikan kualitas produk akhir bagus dan proyek selesai tepat waktu.

Pada akhir tutorial ini, Anda akan mengetahui hal berikut:

  • Pengertian Bisnis
  • Pengumpulan data
  • Pemodelan
  • Penyebaran
  • Validasi Klien

Daftar isi

Pengertian Bisnis

Memiliki pengetahuan tentang bisnis dan data adalah yang paling penting. Kita perlu memutuskan target apa yang perlu kita prediksi untuk memecahkan masalah yang dihadapi. Kita juga perlu memahami dari semua sumber apa kita bisa mendapatkan data dan jika sumber baru perlu dibangun.

Target model dapat berupa harga rumah, usia pelanggan, perkiraan penjualan, dll. Target ini perlu diputuskan dengan bekerja sama dengan klien yang memiliki pengetahuan lengkap tentang produk dan masalah mereka. Tugas terpenting kedua adalah mengetahui jenis prediksi pada target.

Apakah itu Regresi atau Klasifikasi atau Clustering atau bahkan rekomendasi. Peran anggota perlu diputuskan dan juga apa saja dan berapa banyak orang yang akan dibutuhkan untuk menyelesaikan proyek. Metrik keberhasilan juga diputuskan untuk memastikan solusi menghasilkan hasil yang setidaknya dapat diterima.

Sumber data perlu diidentifikasi yang dapat menyediakan data yang diperlukan untuk memprediksi target yang ditentukan di atas. Mungkin juga ada kebutuhan untuk membangun jalur pipa untuk mengumpulkan data dari sumber tertentu yang dapat menjadi faktor penting bagi keberhasilan proyek.

Pengumpulan data

Setelah data diidentifikasi, selanjutnya kita memerlukan sistem untuk menyerap data secara efektif dan menggunakannya untuk pemrosesan dan eksplorasi lebih lanjut dengan menyiapkan jalur pipa. Langkah pertama adalah mengidentifikasi jenis sumber. Jika itu di tempat atau di cloud. Kami perlu memasukkan data ini ke dalam lingkungan analitik tempat kami akan melakukan proses lebih lanjut.

Setelah data dicerna, kami melanjutkan ke langkah paling penting dari Proses Ilmu Data yaitu Analisis Data Eksplorasi (EDA). EDA adalah proses menganalisis dan memvisualisasikan data untuk melihat semua masalah pemformatan dan data yang hilang.

Semua ketidaksesuaian tersebut perlu dinormalisasi sebelum dilanjutkan dengan eksplorasi data untuk mengetahui pola dan informasi lain yang relevan. Ini adalah proses berulang dan juga termasuk merencanakan berbagai jenis grafik dan grafik untuk melihat hubungan antara fitur dan fitur dengan target.

Pipeline perlu disiapkan untuk mengalirkan data baru secara rutin ke lingkungan Anda dan memperbarui database yang ada. Sebelum menyiapkan saluran pipa, faktor-faktor lain perlu diperiksa. Seperti apakah data harus dialirkan secara batch atau online, apakah itu frekuensi tinggi atau frekuensi rendah.

Pemodelan & Evaluasi

Proses pemodelan adalah tahap inti di mana Machine Learning berlangsung. Kumpulan fitur yang tepat perlu diputuskan dan model dilatih menggunakan algoritma yang tepat. Model yang dilatih kemudian perlu dievaluasi untuk memeriksa efisiensi dan kinerjanya pada data nyata.

Langkah pertama disebut Rekayasa Fitur di mana kami menggunakan pengetahuan dari tahap sebelumnya untuk menentukan fitur penting yang membuat model kami tampil lebih baik. Rekayasa fitur adalah proses mengubah fitur menjadi bentuk baru dan bahkan menggabungkan fitur untuk membentuk fitur baru.

Ini harus dilakukan dengan hati-hati untuk menghindari penggunaan terlalu banyak fitur yang dapat memperburuk kinerja daripada meningkatkan. Membandingkan metrik jika setiap model dapat membantu memutuskan faktor ini bersama dengan kepentingan fitur sehubungan dengan target.

Setelah set fitur siap, model perlu dilatih pada beberapa jenis algoritme untuk melihat mana yang berkinerja terbaik. Ini juga disebut algoritma pemeriksaan spot. Algoritma berkinerja terbaik kemudian dibawa lebih jauh untuk menyetel parameternya untuk kinerja yang lebih baik. Metrik dibandingkan untuk setiap algoritme dan setiap konfigurasi parameter untuk menentukan model mana yang terbaik.

Penyebaran

Model yang diselesaikan setelah tahap sebelumnya sekarang perlu diterapkan di lingkungan produksi agar dapat digunakan dan diuji pada data nyata. Model perlu dioperasionalkan baik dalam bentuk Aplikasi Seluler/Web atau dasbor atau perangkat lunak internal perusahaan.

Model dapat diterapkan di cloud (AWS, GCP, Azure) atau server di lokasi bergantung pada beban yang diharapkan dan aplikasi. Kinerja model perlu dipantau terus menerus untuk memastikan semua masalah dicegah.

Model juga perlu dilatih ulang pada data baru setiap kali data tersebut masuk melalui jalur pipa yang ditetapkan pada tahap sebelumnya. Pelatihan ulang ini dapat dilakukan secara offline maupun online. Dalam mode offline, aplikasi diturunkan, model dilatih ulang, dan kemudian digunakan kembali di server.

Berbagai jenis kerangka kerja web digunakan untuk mengembangkan aplikasi backend yang mengambil data dari aplikasi front end dan memasukkannya ke model di server. API ini kemudian mengirimkan kembali prediksi dari model ke aplikasi front end. Beberapa contoh kerangka kerja web adalah Flask, Django, dan FastAPI.

Validasi Klien

Ini adalah tahap akhir dari Proses Ilmu Data di mana proyek akhirnya diserahkan kepada klien untuk digunakan. Klien harus berjalan melalui aplikasi, detailnya, dan parameternya. Ini juga dapat mencakup laporan keluar yang berisi semua aspek teknis model dan parameter evaluasinya. Klien perlu mengkonfirmasi penerimaan kinerja dan akurasi yang dicapai oleh model.

Poin terpenting yang harus diingat adalah bahwa klien atau pelanggan mungkin tidak memiliki pengetahuan teknis tentang Ilmu Data. Oleh karena itu, merupakan tugas tim untuk memberikan mereka semua detail dengan cara dan bahasa yang dapat dipahami oleh klien dengan mudah.

Sebelum kamu pergi

Proses Ilmu Data bervariasi dari satu organisasi ke organisasi lainnya tetapi dapat digeneralisasikan dalam 5 tahap utama yang telah kita bahas. Mungkin ada lebih banyak tahapan di antara tahapan ini untuk memperhitungkan tugas yang lebih spesifik seperti Pembersihan Data dan pelaporan. Secara keseluruhan, setiap proyek Ilmu Data harus menangani 5 tahap ini dan pastikan untuk mematuhinya untuk semua proyek. Mengikuti proses ini adalah langkah besar dalam memastikan keberhasilan semua proyek Ilmu Data.

Struktur Program Ilmu Data dirancang untuk memfasilitasi Anda menjadi talenta sejati di bidang Ilmu Data, yang memudahkan untuk mengantongi pemberi kerja terbaik di pasar. Daftar hari ini untuk memulai perjalanan jalur pembelajaran Anda dengan upGrad!

Apa langkah pertama dalam proses ilmu data?

Langkah pertama dalam proses ilmu data adalah menentukan tujuan Anda. Sebelum pengumpulan data, pemodelan, penerapan, atau langkah lainnya, Anda harus menetapkan tujuan penelitian Anda.
Anda harus teliti dengan "3W" proyek Anda - apa, mengapa, dan bagaimana. “Apa harapan klien Anda? Mengapa perusahaan Anda menghargai penelitian Anda? Dan bagaimana Anda akan melanjutkan penelitian Anda?”
Jika Anda mampu menjawab semua pertanyaan ini, Anda siap untuk langkah penelitian berikutnya. Untuk menjawab pertanyaan-pertanyaan ini, keterampilan non-teknis Anda seperti ketajaman bisnis lebih penting daripada keterampilan teknis Anda.

Bagaimana Anda memodelkan proses Anda?

Proses pemodelan adalah langkah penting dalam proses ilmu data dan untuk itu, kami menggunakan Pembelajaran Mesin. Kami memberi model kami kumpulan data yang tepat dan melatihnya dengan algoritme yang sesuai. Langkah-langkah berikut dipertimbangkan saat memodelkan proses:
1. Langkah pertama adalah Rekayasa Fitur. Langkah ini mempertimbangkan informasi yang dikumpulkan sebelumnya, menentukan fitur penting untuk model dan menggabungkannya untuk membentuk fitur baru dan lebih berkembang.
2, Langkah ini harus dilakukan dengan hati-hati karena terlalu banyak fitur dapat berakhir dengan memperburuk model kita daripada mengembangkannya.
3. Kemudian kami menentukan algoritma pemeriksaan spot. Algoritma ini adalah yang model perlu dilatih setelah memperoleh fitur baru.
4. Dari semua itu, kami memilih algoritme berkinerja terbaik dan menyetelnya untuk meningkatkan kemampuannya. Untuk membandingkan dan menemukan model terbaik, kami mempertimbangkan metrik dari algoritma yang berbeda.

Apa yang harus menjadi pendekatan untuk mempresentasikan proyek kepada klien?

Ini adalah langkah terakhir dari siklus hidup proyek ilmu data. Langkah ini harus ditangani dengan hati-hati jika tidak semua usaha Anda bisa sia-sia. Klien harus berjalan secara menyeluruh ke setiap aspek proyek Anda. Presentasi PowerPoint pada model Anda bisa menjadi poin plus bagi Anda.
Satu hal yang perlu diingat adalah bahwa klien Anda mungkin atau mungkin tidak dari bidang teknis. Jadi, Anda tidak boleh menggunakan kata-kata teknis inti. Cobalah untuk menyajikan aplikasi dan parameter proyek Anda dalam bahasa awam sehingga jelas bagi pelanggan Anda.