pengertian data science adalah

Pengertian Data Science dan contoh pemanfaatannya

Diposting pada

Pengertian Data Science dan contoh pemanfaatannya – Ketika Kita memasuki era big data dan data science, kebutuhan untuk penyimpanan tumbuh pesat. Ini adalah tantangan utama bagi industri perusahaan hingga 2010.

Fokus utama adalah untuk membangun kerangka kerja dan solusi untuk menyimpan data. Seperti Hadoop dan kerangka kerja lainnya yang telah berhasil memecahkan masalah penyimpanan, namun sekarang fokus dunia telah bergeser ke pengolahan data . ilmu Data adalah saus rahasia di sini. Semua ide yang Anda lihat di sci-fi Hollywood, benar-benar bisa berubah menjadi kenyataan dengan Data Science. AI(Artificial Intellegent) adalah masa depan dari data science. Oleh karena itu, penting untuk memahami apa Data Science dan bagaimana hal itu dapat mengubah bisnis anda.

sebelumnya kita harus tau dulu apa itu data sience.

pengertian Data Science / ilmu data adalah sebuah bidang ilmu pengetahuan yang berfokus untuk memecahkan suatu masalah menggunakan data. baik data yang terstruktur maupun tidak terstruktur.

Kali ini saya akan membahas

  • Kebutuhan Ilmu data.
  • Apa itu Data Science?
  • Apa perbedaan dengan Business Intelligence (BI) dan Analisis Data?
  • Siklus hidup Ilmu data dengan bantuan kasus penggunaan.

Pada akhir blog ini, Anda akan dapat memahami apa itu Data Science dan perannya terhadap seluruh set data yang kompleks dan besar di sekitar kita. Untuk mendapatkan pengetahuan mendalam tentang Ilmu data.

Pengertian Data

pengertian data

Sebelum kita membahas lebih jauh tentang data science, tidak ada salahnya untuk kita mengenal apa itu data. Data adalah catatan dari Kumpulan fakta. fakta fakta inilah yang nantinya akan diolah menggunakan data science dan menghasilkan informasi.

setelah sebuah informasi yang di dapat, informasi tersebut bisa menjadi data lagi dan diolah lagi menjadi informasi baru, bingung?

contoh: sebuah perusahaan memiliki data penjualan selama bulan januari, dan data tersebut akan menghasilkan informasi berapa laba penjualan selama bulan januari. lalu informasi yang terkumpul itu bisa kita olah lagi untuk mendapatkan informasi laba penjualan dalam satu tahun.

data sendiri bisa memiliki banyak format seperti text,angka,gambar,audio,dll.

Pengertian Data Science

Pertama, kita harus mengenal apa itu data science. Data Science merupakan perpaduan dari berbagai alat, algoritma dan prinsip-prinsip pembelajaran mesin dengan tujuan menemukan pola yang tersembunyi dari data mentah. lalu apa yang membedakannya dengan ilmu statistik pada umumnya?

Jawabannya terletak pada perbedaan antara menjelaskan dan memprediksi.

Seperti yang Anda lihat dari gambar di atas, seorang data analyst biasanya menjelaskan apa yang terjadi dengan data . Di sisi lain, data Scientist tidak hanya melakukan analisis eksplorasi untuk menemukan wawasan dari itu, tetapi juga menggunakan berbagai algoritma pembelajaran mesin canggih untuk mengidentifikasi terjadinya peristiwa tertentu di masa depan. Seorang data Scientist akan melihat data dari berbagai sudut, kadang-kadang sudut yang sebelumnya tidak diketahui.

Ilmu Data lebih sering digunakan untuk membuat keputusan dan prediksi menggunakan analisis sebab-akibat prediktif, analytics (ilmu prediksi dan keputusan) dan machine learning.

baca : Skill yang dibutuhkan untuk menjadi data scientist

Mengapa kita membutuhkan Data Science

Data yang kita miliki saat ini sebagian besarnya tidak terstruktur dan ukurannya terlalu kecil untuk dapat dianalisis menggunakan alat BI sederhana. Tidak seperti dahulu dimana sebagian besar data yang ada di dalam sistem adalah data yang terstruktur, sekarang sebagian besar data menjadi tidak terstruktur dan semi-terstruktur. Mari kita lihat tren data pada gambar yang diberikan di bawah ini yang menunjukkan bahwa pada tahun 2020, lebih dari 80% dari data akan tidak terstruktur.

sumber gambar: https://www.kdnuggets.com/2019/10/data-scientist-data-management.html

Data ini dihasilkan dari berbagai sumber seperti log keuangan, file teks, bentuk multimedia, sensor, dan instrumen. Alat BI sederhana tidak dapat memproses volume besar dan berbagai data. Inilah sebabnya mengapa kita perlu alat analitik dan algoritma yang lebih kompleks dan canggih untuk mengolah, menganalisis, dan menarik wawasan yang berarti dari itu.

baca : apa itu data warehouse

Ini bukan satu-satunya alasan mengapa Data science menjadi begitu populer. Mari kita menggali lebih dalam dan melihat bagaimana ilmu pengetahuan digunakan di berbagai bidang data.

  • Sebuah perusahaan pasti ingin member produk yang sesuai untuk pelanggannya, bagaimana jika anda bisa membuat sebuah prediksi yang mem=nentukan produk yang sesuai dengan pelanggan tersebut berdasarkan data yang ada seperti sejarah masa lalu pencarian, sejarah pembelian, usia, dan gaji. tentunya hal tersebut akan meningkatkan penjualan di perusahaan tersebut.
  • di masa depan, seluruh mobil akan bisa mengendarai dirinya sendiri, lalu bagaimana mobil tersebut dapat mengenali lingkungan sekitarnya? Self-driving car akan mengumpulkan data langsung dari sensor, termasuk radar, kamera dan laser untuk membuat peta sekitarnya. Berdasarkan data ini, dia membuat keputusan seperti kapan harus mempercepat, saat menyalip,dan berhenti menggunakan algoritma machine learning canggih
  • Mari kita lihat bagaimana data sains dapat digunakan dalam analisis prediktif. Mari kita ambil sebagai contoh ramalan cuaca. Data dari kapal, pesawat, radar, satelit dapat dikumpulkan dan dianalisa untuk membangun model. Model-model ini tidak hanya akan memprediksi cuaca tetapi juga membantu dalam memprediksi terjadinya setiap bencana alam. Ini akan membantu Anda untuk mengambil tindakan yang tepat sebelum dan menyelamatkan banyak nyawa yang berharga.

data scientist

orang yang ahli dalam bilang data science biasa disebut data scientist, sedangkan pengertian Data Scientist sendiri adalah orang yang mengatur data dalam jumlah besar, mengumpulkan dan menganalisis sekumpulan besar data terstruktur dan tidak terstruktur.

dalam suatu organisasi, data scientist bertindak sebagai orang yang menganalisis dan mempelajari pola suatu data intuk mendapatkan informasi, dan informasi tersebulah yang akan membantu perusahaan mengambil keputusan.

data scientist tidak bisa bekerja sendiri, mereka membutuhkan bantuan tenaga lain seperti data engineer dan software engineer untuk mengaplikasikan temuan mereka ke dalam suatu aplikasi.

gaji data scientist

gaji data scientist sendiri tergolong sangat besar, menurut world economic forum, data scientist menduduki peringkat dengan gaji terbesar dibanding dengan pekerjaan terkait lainnya.

gaji rata-rata data scientist di us adalah $114,808 atau hampir setara 2,5M rupiah/tahun. dan di indonesia sendiri gaji seorang professional data scientist berkisar 30jt/bulan atau sekitar 360 jt/tahun.

dan tentunya gaji yang besar juga mendatangkan tanggung jawab yang besar pula, seorang data scientist dituntut memiliki skill yang tinggi, baik soft skill maupun hard skill.

skill yang harus dimiliki oleh seorang data scientist

Programming

Seorang data scientist harus memahami beberapa bahasa pemrograman sekaligus, tergantung kepada kebijakan dan keperluan kantor, namun bahasa pemrograman yang paling sering kita jumpai untuk data scientist adalah python dan R, karena keduanya menawarkan banyak tools dan framework yang bisa digunakan

baca : 14 tools data scientist paling populer

namun terkadang industri juga memerlukan bahasa lain untuk membantu pengembangan aplikasinya, ada banyak faktor yang perlu dipertimbangkan saat memilih bahasa pemrograman yang pas seperti, speed training, syntaks, framework yang di butuhkan, dan kesesuaiannya dengan aplikasi yang akan dibuat.

berikut beberapa bahasa pemrograman yang paling sering digunakan untuk data science:

  • Python
  • R
  • Java
  • SQL
  • Julia
  • Scala
  • MatLab

Algoritma

Selain Memahami sintaks dari bahasa pemrograman, Data Scientist Juga dituntut untuk memahami Algoritma serta memilih Algoritma yang tepat untuk suatu case. inilah yang membedakan Seorang Data Scientist dengan Data analyst.

baca: 6 tips penting belajar data science

Banyak sekali algoritma yang bisa diterapkan dalam memecahkan berbagai kasus, beberapa diantaranya:

  • Natural Language Processing
  • Classification
  • Clustering
  • Ensemble methods
  • Deep Learning

Data Visualization / persentation tool

seorang data scientist juga harus mengerti tools untuk mempresantisakan sebuah informasi yang didapat, kenapa? karena informasi yang telah didapat tersebut akan digunakan untuk membantu pengambilan keputusan.

sedangkan orang yang berhak mengambil keputusan suatu perusahaan adalah seorang manager/direktur. oleh karena itu seorang data scientist harus menjelaskan informasi yang didapatnya tsb kepada orang terkait di perusahaan tsb, tidak mungkin kan kita langsung memberikan hasil analysis kita dalam bentuk code matlab/python secara langsung.

alat yang digunakan pun sangat beragam, untuk beberapa kasus kita bisa menggunakan tools visualisasi seperti matplotlib, dan beberapa kasus lainnya kita harus memberikan informasi yang detail berupa persentasi.

Big Data Platform

Di era big data semua data yang terkumpul jumlahnya sangatlah besar, oleh karena itu diperlukan platform yang mampu menampung data sebanyak itu dan memprosesnya. biasanya industri menggunakan data warehouse untuk urusan ini. sedangkan perseorang biasanya masih menggunakan database Relational untuk hal ini.

Kenapa Data warehouse? kamu bisa membacanya di apa itu data warehouse dan kelebihannya

ada banyak sekali big data platform, beberapa diantaranya:

  • Microsoft Azure
  • Hadoop
  • Microsoft Azure
  • Cloudera
  • Sisense
  • Collibra
  • Tableau
  • MapR
  • Qualtrics
  • Oracle
  • MongoDB
  • Datameer

Soft Skill

Seorang data scientist juga dituntut memiliki soft skill yang berguna untuk menunjang karirnya. Seperti contoh, memiliki skill komunikasi yang bagus, intuisi yang tinggi terhadap data, Mampu bekerja sama dalam team,dll.

beberapa soft skill didapat dari sifat alami orang tersebut namun kamu bisa mengasahnya dengan telus berlatih, bekerja atau mengikuti pelatihan dan bootcamp.

  • Analitik causal prediktif – Jika Kita menginginkan model yang dapat memprediksi kemungkinan suatu peristiwa di masa depan, Kita bisa menerapkan data analytics kausal prediktif. Katakanlah, jika Kita memberikan uang secara kredit, maka kemungkinan pelanggan melakukan pembayaran kredit tepat waktu adalah masalah yang krusial untuk kita. Di sini, kita bisa membuat model yang dapat melakukan analisis prediktif dengan menggunakan data riwayat pembayaran pelanggan untuk memprediksi apakah pembayaran di masa mendatang akan tepat waktu atau tidak.
  • Analitik preskriptif: Jika kita mau memiliki model yang bisa mengambil keputusan sendiri dan kemampuan untuk memodifikasi dirinya dengan parameter yang dinamis, kitabisa menggunakan analitik preskriptif. Analitik preskriptif juga akabn memberikan saran. Dalam istilah lain, tidak hanya memprediksi tetapi menyarankan serangkaian tindakan yang ditentukan dan hasil terkait.
    Contoh terbaik untuk ini adalah mobil self-driving Google yang telah saya bahas sebelumnya juga. Data yang dikumpulkan oleh kendaraan dapat digunakan untuk melatih mobil yang bisa mengemudi sendiri. kita bisa menjalankan algoritma pada data ini untuk memberikan kecerdasan padanya. Ini akan memungkinkan mobil kita untuk mengambil keputusan seperti kapan harus berbelok, jalan mana yang harus diambil, kapan harus memperlambat atau mempercepat.
  • Machine learning untuk prediksi— Jika Anda memiliki data transaksional perusahaan keuangan dan perlu membuat model untuk menentukan tren masa depan, maka algoritma machine learning ini adalah yang terbaik. Ini berada di bawah paradigma supervised learning. Itu disebut diawasi karena Anda sudah memiliki data berdasarkan di mana Anda dapat melatih mesin Anda. Misalnya, model pendeteksian kecurangan dapat dilatih menggunakan catatan riwayat pembelian yang curang.
  • Machine learning untuk menemukan pola— Jika Kita tidak memiliki parameter berdasarkan data yang dikumpulkan untuk membuat prediksi, maka Kita perlu mengetahui terlebih dahulu pola tersembunyi dalam dataset untuk mendapat prediksi yang bermakna. Ini tidak lain adalah model unsupervised learning. karena Kita tidak memiliki label yang sudah ditentukan sebelumnya untuk dikelompokkan. Algoritma yang paling umum digunakan untuk penemuan pola adalah Clustering.
    Katakanlah Kita bekerja di perusahaan telepon dan kita perlu membangun jaringan dengan meletakkan menara di suatu wilayah. Kemudian, Kita dapat menggunakan teknik pengelompokan untuk menemukan lokasi menara yang akan memastikan bahwa semua pengguna menerima kekuatan sinyal yang optimal.

BACA : 14 tools yangs sering digunakan untuk data science

cara mendapatkan data

Seperti yang kita ketahui, data yang kita dapat nantinya akan diolah menjadi informasi, namun bagaimana caranya data scientist mendapatkan data?

survei

Cara pertama mendapatkan data adalah dengan cara survey, banyak sekali perusahaan swasta yang melakukan survei untuk mengetahui apa yang sangat di inginkan oleh penggunanya.

Namun ada beberapa organisasi yang menjalankan survei dengan iming iming imbalan terhadap surveyor, hal ini bisa menyebabkan data menjadi kotor dan tidak valid.

data scraping

Cara yang bisa dilakukan berikutnya adalah dengan mengambil informasi yang ada di dunia maya secara otomatis dengan data scraping. misalnya saja sebuah perusahaan ingin mengumpulkan data tentang lagu yang paling sering di dengan di seluruh dunia.

maka tidak mungkin orang tersebut mengecek satu per satu aplikasi musik lalu mencatatnya secara berkala. dibuthkan sebuah bot yang dapat mengambil data secara otomatis dari semua aplikasi dan web tersebut.

Data Analytics

Cara mendapatkan data yang berikutnya adalah dengan Data Analytics, bayangkan anda memiliki sebuah Toko, lalu setiap hari ada banyak orang yang membeli barang yang anda jual yang tentunya barang tersebut terdiri dari banyak macam. lalu sewaktu waktu toko anda menjadi sepi tanpa anda ketahui sebabnya,

tentunya anda tidak mau mengalami hal tsb. oleh karena itu banyak banyak industri yang menerapkan data analytics ke dalam perusahaannya. misalnya saja indomart dan alfamart, mereka menggunakan mesin kasir yang nantinya data penjualan tsb akan tercatat dan tersimpan di dalam database mereka.

Dengan menyimpan data tsb mereka jadi tahu tren dan pola yang terjadi di tempat mereka. misalkan orang yang membeli kopi biasanya juga membeli gula, dan data tsb bisa mereka gunakan untuk membuat produk bundle untuk meningkatkan penjualan. ada banyak contoh dari implementasi data analytics, untuk pembahasan lengkap data analytic kamu bisa baca.

Download Datasets

Banyak perusahaan atau organisasi memberikan datanya secara cuma cuma untuk dipelajari oleh masyarakat umum atau orang yang ingin mempelajari data science.data yang disebar itu bisa membuka peluang informasi baru yang belum pernah ditemukan oleh perusahaan atau organisasi itu sebelumnya.

contohnya saja BMKG yang memberikan datasets cuaca terupdate setiap hari, data tsb bisa dimanfaatkan oleh orang umum untuk memprediksi cuaca selama setahun kedepan atau memprediksi daerah yang rawan bencana alam.

ada banyak sekali organisasi yang memberikan data secara cuma cuma untuk dimanfaatkan, kamu bisa melihatnya di kaggle, selain itu tak jarang perusahaan membuat kompetisi untuk menemukan data baru dari sekumpulan data, yang pastinya akan menguntungkan perusahaan sekaligus juga mencari data scientist andal.

Perbedaan Business Intelligence (BI) Dan Data Science

  • BI pada dasarnya menganalisis data untuk mencari tinjau balik dan wawasan untuk menggambarkan tren bisnis. BI memungkinkan Anda mengambil data dari sumber eksternal dan internal, menyiapkannya, menjalankan kueri di atasnya dan membuat dasbor untuk menjawab pertanyaan seperti analisis pendapatan triwulanan atau masalah bisnis. BI dapat mengevaluasi dampak peristiwa tertentu dalam waktu dekat.
  • sedangkan data science adalah pendekatan yang lebih berwawasan ke depan, cara eksplorasi dengan fokus pada analisis data masa lalu atau saat ini dan memprediksi hasil di masa depan dengan tujuan membuat keputusan yang tepat. Ini menjawab pertanyaan terbuka tentang “apa” dan “bagaimana” peristiwa terjadi.

Life Cycle

Ini semua tentang apa itu Data science, sekarang mari kita memahami tentang Data science lifecycle

Kesalahan umum yang dibuat dalam proyek-proyek Data science adalah bergegas ke pengumpulan dan analisis data, tanpa memahami persyaratan atau bahkan membingkai masalah bisnis dengan benar. Oleh karena itu, sangat penting bagi Anda untuk mengikuti semua fase sepanjang siklus Ilmu Data untuk memastikan kelancaran proyek.

Berikut ini adalah penjelasan singkat dari fase utama lifecycle Data science

Fase 1 — Discovery: Sebelum Anda memulai proyek, penting untuk memahami berbagai spesifikasi, persyaratan, prioritas, dan anggaran yang diperlukan. Anda harus memiliki kemampuan untuk mengajukan pertanyaan yang tepat. Di sini, Anda menilai apakah Anda memiliki sumber daya yang diperlukan dalam hal orang, teknologi, waktu dan data untuk mendukung proyek. Dalam fase ini, Anda juga perlu membingkai masalah bisnis dan merumuskan hipotesis awal (IH) untuk diuji.

Fase 2 — Data preparation: Dalam fase ini, Anda memerlukan kotak pasir analitik tempat Anda dapat melakukan analisis selama seluruh durasi proyek. Anda perlu menjelajahi, memproses dan mengkondisikan data sebelum pemodelan. Selanjutnya, Anda akan melakukan ETLT (ekstrak, ubah, muat, dan ubah) untuk mendapatkan data ke kotak pasir. Mari kita lihat aliran Analisis Statistik di bawah ini.

Anda dapat menggunakan R untuk pembersihan, transformasi, dan visualisasi data. Ini akan membantu Anda untuk menemukan outlier dan membangun hubungan antara variabel. Setelah Anda membersihkan dan menyiapkan data, sekarang saatnya untuk melakukan analisis eksploratif. Mari kita lihat bagaimana Anda bisa mencapainya.

baca : apa itu pengolahan data?

Fase 3 — Model planning: Di sini, Anda akan menentukan metode dan teknik untuk menggambar hubungan antar variabel. Hubungan-hubungan ini akan menetapkan basis untuk algoritma yang akan Anda terapkan pada fase berikutnya. Anda akan menerapkan Analisis Data Eksplorasi (EDA) menggunakan berbagai rumus statistik dan alat visualisasi.

Mari kita lihat berbagai alat perencanaan model.

  1. Rhas satu set lengkap kemampuan pemodelan dan menyediakan lingkungan yang baik untuk membangun model interpretif.
  2. SQL Analysis Service dapat melakukan analitik basis data menggunakan fungsi penambangan data umum dan model prediksi dasar.
  3. SAS / ACCESS dapat digunakan untuk mengakses data dari Hadoop dan digunakan untuk membuat diagram alir model yang dapat diulang dan digunakan kembali.

Meskipun, banyak alat hadir di pasar tetapi R adalah alat yang paling umum digunakan.

Sekarang Anda telah memiliki wawasan tentang sifat data Anda dan telah memutuskan algoritma yang akan digunakan. Pada tahap selanjutnya, Anda akan menerapkan algoritma dan membangun model.

Fase 4 — Pembangunan model: Dalam fase ini, Anda akan mengembangkan kumpulan data untuk tujuan pelatihan dan pengujian. Anda akan mempertimbangkan apakah alat Anda yang ada akan cukup untuk menjalankan model atau akan membutuhkan lingkungan yang lebih kuat (seperti pemrosesan cepat dan paralel). Anda akan menganalisis berbagai teknik pembelajaran seperti klasifikasi, asosiasi dan pengelompokan untuk membangun model.

Anda dapat mencapai pembangunan model melalui alat-alat berikut.

Fase 5 — Operasionalisasi: Dalam fase ini, Anda mengirimkan laporan akhir, briefing, kode, dan dokumen teknis. Selain itu, kadang-kadang proyek percontohan juga dilaksanakan dalam lingkungan produksi waktu nyata. Ini akan memberi Anda gambaran yang jelas tentang kinerja dan kendala terkait lainnya dalam skala kecil sebelum penerapan penuh.

Fase 6 — Mengkomunikasikan hasil: Sekarang penting untuk mengevaluasi jika Anda mampu mencapai tujuan yang telah Anda rencanakan pada fase pertama. Jadi, pada fase terakhir, Anda mengidentifikasi semua temuan kunci, berkomunikasi dengan para pemangku kepentingan dan menentukan apakah hasil proyek tersebut sukses atau gagal berdasarkan kriteria yang dikembangkan pada Tahap 1.

itulah yang dapat saya sampaikan mengengai pengertian data science dan contoh pemanfaatannya, semoga dapat menambah wawasan anda tentang data science, sampai jumpa di artikle lainnya.

Gambar Gravatar
Pusatnya pengetahuan Teknik Informatika dan Pengetahuan Lainya

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *