apa itu apache spark

Apa itu Apache spark dan apa kelebihannya

Diposting pada

Apache Spark adalah teknologi komputasi clustering yang sangat cepat dan dirancang untuk kebutuhan yang memerlukan penanganan data secara cepat seperti big data dan machine learning.

Fitur andalan Apache spark adalah kumpulan memori yang dapat meningkatkan kecepatan pemrosesan aplikasi. Spark dirancang untuk menutupi berbagai beban kerja, seperti proses aplikasi, algoritma berulang-ulang, query interaktif, dan transmisi. Selain mendukung semua beban kerja pada setiap sistem, fitur apache spark ini juga dapat mengurangi beban maintanance management.

baca: apa itu data science

Cara kerja Apache Spark

Apache Spark akan mengotrol semua metode data dari berbagai repositori, seperti dari Hadoop Distributed classification system (HDFS), NoSQL Database dan penyimpanan data relatif, seperti Apache Hive.

Spark akan mengelola memori pendukung untuk membantu proses yang sedang berjalan, contohnya saat sedang menganalisis data.spark akan membagi semua proses ke dalam memori pendukung sehingga dapat memaksimalkan kinerja sistem.

baca: apa itu data scientist

Spark sendiri terdiri dari Spark Core dan beberapa Library pendukung. inti dari Spark engine adalah distributed execution engine, dan API Java, Scala maupun Python yang kemudian Library tambahan akan berjalan diatas Spark Core untuk melakukan berbagai proses seperti Streaming, SQL, machine learning

Kelemahan Hadoop

Selama ini Hadoop dikenal sebagai alat paling kuat di dalam bidang Big Data, Namun ternyata Hadoop memiliki beberapa kelemahan. Beberapa diantaranya adalah:

  • Kecepatan pemrosesan rendah: di Hadoop, algoritma MapReduce, yang merupakan algoritma paralel dan terdistribusi, memproses kumpulan data yang sangat besar.:
  • Pemrosesan batch: Hadoop mengimplementasikan pemrosesan batch, yang mengumpulkan data dan kemudian memprosesnya secara massal. Meskipun pemrosesan batch efisien untuk memproses volume data yang besar, ia tidak memproses data transmisi. Akibatnya, kinerjanya menjadi lebih lambat
  • Tidak memiliki Pipeline: Hadoop tidak mendukung pipeline (yaitu, urutan tahapan di mana ID keluaran dari tahap sebelumnya adalah input dari tahap berikutnya)
  • Sulit untuk digunakan: Pengembang MapReduce perlu menulis kode mereka sendiri untuk setiap operasi, yang membuat pekerjaan menjadi sangat sulit. Selain itu, MapReduce tidak memiliki mode interaktif.
  • Latency: Di ​​Hadoop, struktur MapReduce lebih lambat karena mendukung berbagai format, struktur, dan data yang besar.
  • Longline kode: karena Hadoop ditulis dalam Java, kode ini luas. Dan itu membutuhkan waktu lebih lama untuk menjalankan program.

Perusahaan besar yang menggunakan apache spark

berikut adalah beberapa perusahaan besar dan terkenal yang menggunakan apache spark

  • Amazon
  • Alibaba Taobao
  • Baidu
  • eBay Inc.
  • Hitachi Solutions
  • IBM Almaden
  • Nokia Networks and Solutions
  • NTT DATA
  • Simba Technologies
  • Stanford Dawn
  • Trip Advisor
  • Yahoo!

itulah beberapa hal yang dapat saya sampaikan tentang apache spark kamu bisa cari tahu artikle lainnya tentang data di anaktik.com

0
Gambar Gravatar
Pusatnya pengetahuan Teknik Informatika dan Pengetahuan Lainya

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *