Apache Hadoop dan Komponen yang

A+ A-

Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Jawa. Hal ini terutama digunakan untuk penyimpanan dan pengolahan set besar data, yang lebih dikenal sebagai data besar. Ini terdiri dari beberapa komponen yang memungkinkan penyimpanan dan pengolahan volume data yang besar dalam lingkungan berkerumun. Namun, dua komponen utama adalah Hadoop Sistem berkas terdistribusi dan pemrograman MapReduce.

Pada artikel ini, pertama-tama kita akan melihat pada komponen yang membentuk Apache Hadoop dan kemudian beberapa sistem terintegrasi dan database.

1. Komponen Apache Hadoop

Hadoop, secara keseluruhan, terdiri dari bagian berikut:

Hadoop Distributed File System - Disingkat HDFS, ini terutama sistem file mirip dengan banyak dari yang sudah ada. Namun, juga merupakan sistem file virtual.

Ada satu perbedaan penting dengan sistem file populer lainnya, yaitu, ketika kita memindahkan file di HDFS, maka secara otomatis dibagi menjadi file yang lebih kecil. File-file yang lebih kecil kemudian direplikasi pada minimal tiga server yang berbeda, sehingga mereka dapat digunakan sebagai alternatif untuk keadaan yang tak terduga. count replikasi ini tidak selalu keras-set, dan dapat diputuskan sesuai kebutuhan.

Hadoop MapReduce - MapReduce terutama aspek pemrograman Hadoop yang memungkinkan pengolahan volume data yang besar.

Ada juga ketentuan yang memecah permintaan ke permintaan yang lebih kecil, yang kemudian dikirim ke beberapa server. Hal ini memungkinkan pemanfaatan kekuatan scalable dari CPU.

HBase - HBase terjadi menjadi lapisan yang duduk di atas HDFS dan telah dikembangkan dengan menggunakan bahasa pemrograman Java. HBase terutama memiliki aspek-aspek berikut -

  • non relasional
  • sangat scalable
  • Toleransi kesalahan

Setiap baris tunggal yang ada di HBase diidentifikasi dengan menggunakan kunci. Jumlah kolom juga tidak didefinisikan, melainkan dikelompokkan ke dalam keluarga kolom.

Zookeeper - Ini pada dasarnya adalah sebuah sistem terpusat yang mempertahankan -

  • informasi konfigurasi
  • informasi penamaan
  • informasi sinkronisasi

Selain ini, Zookeeper juga bertanggung jawab untuk layanan kelompok dan digunakan oleh HBase. Hal ini juga dilengkapi digunakan untuk program MapReduce.

Solr / Lucene - ini tidak lain adalah sebuah mesin pencari. perpustakaan yang dikembangkan oleh Apache dan diperlukan lebih dari 10 tahun untuk dikembangkan dalam bentuk yang kuat yang hadir.

Bahasa Pemrograman - Pada dasarnya ada dua bahasa pemrograman yang diidentifikasi sebagai bahasa pemrograman asli Hadoop,

  • Sarang lebah
  • BABI

Selain ini, ada beberapa bahasa pemrograman lain yang dapat digunakan untuk menulis program, yaitu C, JAQL dan Jawa. Kami juga dapat membuat penggunaan langsung dari SQL untuk interaksi dengan database, meskipun yang memerlukan penggunaan JDBC atau ODBC driver standar.

2. Sistem operasi terpadu Hadoop

Kebanyakan vendor perusahaan memiliki produk Hadoop mereka sendiri yang terdiri dari basis data serta persembahan analitis. Penawaran ini juga tidak mengharuskan Anda untuk sumber Hadoop dari tempat lain, melainkan memberikan sebagai aspek inti dari solusi mereka.

Beberapa di antaranya adalah -

EMC Greenplum

Greenplum terjadi menjadi peserta cukup baru dalam bisnis perusahaan dan memiliki reputasi untuk menjadi penyedia kuat dari analisis. Ia datang sebagai Analytics Landasan Bersatu, yang terdiri dari -

  • Database Greenplum - dimaksudkan untuk digunakan pada data terstruktur
  • Greenplum HD - distribusi Hadoop Its
  • Chorus - Lapisan produktivitas untuk tim Science Data.

IBM

distribusi perusahaan IBM untuk Hadoop dikenal sebagai InfoSphere BigInsights. Menerapkan berbagai fitur untuk Hadoop, seperti -

  • Alat untuk manajemen
  • Alat untuk administrasi
  • Hal ini juga terdiri dari alat analisis data tekstual yang membantu dalam penyelesaian entitas, seperti mengidentifikasi orang, nomor telepon, alamat dan banyak lagi.

Dengan memanfaatkan bahasa query JAQL, satu dapat mengintegrasikan Hadoop dengan berbagai produk IBM seperti DB2, atau bahkan Netezza. BigSheets, spreadsheet seperti aplikasi bekerja pada data besar juga ditawarkan. Saat ini, BigInsights hanya dapat digunakan lebih dari awan dengan cara Amazon, Rackspace, Rightscale, dll

Microsoft

Hadoop membentuk bagian inti dari Microsoft menawarkan data besar. Mengejar pendekatan terpadu, pihaknya berencana untuk membuat data besar yang tersedia melalui Suite alat untuk analisis.

Microsoft Big Data yang Solutions telah dibawa ke dalam platform Windows Server dan juga untuk platform Windows Azure, yang berbasis cloud. Terintegrasi dengan Windows Sistem Pusat dan Active Directory, perusahaan memiliki format distribusinya sendiri Hadoop. Selanjutnya, hal tersebut terintegrasi Hadoop dengan nya SQL Server, Visual Studio, dan NET.

Peramal

Oracle masuk ke dalam dunia data besar dengan pendekatan berdasarkan alat dalam bentuk Big data Appliance. Hal ini memastikan integrasi Hadoop mudah, dan datang bersama dengan database NoSQL baru, yang memungkinkan untuk analisis dan juga memiliki koneksi ke database Oracle dan Exadata pergudangan lineup. NoSQL juga dikenal sebagai berbasis nilai-key menawarkan database yang scalable.

Oracle juga terjadi untuk memiliki platform analitis R terintegrasi dengan Hadoop, dan yang membuatnya mudah untuk kapal. produk R Perusahaan Oracle juga merupakan salah satu yang memungkinkan integrasi database mudah, dan juga dengan Hadoop.

3. Database untuk analisis dengan konektivitas Hadoop

Database yang mendukung Massively Pengolahan Paralel (MPP) sebagian besar dimaksudkan untuk mengolah data besar terstruktur, tidak seperti yang spesialisasi Hadoop pada data yang tidak terstruktur. Greenplum, dan jauh lebih tua data Aster dan Vertica, adalah contoh terbaik dari pionir awal dalam hal ini.

database MPP ini dikenal untuk menangani beban kerja khusus dalam hal analisis, dan juga integrasi data. Ini memberikan konektor untuk Hadoop dan platform data warehousing lainnya.

Akhir-akhir ini solusi database ini telah diakuisisi oleh beberapa pemain lain di industri, -

  • Aster data telah diakuisisi oleh Teradata
  • HP telah mengakuisisi Vertica
  • Greenplum sekarang di bawah EMC

4. perusahaan Hadoop berpusat

Dalam rangka memenuhi pengembang didorong ideal dari dunia data yang besar, distribusi Hadoop sangat sering ditawarkan dalam bentuk edisi komunitas. jenis seperti edisi tidak memiliki pendekatan manajemen perusahaan, melainkan semua fungsi yang mungkin diperlukan untuk pengembangan dan evaluasi.

Cloudera

Cloudera terjadi menjadi pembentukan tertua yang menyediakan distribusi Hadoop. Hal ini dikenal untuk menawarkan solusi perusahaan, bersama dengan pelatihan, layanan dan pilihan dukungan. Juga, Cloudera telah membuat banyak kontribusi untuk Hadoop dengan cara kontribusi open source.

Hortonworks

Hortonworks memiliki sejarah panjang terkait dengan Hadoop. Hal ini terutama produk dari Yahoo, dan sebagai pencetus Hadoop, hal ini bertujuan untuk mempromosikan teknologi Hadoop inti. Hal ini juga bermitra dengan Microsoft untuk lebih baik integrasi Hadoop mereka.

5. Kesimpulan

Artikel di atas jelas menjelaskan berbagai modul yang membentuk Hadoop, bersama dengan banyak perusahaan dan masyarakat berdasarkan edisi yang tersedia untuk digunakan saat. Dengan Hadoop mendapatkan lebih menonjol, itu hanya masalah waktu sebelum lebih pendatang ditambahkan ke daftar ini.