Kudu: ตัวเปลี่ยนเกมในระบบนิเวศ Hadoop

ผู้เขียน: Roger Morrison
วันที่สร้าง: 21 กันยายน 2021
วันที่อัปเดต: 9 พฤษภาคม 2024
Anonim
Kudu: ตัวเปลี่ยนเกมในระบบนิเวศ Hadoop - เทคโนโลยี
Kudu: ตัวเปลี่ยนเกมในระบบนิเวศ Hadoop - เทคโนโลยี

เนื้อหา


ที่มา: Agsandrew / Dreamstime.com

Takeaway:

Kudu เป็นโครงการโอเพ่นซอร์สที่ช่วยจัดการพื้นที่เก็บข้อมูลได้อย่างมีประสิทธิภาพ

Kudu เป็นโครงการโอเพนซอร์ซใหม่ที่ให้พื้นที่เก็บข้อมูลที่อัพเดตได้ มันเป็นส่วนประกอบของ HDFS / HBase ซึ่งให้การจัดเก็บข้อมูลแบบลำดับและแบบอ่านอย่างเดียว คูดูเหมาะสำหรับการวิเคราะห์ข้อมูลที่รวดเร็วซึ่งเป็นความต้องการทางธุรกิจในปัจจุบัน ดังนั้นคูดูจึงไม่ได้เป็นเพียงโครงการระบบนิเวศของ Hadoop แต่มีศักยภาพในการเปลี่ยนแปลงตลาด (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Hadoop ดูข้อกำหนด 10 ข้อที่สำคัญที่สุดของ Hadoop ที่คุณต้องรู้และเข้าใจ)

Kudu คืออะไร

Kudu เป็นระบบจัดเก็บข้อมูลชนิดพิเศษที่จัดเก็บข้อมูลที่มีโครงสร้างในรูปแบบของตาราง แต่ละตารางมีจำนวนคอลัมน์ที่กำหนดไว้ล่วงหน้า ทุกคนมีคีย์หลักซึ่งจริง ๆ แล้วเป็นกลุ่มของคอลัมน์หนึ่งคอลัมน์ขึ้นไปของตารางนั้น คีย์หลักนี้ถูกสร้างขึ้นเพื่อเพิ่มข้อ จำกัด และรักษาความปลอดภัยของคอลัมน์และยังทำหน้าที่เป็นดัชนีซึ่งช่วยให้อัปเดตและลบได้ง่าย ตารางเหล่านี้เป็นชุดข้อมูลย่อยที่เรียกว่าแท็บเล็ต


สถานะปัจจุบัน Kudus คืออะไร?

คูดูมีการพัฒนาที่ดีมากและมีการใช้งานร่วมกับฟีเจอร์มากมายแล้ว อย่างไรก็ตามมันจะยังคงต้องการการขัดซึ่งสามารถทำได้ง่ายขึ้นหากผู้ใช้แนะนำและทำการเปลี่ยนแปลงบางอย่าง

คูดูเป็นโอเพ่นซอร์สอย่างสมบูรณ์และมี Apache Software License 2.0 มีวัตถุประสงค์เพื่อส่งไปยัง Apache เพื่อให้สามารถพัฒนาเป็นโครงการ Apache Incubator สิ่งนี้จะช่วยให้การพัฒนาก้าวหน้าไปเร็วยิ่งขึ้นและทำให้กลุ่มเป้าหมายเติบโตยิ่งขึ้น หลังจากระยะเวลาหนึ่งการพัฒนาของ Kudu จะถูกเปิดเผยต่อสาธารณชนและโปร่งใส บริษัท หลายแห่งเช่น AtScale, Xiaomi, Intel และ Splice Machine ได้ร่วมมือกันเพื่อมีส่วนร่วมในการพัฒนา Kudu คูดูยังมีชุมชนขนาดใหญ่ที่มีผู้ชมจำนวนมากกำลังให้คำแนะนำและช่วยเหลืออยู่แล้ว ดังนั้นจึงเป็นคนที่ขับเคลื่อนการพัฒนาของคูดูไปข้างหน้า

Kudu สามารถเติมเต็ม HDFS / HBase ได้อย่างไร?

Kudu ไม่ได้หมายถึงการแทนที่ HDFS / HBase มันถูกออกแบบมาเพื่อรองรับทั้ง HBase และ HFDS และทำงานร่วมกับพวกเขาเพื่อเพิ่มคุณสมบัติของพวกเขา เนื่องจาก HBase และ HDFS ยังคงมีคุณสมบัติมากมายที่ทำให้พวกเขามีประสิทธิภาพมากกว่า Kudu ในเครื่องบางอย่าง โดยรวมแล้วเครื่องจักรดังกล่าวจะได้รับประโยชน์เพิ่มเติมจากระบบเหล่านี้


คุณสมบัติของ Kudu Framework

คุณสมบัติหลักของกรอบ Kudu มีดังนี้:

  • การสแกนคอลัมน์ของตารางอย่างรวดเร็วมาก - รูปแบบข้อมูลที่ดีที่สุดเช่น Parquet และ ORCFile ต้องการขั้นตอนการสแกนที่ดีที่สุดซึ่งได้รับการจัดการอย่างสมบูรณ์แบบโดย Kudu รูปแบบดังกล่าวต้องการการสแกนอย่างรวดเร็วซึ่งสามารถเกิดขึ้นได้เมื่อข้อมูลคอลัมน์ถูกเข้ารหัสอย่างถูกต้องเท่านั้น
  • ความน่าเชื่อถือของประสิทธิภาพ - กรอบ Kudu เพิ่มความน่าเชื่อถือโดยรวมของ Hadoop โดยการปิดช่องโหว่และช่องว่างจำนวนมากใน Hadoop
  • ใช้งานร่วมกับ Hadoop - Kudu ได้ง่ายสามารถใช้งานร่วมกับ Hadoop และส่วนประกอบต่าง ๆ ได้อย่างมีประสิทธิภาพยิ่งขึ้น
  • โอเพ่นซอร์สสมบูรณ์ - Kudu เป็นระบบโอเพ่นซอร์สที่มีลิขสิทธิ์ Apache 2.0 มีชุมชนขนาดใหญ่ของนักพัฒนาจาก บริษัท และภูมิหลังที่แตกต่างกันซึ่งทำการอัพเดตเป็นประจำและให้คำแนะนำสำหรับการเปลี่ยนแปลง

Kudu สามารถเปลี่ยนระบบนิเวศของ Hadoop ได้อย่างไร?

Kudu ถูกสร้างขึ้นเพื่อให้เหมาะสมกับระบบนิเวศของ Hadoop และปรับปรุงคุณสมบัติของมัน นอกจากนี้ยังสามารถทำงานร่วมกับองค์ประกอบสำคัญของ Hadoop เช่น MapReduce, HBase และ HDFS งาน MapReduce สามารถให้ข้อมูลหรือนำข้อมูลจากตาราง Kudu คุณสมบัติเหล่านี้สามารถใช้ใน Spark ได้เช่นกัน เลเยอร์พิเศษทำให้องค์ประกอบ Spark บางอย่างเช่น Spark SQL และ DataFrame สามารถเข้าถึงได้โดย Kudu แม้ว่า Kudu จะไม่ได้รับการพัฒนามากเท่าที่จะมาแทนที่คุณสมบัติเหล่านี้ แต่คาดว่าหลังจากนั้นไม่กี่ปีมันจะได้รับการพัฒนามากพอที่จะทำเช่นนั้นได้ ก่อนหน้านั้นการรวมตัวระหว่าง Hadoop และ Kudu นั้นมีประโยชน์มากจริงๆและสามารถเติมเต็มช่องว่างที่สำคัญของระบบนิเวศของ Hadoop (หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Apache Spark ดูที่ Apache Spark ช่วยพัฒนาแอปพลิเคชันอย่างรวดเร็ว)

Kudu สามารถใช้งานได้ในหลายสถานที่ ตัวอย่างบางส่วนของสถานที่ดังกล่าวได้รับด้านล่าง:

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

  • สตรีมมิ่งอินพุตใกล้เวลาจริง - ในสถานที่ที่จำเป็นต้องรับอินพุตโดยเร็ว Kudu สามารถทำงานได้อย่างน่าทึ่ง ตัวอย่างของสถานที่ดังกล่าวอยู่ในธุรกิจที่มีจำนวนข้อมูลแบบไดนามิกจำนวนมากที่มาจากแหล่งที่แตกต่างกันและจะต้องให้บริการได้อย่างรวดเร็วในเวลาจริง
  • แอปพลิเคชั่นอนุกรมเวลาที่มีรูปแบบการเข้าถึงที่แตกต่างกัน Kudu เหมาะอย่างยิ่งสำหรับแอพพลิเคชั่นตามลำดับเนื่องจากง่ายต่อการติดตั้งตารางและสแกนโดยใช้ ตัวอย่างของการใช้งานดังกล่าวอยู่ในห้างสรรพสินค้าซึ่งต้องพบข้อมูลเก่าได้อย่างรวดเร็วและประมวลผลเพื่อคาดการณ์ความนิยมของผลิตภัณฑ์ในอนาคต
  • ระบบมรดก - หลาย บริษัท ที่รับข้อมูลจากแหล่งต่าง ๆ และเก็บไว้ในเวิร์กสเตชันที่แตกต่างกันจะรู้สึกเหมือนอยู่บ้านกับ Kudu คูดูนั้นเร็วมากและสามารถรวมเข้ากับ Impala เพื่อประมวลผลข้อมูลบนเครื่องทั้งหมดได้อย่างมีประสิทธิภาพ
  • Predictive modelling - นักวิทยาศาสตร์ข้อมูลที่ต้องการแพลตฟอร์มที่ดีสำหรับการสร้างแบบจำลองสามารถใช้ Kudu Kudu สามารถเรียนรู้จากชุดข้อมูลทุกชุด นักวิทยาศาสตร์สามารถเรียกใช้และเรียกใช้แบบจำลองซ้ำ ๆ เพื่อดูว่าเกิดอะไรขึ้น

ข้อสรุป

แม้ว่า Kudu ยังอยู่ในขั้นตอนการพัฒนา แต่ก็มีศักยภาพเพียงพอที่จะเป็นส่วนเสริมที่ดีสำหรับส่วนประกอบ Hadoop มาตรฐานเช่น HDFS และ HBase มันมีศักยภาพเพียงพอที่จะเปลี่ยนแปลงระบบนิเวศ Hadoop ได้อย่างสมบูรณ์โดยการเติมช่องว่างทั้งหมดและเพิ่มคุณสมบัติเพิ่มเติมบางอย่าง นอกจากนี้ยังรวดเร็วและมีประสิทธิภาพมากและสามารถช่วยในการวิเคราะห์และจัดเก็บตารางข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว อย่างไรก็ตามยังมีงานเหลือให้ทำเพื่อให้สามารถใช้งานได้อย่างมีประสิทธิภาพมากขึ้น