7 สิ่งที่ควรรู้เกี่ยวกับ Hadoop

ผู้เขียน: Eugene Taylor
วันที่สร้าง: 8 สิงหาคม 2021
วันที่อัปเดต: 10 พฤษภาคม 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
วิดีโอ: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

เนื้อหา


ที่มา: Pressureua / Dreamstime.com

Takeaway:

Hadoop ช่วยวิเคราะห์ข้อมูลมาหลายปีแล้ว แต่อาจมีบางอย่างที่คุณไม่รู้เกี่ยวกับมัน

Hadoop คืออะไร มันเป็นช้างของเล่นสีเหลือง ไม่ใช่สิ่งที่คุณคาดหวัง เกี่ยวกับสิ่งนี้: ดั๊กคัตติ้ง - ผู้ร่วมสร้างโครงการซอฟต์แวร์โอเพนซอร์ซนี้ยืมชื่อจากลูกชายของเขาที่เกิดขึ้นเพื่อเรียกช้างของเล่นของเขา Hadoop โดยสรุป Hadoop เป็นกรอบซอฟต์แวร์ที่พัฒนาโดย Apache Software Foundation ที่ใช้ในการพัฒนาระบบประมวลผลแบบกระจายข้อมูล และเป็นองค์ประกอบสำคัญในผู้อ่าน buzzword คนอื่นไม่สามารถที่จะได้รับเพียงพอ: ข้อมูลขนาดใหญ่ นี่คือเจ็ดสิ่งที่คุณควรรู้เกี่ยวกับซอฟต์แวร์ลิขสิทธิ์ที่ไม่ซ้ำใคร

Hadoop เริ่มต้นได้อย่างไร

สิบสองปีก่อน Google สร้างแพลตฟอร์มเพื่อจัดการกับข้อมูลจำนวนมหาศาลที่รวบรวมได้ เช่นเดียวกับที่ บริษัท ทำกันบ่อยๆ Google ให้บริการออกแบบแก่สาธารณชนในรูปแบบของเอกสารสองฉบับ: Google File System และ MapReduce

ในเวลาเดียวกัน Doug Cutting และ Mike Cafarella กำลังทำงานกับ Nutch เครื่องมือค้นหาใหม่ ทั้งสองยังดิ้นรนกับวิธีจัดการกับข้อมูลจำนวนมาก จากนั้นนักวิจัยทั้งสองได้รับเอกสารจาก Google โชคดีที่ทางแยกนั้นเปลี่ยนแปลงทุกอย่างโดยการแนะนำการตัดและ Cafarella ให้เป็นระบบไฟล์ที่ดีขึ้นและวิธีการติดตามข้อมูลในที่สุดนำไปสู่การสร้าง Hadoop

อะไรที่สำคัญเกี่ยวกับ Hadoop

วันนี้การรวบรวมข้อมูลง่ายกว่าที่เคย มีข้อมูลทั้งหมดนี้นำเสนอโอกาสมากมาย แต่มีความท้าทายเช่นกัน:

  • ข้อมูลจำนวนมหาศาลต้องการวิธีการใหม่ในการประมวลผล
  • ข้อมูลที่ถูกจับอยู่ในรูปแบบที่ไม่มีโครงสร้าง
เพื่อเอาชนะความท้าทายในการจัดการกับข้อมูลที่ไม่มีโครงสร้างจำนวนมหาศาลการตัดและ Cafarella เกิดขึ้นด้วยโซลูชันสองส่วน เพื่อแก้ปัญหาปริมาณข้อมูล Hadoop ใช้สภาพแวดล้อมแบบกระจาย - เครือข่ายของเซิร์ฟเวอร์สินค้า - สร้างคลัสเตอร์การประมวลผลแบบขนานซึ่งนำพลังการประมวลผลมากขึ้นที่จะแบกรับงานที่ได้รับมอบหมาย

ถัดไปพวกเขาต้องจัดการกับข้อมูลหรือข้อมูลที่ไม่มีโครงสร้างในรูปแบบที่ระบบฐานข้อมูลเชิงสัมพันธ์มาตรฐานไม่สามารถจัดการได้ การตัดและ Cafarella ออกแบบ Hadoop ให้ทำงานกับข้อมูลทุกประเภทไม่ว่าจะเป็นโครงสร้าง, ไม่มีโครงสร้าง, รูปภาพ, ไฟล์เสียงแม้กระทั่ง เอกสารทางเทคนิคของ Cloudera (Hadoop integrator) นี้อธิบายว่าทำไมสิ่งนี้จึงสำคัญ:

    "การทำให้ข้อมูลทั้งหมดของคุณสามารถใช้งานได้ไม่เพียง แต่สิ่งที่อยู่ในฐานข้อมูลของคุณ Hadoop ช่วยให้คุณค้นพบความสัมพันธ์ที่ซ่อนอยู่และเปิดเผยคำตอบที่ไม่สามารถเข้าถึงได้เสมอคุณสามารถเริ่มการตัดสินใจเพิ่มเติมตามข้อมูลที่แข็งแทนที่จะเป็นลางสังหรณ์ ที่ชุดข้อมูลที่สมบูรณ์ไม่ใช่แค่ตัวอย่างและบทสรุป "

สคีมาคืออะไรในการอ่าน

ดังกล่าวก่อนหน้านี้หนึ่งในข้อดีของ Hadoop คือความสามารถในการจัดการข้อมูลที่ไม่มีโครงสร้าง เรียกอีกอย่างหนึ่งว่า "การเตะกระป๋องลงไปบนถนน" ในที่สุดข้อมูลต้องการโครงสร้างบางอย่างเพื่อวิเคราะห์

นั่นคือสิ่งที่คีมาในการอ่านเข้ามาเล่น สคีมาที่อ่านคือ melding ของรูปแบบข้อมูลที่อยู่ในตำแหน่งที่จะค้นหาข้อมูล (โปรดจำไว้ว่าข้อมูลนั้นกระจัดกระจายในเซิร์ฟเวอร์หลาย ๆ เครื่อง) และสิ่งที่ต้องทำกับข้อมูลไม่ใช่เรื่องง่าย มีการกล่าวกันว่าการจัดการข้อมูลในระบบ Hadoop นั้นต้องใช้ทักษะของนักวิเคราะห์ธุรกิจสถิติและโปรแกรมเมอร์ Java น่าเสียดายที่มีคนจำนวนไม่มากที่มีคุณสมบัติเหล่านี้

ไฮฟ์คืออะไร

หาก Hadoop กำลังจะประสบความสำเร็จการทำงานกับข้อมูลจะต้องง่ายขึ้น ดังนั้นฝูงชนโอเพนซอร์ซจึงต้องทำงานและสร้างไฮฟ์:

    "Hive มีกลไกในการจัดทำโครงสร้างโครงการลงบนข้อมูลนี้และสืบค้นข้อมูลโดยใช้ภาษา SQL ที่เรียกว่า HiveQL ในขณะเดียวกันภาษานี้ยังช่วยให้ผู้ใช้แผนที่ / ลดการเขียนโปรแกรมแบบดั้งเดิมสามารถเสียบ Mappers แบบกำหนดเองและตัวลดขนาดเมื่อไม่สะดวกหรือ ไม่มีประสิทธิภาพในการแสดงตรรกะนี้ใน HiveQL "

Hive ช่วยให้ทั้งสองโลกดีที่สุด: บุคลากรฐานข้อมูลที่คุ้นเคยกับคำสั่ง SQL สามารถจัดการข้อมูลและนักพัฒนาที่คุ้นเคยกับสคีมาในกระบวนการอ่านยังสามารถสร้างแบบสอบถามที่กำหนดเองได้

Hadoop วิเคราะห์ข้อมูลประเภทใด

การวิเคราะห์เว็บเป็นสิ่งแรกที่คำนึงถึงการวิเคราะห์บันทึกการใช้เว็บและปริมาณการใช้งานเว็บเพื่อเพิ่มประสิทธิภาพเว็บไซต์ ตัวอย่างเช่นเข้าสู่การวิเคราะห์เว็บอย่างแน่นอนโดยใช้ Hadoop เพื่อจัดเรียงข้อมูลเทราไบต์ของ บริษัท ที่สะสม

บริษัท ใช้กลุ่ม Hadoop เพื่อทำการวิเคราะห์ความเสี่ยงการตรวจจับการฉ้อโกงและการแบ่งส่วนฐานลูกค้า บริษัท ยูทิลิตี้ใช้ Hadoop ในการวิเคราะห์ข้อมูลเซ็นเซอร์จากตารางไฟฟ้าของพวกเขาทำให้พวกเขาสามารถเพิ่มประสิทธิภาพการผลิตไฟฟ้า บริษัท ขนาดใหญ่เช่น Target, 3M และ Medtronics ใช้ Hadoop เพื่อเพิ่มประสิทธิภาพการกระจายผลิตภัณฑ์การประเมินความเสี่ยงทางธุรกิจและการแบ่งส่วนฐานลูกค้า

มหาวิทยาลัยมีการลงทุนใน Hadoop ด้วย แบรดรูบินผู้ช่วยศาสตราจารย์ที่มหาวิทยาลัยเซนต์โทมัสหลักสูตรบัณฑิตศึกษาด้านซอฟต์แวร์กล่าวว่าความเชี่ยวชาญของเขา Hadoop ช่วยจัดเรียงข้อมูลจำนวนมหาศาลที่รวบรวมโดยกลุ่มวิจัยที่มหาวิทยาลัย

คุณสามารถยกตัวอย่าง Hadoop ในโลกแห่งความจริงได้หรือไม่?

หนึ่งในตัวอย่างที่รู้จักกันดีคือ TimesMachine The New York Times มีการรวบรวมภาพ TIFF หนังสือพิมพ์เต็มหน้า, เมตาดาต้าที่เกี่ยวข้อง, และบทความตั้งแต่ปี 1851 ถึง 1922 จำนวนเทราไบต์ของข้อมูล Derek Gottfrid ของ NYT โดยใช้ระบบ EC2 / S3 / Hadoop และรหัสเฉพาะ:

    "รูปภาพ TIFF ขนาดใหญ่มาก 405,000 บทความ 3.3 ล้านบทความใน SGML และ 405,000 xml บทความการแมปไฟล์ไปยังพื้นที่สี่เหลี่ยมผืนผ้าใน TIFFs ข้อมูลนี้ถูกแปลงเป็นรูปภาพ PNG ขนาด 810,000 รูป (ภาพขนาดย่อและภาพเต็ม) และ 405,000 ไฟล์ JavaScript "

การใช้เซิร์ฟเวอร์ใน Amazon Web Services คลาวด์ Gottfrid กล่าวว่าพวกเขาสามารถประมวลผลข้อมูลทั้งหมดที่จำเป็นสำหรับ TimesMachine ในเวลาน้อยกว่า 36 ชั่วโมง

Hadoop ล้าสมัยไปแล้วหรือแค่แปรเปลี่ยน?

Hadoop มีมานานกว่าทศวรรษแล้ว ที่มีหลายคนบอกว่ามันล้าสมัย ดร. David Rico ผู้เชี่ยวชาญคนหนึ่งกล่าวว่า "ผลิตภัณฑ์ไอทีมีอายุสั้นในปีที่ผ่านมาผลิตภัณฑ์สุนัขของ Google มีประมาณ 70 รายการในขณะที่ Hadoop มีอายุ 56 ปี"

อาจมีความจริงบางอย่างกับสิ่งที่ Rico พูด ดูเหมือนว่า Hadoop กำลังผ่านการยกเครื่องครั้งใหญ่ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ Rubin เชิญฉันเข้าร่วมการประชุมกลุ่มผู้ใช้ Hadoop Twin Cities และหัวข้อการอภิปรายคือ Introduction to YARN:

    "Apache Hadoop 2 รวมถึงเครื่องมือ MapReduce ใหม่ซึ่งมีข้อได้เปรียบกว่าการใช้งานก่อนหน้านี้รวมถึงความสามารถในการปรับขนาดและการใช้ทรัพยากรที่ดีขึ้นการใช้งานใหม่นี้สร้างขึ้นบนระบบการจัดการทรัพยากรทั่วไป
Hadoop ได้รับความนิยมอย่างมากในฐานข้อมูลและแวดวงการจัดการเนื้อหา แต่ยังมีคำถามมากมายรอบตัวและวิธีการใช้งานที่ดีที่สุด เหล่านี้เป็นเพียงไม่กี่ หากคุณมีมากขึ้นพวกเขาเป็นวิธีของเรา ตอบคำถามที่ดีที่สุดใน Techopedia.com