4 ตำนานเกี่ยวกับการเริ่มโครงการเรียนรู้ของเครื่อง

เนื้อหา

ตำนาน # 1: ข้อมูลเพิ่มเติมดีกว่าเสมอ
ความเชื่อที่ # 2: ข้อมูลที่เรามีดีพอ
ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ
ความเชื่อที่ # 3: เร็วเกินไปสำหรับเรา!
ตำนาน # 4: การเรียนรู้ของเครื่องเหมือนกันเสมอ
ความเชื่อที่ # 5: การเรียนรู้ของเครื่องทำงานได้กับข้อมูลที่ได้รับการดูแลอย่างระมัดระวังเท่านั้น

ที่มา: monsitj / iStockphoto

Takeaway:

เรียนรู้เกี่ยวกับตำนานของการเรียนรู้ของเครื่องเหล่านี้เพื่อมุ่งเน้นการปรับใช้องค์กรให้ดีขึ้น

การเริ่มต้นด้วยโครงการเรียนรู้ด้วยเครื่องจักรอาจเป็นเรื่องที่น่ากังวลสำหรับผู้บริหารที่ต้องการใช้ประโยชน์จากเทรนด์ไอทีนี้ แต่อาจขาดความรู้ภายในเพื่อทำความเข้าใจเกี่ยวกับสิ่งที่ทำให้เครื่องจักร ติ๊กโครงการการเรียนรู้

ที่นี่เราจะพูดถึงความเข้าใจผิดขั้นพื้นฐานบางอย่างที่มีผลกระทบต่อวิธีการที่ บริษัท พัฒนาเทคโนโลยีการเรียนรู้ของเครื่องจักรในตลาดที่เปลี่ยนแปลงอย่างรวดเร็ว (วิทยาศาสตร์ข้อมูลเป็นธุรกิจสาขาอื่นกำลังดำเนินการอยู่ แต่มันแตกต่างจาก ML อย่างไรค้นหาข้อมูลวิทยาศาสตร์ข้อมูลหรือการเรียนรู้ของเครื่องได้อย่างไร Heres จะค้นพบความแตกต่างได้อย่างไร)

ตำนาน # 1: ข้อมูลเพิ่มเติมดีกว่าเสมอ

นี่เป็นหนึ่งในตำนานที่ยิ่งใหญ่ที่สุดของการเรียนรู้ของเครื่อง ผู้คนคิดว่าข้อมูลที่มากขึ้นหมายถึงความสามารถที่มากขึ้นในการเข้าถึงข้อมูลเชิงลึกที่สามารถดำเนินการได้ ในบางกรณีพวกเขาถูกต้อง แต่บ่อยครั้งการย้อนกลับอาจเป็นจริงได้

ข้อมูลเพิ่มเติมจะดีกว่าก็ต่อเมื่อเป็นข้อมูลที่เกี่ยวข้องซึ่งเพิ่มลงในภาพรวมทั้งหมด ข้อมูลมีความสอดคล้องกับรูปแบบการเรียนรู้ของเครื่องหรือโปรแกรมสามารถประสบปัญหาจากสิ่งที่เรียกว่า "overfitting" ซึ่งผลลัพธ์การเรียนรู้ของเครื่องไม่ปรากฏในรูปแบบที่ควรจะเป็น

“ สาเหตุของประสิทธิภาพที่ไม่ดีในการเรียนรู้ของเครื่องนั้นอาจทำให้ข้อมูลมากเกินไปหรือมีข้อมูลไม่เพียงพอ” Jason Brownlee เขียนใน Master Learning Machine

ในสถิติความพอดีหมายถึงคุณประมาณฟังก์ชันเป้าหมายได้ดีเพียงใด นี่เป็นคำศัพท์ที่ดีที่จะใช้ในการเรียนรู้ของเครื่องเนื่องจากอัลกอริทึมการเรียนรู้ของเครื่องภายใต้การดูแลพยายามที่จะประมาณฟังก์ชั่นการทำแผนที่ต้นแบบที่ไม่รู้จักสำหรับตัวแปรเอาท์พุท สถิติมักจะอธิบายถึงความดีของความพอดีซึ่งหมายถึงมาตรการที่ใช้ในการประเมินว่าการประมาณของฟังก์ชั่นตรงกับฟังก์ชั่นเป้าหมายได้ดีเพียงใด

การใส่ข้อมูลภายนอกอาจทำให้เกิดปัญหาร้ายแรงได้ ก่อนที่จะตั้งโครงการเรียนรู้ของเครื่องจักรเพื่อทำงานผู้บริหารและผู้มีส่วนได้ส่วนเสียอื่น ๆ จำเป็นต้องระดมสมองและหาว่าข้อมูลประเภทใดที่จะให้พื้นฐานที่ถูกต้องสำหรับการก้าวไปข้างหน้า

ความเชื่อที่ # 2: ข้อมูลที่เรามีดีพอ

อีกครั้งกระบวนการเรียนรู้ของเครื่องทำงานบนแบบจำลองข้อมูลที่แม่นยำมาก ข้อมูลไม่ดีพอยกเว้นว่ามีการกำหนดเป้าหมายอย่างชัดเจนและถูกเลือกหรือประเมินเพื่อพิจารณาสิ่งต่าง ๆ เช่นความลำเอียงและความแปรปรวน

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

สิ่งหนึ่งที่คุณได้ยินมากมายเกี่ยวกับโลกแห่งการเรียนรู้ของเครื่องคืออคติที่ไม่สามารถควบคุมได้ การเรียนรู้ของเครื่องใช้เวลาอคติมนุษย์ของเราและขยายพวกเขาโดยการปั่นข้อมูลที่โปรแกรมได้รับผลลัพธ์ที่รุนแรง

นั่นหมายถึงข้อมูลจะต้องมีการตั้งเป้าหมายเป็นพิเศษเพื่อชดเชยแนวโน้มนี้

ความเชื่อที่ # 3: เร็วเกินไปสำหรับเรา!

บริษัท บางแห่งกังวลว่ามันเร็วเกินไปที่พวกเขาจะได้เรียนรู้การใช้งานเครื่อง แต่ถ้าคุณพูดคุยกับนักประดิษฐ์และผู้ประกอบการจำนวนมากพวกเขาจะบอกว่านี่เป็นเวลาที่จะได้อยู่ชั้นล่าง

ไม่ว่าเทรนด์ไอทีจะอยู่ที่ใดคุณต้องการก้าวไปข้างหน้า ในกองหน้าเป็นตำแหน่งที่ดีที่สุด การรอให้ทุกอย่างสมบูรณ์แบบอาจทำให้ธุรกิจเสียค่าใช้จ่ายในระยะยาว (หากต้องการเรียนรู้เกี่ยวกับเหตุผลเพิ่มเติมว่าทำไมธุรกิจที่ยังไม่ได้ติดตั้ง ML โปรดดู Roadblock 4 รายการที่ทำให้การเรียนรู้ของเครื่องจักรหมดไป)

ตำนาน # 4: การเรียนรู้ของเครื่องเหมือนกันเสมอ

แน่นอนว่ามีโปรแกรมการเรียนรู้ของเครื่องที่หลากหลาย

บางส่วนของพวกเขาหายไปจากอัลกอริทึมเดียว - พวกเขากำลังชัดเจนและโปร่งใสทางคณิตศาสตร์ วิศวกรสามารถดูว่าข้อมูลมีความสัมพันธ์กับสิ่งที่ออกมาจากระบบอย่างไร

กระบวนการเรียนรู้ของเครื่องจักรอื่น ๆ นั้นซับซ้อนและเข้าใจยากกว่ามาก โครงข่ายประสาทเทียมที่ประกอบด้วยเซลล์ประสาทเทียมสามารถกลายเป็น "กล่องดำ" ซึ่งแม้แต่วิศวกรที่ดีที่สุดก็ยังมีข้อมูลการติดตามเวลาที่ยากลำบากผ่านระบบหรืออธิบายวิธีการทำงานของอัลกอริทึม

“ เทคโนโลยีที่มีความสามารถมากที่สุด - กล่าวคือเครือข่ายประสาทลึก - มีความทึบแสงฉาวโฉ่เสนอเบาะแสบางอย่างเกี่ยวกับวิธีที่พวกเขามาถึงข้อสรุปของพวกเขา” Ariel Bleicher นักวิทยาศาสตร์ชาวอเมริกันเขียนไปด้านแง่มุมของปริศนาที่สำคัญนี้

เครื่องมือเช่นเครือข่ายสถานะสะท้อนความคิดกล่องดำนี้และทำงานกับมัน ทำให้การตรวจสอบระบบเหล่านี้ทำงานได้อย่างเต็มที่

ความเชื่อที่ # 5: การเรียนรู้ของเครื่องทำงานได้กับข้อมูลที่ได้รับการดูแลอย่างระมัดระวังเท่านั้น

ในขณะที่จุดด้านบนเกี่ยวกับข้อมูลความแม่นยำยังคงเป็นจริงการเรียนรู้ของเครื่องสองชนิดทำงานบนพื้นฐานที่แตกต่างกันโดยพื้นฐาน

การเรียนรู้ของเครื่องชนิดหนึ่งเรียกว่าการเรียนรู้ของเครื่องที่มีการดูแลจัดการกับข้อมูลที่มีป้ายกำกับ - ข้อมูลการฝึกอบรมมีป้ายกำกับเพื่ออธิบายคุณสมบัติและหมวดหมู่ของมัน

การเรียนรู้ของเครื่องอีกประเภทหนึ่งเรียกว่าการเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล มันเกี่ยวข้องกับข้อมูลที่ไม่มีป้ายกำกับ

การเรียนรู้ของเครื่องที่ไม่ได้รับการจัดการนั้นใช้ข้อมูลดิบและเครื่องจะทำการวิเคราะห์เพื่อหาลักษณะและจัดกลุ่มเป็นหมวดหมู่ด้วยตนเอง มีศักยภาพมากมายในการเรียนรู้ของเครื่องทั้งสองประเภท แต่การติดตั้งโปรแกรมที่มีข้อมูลกำกับไว้สำหรับการเรียนรู้ของเครื่องภายใต้การดูแลนั้นง่ายกว่า การเรียนรู้ของเครื่องที่ไม่ได้รับการสงวนนั้นเป็นน่านน้ำที่ไม่จดที่แผนที่สำหรับหลาย ๆ บริษัท

เหล่านี้คือข้อควรพิจารณาบางประการที่คุณอาจมีและความเข้าใจผิดเกี่ยวกับการเรียนรู้ของเครื่องซึ่งอาจทำให้เกิดปัญหาในการนำไปใช้ในองค์กร หวังว่าสิ่งนี้จะช่วยขจัดความสับสนเกี่ยวกับโครงการเรียนรู้ของเครื่อง