ตัวอย่างสุด Classic ของ นักวิทยาศาสตร์ข้อมูล ตอน การวิเคราะห์แบ่งกลุ่มของดอกไม้สกุล Iris ด้วยการเรียนรู้ของเครื่อง
ตัวอย่างสุด Classics ที่เป็น บทเรียนแรก ๆ ของชาว Data Science คือ ข้อมูลของดอกไม้สกุล Iris ทั้งหมด 150 ดอกซึ่งถูกเก็บรวบรวมจากคาบสมุทรกาสเป (Gaspé) ประเทศแคนาดา โดยเอดการ์ แอนเดอร์สัน (Edgar Anderson) นักพฤกษศาสตร์ (บางครั้งจึงเรียกว่าข้อมูลดอกไม้ของแอนเดอร์สัน) รวบรวมดอกไม้ IRIS ไว้ 3 สายพันธุ์ ได้แก่ Iris setosa, Iris versicolor และ Iris virginica ที่แตกต่างกันและ หน้าตาเหมือนกันจนแถบแยกไม่ออกด้วยการมองดู
และ ในปี 1936 โดยนาย รอนัลด์ ฟิชเชอร์ (Ronald Fisher) นักสถิติได้เผยแพร่ชุดข้อมูลดอกไม้สกุล Iris (หรือ IRIS datasets) และ ถูกนำมาใช้อย่างกว้างขวาง กล่าวได้ว่า ชุดข้อมูลดอกไม้ของฟิชเชอร์ เป็นชุดข้อมูลหนึ่งที่นิยมนำมาใช้เป็นตัวอย่างเพื่อฝึกหรือทดสอบปัญหา การวิเคราะห์แบ่งกลุ่มในการเรียนรู้ของเครื่อง ดาวน์โหลด จาก https://archive.ics.uci.edu/ml/datasets/iris จะได้ไฟล์ชื่อ iris.csv
ใน sklearn ได้ใส่ชุดข้อมูลนี้ไว้ใน datasets แล้ว จึงนำมาใช้ได้ทันที ข้อมูลดอกไม้ประกอบไปด้วย
1) ความยาวกลีบเลี้ยง (sepal length)
2) ความกว้างกลีบเลี้ยง (sepal width)
3) ความยาวกลีบดอก (petal length)
4) ความกว้างกลีบดอก (petal width)
ขั้นตอนที่ 1: เพื่อความง่าย ขอใช้ ข้อมูลดอกไม้สกุล Iris ของ sklearn เพื่อความง่าย ดังรูปที่ 10.1
รูปที่ 10.1: ห้าแถวแรกของตาราง
ขั้นตอนที่ 2: เลือกเฉพาะความยาวกลีบดอก (petal length)และ ความกว้างกลีบดอก (petal width) เพื่อความง่ายต่อความเข้าใจ ดังรูป 10.2
รูปที่ 10–2: เลือกเฉพาะความยาวกลีบดอก และ ความกว้างกลีบดอก
ขั้นตอนที่ 3: ทำการแบ่งข้อมูล เป็นส่วนๆ ทั้งหมด สองส่วน คือ train และ test
ผลการรัน ดังรูปที่ 10.3
รูปที่ 10.3 แสดงจำนวนกลุ่มโดยใช้ scatter plot
ขั้นตอนที่ 4: ด้วยเหตุที่เห็นชัดว่า มี 3 กลุ่ม ชัดเจนจาก scatter plot ในรูปที่ 10.3 กำหนดค่า k=3 เพื่อใช้ k-Means แบ่งกลุ่ม สามกลุ่มและหา ค่า center ใหม่
ผลการรัน
จะเห็นได้ว่า สามกลุ่ม สามสี และมี
กลุ่มที่ 1 จุดศูนย์กลาง ที่[4.26923077,1.34230769]
กลุ่มที่ 2 จุดศูนย์กลาง ที่ [1.464,0.244]
กลุ่มที่ 3 จุดศูนย์กลาง ที่ [5.59583333,2.0375]