การแจกแจงแบบปกติสำคัญอย่างไร? พร้อมวิธีพิสูจน์?
เราได้รับการสอนมาแบบให้ท่องไว้เลยว่า ต้องการแจงแจกแบบปกติ เท่านั้น มิเช่นนั้น ไม่ต้องคุยกัน เพราะ ถ้าข้อมูลแบบค่าต่อเนื่อง มีการแจกแจกแบบปกติ (Normal distribution) ถึงจะสามารถทำการ วิเคราะห์แล้วได้ผลที่แม่นยำ ซึ่งก็เป็นความจริงเสียด้วย เพราะหาก การแจกแจงไม่เป็นการกระจายแบบปกติ ผลการวิเคราะห์จะมีความคลาดเคลื่อนอย่างมาก
“ตัวอย่างง่ายๆเพื่อให้เห็นภาพ สมมุติว่า มหาวิทยาลัยขนาดใหญ่แห่งหนึ่งมีพนักงานทั้งหมดประมาณ 2,000 คน ต้องการจะช่วยค่าเดินทางมาทำงานแก่พนักงานโดยจะต้องเก็บข้อมูลระยะห่างจากบ้านถึงที่ทำงานของพนักงานทุกคนเพื่อนำมาหาค่าเฉลี่ย เพื่อจะได้ประมาณการถูกว่าควรเพิ่มค่าเดินทางให้กับพนักงานแค่ไหน แต่การเก็บข้อมูลทั้งหมดอาจจะเหนื่อยและยุ่งยากเกินไปที่จะตรวจสอบทุกคน วิธีแบบง่ายๆ คือ แทนที่จะถามพนักงานทั้งหมด เราอาจใช้การสุ่มตัวอย่างมาถามแทน เช่น สุ่มพนักงานมา 10 คนเพื่อหาค่าเฉลี่ยครั้งที่ 1, แล้วสุ่มพนักงานมาอีก 10 คนเพื่อหาค่าเฉลี่ยครั้งที่ 2 … ทำแบบนี้หลายๆครั้งจะได้ ค่าเฉลี่ยจำนวนมาก”
จากทฤษฎี central limit theorem แสดงให้เห็นว่าหากนำค่าเฉลี่ยจากกลุ่มตัวอย่างเหล่านี้มาเขียนกราฟจะได้การแจกแจงแบบปกติเสมอ ไม่ว่าการแจกแจงของประชากรจริงๆ จะมีลักษณะอย่างไรก็ตาม ทำให้เราสามารถใช้ วิธีการสถิติแบบอนุมาน มาช่วยคำนวณ แบบไม่เหนื่อย
วิธีพิสูจน์ว่า ข้อมูลมีการแจกแจงแบบปกติหรือไม่
วิธีที่ 1: ง่ายสุดคือใช้ histogram ด้วย ไลบารี Seaborn
วิธีที่สอง คือ คำนวณ ค่าด้วย shapiro wilk test
วิธีที่ 3 คือ ใช้ qqplot
จะเห็นได้ว่า เราสามารถพิสูจน์การกระจายตัวก่อนเริ่มทำการวิเคราะห์ ข้อมูล แบบง่ายๆ ดังที่กล่าวมา ในตอนต่อไป เราจะมาพูดถึง การวิเคราะห์ข้อมูลที่ มีการกระจายตัวแบบไม่ปกติ ซึ่งในวงการ จะให้ความสำคัญมากกว่าแล้วเพราะข้อมูล Big data รุ่นใหม่มักจะเป็นแบบ ไม่ปกติ ครับ