ปัญหาเส้นผมบังภูเขา ของภาวะร่วมเส้นตรงพหุ (Multicollinearity)

ในโลกของ การวิเคราะห์ข้อมูล สิ่งที่สำคัญที่สุดคือการพยายาม สร้างโมเดล ในการทำนายอะไรบ้างอย่าง ที่สามารถช่วยแก้ปัญหา และทำนายอนาคตได้อย่างแม่นยำ ต้องยอมรับว่าในปัจจุบัน มนุษย์ ทำได้ดีมาก จากการนำเอาประสบการณ์ในอดีต มาทำนายอนาคต ซึ่งนั้นคือจุดเด่นของ วิทยาศาสตร์ข้อมูล (Data Science) ในบทบาทนักวิชาการ ปัญหานี้มักจะเกิดขึ้นบ่อย แต่ไม่ได้รับการพูดถึงเท่าไร

แต่มีหลายครั้งที่ โมเดลที่สร้างขึ้นมีลักษณะที่ผิดเพี้ยนไปเพราะความไม่เข้าใจของผู้สร้าง ตัวอย่างเช่น ปัญหา ภาวะร่วมเส้นตรงพหุ (Multicollinearity) ซึ่งเปรียบเหมือน “เส้นผมบังภูเขา”

ทำให้เกิดภาวะที่ Model ที่ใช้พยากรณ์แล้วจะได้ค่าตัวแปรตาม ไม่เหมือนเดิมตลอดเวลา ขึ้นอยู่กับสภาวะของตัวแปรอิสระที่มีสหสัมพันธ์กันด้วย เพราะนอกจากตัวแปรตามจะเปลี่ยนแปลงตามตัวแปรอิสระที่เปลี่ยนไปแล้ว ตัวแปรอิสระบางตัวยังเปลี่ยนแปลงโดยขึ้นอยู่กับตัวแปรอิสระตัวอื่นๆ อีกขั้น เลยเกิดความไม่มีเสถียรภาพของ Model ในต่างเวลากัน

บทความนี้คงไม่กล้าจะสอนจระเข้ให้ว่าน้ำ แต่อยากจะสะท้อน ความจริงบางอย่างที่อาจจะเกิดขึ้นได้ แม้ว่า Multicollinearity อาจจะไม่ได้ทำให้ Model นั้นใช้ ทำนายไม่ได้เลยก็ตาม แต่ก็ทำให้ โมเดลไม่แม่นยำเอาเสียเลย อีกทั้ง ปัญหาจะเกิดที่การจะควบคุมตัวแปรอิสระให้เป็นไปตาม Model จะไม่ใช่เรื่องง่ายอีกต่อไป

แหล่งที่มา: https://www.analyticsvidhya.com/blog/2020/03/what-is-multicollinearity/

ทางแก้ปัญหาอย่างง่ายที่สุดคือ ดูการกระจายตัว เช่นใช้กราฟ Scatter plot และ/หรือ correlation matrix เช่น pearson correlation มีอีกวิธีที่ง่ายกว่าคือ VIF

ขั้นตอนแรกคือ หาปัญหาก่อน

จากนั้นทำการ drop คอลัมน์เจ้าปัญหาออกไป

สรุป

  • ปัญหา ภาวะร่วมเส้นตรงพหุ (Multicollinearity) คือสภาพที่เกิดสหสัมพันธ์ ( Correlation) กันเองระหว่างตัวแปรอิสระในระดับค่อนข้างสูง เมื่อทำการวิเคราะห์ Multiple linear regressions
  • ปัญหา Collinearity เกิดขึ้นเมื่อ ผู้ทำการวิจัยเลือกใช้ Model ที่มีตัวแปรอิสระเกิดสภาพที่เรียกว่ามีสหสัมพันธ์กันระหว่างตัวแปร เช่น อัตราการเสียชีวิตหลังคลอดของทารก ขึ้นอยู่กับระยะเวลาตั้งครรภ์ (สัปดาห์) และ น้ำหนักทารกแรกเกิด(กก.) เกิดจาก เพราะ มีความสัมพันธ์ระหว่าง ตัวแปร ระยะเวลาตั้งครรภ์ (สัปดาห์) และ ตัวแปรน้ำหนักทารกแรกเกิด (กก.) ที่ค่อนข้างสูง
  • สรุปMulticollinearity คือมีสหสัมพันธ์กันเองระหว่างตัวแปรอิสระมากกว่า 2 ตัวขึ้นไป นั่นเอง
รศ. ดร. เชฏฐเนติ ศรีสอ้าน
รศ. ดร. เชฏฐเนติ ศรีสอ้าน

Written by รศ. ดร. เชฏฐเนติ ศรีสอ้าน

รองอธิการบดีฝ่ายเทคโนโลยี มหาวิทยาลัยรังสิต

Responses (1)