การคาดการณ์ยอดขายธุรกิจออนไลน์ด้วย อัลกอริทึมการถดถอยของป่าแบบสุ่ม
วันนี้ขอคุยรูปแบบธุรกิจออนไลน์แนวใหม่ ที่มาแรงที่มาจากแนวคิด การนำเอา Big data มาใช้ ทำให้เกิดการแข่งขันรูปแบบใหม่ และ ในกรณีของเราคือ การวิเคราะห์ข้อมูลรูปแบบใหม่ เช่นกันครับ
จากข้อมูลมาจากKaggle [https://www.kaggle.com/jmmvutu/summer-products-and-sales-in-ecommerce-wish] ของ ธุรกิจ Wish (แอปช๊อปปิ้งออนไลน์) เฉพาะข้อมูลการขายเสื้อผ้าฤดูร้อน ซึ่ง ได้แก่ คำอธิบายผลิตภัณฑ์การให้คะแนนไม่ว่าจะใช้การเพิ่มโฆษณาหรือไม่เพิ่มข้อความเร่งด่วนในรายการผลิตภัณฑ์หรือไม่และจำนวนหน่วยที่ขายเป็นต้น ลักษณะข้อมูลจะไม่เหมือนธุรกิจทั่วไป และเป็นที่มาขอบทความนี้ ด้วยเหตุผลของความไม่เหมือนของลักษณะการทำธุรกิจแนวใหม่ (แอปช๊อปปิ้งออนไลน์) ทำให้รูปแบบข้อมูล อาจจะไม่มีการกระจายตัวแบบปกติ และ ไม่เป็นเชิงเส้น ในบทความนี้จึงเลือกใช้ การถดถอยของป่าแบบสุ่ม(Random Forest Regression) เพื่อใช้ในการวิเคราะห์แทน Linear regression
ในชุดข้อมูล จาก Kaggle สิ่งที่ต้องการทำนายคือ จำนวนหน่วยที่ขาย เพื่อที่จะทำการคาดการณ์การวางแผนสินค้าคงคลังที่ต้องประมาณจำนวนสินค้าที่จะสั่งซื้อหรือผลิตเท่านั้น นอกจากนี้ การวางแผนการขายต้องเข้าใจว่าผลิตภัณฑ์เคลื่อนไหวอย่างไรในการตั้งค่าอีคอมเมิร์ซ
1. เกริ่นถึงธุรกิจ Wish
ก่อนอื่น ขอเกริ่นถึงธุรกิจ Wish (แอปช๊อปปิ้งออนไลน์) สักเล็กน้อย Wish ถูกก่อตั้งขึ้นเริ่มแรกในปี 2010 โดย Peter Szulczewski อดีต Software Engineer ของ Google ในชื่อว่า ContextLogic แต่ภายหลังจากได้รับเงินทุนจาก Yelp (แอปรีวิวชื่อดังเหมือน Wongnai ของไทย) ในเดือน พ.ค. ปี 2011 Peter และเพื่อนของเขา Danny Zhang ได้ร่วมกันเปลี่ยนชื่อธุรกิจกลายเป็น Wish ในปัจจุบัน
Wish เป็นแอปช๊อปปิ้งออนไลน์ที่ใช้ Big Data ในการทำ Personalization เพื่อให้ได้สินค้าที่ตรงความต้องการต่อลูกค้าและถูกที่สุด ซึ่งสินค้าส่วนใหญ่ของ Wish เป็นสินค้าที่ไม่มีแบรนด์อย่างพวกสินค้าที่ธุรกิจรายย่อยชอบขายโดยไม่ผ่านตัวกลาง หรือพวกจากโรงงานจีน ซึ่งพวกการดีไซน์ตัวแอปหรือหน้าเว็บก็ดีไซน์ออกมาเรียบๆ ไม่ได้มีความสวยงามอะไร สิ่งที่พิเศษอย่างเดียว คือ ราคา ล้วนๆ และนี่คือสถิติเพื่อให้เพื่อนๆมั่นใจจริงๆว่าคอนเซปต์แบบนี้ก็เวิร์กได้
· อันดับ #1 แอปช๊อปปิ้งใน 42 ประเทศ
· อันดับ #1 ยอดดาวน์โหลดแอปช๊อปปิ้งทั่วโลกปี 2019
· มูลค่าธุรกิจ 1.1 หมื่นล้านเหรียญสหรัฐ ด้วยยอดขายในปี 2018 กว่า 1.9 พันล้าน
2. การนำเข้าและทำความสะอาดข้อมูล
การนำเข้าข้อมูลและการปรับแต่งทั้งหมดจะทำผ่าน python พร้อมกับแพนด้าและไลบรารี numpy
บรรทัด df[“discount”] สร้างคอลัมน์ใหม่ชื่อ “ส่วนลด” ซึ่งจะคำนวณส่วนลดของผลิตภัณฑ์เทียบกับราคาขายปลีกที่ระบุไว้
บรรทัดด้านบนสร้างคอลัมน์ใหม่ห้าคอลัมน์โดยให้เปอร์เซ็นต์ของบทวิจารณ์ห้าสี่สามสองและหนึ่งดาวสำหรับทุกผลิตภัณฑ์ในชุดข้อมูล
ข้อมูลโค้ดด้านบนจะแสดงคอลัมน์ที่สร้างขึ้นใหม่ทั้งหมดและตรวจสอบว่าค่าที่ป้อนอยู่ระหว่าง 0 ถึง 1 หากไม่เป็นเช่นนั้นระบบจะแทนที่ด้วย 0 ซึ่งเป็นการทดแทนที่เพียงพอ
3. การสำรวจข้อมูลเพื่อดูกการกระจายตัวของข้อมูล
นอกจากนี้แนวโน้มของแผนกระจายที่จะจัดเรียงเป็นบรรทัดเป็นหลักฐานว่าหน่วยที่ขายมีแนวโน้มที่จะประมาณการมากกว่าตัวเลขที่คาดไว้
หากไม่มีข้อมูลเพิ่มเติมเกี่ยวกับเวลาที่ซื้อและเมื่อมีการโพสต์การให้คะแนนก็ยากที่จะแยกแยะสาเหตุของความสัมพันธ์โดยปราศจากความรู้เกี่ยวกับโดเมนเพิ่มเติม
3. การถดถอยของป่าสุ่ม(Random Forest Regression)
โครงสร้างการตัดสินใจจะตอบคำถามแต่ละข้อก่อนที่จะมาถึงการคาดคะเน ในขณะที่ผู้เชี่ยวชาญบางคนเข้าใจง่ายและตามที่ผู้เชี่ยวชาญบางคนสร้างแบบจำลองพฤติกรรมของมนุษย์ที่แท้จริงได้ดีกว่าเทคนิคการเรียนรู้ของเครื่องอื่น ๆ แต่ก็มักจะใส่ข้อมูลมากเกินไปซึ่งหมายความว่าพวกเขามักจะให้ผลลัพธ์ที่แตกต่างกันอย่างมากกับชุดข้อมูลที่คล้ายคลึงกัน
การถดถอยแบบสุ่มของฟอเรสต์เป็นผลลัพธ์โดยเฉลี่ยของชุดต้นไม้การตัดสินใจ เพื่อแก้ปัญหาโครงสร้างการตัดสินใจหลายชุดจะถูกนำมาจากชุดข้อมูลเดียวกันบรรจุถุงและค่าเฉลี่ยของผลลัพธ์จะถูกส่งกลับ สิ่งนี้เรียกว่าการ “ถดถอยของป่าสุ่ม”
4. เราจะใช้ “ถดถอยของป่าสุ่ม” เมื่อไหร่
ข้อได้เปรียบหลักคือการคาดการณ์ที่แม่นยำกับข้อมูลที่ไม่ใช่เชิงเส้นสูง ในชุดข้อมูล Wish ความสัมพันธ์ที่ไม่ใช่เชิงเส้นจะเห็นในการให้คะแนน ไม่มีความสัมพันธ์ที่ดีและเห็นได้ง่าย แต่จุดตัดที่ต่ำกว่าสามดาวและสูงกว่าสี่และครึ่งนั้นมองเห็นได้ชัดเจน การถดถอยแบบสุ่มของฟอเรสต์สามารถจดจำรูปแบบนี้และรวมเข้ากับผลลัพธ์ได้ อย่างไรก็ตามในการถดถอยเชิงเส้นแบบดั้งเดิมมากขึ้นมันเป็นเพียงการคาดเดาเท่านั้น
นอกจากนี้ลักษณนามฟอเรสต์แบบสุ่มยังมีประสิทธิภาพสามารถจัดการกับตัวแปรอินพุตจำนวนมากและโดยปกติจะทำการคาดเดาได้อย่างแม่นยำ เป็นเครื่องมือที่ทรงพลังอย่างเหลือเชื่อและไม่ต้องใช้โค้ดมากเกินไปในการติดตั้ง
5. การใช้การถดถอยป่าสุ่ม
5. ผลการวิเคราะห์
ชุดข้อมูล Wish นำเสนอที่สามารถใช้แก้ปัญหาในโลกแห่งความเป็นจริงได้ ด้วยการจัดการข้อมูลเพียงเล็กน้อยการถดถอยของฟอเรสต์แบบสุ่มได้รับการพิสูจน์แล้วว่าเป็นเครื่องมือล้ำที่ทำนายได้แม่นยำ