สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Logo BDI For web

Big Data

ในบทความนี้ ผมจะมาพาผู้อ่านทุกท่านทำความรู้จักกับ Box Plot แผนภาพอันทรงพลังที่ใช้ในการวิเคราะห์การกระจายตัวของข้อมูล บอกได้เลยว่าสามารถใช้วิเคราะห์ได้ดีไม่แพ้ Histogram เลยครับ! การวิเคราะห์การกระจายตัวของข้อมูล คำถามที่เกี่ยวข้องกับการวิเคราะห์การกระจายตัวของข้อมูล มีอยู่ในชีวิตประจำวันของเราทุกคน ยกตัวอย่างเช่น ซึ่งหลาย ๆ คน จะคุ้นเคยกับการตอบคำถามด้านบนด้วย Histogram ซึ่งก็ถือว่าเป็นตัวเลือก “คลาสสิก” เพราะทุกคนจะเคยเรียนรู้สิ่งนี้มาก่อนในวิชาคณิตศาสตร์

LIME เป็น Model-Agnostic Interpretation Methods สำหรับตีความโมเดล Machine Learning ณ จุดข้อมูลที่สนใจ โดยอาศัยหลักการสร้างโมเดลตัวแทน (Local Surrogate) เพื่ออธิบายว่า ปัจจัยอะไรส่งผลให้โมเดลมีพฤติกรรมการทำนายอย่างที่เห็น ในบทความนี้เราจะมาพูดถึงการใช้งาน LIME กันว่า เทคนิคนี้สามารถนำมาประยุกต์ใช้กับข้อมูลประเภทตาราง (Tabular

โดยปกติฐานข้อมูลจะถูกแบ่งเป็นแบบสัมพันธ์ (SQL) หรือ NoSQL และแบบธุรกรรม (OLTP) แบบเชิงวิเคราะห์ (OLAP) หรือแบบผสม (HTAP) ซึ่งถ้าเทียบกับเมื่อก่อนแล้วนั้นฐานข้อมูลของแผนกและฐานข้อมูลที่ทำขึ้นเพื่อจุดประสงค์พิเศษมีการปรับปรุงให้ดีขึ้นอย่างมากในทางธุรกิจ ความพยายามสร้างฐานข้อมูลที่รวมเป็นหนึ่งเดียวกันสำหรับข้อมูลทั้งหมดทั่วบริษัทถูกจัดให้เป็นระบบทะเลสาบข้อมูล (Data Lakes) หากข้อมูลถูกทิ้งไว้ในรูปแบบเดิม และถูกจัดให้เป็นคลังข้อมูล ( Data Warehouse ) หากข้อมูลถูกเปลี่ยนไปสู่รูปแบบและเค้าร่างที่เหมือนกัน

ธรรมาภิบาลข้อมูล (Data Governance หรือ DG) จะช่วยให้แน่ใจว่าข้อมูลของบริษัทซึ่งเป็นสินทรัพย์ธุรกิจที่มีค่าที่สุดนั้น ( Business Intelligence ) ได้รับการเก็บรักษาและนำไปใช้ได้อย่างมีประสิทธิภาพและปลอดภัยที่สุด ดังนั้นธรรมาภิบาลข้อมูลจึงจำเป็นต้องมีนโยบายขององค์กร กระบวนการ เทคโนโลยี และพนักงานรับผิดชอบในการพัฒนากรอบงานที่นำไปปฏิบัติได้ ตั้งแต่โครงสร้างหลักไปจนถึงระยะเวลาการนำไปใช้ กรอบธรรมาภิบาลข้อมูลบริษัท เป็นกรอบงานแบบองค์รวมที่เกี่ยวข้องกับบุคลากรที่มีคุณสมบัติเหมาะสม รวมถึงนโยบายและกระบวนการที่วางแผนไว้เพื่อใช้งานเทคโนโลยีข้อมูลขั้นสูงให้เกิดประโยชน์สูงสุด อีกทั้งเพื่อให้แน่ใจว่าเป็นการเก็บรักษาและใช้งานข้อมูลในแบบที่มีประสิทธิภาพมากที่สุด

จุดประสงต์หลักของการพัฒนา Machine Learning model นอกเหนือจากการตอบโจทย์การทำนายที่ต้องการแล้วนั้น คือการวิเคราะห์ผลกระทบและความสำคัญ (Importance) ของ feature ของข้อมูลที่มีต่อผลการทำนาย อย่างไรก็ดีโมเดลที่เป็นที่นิยมหลายชนิดนั้นยากที่จะอธิบายได้โดยตรง Model-Agnostic Interpretation Methods เช่น LIME จึงถูกพัฒนาขึ้นเพื่อช่วยผู้ใช้ในการตีความโมเดลทุกประเภท

© Big Data Institute | Privacy Notice