Show Articles - Big Data Institute

Peeradon Samasiri, PhD

Senior Project Manager & Data Scientist at Big Data Institute (Public Organization), BDI

ความเคลื่อนไหวระดับประเทศเกี่ยวกับข้อมูลในเศรษฐกิจดิจิทัล กรณีศึกษาสหภาพยุโรป สหราชอาณาจักร และสหรัฐอเมริกา

ภาพที่ 1 (ซ้ายไปขวา) ภาพรัฐสภายุโรปที่เมืองบรัสเซลส์ ประเทศเบลเยียม (Link)ภาพสภาผู้แทนราษฎร (House of Commons) แห่งสหราชอาณาจักร (Link)ภาพสภาผู้แทนประจำคองเกรส (House of Representatives) วอชิงตันดีซี สหรัฐอเมริกา (Link) หากกล่าวถึงสภาพสังคมโลก เทคโนโลยีสื่อสารโทรคมนาคมเป็นส่วนหนึ่งที่ช่วยขับเคลื่อนให้การส่งข้อมูล การจัดการข้อมูล และการใช้ประโยชน์จากข้อมูลเพิ่มขึ้นอย่างมีนัยสำคัญ กล่าวด้วยประจักษ์พยานดังต่อไปนี้ การส่งข้อมูล: เอกสาร Cisco Visual Networking Index ปี 2017-2022...

Nov 22, 2023 -

Big Data 101

ตีความโมเดล Machine Learning: ตัวอย่างและการตีความ Shapley value

การคำนวณ Shapley Value เป็นเทคนิคที่สามารถใช้เพื่อตีความโมเดล Machine Learning ได้ทุกประเภท โดยอาศัยการคำนวณผลกระทบของฟีเจอร์ที่สนใจต่อค่าทำนายเฉลี่ยของเดล เพื่อดูระดับและทิศทางที่ปัจจัยต่าง ๆ ส่งผลต่อการทำงานของโมเดล ในบทความนี้เราจะมาดูตัวอย่างการใช้และตีความ Shapley Value พร้อมข้อดี ข้อจำกัด และข้อเสนอแนะในการใช้งานเทคนิคดังกล่าว

Nov 15, 2023 -

Big Data 101

ตีความโมเดล Machine Learning: หลักการของ Shapley value

การวิเคราะห์ผลกระทบและความสำคัญ (Importance) ของ feature ที่ใช้ในโมเดล Machine Learning นั้นเป็นเครื่องมือสำคัญที่ทำให้นักวิเคราะห์สามารถนำโมเดลไปใช้ได้อย่างมีประสิทธิภาพ การคำนวณ Shapley value เป็นเทคนิคในการตีความโมเดลโดยพิจาณาจากผลกระทบของฟีเจอร์ที่สนใจต่อการผลการทำนายเฉลี่ย โดยสามารถใช้ตามโมเดลได้ทุกประเภทแม้จะเป็นโมเดลที่อธิบายได้ยาก

Feb 10, 2023 -

Data for Business

E-commerce: อีก 1 ธุรกิจที่ให้ความความสำคัญกับบิ๊กดาต้า

บทความนี้ เราจะมาดูกันว่า Big Data สำหรับธุรกิจ E-commerce คืออะไร ข้อดีอะไรบ้างและมีแนวโน้มเป็นอย่างไร

Nov 4, 2022 -

Movements

หรือว่า AI จะไม่เก่งจริง!! - สาเหตุที่ทำให้ AI ยังไม่ถูกนำมาใช้ในชีวิตจริงมากเท่าที่ควร

ตั้งแต่การเรียนรู้เชิงลึก (Deep Learning) ถูกพัฒนาขึ้น ปัญญาประดิษฐ์ก็เข้ามามีบทบาทในชีวิตมนุษย์อย่างมาก ในหลายรูปแบบ ตั้งแต่ในแอปพลิเคชันบนสมาร์ตโฟน กล้องวงจรปิดที่ใช้ตามบ้าน แม้แต่โปรโมชันที่แบรนด์สินค้าเสนอให้กับเราในฐานะลูกค้าในหลายครั้งก็เป็นผลจากการใช้ปัญญาประดิษฐ์ เพื่อประมวลผลทางสถิติว่าโปรโมชันแบบไหนที่แต่ละคนจะตัดสินใจซื้อมากที่สุด ซึ่งในหลายครั้งมันก็ทำให้ลูกค้าจ่ายเงินซื้อสินค้าจากการแนะนำสินค้าได้ตรงใจ หรือแม้กระทั่งการแนะนำวิดีโอในแอปพลิเคชัน TikTok หรือ YouTube เพื่อดึงดูดความสนใจของผู้ใช้ให้รับชมคอนเทนท์ที่ชื่นชอบในระยะเวลาที่ยาวนานที่สุด โดยใช้เทคนิคต่าง ๆ อาทิเช่น Computer Vision เพื่อให้ระบบสามารถแยกแยะเนื้อหาของวีดีโอ และ Natural Language Processing ที่นำมาใช้แยกแยะเนื้อหาที่เป็นภาษา ( ai คือ...

Oct 31, 2022 -

Movements

AI คือคำตอบต่อปัญหาการเปลี่ยนแปลงสภาพภูมิอากาศของอาร์กติกหรือไม่?

โครงการ AI ของ ASU AI วิเคราะห์ข้อมูลขนาดใหญ่ เพื่อช่วยให้นักวิเคราะห์ค้นพบวิธีการแก้ปัญหาโลกร้อนที่อาร์กติก ( AI แก้ปัญหาโลกร้อน ) อาร์กติกกำลังเผชิญวิกฤตทางภูมิอากาศจากการคุกคามของผู้คนในบริเวณนั้นและบริเวณอื่น ๆ ทั่วโลก แม้ว่าเราจะมีวิธีแก้วิกฤตนี้โดยใช้วิธีแก้ปัญหาที่ใช้กันทั่วโลกก็ตาม แต่วิธีเหล่านั้นก็เหมือนจะไม่สามารถทำได้ เป็นเวลาหลายปีมาแล้วที่ดาวเทียมและโดรนได้เก็บข้อมูลทางวิทยาศาสตร์จำนวนมากมายจากพื้นที่อาร์กติกที่ห่างไกลและไม่ได้รับการสำรวจ แต่ปัญหาคือการเก็บข้อมูลเหล่านี้มาเป็นเวลาหลายปีทำให้เรามีข้อมูลมากเกินไป และแทบจะเป็นไปไม่ได้ที่จะตีความข้อมูลเหล่านั้นออกมาได้อย่างมีประสิทธิภาพ ซึ่งหนึ่งในอาจารย์ของมหาวิทยาลัยแอริโซนาสเตต (Arizona State University, ASU) มีความหวังที่จะเปลี่ยนแปลงเรื่องนี้ ในเดือนสิงหาคม เวนเวน ลี (Wenwen Li) กับหุ้นส่วนของเธอได้รับเงินวิจัยจำนวน 1...

Oct 20, 2022 -

Movements

รถ Formula 1 เครื่องผลิตข้อมูลที่วิ่งได้กว่า 300 กิโลเมตร/ชั่วโมง

การแข่งรถ Formula 1 หรือ F1 ซึ่งเป็นการแข่งขันความเร็วของรถยนต์ที่แต่ละค่ายบริษัทรถยนต์พัฒนาขึ้น ถือเป็นหนึ่งในกีฬาที่มีความนิยมสูงที่สุดในโลก อย่างไรก็ดีการตัดสินผู้ชนะในกีฬา F1 มีหลากหลายปัจจัย ไม่ใช่แค่ว่าทีมที่มีรถยนต์ที่เร็วที่สุดในสนามจะเป็นผู้ชนะเสมอไป ดังนั้นการนำข้อมูลมาใช้ให้เกิดประโยชน์สูงสุดเลยเป็นสิ่งจำเป็น พวกเขาข้อมูลกันแบบไหนสามารถติดตามได้ในบทความนี้ครับ

Sep 15, 2022 -

Big Data 101

จะดึงข้อมูลบน CKAN เข้า Power BI อย่างไร

เราจะนำข้อมูลบนแคตตาล็อกมาใช้เพื่อการวิเคราะห์ผ่านการ visualize บนแดชบอร์ดได้อย่างไร

Sep 5, 2022 -

Big Data 101

ตีความโมเดล Machine Learning: การใช้งาน LIME กับข้อมูลตาราง

LIME เป็น Model-Agnostic Interpretation Methods สำหรับตีความโมเดล Machine Learning ณ จุดข้อมูลที่สนใจ โดยอาศัยหลักการสร้างโมเดลตัวแทน (Local Surrogate) เพื่ออธิบายว่า ปัจจัยอะไรส่งผลให้โมเดลมีพฤติกรรมการทำนายอย่างที่เห็น ในบทความนี้เราจะมาพูดถึงการใช้งาน LIME กันว่า เทคนิคนี้สามารถนำมาประยุกต์ใช้กับข้อมูลประเภทตาราง (Tabular Data) ได้อย่างไร

Sep 2, 2022 -

Big Data 101

ตีความโมเดล Machine Learning: หลักการของ LIME

จุดประสงต์หลักของการพัฒนา Machine Learning model นอกเหนือจากการตอบโจทย์การทำนายที่ต้องการแล้วนั้น คือการวิเคราะห์ผลกระทบและความสำคัญ (Importance) ของ feature ของข้อมูลที่มีต่อผลการทำนาย อย่างไรก็ดีโมเดลที่เป็นที่นิยมหลายชนิดนั้นยากที่จะอธิบายได้โดยตรง Model-Agnostic Interpretation Methods เช่น LIME จึงถูกพัฒนาขึ้นเพื่อช่วยผู้ใช้ในการตีความโมเดลทุกประเภท

Aug 31, 2022 -

Movements

Quantum AI: อนาคตของ AI ในยุคหน้า

ภาพศิลปะแสดงเครื่องควอนตัมคอมพิวเตอร์(ที่มา: Shutterstock/Bartlomiej K. Wroblewski) การประมวลผลเชิงควอนตัม (Quantum Computing) และปัญญาประดิษฐ์ (Artificial Intelligence: AI) เป็นเทคโนโลยีที่จะมาทำให้เกิดการเปลี่ยนแปลงในโลกอนาคตอย่างมหาศาล การมีเทคโนโลยี Quantum Computing นั้นเป็นเครื่องมือที่จะช่วยนำพาให้เทคโนโลยี AI มีความก้าวหน้าขึ้นอย่างรวดเร็ว ถึงแม้ว่า AI บนแอปพลิเคชันต่างๆ จะถูกพัฒนาให้ประมวลผลได้บนคอมพิวเตอร์แบบคลาสสิก (Classical Computer) แต่ก็มีข้อจำกัดในเรื่องของความสามารถในการประมวลผล ด้วยเหตุดังกล่าว Quantum Computing จึงเป็นทางออกของการพัฒนาเทคโนโลยีในวงการ AI...

Jul 29, 2022 -

Big Data 101

แนวทางการปฏิบัติที่ดีที่สุด สำหรับการวัดความสำเร็จในการลงทุนด้านดิจิทัล (Digital Transformation)

ในยุคปัจจุบันที่แต่ละองค์กรต่างโฟกัสที่การลงทุนในการเปลี่ยนองค์กรแบบเดิม ๆ ให้กลายเป็นองค์กรดิจิทัล สิ่งสำคัญที่ควรให้ความสนใจเป็นอย่างยิ่งคือการสร้างโครงร่างที่ชัดเจนสำหรับการวัดผลความสำเร็จของ การลงทุนด้านดิจิทัล การเปลี่ยนแปลงสู่ดิจิทัล (Digital-Transformation) นั้นมีด้วยกันหลายองค์ประกอบ อาจเริ่มตั้งแต่การเปลี่ยนแปลงด้านกระบวนการและโมเดลธุรกิจไปจนถึงการเปลี่ยนแปลงด้านวัฒนธรรมและพัฒนาองค์กร การวิเคราะห์เพื่อวัดระดับความสำเร็จการลงทุนด้านดิจิทัลนั้นคำนวณจากดัชนีชี้วัดความสำเร็จ (KPI) ซึ่งบ่งชี้การทำกำไรที่เกิดขึ้นสืบเนื่องจากการลงทุนเพื่อการเปลี่ยนแปลงสู่ดิจิทัลเป็นหลัก ซึ่งการวิเคราะห์เหล่านี้จะช่วยรับรองได้ว่าการลงทุนดังกล่าวจะได้รับผลตอบแทนไม่ต่ำกว่าที่ได้คาดการณ์ไว้ในตอนแรก อย่างไรก็ตาม เมื่อไม่นานมานี้ได้มีการจัดทำแบบสำรวจผู้บริหารระดับ C ทั่วโลกโดย EY-Parthenon ซึ่งได้เปิดเผยว่าในขณะที่บริษัทต่าง ๆ ลงทุนด้านเทคโนโลยีมากขึ้นเป็นสองเท่า แต่พวกเขากลับประสบปัญหาในการวางแผนกลยุทธ์การลงทุนด้านดิจิทัลที่ชัดเจน วิธีการกำกับดูแลแบบศูนย์กลาง ในบรรดาผู้ที่ประสบความสำเร็จนั้น พวกเขามักเลือกใช้วิธีกำกับดูแลแบบเข้าสู่ศูนย์กลางในการจัดการกับผลประโยชน์และค่าใช้จ่ายที่เกี่ยวข้อง อีกทั้งกลุ่มผู้นำเหล่านี้ยังได้พัฒนาโปรแกรมทางการเพื่อใช้ระบุ วัดค่า และรายงานผลลัพธ์การลงทุนทางด้านดิจิทัลอีกด้วย “ปัญหาหลักที่คุณต้องคำนึงคือคุณจะจัดสรรเงินทุนเพื่อทำการเปลี่ยนแปลงสู่ดิจิทัลได้อย่างไร และคุณจะวัดผลตอบแทนการลงทุนได้อย่างไร”...

Jul 29, 2022 -

Movements

อุตุนิยมวิทยา (Meteorology) กับการแลกเปลี่ยนข้อมูลตรวจอากาศก่อนยุคแห่งบิ๊กดาต้า

อุตุนิยมวิทยากับการแลกเปลี่ยนข้อมูลตรวจอากาศก่อนยุคแห่งบิ๊กดาต้า Meteorology and the exchange of weather data before the Bigdata era

Jul 28, 2022 -

Big Data 101

เทคนิคการ Feature Engineering จากพิกัดละติจูด ลองจิจูด

ในปัจจุบัน เราจะพบข้อมูลพิกัดบอกตำแหน่ง ละติจูด (Latitude) และลองจิจูด (Longitude) เป็นจำนวนมาก โดยการนำไปใช้ประโยชน์เชิงวิเคราะห์นั้น หากเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก ในบทความนี้จะทำการอธิบายและนำเสนอตัวอย่างวิธีการ Feature Engineering จากข้อมูลพิกัดจุด การเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก การสร้าง Feature จากข้อมูลพิกัดจุด (Geospatial Data) นั้นจำเป็นต้องใช้ความเข้าใจในความสัมพันธ์จากบริบทของภูมิศาสตร์ กับโจทย์ปัญหาที่เราต้องการแก้ เช่น หากโจทย์ต้องการทำนายราคาบ้าน เราอาจจะเริ่มด้วยการคิดว่ามีปัจจัยใดบ้างที่มีผลต่อราคา เช่น ระยะทางจากสถานีรถไฟฟ้า,...

May 5, 2022 -

Big Data 101

5 เคล็ดลับ เลือกฐานข้อมูลอย่างไรให้เหมาะสม

5 เคล็ดลับ เลือกฐานข้อมูลอย่างไรให้เหมาะสม การเลือกฐานข้อมูลที่ผิดสำหรับแอปพลิเคชันที่ต้องใช้ข้อมูลจำนวนมาก เป็นเหมือนการเปิดประตูสู่ความท้าทายและความซับซ้อนให้เป็นทวีคูณทั้ง ๆ ที่ไม่จำเป็น เชื่อเถอะว่าเลือกฐานข้อมูลให้ถูกแล้วชีวิตจะง่ายขึ้น ( เลือกฐานข้อมูล อย่างไรให้เหมาะสม ) ฐานข้อมูลที่คุณเลือกในวันนี้จะส่งผลต่อแอปพลิเคชันและความพยายามในการพัฒนาของคุณในอนาคต ทว่าการเลือกฐานข้อมูลของนักพัฒนามักเป็นการตัดสินใจทางด้านอารมณ์ และนักพัฒนามักเลือกฐานข้อมูลโดยพิจารณาจากสิ่งที่แอปพลิเคชันของตนต้องการในตอนเริ่มต้นเท่านั้น ส่วนใหญ่นักพัฒนาอาจจะใช้กึ๋นของตัวเองตัดสินใจ เพราะพวกเขาละเลยการวิเคราะห์ว่าฐานข้อมูลจะทำงานดีกับแอปพลิเคชันของพวกเขาในวันนี้และในอนาคตหรือไม่ นักพัฒนาอาจรู้สึกหนักใจที่ต้องเลือกว่าจะใช้ฐานข้อมูลตัวไหน เพราะมันมีอยู่มากมายซึ่งมันจะสร้างความชะงักงัน ตามด้วยวิธีเลือกฐานข้อมูลที่ต้องสอดคล้องว่าแอปพลิเคชันเริ่มต้นขึ้นอย่างไร แต่คุณไม่เคยรู้หรอกว่าแอปจะมีเคสการใช้งานทั้งหมดเป็นอย่างไร และความจริงก็คือการใช้งานในแอปพลิเคชันมักจะเริ่มต้นจากง่าย ๆ ก่อนจะซับซ้อนขึ้นเมื่อเวลาผ่านไป โดยทั่วไปนักพัฒนาอาจเริ่มต้นด้วย PostgreSQL จากนั้นจึงเพิ่ม MongoDB เนื่องจากพวกเขาต้องการทำงานกับข้อมูลกึ่งมีโครงสร้างหรือไม่มี เลยต้องการอะไรที่ยืดหยุ่นขึ้น...

Mar 6, 2022 -

Movements

YouTube recommendation system แนะนำวิดีโอที่น่าสนใจอย่างไร

ที่มา หลักเกณฑ์ และวิวัฒนาการของระบบแนะนำวิดีโอในแพลตฟอร์มวิดีโอชั้นนำของโลกอย่าง YouTube (YouTube recommendation system)

Dec 28, 2021 -

Big Data 101

การจัดทำข้อมูลนิรนาม (Data Anonymization)

ด้วยเหตุที่ความเป็นส่วนตัวกำลังถูกให้ความสำคัญโดยเฉพาะบนโลกดิจิทัลที่ข้อมูลจากแต่ละปัจเจกมีการผลิต และเคลื่อนไหวอยู่ในทุกขณะ นำไปสู่การยกร่างพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 เพื่อปกป้องคุ้มครองความเป็นส่วนตัวของเจ้าของข้อมูลของแต่ละคนไม่ให้ถูกนำไปใช้ในแนวทางที่จะนำไปสู่การละเมิดความเป็นส่วนตัว (Privacy) ของเจ้าของข้อมูลส่วนบุคคล (Data Subject) อย่างไรก็ดีในมุมมองของผู้ประมวลผล หรือผู้ใช้ประโยชน์จากข้อมูลเพื่อการวิเคราะห์นั้น ย่อมหลีกเลี่ยงไม่ได้ที่จะต้องพัวพันกับข้อมูลที่เข้าข่ายเป็นข้อมูลส่วนบุคคล แล้วจะมีทางใดบ้างที่จะช่วยทำให้มั่นใจว่าแนวปฏิบัติของตนนั้นไม่สุ่มเสี่ยงต่อการละเมิดความเป็นส่วนตัวของเจ้าของข้อมูล? แนวปฏิบัติหนึ่งคือการทำให้ข้อมูลส่วนบุคคลเหล่านั้นกลายเป็นข้อมูลที่ไม่สามารถบ่งชี้ตัวบุคคลได้ หรือที่เรารู้จักกันในชื่อของกระบวนการทำให้เป็นนิรนาม (Anonymization) นักวิทยาศาสตร์ข้อมูล (Data Scientist) และผู้วิเคราะห์ข้อมูล (Data Analyst) หลายครั้งจำเป็นต้องมีการประมวลผลข้อมูลส่วนบุคคลเพื่อจะสามารถนำข้อมูลไปใช้ประโยชน์ในการวางแผนการดำเนินการในธุรกิจของหน่วยงาน ด้วยเหตุนี้การปกป้องคุ้มครองข้อมูลเหล่านี้ไม่ให้เสี่ยงต่อการรั่วไหล หรือโจรกรรม การรักษาความปลอดภัย (Security Control) ข้อมูลจึงเป็นสิ่งสำคัญ อย่างไรก็ดี...

Dec 24, 2021 -

Movements

12 เทรนด์เทคโนโลยีเชิงกลยุทธ์ ในปี 2022

เช็คเทรนด์เทคโนโลยีเชิงกลยุทธ์ที่จะมาแรงในปี 2022 ที่จะเข้ามามีบทบาทในภาคธุรกิจ และส่งผลต่ออนาคตในอีก 3-5 ปีข้างหน้า

Nov 4, 2021 -

Big Data 101

SCHEDULING: ตั้งเวลา run Python script บน Linux ด้วย CRON กัน !

“จะเป็นไปได้ไหมที่เราจะตั้งเวลา (schedule) ให้โปรแกรม Python ของเรานั้น ทำงานตามกำหนดเวลาโดยอัตโนมัติ” ในบทความนี้ เราจะพาเพื่อน ๆ ไปรู้จักและทดลองใช้ CRON เครื่องมือที่จะมาช่วยให้เราสามารถตั้งเวลาทำงานของ Python script โดยอัตโนมัติบน Linux กัน

Oct 18, 2021 -

Big Data 101

เชื่อมต่อข้อมูลการเงินจากธนาคารแห่งประเทศไทย (BOT) ด้วยโค้ดไพธอนและไมโครซอฟต์เอ็กเซล

บทความนี้เราจะมาทดสอบการเรียกใช้ข้อมูลจากเว็บไซต์บริการข้อมูลของธนาคารแห่งประเทศไทย เพื่อนำมาแสดงผล ผ่านสองรูปแบบ 1) การเขียนโค้ดภาษา Python และ 2) การดึงข้อมูลด้วยโปรแกรมไมโครซอฟต์เอ็กเซลผ่าน Power Query

Oct 7, 2021 -

Movements

PDPA and You: มาทำความเข้าใจกับกฎหมายคุ้มครองข้อมูลส่วนบุคคล

“เราถ่ายรูปกับเพื่อนแล้วอัปโหลดลงโซเชียล ผิด PDPA ไหมนะ เพื่อนฟ้องเราได้หรือเปล่า?” “การใช้ภาพจากกล้องติดหน้ารถยนต์ที่ถ่ายเห็นคนอื่นบนถนนมาเป็นหลักฐานตอนเกิดอุบัติเหตุ ถือเป็นการละเมิดความเป็นส่วนตัวหรือไม่?” บทความนี้จะมาไขข้อข้องใจกับคำถามทั่ว ๆ ไปที่หลายคนสงสัยเกี่ยวกับ PDPA หรือ พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคลที่จะเริ่มบังคับใช้ภายในกลางปีหน้า จากผู้เชี่ยวชาญด้าน PDPA ทั้ง 3 ท่าน ที่ได้ให้เกียรติมาร่วมสนทนาพูดคุยใน Clubhouse event เมื่อวันที่ 30 กันยายน ที่ผ่านมา โดยเราได้สรุปเนื้อหาและประเด็นที่น่าสนใจต่าง ๆ ที่ได้จากการพูดคุยมาให้ได้อ่านกันค่ะ Clubhouse event...

Aug 4, 2021 -

Big Data 101

VSCode DevContainer: เครื่องมือพัฒนาสารพัดใช้

DevContainer คืออะไร? ผู้อ่านเคยประสบกับปัญหาการพัฒนาโปรแกรมแบบนี้บ้างหรือเปล่า? ทำไมกว่าจะ Build ได้มันยากจังง? ทำไมต้อง Install อะไรหลายอย่าง? Project นี้ Framework ใช้ Version อะไรนะ? เครื่องเพื่อน Build ผ่านทำไมเครื่องฉัน Build พัง? หากปัญหาที่กล่าวมาฟังดูคู้นนน คุ้น ผู้เขียนคิดว่า DevContainer จะเป็นตัวเลือกหนึ่งที่สามารถใช้แก้ปัญหาดังกล่าวได้ สำหรับบทความนี้ผู้เขียนขออนุมานก่อนว่าผู้อ่านคุ้นชินกับ Docker อยู่แล้วประมาณหนึ่ง (แต่ถ้ายังไม่เคยลอง ท่านผู้อ่านสามารถเริ่มทำความรู้จักกับ...

Jul 26, 2021 -

Big Data 101

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part II

หลังจากที่เราได้พูดถึงหลักการทำงานของโมเดลเบื้องต้นในการทำ word embedding ได้แก่โมเดล CBOW และ Skip-gram ไปแล้ว ในบทความนี้ เราจะมาพูดถึงวิธีการนำผลลัพธ์ที่ได้จากการฝึกฝนของโมเดลในตระกูล Word2Vec สองโมเดลนี้มาทำการสร้างตัวแทนเชิงความหมายของคำและเอกสาร พร้อมทั้งลองเขียนโค้ดง่ายๆ เพื่อลองประยุกต์ใช้งานกันครับ

Jul 15, 2021 -

Big Data 101

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part I

ในปัจจุบันข้อมูลที่มีลักษณะเป็นข้อความ (text) นั้นมีอยู่เป็นปริมาณมากแต่การประมวลผลข้อมูลเหล่านี้ไม่สามารถทำได้อย่างตรงไปตรงมาและจำเป็นต้องมีการจัดเตรียม (preprocess) ให้อยู่ในลักษณะที่เหมาะสมแก่การนำไปคำนวณได้เสียก่อน ซึ่งการจัดเตรียมข้อมูลเหล่านี้สามารถทำได้จากหลากหลายเทคนิคไม่ว่าจะเป็นการทำการประมวลผลพื้นฐานในการใช้เทคนิคพวก Bag of Words หรือ TF-IDF จนไปถึง การทำ word embedding เพื่อพยายามหาตัวแทนความหมายของข้อมูล ในบทความนี้ เราจะมาพูดถึงเทคนิคเบื้องต้น (ซึ่งยังมีการใช้งานอยู่ในปัจจุบัน) ของการทำ word embedding ได้แก่เทคนิคตระกูล Word2Vec ที่มีความซับซ้อนไม่สูงและสามารถทำได้อย่างรวดเร็ว กันครับ

Mar 26, 2021 -

Big Data 101

Logistic Regression ด้วย Microsoft Excel

บทความนี้จะมานำเสนอการทำโมเดลโดยใช้เครื่องมือง่าย ๆ ที่หลายคนมีอยู่ติดเครื่องคอมพิวเตอร์อยู่แล้ว นั่นก็คือโปรแกรม Microsoft Excel

May 5, 2020 -

Showroom

ดาต้าแคตตาล็อก (Data Catalog) จะช่วยเตรียมความพร้อมรับมือ COVID-19 ได้อย่างไร

จะมีวิธีการใดที่จะสามารถช่วยให้เราสามารถเข้าใจถึงแหล่งข้อมูลและลักษณะของข้อมูลเหล่านี้ได้ง่ายขึ้นบ้างหรือไม่ จากคำถามนี้สถาบันส่งเสริมการวิเคราะห์และบริหารข้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Institute: GBDi) จึงได้มีส่วนเข้าไปช่วยศูนย์บริหารสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนา 2019 (ศบค.) จัดทำแคตตาล็อกข้อมูล (Data Catalog) เพื่อให้เจ้าหน้าที่ บุคลากร หรือผู้ที่เกี่ยวข้องได้สามารถรับรู้ เข้าใจถึงแหล่งข้อมูลเหล่านี้ได้สะดวกรวดเร็วมากขึ้น

Mar 27, 2020 -

Movements

10 อันดับเทรนด์เทคโนโลยีในปี 2563

เรากำลังอยู่ในยุคของการเปลี่ยนแปลงและพัฒนาด้านเทคโนโลยีอย่างรวดเร็ว โดยเฉพาะเทคโนโลยีด้านการคำนวณบนคลาวด์, ปัญญาประดิษฐ์, บล็อกเชน, และข้อมูลอัจฉริยะ ซึ่งล้วนแล้วแต่เป็นปัจจัยเร่งสำคัญในด้านเศรษฐกิจดิจิทัล

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.

ตีความโมเดล Machine Learning: ตัวอย่างและการตีความ Shapley value

ตีความโมเดล Machine Learning: หลักการของ Shapley value

E-commerce: อีก 1 ธุรกิจที่ให้ความความสำคัญกับบิ๊กดาต้า

หรือว่า AI จะไม่เก่งจริง!! - สาเหตุที่ทำให้ AI ยังไม่ถูกนำมาใช้ในชีวิตจริงมากเท่าที่ควร

AI คือคำตอบต่อปัญหาการเปลี่ยนแปลงสภาพภูมิอากาศของอาร์กติกหรือไม่?

รถ Formula 1 เครื่องผลิตข้อมูลที่วิ่งได้กว่า 300 กิโลเมตร/ชั่วโมง