สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Logo BDI For web

Patipan Prasertsom

Data Scientist Expert at Big Data Institute (BDI)

Publishing Time

Jul 15, 2021 -
Big Data 101

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part I

ในปัจจุบันข้อมูลที่มีลักษณะเป็นข้อความ (text) นั้นมีอยู่เป็นปริมาณมากแต่การประมวลผลข้อมูลเหล่านี้ไม่สามารถทำได้อย่างตรงไปตรงมาและจำเป็นต้องมีการจัดเตรียม (preprocess) ให้อยู่ในลักษณะที่เหมาะสมแก่การนำไปคำนวณได้เสียก่อน ซึ่งการจัดเตรียมข้อมูลเหล่านี้สามารถทำได้จากหลากหลายเทคนิคไม่ว่าจะเป็นการทำการประมวลผลพื้นฐานในการใช้เทคนิคพวก Bag of Words หรือ TF-IDF จนไปถึง การทำ word embedding เพื่อพยายามหาตัวแทนความหมายของข้อมูล ในบทความนี้ เราจะมาพูดถึงเทคนิคเบื้องต้น (ซึ่งยังมีการใช้งานอยู่ในปัจจุบัน) ของการทำ word embedding ได้แก่เทคนิคตระกูล Word2Vec ที่มีความซับซ้อนไม่สูงและสามารถทำได้อย่างรวดเร็ว กันครับ

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.