สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Logo BDI For web

การจัดทำข้อมูลนิรนาม (Data Anonymization)

Dec 28, 2021

ด้วยเหตุที่ความเป็นส่วนตัวกำลังถูกให้ความสำคัญโดยเฉพาะบนโลกดิจิทัลที่ข้อมูลจากแต่ละปัจเจกมีการผลิต และเคลื่อนไหวอยู่ในทุกขณะ นำไปสู่การยกร่างพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 เพื่อปกป้องคุ้มครองความเป็นส่วนตัวของเจ้าของข้อมูลของแต่ละคนไม่ให้ถูกนำไปใช้ในแนวทางที่จะนำไปสู่การละเมิดความเป็นส่วนตัว (Privacy) ของเจ้าของข้อมูลส่วนบุคคล (Data Subject) อย่างไรก็ดีในมุมมองของผู้ประมวลผล หรือผู้ใช้ประโยชน์จากข้อมูลเพื่อการวิเคราะห์นั้น ย่อมหลีกเลี่ยงไม่ได้ที่จะต้องพัวพันกับข้อมูลที่เข้าข่ายเป็นข้อมูลส่วนบุคคล แล้วจะมีทางใดบ้างที่จะช่วยทำให้มั่นใจว่าแนวปฏิบัติของตนนั้นไม่สุ่มเสี่ยงต่อการละเมิดความเป็นส่วนตัวของเจ้าของข้อมูล? แนวปฏิบัติหนึ่งคือการทำให้ข้อมูลส่วนบุคคลเหล่านั้นกลายเป็นข้อมูลที่ไม่สามารถบ่งชี้ตัวบุคคลได้ หรือที่เรารู้จักกันในชื่อของกระบวนการทำให้เป็นนิรนาม (Anonymization)

นักวิทยาศาสตร์ข้อมูล (Data Scientist) และผู้วิเคราะห์ข้อมูล (Data Analyst) หลายครั้งจำเป็นต้องมีการประมวลผลข้อมูลส่วนบุคคลเพื่อจะสามารถนำข้อมูลไปใช้ประโยชน์ในการวางแผนการดำเนินการในธุรกิจของหน่วยงาน ด้วยเหตุนี้การปกป้องคุ้มครองข้อมูลเหล่านี้ไม่ให้เสี่ยงต่อการรั่วไหล หรือโจรกรรม การรักษาความปลอดภัย (Security Control) ข้อมูลจึงเป็นสิ่งสำคัญ อย่างไรก็ดี ไม่มีการรักษาความปลอดภัยใดสามารถการันตีว่าจะไม่ถูกโจมตีได้ 100% จึงนำไปสู่หลักการการเก็บ (และประมวลผล) ข้อมูลเฉพาะในส่วนที่สำคัญจำเป็น เก็บเฉพาะข้อมูลที่ต้องใช้ ตัวอย่างหนึ่งได้แก่การเปิดบัญชีกับธนาคารพาณิชย์ ธนาคารย่อมจำเป็นต้องใช้ข้อมูลระบุตัวบุคคล ได้แก่ ชื่อ นามสกุล เลขประจำตัวประชาชน ในขณะที่ข้อมูลศาสนา ที่แม้จะปรากฏบนหน้าบัตรประชาชน แต่อาจไม่ได้มีความจำเป็นใดในการดำเนินธุรกรรมระหว่างลูกค้ากับธนาคาร

สำหรับการวิเคราะห์ข้อมูล (Data Analytics) นั้น โดยทั่วไปเราให้ความสำคัญกับภาพรวมแนวโน้มข้อมูลเพื่อวางแผนนโยบายเป็นสำคัญ การบ่งชี้ระบุตัวบุคคล (Identifying) นอกจากจะไม่ใช่สิ่งที่ไม่จำเป็นแล้วยังเป็นเรื่องที่พึงหลีกเลี่ยง เนื่องจากหากผู้วิเคราะห์สามารถล่วงรู้เจ้าของข้อมูลทั้งโดยตั้งใจและไม่ตั้งใจ อาจเกิดการดูแลอย่างเป็นพิเศษ (Special Treatment) อันจะนำไปสู่การวิเคราะห์ข้อมูลอย่างมีอคติ (Bias) ได้

ข้อมูลที่เข้าข่ายเป็นข้อมูลส่วนบุคคล

โดยทั่วไปเราอาจจำแนกประเภทข้อมูลออกเป็น 3 ประเภท ขึ้นกับดีกรีความเข้มข้นในความสามารถในการระบุตัวตนเจ้าของข้อมูล ดังนี้

  1. ข้อมูลส่วนบุคคล (Personal Data) คือข้อมูลที่ทำให้สามารถระบุตัวบุคคลนั้นได้ ทั้งนี้การระบุตัวบุคคลอาจทำได้เนื่องจากเลขหรือรหัสประจำตัว รวมไปถึงข้อมูลปัจจัยหนึ่งหรือหลายปัจจัยร่วมกัน เช่น ข้อมูลกายภาพ, ข้อมูลประชากร, ข้อมูลเศรษฐกิจ, ข้อมูลสังคม, ข้อมูลความเชื่อ ฯลฯ ทั้งนี้พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 ได้ให้คำจำกัดความข้อมูลส่วนบุคคลไว้ในมาตรา 6 ว่าคือ “ข้อมูลเกี่ยวกับบุคคลซึ่งทำให้สามารถระบุตัวบุคคลนั้นได้ไม่ว่าทางตรงหรือทางอ้อม”
  2. ข้อมูลนิรนาม (Anonymous Data) ได้แก่ ข้อมูลซึ่งการระบุตัวตนเจ้าของข้อมูลไม่สามารถเป็นไปได้ ไม่ว่าจะโดยผู้ประมวลผลข้อมูล หรือบุคคลอื่นใด แนวปฏิบัติกฎหมายคุ้มครองข้อมูลของ EU กำหนดเกณฑ์ความเป็นนิรนามของข้อมูลไว้สูง กล่าวคือ ข้อมูลชิ้นหนึ่งจะเป็นข้อมูลนิรนามได้ต่อเมื่อไม่สามารถระบุตัวตนเจ้าของข้อมูลได้ไม่ว่าโดยวิธีการใด ด้วยเหตุนี้กฎหมาย GDPR จึงไม่บังคับใช้กับข้อมูลนิรนาม
  3. ข้อมูลแฝง (Pseudonymous Data) ได้แก่ ข้อมูลที่ผ่านกระบวนการแฝงหรือพรางข้อมูลบ่งชี้ตัวบุคคลเอาไว้ โดยอาจใช้วิธีเปลี่ยนข้อมูลที่ระบุตัวบุคคล (Identifier) ด้วยข้อมูล เลข หรือรหัสอื่น ข้อแตกต่างทางกฎหมายของข้อมูลแฝงและข้อมูลนิรนามได้แก่การที่กฎหมาย GDPR ยังบังคับใช้กับข้อมูลแฝงด้วย เนื่องจากเราสามารถระบุตัวตนเจ้าของข้อมูลแฝงได้

“ข้อมูลส่วนบุคคล หมายความว่า ข้อมูลเกี่ยวกับบุคคลซึ่งทำให้สามารถระบุตัวบุคคลนั้นได้ไม่ว่าทางตรงหรือทางอ้อม”

พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 มาตรา 6

กระบวนการลดความเสี่ยงการระบุตัวตนของเจ้าของข้อมูลให้อยู่ในเกณฑ์น้อยมากจนแทบไม่ต้องให้ความสำคัญกับความเสี่ยง เรียกว่า การทำให้เป็นนิรนาม (anonymization) ถึงแม้ข้อมูลนิรนามจะไม่ถือเป็นข้อมูลส่วนบุคคล ดังจะเห็นได้จากการที่กฎหมายคุ้มครองข้อมูลส่วนบุคคลสหภาพยุโรป (GDPR) ซึ่งถือเป็นกฎหมายต้นแบบของพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคลของไทย  ไม่ถูกบังคับใช้กับข้อมูลที่เป็นข้อมูลนิรนาม ดังระบุในอารัมภบท GDPR (Recital) ข้อที่ 26 ซึ่งให้คำจำกัดความของข้อมูลข่าวสารนิรนามว่าคือ “…ข้อมูลที่ไม่สัมพันธ์กับบุคคลที่ถูกระบุตัวตนหรือสามารถระบุตัวตนได้ใด ๆ หรือข้อมูลส่วนบุคคลที่ถูกทำให้ระบุตัวตนไม่ได้ด้วยวิธีการที่ทำให้ไม่สามารถระบุตัวตนเจ้าของข้อมูลได้หรือไม่สามารถระบุตัวตนได้อีกต่อไป ดังนั้นข้อกำหนดนี้ไม่เกี่ยวข้องกับการประมวลข้อมูลนิรนามอันรวมไปถึงเพื่อวัตถุประสงค์ทางสถิติหรือการวิจัย”

“ข้อมูลนิรนาม ได้แก่ ข้อมูลที่ไม่สัมพันธ์กับบุคคลที่ถูกระบุตัวตนหรือสามารถระบุตัวตนได้ใด ๆ หรือข้อมูลส่วนบุคคลที่ถูกทำให้ระบุตัวตนไม่ได้ด้วยวิธีการที่ทำให้ไม่สามารถระบุตัวตนเจ้าของข้อมูลได้หรือไม่สามารถระบุตัวตนได้อีกต่อไป ดังนั้นข้อกำหนดนี้ไม่เกี่ยวข้องกับการประมวลข้อมูลนิรนามอันรวมไปถึงเพื่อวัตถุประสงค์ทางสถิติหรือการวิจัย”

อารัมภบท GDPR (Recital) ข้อที่ 26

อย่างไรก็ดีศูนย์วิจัยกฎหมายและพัฒนา คณะนิติศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้ตั้งข้อพึงระวังว่า แม้ลำพังชุดข้อมูลที่ผ่านการทำให้เป็นนิรนามอาจสามารถระบุตัวตนเจ้าของข้อมูลได้ยากจนถึงขั้นไม่ได้เลย แต่หากวันดีคืนดีหากมีข้อมูลแวดล้อมเพิ่มเติมอาจทำให้สามารถระบุตัวตนเจ้าของข้อมูลได้ เนื่องจากข้อมูลเดิมอาจยังมีความสามารถในการถูกนำไปเชื่อมโยง (Linkability) เพื่อนำไปพิจารณาร่วมกับข้อมูลแวดล้อมอื่น นั่นหมายความว่าข้อมูลที่ผ่านการทำให้เป็นนิรนาม “อาจ” ยังคงเข้าข่ายนิยามของข้อมูลส่วนบุคคลตามที่ระบุไว้ในพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 มาตรา 6 หากสามารถระบุตัวบุคคลได้ในทางอ้อม

เทคนิควิธีการจัดทำข้อมูลนิรนาม (Anonymization)

เพื่อกำหนดแนวทางในการแปลงข้อมูลส่วนบุคคลให้เป็นข้อมูลนิรนาม คณะที่ปรึกษาผู้เชี่ยวชาญสหภาพยุโรปด้านการคุ้มครองข้อมูลส่วนบุคคล ได้เผยแพร่แนวปฏิบัติว่าด้วยเทคนิคการจัดทำข้อมูลนิรนามในความเห็น WP216 (2014) โดยแบ่งกลุ่มเทคนิคการจัดทำข้อมูลนิรนามออกเป็นสองพวก ได้แก่

  1. การทำให้คละ (Randomization) เน้นการปรับข้อมูลให้มีลักษณะคละเคล้า เปลี่ยนไปจากข้อมูลเดิม โดยเป้าประสงค์เพื่อตัดความสัมพันธ์ระหว่างบุคคลกับชิ้นข้อมูลโดยไม่เสียคุณค่าข้อมูล ตัวอย่างเทคนิคในกลุ่มการทำให้คละ เช่น การเพิ่มตัวเลขรบกวน (Noise Addition), การสับเปลี่ยนใหม่ (Permutation) และ ความเป็นส่วนตัวที่แตกต่างกัน (Differential Privacy)
    1. การเพิ่มตัวเลขรบกวน (Noise Addition) เป็นการเพิ่มตัวเลขสุ่มเข้าไปในชุดข้อมูลเดิมทำให้ไม่ทราบว่าข้อมูลจริงมีค่าเท่าใด ความแม่นยำของข้อมูลที่เสนอมีค่าลดลง เช่น ข้อมูลส่วนสูงจากเดิมที่วัดได้ 173 เซนติเมตร การเพิ่มตัวเลขรบกวนอาจปรับตัวเลขดังกล่าวเป็นตัวเลขใดก็ได้ที่ใกล้เคียง เช่น 171 หรือ 178 เซนติเมตร
    2. การสับเปลี่ยนใหม่ (Permutation) เป็นการสลับค่าภายในตัวแปร (feature) หนึ่ง ๆ ทำให้ไม่สามารถเชื่อมโยงข้อมูลต่างตัวแปรภายในแถวหนึ่ง ๆ ได้ แต่ยังคงการกระจายตัวของแต่ละตัวแปรอยู่
    3. ความเป็นส่วนตัวที่แตกต่างกัน (Differential Privacy) เป็นเทคนิคการเพิ่มตัวเลขรบกวนในรูปแบบที่ช่วยให้มั่นใจว่าข้อมูลรายแถวจะไม่สามารถถูกคาดเดาได้เมื่อไม่ถูกนำไปประมวลผลร่วมหรือคัดออก (อ่านรายละเอียดทางเทคนิคได้ที่บทความ Differential Privacy และ Laplace Mechanism ด้วยตัวอย่างง่าย ๆ)
  2. การทำให้เป็นสามัญ (Generalization) เน้นการลดความละเอียดของชั้นข้อมูลเพื่อให้ข้อมูลสูญเสียความเฉพาะเจาะจง ตัวอย่างเทคนิคในกลุ่มการทำให้เป็นสามัญ ได้แก่ ทำ K-anonymity, การทำ L-diversity และการทำ T-closeness
    1. การทำ K-anonymity คือการทำให้มั่นใจว่าข้อมูลจะมีค่าเหมือนกันจำนวนไม่ต่ำกว่า K แถว นั่นคือ หาก K=3 จะไม่สามารถบอกได้ข้อมูลชิ้นที่ยกมานั้นมากจากหนึ่งในแถวใดในสามแถวที่เหมือนกัน การปรับข้อมูลเพื่อการันตี K-anonymity สามารถทำได้ผ่านการปรับข้อมูลที่ละเอียดเกินไปให้มีสเกลที่หยาบขึ้น เช่น ให้แสดงค่าจังหวัดแทนค่าตำบล หรือให้แสดงค่าอายุแทนค่าวันเกิด เป็นต้น
    2. สำหรับการทำ L-diversity เป็นส่วนขยายของการทำ K-anonymity โดยการันตีว่าในจำนวน K (หรือมากกว่า) แถวที่เหมือน ๆ กันนั้น จะมีความ L ค่าที่ต่างกันในแต่ละตัวแปร เพื่อป้องกันไม่ให้กลุ่มหนึ่งกลุ่มใดที่ได้จากการทำ K-anonymity มีแต่ค่าข้อมูลอ่อนไหวค่าหนึ่งไปกองรวมกันในกลุ่มเดียว อันอาจทำให้มีการเลือกปฏิบัติกับคนกลุ่มนั้นทั้งกลุ่ม ในขณะที่การทำ T-closeness เป็นการปรับแต่ง L-diversity เพื่อกำกับการทำ K-anonymity ให้ข้อมูลมีการกระจายตัวในลักษณะเดียวกันกับข้อมูลดั้งเดิม

ทั้งนี้ยังมีเทคนิคอีกกลุ่มหนึ่งที่ช่วยลดความเสี่ยงในการระบุตัวตน ได้แก่ เทคนิคในกลุ่มที่เน้นการกับข้อมูลระบุตัวตนที่ชัดแจ้ง เช่น รหัสประจำตัว, ชื่อ, นามสกุล ฯลฯ โดยอาจเป็นในลักษณะของการลบทิ้ง (Removal), แทนด้วยค่าศูนย์ (Nulling out), ปิดทับข้อมูล (Masking out) ทั้งหมดหรือบางส่วน, การสลับอักขระ (Scrambling) ฯลฯ อย่างไรก็ดีเทคนิคกลุ่มนี้มักไม่สามารถการันตีความเป็นนิรนามของข้อมูลได้ แต่เป็นเทคนิคที่ถูกนำไปใช้ประกอบกับเทคนิคอื่น ๆ ที่กล่าวมาข้างต้นเพื่อลดความสามารถในการระบุตัวตนของข้อมูล

เทคนิควิธีการจัดทำข้อมูลแฝง (Pseudonymization)

ในขณะที่กระบวนการจัดทำข้อมูลนิรนามมุ่งเน้นการจัดการแต่ละข้อมูลไม่ให้สามารถสืบสาวถึงตัวตนของเจ้าของข้อมูลได้ อย่างไรก็ดีในบางกรณีการระบุตัวตนเจ้าของข้อมูลอาจมีความจำเป็นแต่ให้สามารถทำได้ผ่านช่องทางที่ออกแบบไว้เท่านั้น กระบวนการดังกล่าวเรียกว่าการแฝงข้อมูล (Pseudonymization) ซึ่งช่วยลดทอนหรือจำกัดความสามารถในการเชื่อมโยงข้อมูลชุดนั้น ๆ เข้ากับชุดข้อมูลอื่น (นอกเหนือจากที่วางแผนไว้) เทคนิคพื้นฐานในการแฝงข้อมูล เช่น การเข้ารหัสข้อมูล (Encryption), การเข้าฟังก์ชันแฮช (Hashing) และ การเก็บข้อมูลแยกส่วนโดยเชื่อมผ่านโทเค็น (Tokenization) เป็นต้น

  1. การเข้ารหัสข้อมูล (Encryption) เป็นการแปลงข้อมูลให้อยู่ในรูปที่ไม่สามารถอ่านทำความเข้าใจได้ แต่สามารถถูกแปลกลับเป็นข้อมูลดั้งเดิมได้ผ่านการใช้กุญแจ (key) ซึ่งจะถูกเก็บรักษาโดยผู้ที่ได้รับมอบหมายให้ดูแลรักษาความปลอดภัย
  2. การเข้าฟังก์ชันแฮช (Hashing) เป็นการแปลงข้อมูลให้อยู่ในรูปแบบอื่น และไม่สามารถแปลกลับเป็นข้อมูลดั้งเดิมได้ ผลลัพธ์จากการแฮชมักมีขนาดกำหนดที่แน่นอนจึงทำให้ข้อมูลเดิมที่ต่างกันอาจถูกแฮชเป็นค่าเดียวกันซึ่งอาจกระทบต่อการตีความ การแฮชเป็นกระบวนการที่นิยมเนื่องจากสามารถแปลงได้รวดเร็วและขจัดความสามาถในการสืบย้อนไปยังข้อมูลต้นฉบับ อย่างไรก็ดีหากฟังก์ชันแฮชที่เลือกใช้เป็นที่รับรู้โดยทั่ว ข้อมูลดังเดิมอาจถูกสืบย้อนได้ผ่านการเทียบข้อมูลก่อนและหลังแฮชที่เป็นไปได้ทั้งหมด (Brute Force) เพื่อแก้ปัญหาดังกล่าวผู้ประมวลผลอาจพิจารณาการเพิ่มค่าสุ่ม (salt) ก่อนดำเนินการแฮชเพื่อให้ผลลัพธ์จากการแฮชสามารถคาดเดาได้ยากขึ้น
  3. การทำโทเค็น (Tokenization) เป็นการเปลี่ยนข้อมูลอ่อนไหว หรือที่ต้องการซ่อนให้เป็นรหัสบางอย่างที่ไม่มีความหมายสำคัญ เรียกว่า โทเค็น (Token) ตัวอย่างเช่นการแยกข้อมูลส่วนที่เป็นข้อมูลพฤติกรรมหรือคุณสมบัติ ออกจากข้อมูลอ่อนไหวหรือข้อมูลระบุตัวตนโดยกำหนดโทเค็นสำหรับใช้เป็นรหัสอ้างอิงเชื่อมโยงระหว่างข้อมูลสองส่วน การเข้าถึงข้อมูลเฉพาะส่วนใดส่วนหนึ่งจะไม่สามารถระบุตัวตนและพฤติกรรม (หรือคุณสมบัติ) ไปพร้อมกันได้ แต่ข้อมูลสองส่วนอาจถูกนำมาใช้ประมวลผลร่วมกันเฉพาะในกรณีที่ต้องการสืบทราบตัวตนเจ้าของข้อมูลพฤติกรรม
Table

Description automatically generated
ตัวอย่างการทำโทเค็น (Tokenization) โดยการแยกข้อมูลระบุตัวตน ออกจากข้อมูลการใช้บริการ และสร้างตัวแปร Token สำหรับใช้เชื่อมข้อมูลระหว่างสองตารางในกรณีที่มีความจำเป็นต้องระบุตัวตนเจ้าของข้อมูล ชุดข้อมูลการใช้บริการ (ตารางกลาง) อาจนำไปใช้วิเคราะห์สถิติการเข้าใช้บริการได้โดยที่ผู้วิเคราะห์ไม่สามารถล่วงตัวตนของผู้เข้าใช้บริการได้ (ภาพจาก Hamidovic et al. 2019)

เราควรใช้เทคนิคไหนเพื่อลดความสามารถในการระบุตัวตน

กระบวนการทางเทคนิคที่กล่าวมาข้างต้นช่วยลดความสามารถในการระบุตัวบุคคลลง อย่างไรก็ดีแต่ละเทคนิคล้วนมีข้อดีข้อบกพร่องแตกต่างกันออกไป การคุ้มครองความเป็นส่วนตัว (Privacy) ที่รัดกุมจำกัดรูปแบบการการนำข้อมูลไปใช้ประโยชน์ (Utility) การเลือกรูปแบบเทคนิคที่จะใช้คุ้มครองความเป็นส่วนตัวจึงต้องคำนึงถึงรูปแบบวิธีการใช้ข้อมูลประกอบด้วย

Diagram

Description automatically generated
การคุ้มครองความเป็นส่วนตัวจำเป็นต้องถูกพิจารณาร่วมกับการใช้ประโยชน์ข้อมูล ข้อมูลที่มีการคุ้มครองความเป็นส่วนตัวที่รัดกุมย่อมสามารถนำไปใช้ประโยชน์ได้น้อย ในขณะที่ข้อมูลที่ใช้ประโยชน์ได้เต็มที่ย่อมเสี่ยงต่อการละเมิดความเป็นส่วนตัวของเจ้าของข้อมูล (ภาพจาก Nicolas 2019)

เพื่อลดความสามารถในการระบุตัวตนเจ้าของข้อมูล อันจะช่วยคุ้มครองความเป็นส่วนตัวของเจ้าของข้อมูล คณะที่ปรึกษาผู้เชี่ยวชาญสหภาพยุโรปด้านการคุ้มครองข้อมูลส่วนบุคคลจึงได้ระบุรูปแบบความเสี่ยงอันมีแนวโน้มที่จะนำไปสู่การระบุตัวตนเจ้าของข้อมูลได้เป็น 3 รูปแบบ ได้แก่ การแบ่งแยกจากกลุ่ม ความสามารถเชื่อมโยง และการอนุมาน

  1. การถูกแยกออกจากกลุ่ม (Singling out) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากข้อมูลมีลักษณะแปลกแยกจากกลุ่มมากเป็นพิเศษ ตัวอย่างเช่น ข้อมูลเงินเดือนของเจ้าของบริษัทย่อมสูงกว่าพนักงานกลุ่มอื่นทำให้สามารถระบุตัวตนได้ การเพิ่มตัวเลขรบกวนช่วยให้ไม่ทราบตัวเลขที่แน่นอนแต่ไม่สามารถการันตีจะสร้างความคลาดเคลื่อนได้มากพอที่จะทำให้ไม่เห็นความแตกต่างระหว่างเงินเดือนเจ้าของบริษัทกับพนักงานอื่น กรณีเช่นนี้จำเป็นต้องอาศัยเทคนิคการรวมกลุ่มข้อมูลและการทำ K-anonymity เพิ่มเติม เพื่อให้มั่นใจว่าตัวเลขเงินเดือนเจ้าของบริษัทที่ปรากฏในชุดข้อมูลไม่โดดออกมาจากตัวเลขของพนักงานคนอื่น
  2. ความสามารถเชื่อมโยง (Linkability) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากสามารถนำข้อมูลไปเชื่อมโยงกับข้อมูลชุดอื่นเพิ่มเติม ตัวอย่างเช่น ในชุดข้อมูลการเข้ารับบริการรายครั้ง (Transaction) ซึ่งบุคคลหนึ่ง ๆ สามารถเข้ารับบริการหลายครั้ง ข้อมูลรหัสประจำตัวที่ผ่านการแฮชยังคงสามารถสืบทราบได้ว่าเป็นการเข้ารับบริการของบุคคลคนเดียวกัน (แม้ไม่รู้ว่าคือใคร) เนื่องจากผลลัพธ์ที่ได้จากการแฮชมีค่าตรงกัน แต่หากเปลี่ยนรูปแบบเป็นการเพิ่มเลขรบกวนในรหัสประจำตัว ผลลัพธ์ที่ได้จะมีค่าต่างกันสำหรับรหัสประจำตัวหนึ่ง ๆ ความต่างของข้อมูลที่ผ่านกระบวนการดังกล่าวทำให้ไม่สามารถทราบได้ว่าเป็นการเข้ารับบริการนั้นมีที่มาจากบุคคลเดียวกันหรือไม่
  3. การอนุมาน (Inference) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากสามารถคาดเดาข้อมูลส่วนที่ถูกอำพรางว่ามีค่าจริงเป็นอะไรโดยอาศัยการตีความจากข้อมูลอื่น ตัวอย่างเช่น เราอาจเดาข้อมูลเงินเดือนจากอายุงานของแต่ละคน การลดความละเอียดของข้อมูลอายุงานเป็นช่วงลดความแม่นยำแต่ไม่สามารถกำจัดความสามารถในการคาดเดาข้อมูลเงินเดือนได้ ในขณะที่การแฮชหรือแทนเข้ารหัสข้อมูลอายุงานจะทำให้การคาดเดาข้อมูลเงินเดือนเป็นไปได้ยากขึ้น

เป็นการยากที่จะบอกว่าเทคนิคใดเป็นเทคนิคที่ดีที่สุด ในทางปฏิบัติเทคนิคเดียวกันอาจมีระดับความเสี่ยงที่ต่างกันในกรณีใช้งานที่ต่างกัน ผู้ควบคุมข้อมูลจำเป็นต้องพิจารณาการใช้งานข้อมูลประกอบผ่านการประเมินความเสี่ยงในสามรูปแบบที่ยกมาข้างต้น ในเบื้องต้นอาจพิจารณาตารางภาพรวมความเสี่ยงได้จากตารางด้านล่าง

Singling out still a riskLinkability still a riskInference still a risk
Noise AdditionYesMay notMay not
SubstitutionYesYesMay not
Aggregation (K-anonymity)NoYesYes
L-diversityNoYesMay not
Differential PrivacyMay notMay notMay not
Hashing/TokenizationYesYesMay not
ตารางภาพรวมความเสี่ยงของแต่ละเทคนิคสำหรับใช้ลดความสามารถในการระบุตัวตนเจ้าของข้อมูล (สรุปภาพรวมโดย Burton 2016)

บทสรุป

การจัดทำข้อมูลนิรนามและการจัดทำข้อมูลแฝงเป็นกระบวนการสำคัญในการดูแลรักษาความเป็นส่วนตัวของเจ้าของข้อมูล อันเป็นองค์ประกอบสำคัญหนึ่งในการรักษาความปลอดภัยของข้อมูล วิธีการจัดทำข้อมูลนิรนามสามารถจัดทำได้หลากหลายวิธีซึ่งมีความซับซ้อน ความเหมาะสม ข้อดี และข้อด้อยที่แตกต่างกันออกไป การเลือกเทคนิควิธีที่เหมาะสมจึงจำเป็นต้องพิจารณาเป็นกรณีไป แนวทางหนึ่งที่จะช่วยให้สามารถเลือกใช้เทคนิควิธีที่เหมาะสมสามารถทำได้โดยการประเมินความเสี่ยงที่ข้อมูลชิ้นดังกล่าวจะถูกนำไปใช้ระบุตัวตนผ่านสามรูปแบบ คือ การแบ่งแยกจากกลุ่ม ความสามารถเชื่อมโยง และการอนุมานข้อมูล คงเป็นเรื่องยากเทคนิควิธีหนึ่งวิธีใดที่สามารถลดความเสี่ยงทั้งสามรูปแบบให้เหลือศูนย์ ในความเป็นจริงความเสี่ยงในบางรูปแบบอาจสามารถยอมรับได้เพื่อลดความเสี่ยงในรูปแบบอื่นที่ไม่สามารถยอมรับได้ให้เหลือน้อยที่สุด สิ่งสำคัญจึงเป็นการเลือกและออกแบบรูปแบบการจัดทำข้อมูลนิรนามหรือการจัดทำข้อมูลแฝงที่จะลดความเสี่ยงที่ไม่สามารถยอมรับได้ให้ต่ำที่สุดเท่าที่จะเป็นไปได้โดยที่ยังสามารถใช้ประโยชน์จากข้อมูลได้อย่างเต็มศักยภาพ


เขียนโดย พีรดล สามะศิริ
ตรวจทานและปรับปรุงเนื้อหาโดย อนันต์วัฒน์ ทิพย์ภาวัต

Peeradon Samasiri, PhD

Senior Project Manager & Data Scientist at Big Data Institute (Public Organization), BDI

© Big Data Institute | Privacy Notice