เทคนิคการสังเกตรูปภาพหรือวิดีโอใบหน้าที่ถูกดัดแปลงด้วยเทคโนโลยี DeepFake

Jul 3, 2022

เทคโนโลยี “DeepFake” ได้ถูกนิยามในปี พ.ศ. 2560 เมื่อนักวิจัยได้เริ่มนำโครงข่ายประสาทเทียมเชิงลึก (Deep Neural Networks) ซึ่งเป็นเทคโนโลยีทางปัญญาประดิษฐ์สมัยใหม่มาปรับใช้กับการตกแต่งรูปภาพหรือวีดิโอใบหน้าเพื่อเปลี่ยนแปลงการแสดงสีหน้า ท่าทาง หรือแม้แต่คำพูด ในปัจจุบันเทคโนโลยี DeepFake ได้ถูกพัฒนาไปอย่างรวดเร็วจนทำให้ระบบมีความยืดหยุ่นและสามารถตัดต่อรูปภาพและวีดีโอใบหน้าได้โดยง่าย โดยที่ DeepFake สมัยใหม่นั้นต้องการเพียงแค่รูปภาพใบหน้าตรงเพียง 1 ภาพในการดัดแปลงรูปภาพและตัดต่อวีดิโอ และแม้แต่แอปพลิเคชันบนโทรศัพท์มือถือก็สามารถทำได้ โดยวิดีโอที่ถูกดัดแปลงนั้นยังมีความสมจริงจนทำให้การตรวจสอบความถูกต้องของวิดีโอนั้นเป็นไปได้ยาก ซึ่งความสมจริงของวีดิโอเหล่านี้ทำให้เกิดความกังวลต่อความน่าเชื่อถือของสื่อดิจิทัลมากขึ้น

รูปภาพที่ถูกตัดมาจากวิดีโอบน YouTube ซึ่งดัดแปลงหนังเรื่อง Terminator ด้วยการเปลี่ยนใบหน้าด้วยโปรแกรม (แหล่งที่มา)

โดยเฉพาะในยุคปัจจุบันที่มีกลุ่มมิจฉาชีพได้พยายามหลอกหลวงประชาชนด้วยรูปแบบต่าง ๆ เราอาจได้เห็นข่าวที่มิจฉาชีพเริ่มนำเอาเทคโนโลยี DeepFake มาปลอมเป็นตำรวจเพื่อหลอกให้เหยื่อโอนเงินมากขึ้น ดังนั้นการตระหนักและรู้เท่าทันถึงความก้าวหน้าของเทคโนโลยี DeepFake จึงเป็นสิ่งที่มีความสำคัญอย่างมากในยุคปัจจุบัน

รูปภาพข่าวที่มีการใช้โปรแกรมดัดแปลงใบหน้า (แหล่งที่มา มติชน)

ทีมวิจัยจาก mit meadia lab ได้ตั้งข้อเสนอแนะสำหรับเทคนิคในการสังเกตรูปภาพหรือวิดีโอที่ถูกดัดแปลงด้วยเทคโนโลยี DeepFake ไว้ดังนี้

สังเกตความเรียบและรอยเหี่ยวย่นบริเวณแก้มและหน้าผากว่ามีความสัมพันธ์กันทั้งหมดและมีความสอดคล้องกับลักษณะผิวพรรณอื่นนอกจากใบหน้าหรือไม่ เพราะว่า DeepFake มักไม่ใส่ใจในรายละเอียดความสัมพันธ์ระหว่างตำแหน่งในวิดีโอที่อยู่ห่างไกลกัน
สังเกตความสอดคล้องกันของการเคลื่อนไหวของดวงตาและคิ้ว
ลักษณะของแสงเงาว่ามีความสอดคล้องกับพื้นผิวอื่นในวิดีโอหรือไม่ เพราะปกติ DeepFake มักจะไม่สามารถเข้าใจความสัมพันธ์ทางกายภาพของแสงและเงาได้ทั้งหมด
ในกรณีที่วิดีโอสวมใส่แว่น เราสามารถสังเกตการสะท้อนแสงของแว่นว่ามีความสัมพันธ์กันของทิศทางของแสงในวิดีโอหรือไม่
สังเกตุลักษณะของผม คิ้ว ว่ามีความสมจริงตามหลักฟิสิกส์หรือไม่เพราะข้อมูลเหล่านี้มักจะถูกทำให้ดูเสมือนจริงด้วย DeepFake ได้ยาก
สังเกตการกระพริบตาว่าดูสมจริงและมีอัตราการกระพริบตาที่มากหรือน้อยเกินไปหรือไม่ เพราะว่า DeepFake มักไม่ได้ใส่ใจรายละเอียดของการกระพริบตาและรูปภาพ (ต้นแบบมักถูกถ่ายหรือนำเข้าจากรูปภาพที่เปิดตา)
สังเกตการขยับของริมฝีปากว่ามีความสอดคล้องกับเสียงในวีดิโอหรือไม่ โดยที่ควรสังเกตว่าลักษณะของปากตรงกับการเปล่งเสียงและการเคลื่อนไหวของปากนั้นดูสมจริงหรือไม่
ในกรณีที่ได้รับวิดีโอคอลเราสามารถขอให้ผู้ที่อยู่ในสายขยับตำแหน่งของใบหน้า เพื่อยืนยันว่าเป็นวิดีโอจริงได้ เช่น ขอให้ผู้ร่วมสนทนาหันซ้าย หันขวา หรือเคลื่อนย้ายออกจากวิดิโอ เป็นต้น

นอกจากข้อสังเกตเหล่านี้แล้ว นักวิจัยทั่วโลกเองก็ยังได้ให้ความสนใจกับการพัฒนาเทคโนโลยีทางปัญญาประดิษฐ์เพื่อตรวจสอบความถูกต้องของข้อมูลรูปภาพและวิดีโอมากขึ้น ยกตัวอย่างเช่น เราสามารถใช้แอปพลิเคชันของ deepware ซึ่งเป็นเว็บแอปพลิเคชันแบบฟรีสำหรับการตรวจสอบวิดีโอ DeepFake เบื้องต้นได้อีกด้วย อย่างไรก็ตามความสามารถของการตรวจสอบข้อมูลวิดีโอ DeepFake แบบอัตโนมัติด้วยแบบจำลองทางปัญญาประดิษฐ์เองก็ยังมีข้อจำกัด จากผลการทดสอบของแบบจำลองกว่า 35,000 ชิ้นปรากฎว่าแบบจำลองที่ดีที่สุดสามารถทำนายผลความถูกต้องของข้อมูลวิดีโอ DeepFake ได้เพียงแค่ 65 % บนชุดข้อมูลขนาดใหญ่ของ Deepfake Detection Challenge (DFDC) ในปี 2562

เนื้อหาโดย อาจารย์ ดร.กฤตภาส สงศรีอินทร์
ตรวจทานและปรับปรุงโดย ดวงใจ จิตคงชื่น

Asst. Prof. Duangjai Jitkongchuen, PhD

Vice President, Manpower Development Division at Big Data Institute (Public Organization), BDI