DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part II

Oct 3, 2022

หลังจากที่เห็นความสามารถและผลงานอันน่าทึ่งของ DALL·E 2 ในภาคแรก บทความนี้จะพามาให้รู้จักปัญญาประดิษฐ์ตัวนี้ให้มากขึ้น ทั้งในแง่มุมของเทคโนโลยีเบื้องหลัง ข้อจำกัดของความสามารถและผลกระทบที่อาจจะสร้างความกังวลในสังคมได้

อ่านบทความแรกได้ที่ DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I

การทำงานของ DALL·E 2

การทำงานของ DALL·E 2 นั้นมีเทคโนโลยีหลักที่เกี่ยวข้อง 2 อย่างดังนี้

CLIP (Contrastive Language-Image Pre-training) เป็นอีกหนึ่งผลงานของ OpenAI ซึ่งสร้างคำบรรยายภาพจากรูปภาพที่กำหนด (นั่นคือ ทำหน้าที่ตรงข้ามกับ DALL·E) โมเดลนี้ประกอบไปด้วยโครงข่ายประสาทเทียมสองตัว นั่นคือ Text Encoder และ Image Encoder ซึ่งเป็นตัวแปลงคำบรรยายและรูปภาพให้อยู่ในรูปแบบเวกเตอร์ที่เรียกว่า Text Embedding และ Image Embedding ตามลำดับ

Text encoder และ Image Encoder นี้จะผ่านการฝึกฝนด้วยการแปลงข้อมูลรูปภาพและคำบรรยายภาพที่กำหนดมาคู่กันจำนวนมหาศาลให้อยู่ในรูปแบบ Text Embedding และ Image Embedding และทำความเข้าใจความสัมพันธ์ ให้สามารถจับคู่คำบรรยายภาพและรูปภาพให้ถูกต้องมากที่สุด

**รูปที่ 1** ขั้นตอนในการฝึกฝนโมเดล CLIP ให้เข้าใจความสัมพันธ์ระหว่างคำบรรยายและรูปภาพจนกระทั่งสามารถสร้างคำบรรยายจากรูปภาพได้
ดังเช่นในขั้นตอนสุดท้าย เมื่อใส่รูปสุนัขเข้าไปในโมเดล ผลออกมาว่าเป็น “a photo of a dog” (Source: OpenAI)

Diffusion Model เป็นโมเดลที่ใช้สำหรับสร้างรูปภาพจาก random dots (กลุ่มของจุดที่กระจัดกระจายอย่างไม่มีรูปแบบ) หลักการการฝึกโมเดลนี้ คือ เริ่มต้นจากรูปภาพที่ชัดเจน จากนั้นจึงเพิ่ม Noise หรือสิ่งที่ทำให้ภาพเริ่มไม่ชัดเจนให้มากขึ้นเรื่อย ๆ จนกระทั่งภาพนั้นไม่สามารถระบุได้ และให้โมเดลเรียนรู้ในการทำให้รูปภาพนั้นกลับมาดังเดิมอีกครั้ง

**รูปที่ 2** การฝึก Diffusion Model ที่โมเดลเรียนรู้ในการฟื้นคืนรูปภาพขึ้นมาอีกครั้ง (Source: Aditya Singh)

เทคโนโลยีข้างต้นได้ถูกนำมาประยุกต์ในการทำงานของ DALL·E 2 โดยเริ่มต้นจากการที่ CLIP Text Encoder แปลงคำบรรยายภาพที่ต้องการสร้างให้อยู่ในรูปแบบเวกเตอร์ Text Embedding หลังจากนั้นจะสร้างรูปภาพผ่าน 2 โมเดลดังต่อไปนี้

**รูปที่** 3 ขั้นตอนการแปลงคำบรรยายกลายเป็นรูปภาพใน DALL·E 2
(Source: Aditya Singh)

Prior model ซึ่งเป็นโมเดลสำหรับการเก็บข้อมูลขององค์ประกอบหลักของภาพที่ต้องการสร้างจากคำบรรยายภาพ โมเดลนี้จะรับ CLIP Text Embedding ซึ่งเป็นเวกเตอร์ที่เก็บข้อมูลของคำบรรยายภาพที่แปลงไว้แล้วและ สร้าง CLIP Image Embedding ที่สอดคล้องกันออกมา
Decoder Diffusion model (unCLIP) ซึ่งเป็นโมเดลสำหรับการสร้างภาพและเติมรายละเอียดของรูปภาพให้สมบูรณ์เป็นโมเดลที่ประยุกต์จาก Diffusion Model ให้สามารถแปลงเวกเตอร์ CLIP Image Embedding ให้กลายเป็นรูปภาพตามคำบรรยาย สาเหตุที่เรียกโมเดลนี้ว่า unCLIP เนื่องจากทำตรงข้ามกับ CLIP ซึ่งสร้างคำบรรยายภาพจากรูปภาพที่กำหนดนั่นเอง

ข้อดีที่โดดเด่นของการทำงานแบบ 2 ขั้นตอนนี้ คือ การเน้นเก็บข้อมูลขององค์ประกอบหลักของรูปภาพที่ต้องการสร้างใน Prior model ก่อนจะสร้างภาพที่มีความละเอียดสูงในขั้นตอนต่อมา ทำให้ DALL·E 2 ยังสามารถเก็บองค์ประกอบหลักของภาพได้อย่างครบถ้วน ในขณะที่ยังสามารถสร้างความหลากหลายของภาพในรายละเอียดที่แตกต่างกันได้

ข้อจำกัดและอันตรายที่อาจจะเกิดขึ้นจาก DALL·E 2

แม้ว่า DALL·E 2 แสดงความสามารถอันน่าทึ่งมากมาย แต่อย่างไรก็ยังมีข้อจำกัดซึ่งยังแสดงว่า ปัญญาประดิษฐ์นี้ยังไม่สามารถเข้าใจความซับซ้อนของสมองมนุษย์ได้ ดังต่อไปนี้

อคติในการสร้างรูปภาพ

แม้ว่า DALL·E 2 จะมีการเรียนรู้จากภาพจำนวนมหาศาลในอินเตอร์เน็ต รูปของ DALL·E 2 ยังคงความอคติทั้งทางด้านเชื้อชาติและเพศอยู่ เช่น รูปส่วนใหญ่อาจเป็นชนชาติผิวขาวหรือชาวตะวันตก และในหลายอาชีพ DALL·E 2 จะสร้างรูปทั้งหมดเป็นเพศหญิงหรือเพศชายเท่านั้น

**รูปที่ 4** ตัวอย่างการสร้างรูปทนายความที่เป็นผู้ชายผิวชาวมีอายุทั้งหมด และนางพยาบาลที่เป็นผู้หญิงทั้งหมด ซึ่งเป็นตัวอย่างของความอคติเกี่ยวกับเพศและอาชีพของ DALL·E 2 (Source: OpenAI)

การสะกดคำในรูปภาพที่ยังไม่สมบูรณ์

DALL·E 2 นั้นยังไม่สามารถสะกดคำในรูปภาพได้อย่างแม่นยำ ดังในตัวอย่างในรูปที่ 16 ที่จริง ๆ แล้ว ป้ายควรแสดงคำว่า “deep learning”

**รูปที่** 5 “A sign that says deep learning” ป้ายคำว่า deep learning ซึ่งทุกรูปยังคงสะกดไม่ถูกต้อง
(Source: OpenAI)

รายละเอียดบางอย่างที่ไม่สมเหตุสมผล

DALL·E 2 นั้นทำงานได้ดีในการสร้างองค์ประกอบหลักของรูปภาพ แต่สามารถขาดการสร้างรายละเอียดที่สมเหตุสมผลได้ ดังเช่น รูปมือถือใบไม้ ที่องค์ประกอบหลักอย่างมือ หรือใบไม้นั้นดูสมจริง โดยเฉพาะมือที่เปื้อนดินราวกับเพิ่งขุดใบไม้ขึ้นมา แต่ถ้าสังเกตแล้ว ตรงกลางฝ่ามือที่มีใบไม้วางอยู่ซึ่งควรจะมีเส้นแบ่งระหว่างมือสองข้างกลับหายไป

**รูปที่** 6 “A close up of a handpalm with leaves growing from it” รูปฝ่ามือที่มีใบไม้เติบโตขึ้นมา ซึ่งยังคงมีรายละเอียดที่ไม่สมจริงอยู่ (Source: OpenAI)

การไม่สามารถกำหนดตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างแม่นยำ

DALL·E 2 ยังคงไม่สามารถวางตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างถูกต้องแม่นยำ ตัวอย่างเช่น รูปลูกบาศก์สีแดงซึ่งควรจะอยู่บนลูกบาศก์สีน้ำเงินนี้ แม้ DALL·E 2 จะสามารถสร้างองค์ประกอบหลักอย่างลูกบาศก์ได้ถูกต้อง แต่ส่วนใหญ่ยังคงจัดวางตำแหน่งที่เกี่ยวข้องกันได้ผิดพลาด นั่นคือ หลาย ๆ รูปนั้น ลูกบาศก์สีน้ำเงินกลับอยู่ข้างบนลูกบาศก์สีแดง

**รูปที่ 7** “A red cube on top of a blue cube”
ลูกบาศก์สีแดงบนลูกบาศก์สีน้ำเงิน
ซึ่งรูปส่วนใหญ่ยังคงจัดวางตำแหน่งไม่ถูกต้อง (Source: OpenAI)

ที่สำคัญไปกว่านั้น การที่ DALL·E 2 สามารถสร้างภาพที่สมจริงตามคำบรรยายและมีความสามารถในการตัดต่อภาพได้อย่างแนบเนียนอาจสามารถถูกนำไปใช้ในทางที่ไม่ดีได้ เช่น การตัดต่อภาพในการแบล็คเมล์ผู้คน หรือ การสร้างรูปภาพที่ก่อให้เกิดความเข้าใจผิดหรือกังวลใจได้

**รูปที่ 8** ตัวอย่างการเพิ่มควันเข้าไปในรูปทำเนียบขาวของประเทศสหรัฐอเมริกา ซึ่งอาจสร้างความเข้าใจผิดว่าเป็นเรื่องจริงได้
(Source: OpenAI)

ณ ปัจจุบัน ทางทีมผู้พัฒนา DALL·E 2 มีแผนในการเปิดการใช้งานของ DALL·E 2 แบบสาธารณะในเร็ว ๆ นี้ โดยจะเริ่มต้นจากเชิญบุคคลที่ลงทะเบียนสนใจจะใช้งาน DALL·E 2 (สามารถลงทะเบียนได้ที่นี่) ผู้ใช้งานจะได้รับเครดิตในการสร้างรูปภาพได้ฟรี แต่อย่างไรก็ตาม เครดิตฟรีนั้นสร้างภาพได้จำนวนจำกัด และจะมีค่าใช้จ่ายถ้าผู้ใช้งานต้องการสร้างรูปเพิ่มเติม

นอกเหนือจากนี้ ทางทีมงานผู้พัฒนา DALL·E 2 ได้ประกาศถึงมาตรการความปลอดภัยเพื่อป้องกันการนำ DALL·E 2 ที่กำลังจะเปิดสู่สาธารณะไปใช้ในทางที่ไม่เหมาะสม นั่นคือ ไม่อนุญาตให้อัปโหลดรูปภาพที่มีใบหน้าบุคคลจริง มีการป้องกันในการสร้างภาพที่มีความรุนแรง พัฒนาระบบให้ลดความอคติในการสร้างรูปภาพ และมีระบบการติดตามการใช้งานเพื่อป้องกันการใช้งานที่ไม่เหมาะสม

สุดท้ายนี้ แม้ว่า DALL·E 2 จะแสดงความสามารถและศักยภาพอันน่าทึ่งของปัญญาประดิษฐ์มากเพียงใด ก็ยังคงมีข้อจำกัด ที่สำคัญคือ ยังมีผลกระทบที่สามารถสร้างความวิตกกังวลให้สังคมได้ ในอนาคต ความสามารถของปัญญาประดิษฐ์ในด้านการสร้างรูปภาพจะสามารถพัฒนาไปไกลถึงระดับใกล้เคียงกับความสามารถของสมองอันซับซ้อนของมนุษย์ได้มากขนาดไหน อีกทั้งปัญญาประดิษฐ์ตัวนี้จะสร้างอันตรายในสังคมอย่างที่หลายคนกังวล แม้ว่าทางทีมงานจะเตรียมมาตรการความปลอดภัยไว้แล้วหรือไม่ ก็คงต้องติดตามกันต่อไป

แหล่งอ้างอิง

เนื้อหาโดย ศรัณธร ภู่สิงห์ 
ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต

Saranthorn Phusingha, PhD

Senior Data Scientist at Big Data institute (BDI)