DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I

Sep 8, 2022

จะน่าตื่นเต้นมากแค่ไหน เมื่อปัญญาประดิษฐ์หรือ AI (Artificial Intelligence) ชื่อ DALL·E 2 สามารถสร้างสรรค์รูปภาพตามคำบรรยายที่ได้รับมาจากมนุษย์นั้นให้กลายเป็นรูปที่ “เสมือนจริง” นั่นคือ แท้จริงแล้ว…รูปเหล่านั้นไม่ได้มีอยู่จริง!

**รูปที่ 1** “A kooikerhondje using a camera on a movie set”
สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์ (Source: DALLE: AI Made This Thumbnail!)

รูปที่ 1 แสดงรูปสุนัขแสนน่ารักข้างหลังกล้องถ่ายรูป แต่ดังที่เกริ่นไป…รูปเหล่านี้ไม่ได้เป็นรูปที่มีอยู่จริง แต่เป็นรูปที่ DALL·E รุ่นที่ได้รับการพัฒนาล่าสุดสร้างขึ้นมาจากคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบอย่าง “A kooikerhondje using a camera on a movie set” หรือ “สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์” ดูด้วยตาเปล่าแล้ว เราต่างต้องทึ่งกับความสมจริงของรูปภาพ แสงเงาและความละเอียดของภาพ แสดงให้เห็นถึงความก้าวหน้าของปัญญาประดิษฐ์ที่เข้าใจและเชื่อมโยงได้ว่า องค์ประกอบของรูปภาพอย่างสุนัขพันธ์ Kooikerhondje และกล้องถ่ายรูปที่สามารถเห็นได้ในกองถ่ายภาพยนต์มีลักษณะอย่างไร และยังสามารถนำองค์ประกอบเหล่านั้นมารวมกันได้อย่างแนบเนียนอีกด้วย

เห็นได้ชัดว่า ความสามารถของ DALL·E นั้นไม่ธรรมดาจริง ๆ ในบทความนี้เราจึงขอเชิญผู้อ่านทุกท่านได้มาทำความรู้จักกันมากขึ้นกับ DALL·E 2 หรือ DALL·E รุ่นที่ 2 ซึ่งเป็นศิลปินในร่างปัญญาประดิษฐ์รุ่นล่าสุดจากทีมงาน OpenAI ที่สามารถแปลงคำบรรยายให้กลายเป็นรูปภาพ ทั้งความเป็นมาของปัญญาประดิษฐ์ตัวนี้และตัวอย่างผลงานอันน่าทึ่งที่เราต้องตกตะลึงกัน

ความเป็นมาและพัฒนาการของ DALL·E

จุดเริ่มต้นของการพัฒนา DALL·E มีความเกี่ยวข้องโดยตรงกับ GPT-3 (3rd generation Generative Pre-trained Transformer) ซึ่งเป็นปัญญาประดิษฐ์อันโด่งดังอีกหนึ่งชิ้นจากทีมงาน OpenAI โดย GPT-3 เปิดตัวให้ใช้งานผ่าน API (Application Programming Interface) ในช่วงเดือนมิถุนายน ปี 2020 เป็นระบบโครงข่ายประสาทเทียม (Neural network) ที่เรียนรู้ภาษาธรรมชาติของมนุษย์ ในระบบมีจำนวนพารามิเตอร์มากถึง 1.75 แสนล้านตัว ถือได้ว่าเป็นโมเดลทางภาษาที่ใหญ่และซับซ้อนที่สุดตัวหนึ่งในโลก ความสามารถของ GPT-3 นั้นก็ไม่ธรรมดาเลยทีเดียวเพราะสามารถเข้าใจภาษาที่มนุษย์ป้อนเข้าไปในระบบและสามารถสร้างประโยคมาโต้ตอบได้ สำหรับรายละเอียดเพิ่มเติมของ GPT-3 รวมถึงข้อจำกัดของโมเดลสามารถอ่านได้ที่บทความ GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?

จากความสามารถของ GPT-3 ที่สามารถสร้างข้อความที่สอดคล้องกันได้ ในปีเดียวกัน ทางทีมงาน OpenAI ได้ต่อยอดในการใช้ระบบโครงข่ายประสาทเทียมนี้มาเติมรูปภาพที่ขาดหายไป กลายเป็นโมเดลที่มีชื่อว่า Image GPT (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Generative Pretraining from Pixels by Mark Chen et.al. (2020)) พบว่า โมเดลนี้ยังทำงานได้ดีเลยทีเดียว ตามตัวอย่างที่แสดงต่อไปนี้

**รูปที่ 2** ตัวอย่างผลงานการต่อเติมรูปภาพที่ขาดหายไปด้วย Image GPT
โดยรูปทางซ้ายมือคือรูปที่ป้อนเข้าระบบเพื่อให้ต่อเติมให้สมบูรณ์ รูปที่อยู่ตรงกลางทั้งหมดคือรูปที่ Image GPT ต่อเติมขึ้นมา เปรียบเทียบกับรูปขวามือสุดซึ่งเป็นรูปภาพต้นฉบับ (Source: OpenAI)

ทีมงาน OpenAI จึงเกิดแรงบันดาลใจในการใช้ภาษาที่ได้รับการป้อนจากมนุษย์มาสร้างหรือปรับเปลี่ยนรูปภาพ ก่อกำเนิด DALL·E รุ่นแรกในเดือนมกราคม ปี 2021 ซึ่งเป็นโมเดลพัฒนาต่อยอดจากระบบโครงข่ายประสาทเทียมของ GPT-3 และมีจำนวนพารามิเตอร์ 1.2 หมื่นล้านตัว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Zero-Shot Text-to-Image Generation by Aditya Ramesh et. al. (2021))

ความโดดเด่นของ DALL·E คือ สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา

**รูปที่ 3** ตัวอย่างการสร้างรูปภาพที่ไม่มีจริงโดย DALL·E รุ่นแรก (Source: OpenAI)

**รูปที่ 4** ตัวอย่างภาพของนาฬิกาตามช่วงเวลาโดย DALL·E รุ่นแรก ซึ่งมีความทันสมัยมากขึ้นตามกาลเวลา (Source: OpenAI)

แม้ว่าความสามารถของ DALL·E รุ่นแรกจะแสดงให้เห็นถึงศักยภาพของปัญญาประดิษฐ์ในการเข้าใจภาษาของมนุษย์และสามารถสร้างรูปภาพที่ไม่มีจริงขึ้นมาได้ แต่รูปภาพนั้นยังมีข้อจำกัดอยู่ โดยเฉพาะความละเอียดและความสมจริงของรูปภาพ ทำให้มนุษย์ยังสามารถแยกแยะได้ว่า รูปนี้เป็นรูปที่ไม่ได้สร้างจากมนุษย์

ต่อมาในช่วงเดือนเมษายนปี 2022 เพียงแค่หนึ่งปีผ่านไปหลังจากเปิดตัว DALL·E รุ่นแรก OpenAI เปิดตัว DALL·E 2 หรือ DALL·E รุ่นที่ 2 และเรียกเสียงฮือฮาในปี 2022 นี้เลยทีเดียว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh et. al. (2022))

DALL·E 2 หรือ DALL·E รุ่นที่ 2 สร้างรูปภาพที่มีความละเอียดของภาพดีขึ้นถึง 4 เท่า และมีพัฒนาการก้าวกระโดดทั้งในแง่ของการสร้างรูปภาพให้ตรงกับคำบรรยายและความสมจริง

**รูปที่ 5** ตัวอย่างความแตกต่างของความละเอียดของรูปภาพจาก DALL·E 1 และ DALL·E 2
จากคำบรรยาย “a painting of a fox sitting in a field at sunrise in the style of Claude Monet” หรือ “ภาพวาดพู่กันรูปสุนัขจิ้งจอกในทุ่งหญ้าในเวลาพระอาทิตย์ขึ้นตามสไตล์ของศิลปิน Claude Monet” (Source: OpenAI)

ตัวอย่างต่อไปนี้ คือ ผลงานของ DALL·E 2 ที่แสดงศักยภาพในการสร้างรูปภาพที่หลากหลายภายใต้คำบรรยายเดียวกันโดยยังคงองค์ประกอบหลักของภาพและลักษณะเด่นของศิลปะไว้ อีกทั้งยังมีความละเอียดของภาพสูงอีกด้วย

**รูปที่ 6** “An astronaut riding a horse in a photographic style”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นแบบภาพถ่าย (Source: OpenAI)

**รูปที่ 7** “An astronaut riding a horse as a pencil drawing”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นลักษณะวาดด้วยดินสอ (Source: OpenAI)

**รูปที่ 8** “Teddy bears working on new AI research on the moon in the 1980s”
ตุ๊กตาหมีทำงานวิจัยด้าน AI ชิ้นใหม่บนดวงจันทร์ในช่วงปี 1980 (Source: OpenAI)

**รูปที่ 9** “A painting inspired by the Mona Lisa of a goat taking pictures with an iPad”
แพะถ่ายรูปด้วย iPad โดยรูปเป็นลักษณะภาพวาดพู่กันที่ได้รับแรงบันดาลใจจากรูปภาพโมนาลิซ่า
(Source: DALLE: AI Made This Thumbnail!)

ความสามารถเพิ่มเติมอันน่าทึ่งของ DALL·E 2

นอกเหนือจากการสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูงแล้ว DALL·E 2 ยังมีความสามารถเพิ่มเติม นั่นคือ การเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting) การสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) และการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย (Text diffs)

Inpainting: ความสามารถในการเพิ่มองค์ประกอบของภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 มีความสามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้ ดังแสดงตัวอย่างในรูปที่ 10 ที่มีการเพิ่มพระจันทร์เข้ามาในรูปภาพในตำแหน่งที่เลือกไว้

**รูปที่ 10** รูปซ้ายมือคือ รูปต้นฉบับ ในขณะที่ในรูปขวามือ กรอบสีแดงแสดงตำแหน่งในรูปที่ต้องการเปลี่ยน
(Source: DALL-E 2 Inpainting / Editing Demo)

**รูปที่ 11** ตัวอย่างการใช้คำสั่งในการเปลี่ยนองค์ประกอบของภาพในตำแหน่งที่เลือก โดยในกรณีนี้ใช้คำบรรยาย “a photo of a car in front of a scenic background with a moon” (รูปรถข้างหน้าทิวทัศน์และพระจันทร์)
เพื่อเพิ่มพระจันทร์เข้ามาในรูป (Source: DALL-E 2 Inpainting / Editing Demo)

Variations: ความสามารถในการสร้างรูปภาพใหม่ตามต้นฉบับ

DALL·E 2 นั้นยังมีความสามารถในการสร้างรูปภาพใหม่โดยลอกเลียนแบบจากรูปต้นฉบับ โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไปดังในรูปหญิงสาวโพกหัวนี้

**รูปที่ 12** รูปด้านซ้ายคือรูปภาพ “Girl with a pearl earring” (รูปเด็กสาวใส่ตุ้มหูไช่มุก) ที่เป็นต้นแบบให้กับ DALL·E 2 ลอกเลียนแบบและสร้างขึ้นมาใหม่ในรูปตรงกลางและรูปด้านขวา (Source: OpenAI)

Text diffs: ความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 นั้นยังมีความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับ โดยใส่คำบรรยายสำหรับรูปก่อนเปลี่ยนและคำบรรยายสำหรับรูปหลังเปลี่ยนได้ ตัวอย่างในรูปที่ 13 คือ รูปต้นฉบับซึ่งเป็นบ้านสมัย Victorian โดยคำบรรยายของรูปก่อนเปลี่ยนคือ “a Victorian house” (บ้านสมัย Victorian) และคำบรรยายรูปหลังเปลี่ยนคือ “a modern house” (บ้านในยุคสมัยปัจจุบัน) วิดีโอในรูปที่ 13 แสดงภาพที่ DALL·E 2 สร้างมาประกอบกันเพื่อแสดงถึงการปรับเปลี่ยนรูปต้นฉบับให้กลายเป็นบ้านยุคสมัยปัจจุบันตามโจทย์

**รูปที่ 13** การเปลี่ยนรูปบ้านสมัย Victorian ให้กลายเป็นบ้านยุคปัจจุบันโดย DALL·E 2 (Source: Aditya Ramesh)

จะเห็นได้เลยว่า ความสามารถของ DALL·E 2 นั้นไม่ธรรมดาเลยทีเดียว ถ้าคุณสนใจถึงเทคโนโลยีเบื้องหลังของ DALL·E 2 รวมถึงข้อจำกัดและผลกระทบของปัญญาประดิษฐ์ตัวนี้ที่อาจจะสร้างความกังวลให้ในสังคม สามารถติดตามต่อไปได้ในภาคที่สองของบทความนี้

แหล่งอ้างอิง

เนื้อหาโดย ศรัณธร ภู่สิงห์ 
ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต

Saranthorn Phusingha, PhD

Senior Data Scientist at Big Data institute (BDI)