DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I
จะน่าตื่นเต้นมากแค่ไหน เมื่อปัญญาประดิษฐ์หรือ AI (Artificial Intelligence) ชื่อ DALL·E 2 สามารถสร้างสรรค์รูปภาพตามคำบรรยายที่ได้รับมาจากมนุษย์นั้นให้กลายเป็นรูปที่ “เสมือนจริง” นั่นคือ แท้จริงแล้ว…รูปเหล่านั้นไม่ได้มีอยู่จริง!

สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์ (Source: DALLE: AI Made This Thumbnail!)
รูปที่ 1 แสดงรูปสุนัขแสนน่ารักข้างหลังกล้องถ่ายรูป แต่ดังที่เกริ่นไป…รูปเหล่านี้ไม่ได้เป็นรูปที่มีอยู่จริง แต่เป็นรูปที่ DALL·E รุ่นที่ได้รับการพัฒนาล่าสุดสร้างขึ้นมาจากคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบอย่าง “A kooikerhondje using a camera on a movie set” หรือ “สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์” ดูด้วยตาเปล่าแล้ว เราต่างต้องทึ่งกับความสมจริงของรูปภาพ แสงเงาและความละเอียดของภาพ แสดงให้เห็นถึงความก้าวหน้าของปัญญาประดิษฐ์ที่เข้าใจและเชื่อมโยงได้ว่า องค์ประกอบของรูปภาพอย่างสุนัขพันธ์ Kooikerhondje และกล้องถ่ายรูปที่สามารถเห็นได้ในกองถ่ายภาพยนต์มีลักษณะอย่างไร และยังสามารถนำองค์ประกอบเหล่านั้นมารวมกันได้อย่างแนบเนียนอีกด้วย
เห็นได้ชัดว่า ความสามารถของ DALL·E นั้นไม่ธรรมดาจริง ๆ ในบทความนี้เราจึงขอเชิญผู้อ่านทุกท่านได้มาทำความรู้จักกันมากขึ้นกับ DALL·E 2 หรือ DALL·E รุ่นที่ 2 ซึ่งเป็นศิลปินในร่างปัญญาประดิษฐ์รุ่นล่าสุดจากทีมงาน OpenAI ที่สามารถแปลงคำบรรยายให้กลายเป็นรูปภาพ ทั้งความเป็นมาของปัญญาประดิษฐ์ตัวนี้และตัวอย่างผลงานอันน่าทึ่งที่เราต้องตกตะลึงกัน
ความเป็นมาและพัฒนาการของ DALL·E
จุดเริ่มต้นของการพัฒนา DALL·E มีความเกี่ยวข้องโดยตรงกับ GPT-3 (3rd generation Generative Pre-trained Transformer) ซึ่งเป็นปัญญาประดิษฐ์อันโด่งดังอีกหนึ่งชิ้นจากทีมงาน OpenAI โดย GPT-3 เปิดตัวให้ใช้งานผ่าน API (Application Programming Interface) ในช่วงเดือนมิถุนายน ปี 2020 เป็นระบบโครงข่ายประสาทเทียม (Neural network) ที่เรียนรู้ภาษาธรรมชาติของมนุษย์ ในระบบมีจำนวนพารามิเตอร์มากถึง 1.75 แสนล้านตัว ถือได้ว่าเป็นโมเดลทางภาษาที่ใหญ่และซับซ้อนที่สุดตัวหนึ่งในโลก ความสามารถของ GPT-3 นั้นก็ไม่ธรรมดาเลยทีเดียวเพราะสามารถเข้าใจภาษาที่มนุษย์ป้อนเข้าไปในระบบและสามารถสร้างประโยคมาโต้ตอบได้ สำหรับรายละเอียดเพิ่มเติมของ GPT-3 รวมถึงข้อจำกัดของโมเดลสามารถอ่านได้ที่บทความ GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?
จากความสามารถของ GPT-3 ที่สามารถสร้างข้อความที่สอดคล้องกันได้ ในปีเดียวกัน ทางทีมงาน OpenAI ได้ต่อยอดในการใช้ระบบโครงข่ายประสาทเทียมนี้มาเติมรูปภาพที่ขาดหายไป กลายเป็นโมเดลที่มีชื่อว่า Image GPT (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Generative Pretraining from Pixels by Mark Chen et.al. (2020)) พบว่า โมเดลนี้ยังทำงานได้ดีเลยทีเดียว ตามตัวอย่างที่แสดงต่อไปนี้

โดยรูปทางซ้ายมือคือรูปที่ป้อนเข้าระบบเพื่อให้ต่อเติมให้สมบูรณ์ รูปที่อยู่ตรงกลางทั้งหมดคือรูปที่ Image GPT ต่อเติมขึ้นมา เปรียบเทียบกับรูปขวามือสุดซึ่งเป็นรูปภาพต้นฉบับ (Source: OpenAI)
ทีมงาน OpenAI จึงเกิดแรงบันดาลใจในการใช้ภาษาที่ได้รับการป้อนจากมนุษย์มาสร้างหรือปรับเปลี่ยนรูปภาพ ก่อกำเนิด DALL·E รุ่นแรกในเดือนมกราคม ปี 2021 ซึ่งเป็นโมเดลพัฒนาต่อยอดจากระบบโครงข่ายประสาทเทียมของ GPT-3 และมีจำนวนพารามิเตอร์ 1.2 หมื่นล้านตัว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Zero-Shot Text-to-Image Generation by Aditya Ramesh et. al. (2021))
ความโดดเด่นของ DALL·E คือ สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา


แม้ว่าความสามารถของ DALL·E รุ่นแรกจะแสดงให้เห็นถึงศักยภาพของปัญญาประดิษฐ์ในการเข้าใจภาษาของมนุษย์และสามารถสร้างรูปภาพที่ไม่มีจริงขึ้นมาได้ แต่รูปภาพนั้นยังมีข้อจำกัดอยู่ โดยเฉพาะความละเอียดและความสมจริงของรูปภาพ ทำให้มนุษย์ยังสามารถแยกแยะได้ว่า รูปนี้เป็นรูปที่ไม่ได้สร้างจากมนุษย์
ต่อมาในช่วงเดือนเมษายนปี 2022 เพียงแค่หนึ่งปีผ่านไปหลังจากเปิดตัว DALL·E รุ่นแรก OpenAI เปิดตัว DALL·E 2 หรือ DALL·E รุ่นที่ 2 และเรียกเสียงฮือฮาในปี 2022 นี้เลยทีเดียว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh et. al. (2022))
DALL·E 2 หรือ DALL·E รุ่นที่ 2 สร้างรูปภาพที่มีความละเอียดของภาพดีขึ้นถึง 4 เท่า และมีพัฒนาการก้าวกระโดดทั้งในแง่ของการสร้างรูปภาพให้ตรงกับคำบรรยายและความสมจริง

จากคำบรรยาย “a painting of a fox sitting in a field at sunrise in the style of Claude Monet” หรือ “ภาพวาดพู่กันรูปสุนัขจิ้งจอกในทุ่งหญ้าในเวลาพระอาทิตย์ขึ้นตามสไตล์ของศิลปิน Claude Monet” (Source: OpenAI)
ตัวอย่างต่อไปนี้ คือ ผลงานของ DALL·E 2 ที่แสดงศักยภาพในการสร้างรูปภาพที่หลากหลายภายใต้คำบรรยายเดียวกันโดยยังคงองค์ประกอบหลักของภาพและลักษณะเด่นของศิลปะไว้ อีกทั้งยังมีความละเอียดของภาพสูงอีกด้วย

นักบินอวกาศขี่ม้าโดยรูปภาพเป็นแบบภาพถ่าย (Source: OpenAI)

นักบินอวกาศขี่ม้าโดยรูปภาพเป็นลักษณะวาดด้วยดินสอ (Source: OpenAI)

ตุ๊กตาหมีทำงานวิจัยด้าน AI ชิ้นใหม่บนดวงจันทร์ในช่วงปี 1980 (Source: OpenAI)

แพะถ่ายรูปด้วย iPad โดยรูปเป็นลักษณะภาพวาดพู่กันที่ได้รับแรงบันดาลใจจากรูปภาพโมนาลิซ่า
(Source: DALLE: AI Made This Thumbnail!)
ความสามารถเพิ่มเติมอันน่าทึ่งของ DALL·E 2
นอกเหนือจากการสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูงแล้ว DALL·E 2 ยังมีความสามารถเพิ่มเติม นั่นคือ การเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting) การสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) และการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย (Text diffs)
Inpainting: ความสามารถในการเพิ่มองค์ประกอบของภาพต้นฉบับโดยใช้คำบรรยาย
DALL·E 2 มีความสามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้ ดังแสดงตัวอย่างในรูปที่ 10 ที่มีการเพิ่มพระจันทร์เข้ามาในรูปภาพในตำแหน่งที่เลือกไว้

(Source: DALL-E 2 Inpainting / Editing Demo)

เพื่อเพิ่มพระจันทร์เข้ามาในรูป (Source: DALL-E 2 Inpainting / Editing Demo)
Variations: ความสามารถในการสร้างรูปภาพใหม่ตามต้นฉบับ
DALL·E 2 นั้นยังมีความสามารถในการสร้างรูปภาพใหม่โดยลอกเลียนแบบจากรูปต้นฉบับ โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไปดังในรูปหญิงสาวโพกหัวนี้

Text diffs: ความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย
DALL·E 2 นั้นยังมีความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับ โดยใส่คำบรรยายสำหรับรูปก่อนเปลี่ยนและคำบรรยายสำหรับรูปหลังเปลี่ยนได้ ตัวอย่างในรูปที่ 13 คือ รูปต้นฉบับซึ่งเป็นบ้านสมัย Victorian โดยคำบรรยายของรูปก่อนเปลี่ยนคือ “a Victorian house” (บ้านสมัย Victorian) และคำบรรยายรูปหลังเปลี่ยนคือ “a modern house” (บ้านในยุคสมัยปัจจุบัน) วิดีโอในรูปที่ 13 แสดงภาพที่ DALL·E 2 สร้างมาประกอบกันเพื่อแสดงถึงการปรับเปลี่ยนรูปต้นฉบับให้กลายเป็นบ้านยุคสมัยปัจจุบันตามโจทย์

จะเห็นได้เลยว่า ความสามารถของ DALL·E 2 นั้นไม่ธรรมดาเลยทีเดียว ถ้าคุณสนใจถึงเทคโนโลยีเบื้องหลังของ DALL·E 2 รวมถึงข้อจำกัดและผลกระทบของปัญญาประดิษฐ์ตัวนี้ที่อาจจะสร้างความกังวลให้ในสังคม สามารถติดตามต่อไปได้ในภาคที่สองของบทความนี้
แหล่งอ้างอิง
- DALL·E 2, Explained: The Promise and Limitations of a Revolutionary AI by Alberto Romero (2022)
- How DALL·E 2 Works by Aditya Ramesh (2022)
- How Does DALL·E 2 Work? By Aditya Singh (2022)
เนื้อหาโดย ศรัณธร ภู่สิงห์ ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต