
ระบบ AI ใหม่ที่ได้รับการปรับปรุงนี้สามารถสร้างภาพที่เหมือนจริงได้ทุกอย่างตามต้องการ
ลองนึกภาพพิมพ์วลีนี้ลงในหน้าจอคอมพิวเตอร์ที่ว่างเปล่า: “ชามซุปที่ดูเหมือนสัตว์ประหลาด” ไม่กี่วินาทีต่อมา สิ่งมีชีวิตที่ถักจากขนแกะ—และอาบด้วยซุป—อาจยิ้มให้คุณ
บางทีอาจเป็น “ภาพวาดสไตล์ Andy Warhol ของ French Bulldog สวมแว่นกันแดด” หรือ “มังกรดินโพลิเมอร์กินพิซซ่าในเรือ” หากคุณฝันถึงมันได้ DALL-E 2 ก็สร้างมันได้
ในเดือนมกราคมปี 2021 OpenAI ห้องปฏิบัติการปัญญาประดิษฐ์ได้สร้างDALL-Eซึ่งเป็นโครงข่ายประสาทเทียมที่สร้างภาพการ์ตูนจากคำบรรยาย หนึ่งปีผ่านไปDALL-E 2ก็มาถึง ด้วยระบบที่เร็วขึ้นซึ่งมอบองค์ประกอบที่สมจริงยิ่งขึ้นในความละเอียดสูงขึ้น
การรวมชื่อของหุ่นยนต์WALL-Eและศิลปิน Salvador Dalí, DALL-E 2 เช่นเดียวกับรุ่นก่อน ได้รับการฝึกให้เรียนรู้ความสัมพันธ์ระหว่างรูปภาพและข้อความที่ใช้อธิบาย อย่างไรก็ตาม เทคโนโลยีใหม่นี้ใช้ได้ผลเนื่องจากกระบวนการที่เรียกว่า “การแพร่กระจาย” โดยพื้นฐานแล้ว ระบบจะจัดระเบียบรูปแบบจุดแบบสุ่มลงในรูปภาพใหม่เมื่อจำแนกลักษณะเฉพาะของรูปได้
Alex Nichol หนึ่งในนักวิจัยที่รับผิดชอบการพัฒนา DALL-E 2 เพิ่งเดิน Cade Metz นักข่าวด้านเทคโนโลยีของNew York Timesผ่านการสาธิต เมื่อเขาพิมพ์ “กาน้ำชาที่มีรูปร่างเหมือนอะโวคาโด” AI ได้สร้างภาพที่แตกต่างกันสิบภาพของ “กาน้ำชาอะโวคาโด” ทั้งแบบมีหลุมและไม่มีหลุม ในชุดการทดลอง นิโคลแสดงความสามารถของ DALL-E 2 ในการแก้ไขภาพ เขาขอ “ตุ๊กตาหมีเล่นทรัมเป็ตใต้น้ำ” และภาพที่ได้รวมฟองอากาศเล็กๆ ออกมาจากเครื่องดนตรีตามหน้าที่ นิโคลจึงลบแตรและเปลี่ยนด้วยคำสั่งง่ายๆ กีตาร์แทน
การแก้ไขเป็นการอัปเกรดที่แตกต่างจาก DALL-E ดั้งเดิม รายงาน Adi Robertson for the Verge ด้วยคุณลักษณะที่เรียกว่า inpainting ผู้ใช้สามารถเพิ่มหรือลบองค์ประกอบออกจากรูปภาพที่มีอยู่ได้ เธออธิบาย และคุณลักษณะอื่น—รูปแบบต่างๆ—ทำให้สามารถผสมภาพสองภาพเข้าด้วยกันได้
การทำซ้ำครั้งแรกนั้นใช้GPT-3ซึ่งเป็นแบบจำลองที่สร้างขึ้นโดย OpenAI ซึ่งคาดการณ์คำถัดไปในลำดับ ในกรณีของ DALL-E จะคาดการณ์พิกเซลแทนที่จะเป็นคำ อย่างไรก็ตาม DALL-E 2 ใช้CLIP ซึ่งเป็น โครงข่ายประสาทเทียมของ OpenAI หรือระบบทางคณิตศาสตร์ที่สร้างแบบจำลองบนเครือข่ายของเซลล์ประสาทในสมอง ตามที่Andrew Tarantola แห่งEngadget กล่าว เทคโนโลยีนี้ได้รับการฝึกฝนด้วยรูปภาพและภาษาธรรมชาติที่หลากหลายบนอินเทอร์เน็ต ตัวอย่างเช่น เมื่อดูรูปแบบในรูปหมีนับพัน ระบบจะเรียนรู้ที่จะรู้จักหมี
CLIP แปลคำสั่งข้อความเป็น “รูปแบบกลาง” ที่รวบรวมลักษณะที่สำคัญสำหรับรูปภาพใดๆ ที่ตรงตามข้อกำหนดของคำสั่ง Will Douglas Heaven จากMIT Technology Reviewรายงาน จากนั้น โครงข่ายประสาทเทียมอีกประเภทหนึ่งที่เรียกว่าแบบจำลองการแพร่กระจายจะสร้างภาพที่มีลักษณะเฉพาะเหล่านี้ “ขอให้มัน [DALL-E 2] สร้างภาพนักบินอวกาศบนหลังม้า นักวิทยาศาสตร์ตุ๊กตาหมี หรือนากทะเลในรูปแบบของเวอร์เมียร์ และมันทำเช่นนั้นด้วยความเหมือนจริงที่ใกล้เคียง” สวรรค์เขียน
ที่กล่าวว่าเทคโนโลยีของ DALL-E 2 นั้นไม่มีข้อบกพร่องอย่างสิ้นเชิง บางครั้งอาจไม่สามารถจดจำสิ่งที่กำลังพูดได้ ตัวอย่างเช่น เมื่อนิโคลขอให้ “วางหอไอเฟลไว้บนดวงจันทร์” นิโคลัสจึงวางดวงจันทร์ไว้บนท้องฟ้าเหนือหอคอยไทม์ส
นอกเหนือจากความไม่สมบูรณ์ในระบบอัตโนมัติแล้ว DALL-E 2 ยังตั้งคำถามด้านจริยธรรมอีกด้วย แม้ว่ารูปภาพที่สร้างโดยระบบจะมีลายน้ำระบุว่างานดังกล่าวสร้างขึ้นโดย AI แต่ก็สามารถครอบตัดได้ ตามรายงานของVerge เพื่อหลีกเลี่ยงอันตรายที่อาจเกิดขึ้น OpenAI ได้ออกนโยบายผู้ใช้ที่ห้ามไม่ให้ระบบสร้างภาพที่ไม่เหมาะสม ซึ่งรวมถึงความรุนแรง ภาพลามกอนาจาร หรือข้อความเกี่ยวกับการเมือง นอกจากนี้ ผู้ใช้จะไม่ได้รับอนุญาตให้ขอให้ AI สร้างภาพบุคคลที่เป็นที่รู้จักตามชื่อเพื่อป้องกันการละเมิด
เครื่องมือนี้ยังไม่ได้แชร์กับสาธารณะ แต่นักวิจัยสามารถลงทะเบียนออนไลน์เพื่อดูตัวอย่างระบบได้ ในที่สุด OpenAI วางแผนที่จะนำเสนอเทคโนโลยีให้กับชุมชนสร้างสรรค์ เพื่อให้ผู้คนเช่นนักออกแบบกราฟิกสามารถใช้ทางลัดใหม่ในการพัฒนาภาพดิจิทัลตามNew York Times นักออกแบบผลิตภัณฑ์ ศิลปิน และนักพัฒนาเกมคอมพิวเตอร์สามารถพบว่าเป็นเครื่องมือที่มีประโยชน์เช่นกัน Jeremy Kahn of Fortuneรายงาน
“เราหวังว่าเครื่องมือเช่นนี้จะทำให้ผู้คนสามารถสร้างสิ่งที่พวกเขาต้องการได้” Nichol บอกกับFortune