Can Artificial Intelligence Match Human Creativity?

A New Study Compares The Generation Of Original Ideas Between Humans and Generative Artificial Intelligence Chatbots

การศึกษาเปรียบเทียบความคิดสร้างสรรค์ของมนุษย์ กับ Generative AI Chat bot 6 ตัว ได้แก่ ChatGPT (เวอร์ชัน 3 และ 4) และ DALL-E  นักวิจัยใช้ Alternative Uses Test (AUT) เพื่อประเมินความสามารถในการคิดสร้างสรรค์  การประเมินครอบคลุมความคิดริเริ่ม (originality) และความคิดคล่อง (fluency) โดยทั้งผู้ประเมินที่เป็นมนุษย์ และ AI ที่ได้รับการเทรนนิ่งมาโดยเฉพาะสำหรับการประเมิน AUT-trained large-language models   ผลการวิจัยพบว่า ไม่มีความแตกต่างอย่างมีนัยสำคัญ ในความคิดสร้างสรรค์ระหว่างมนุษย์และ AI ผลการศึกษา มีผู้เข้าร่วมการทดลองจำนวนเล็กน้อย ไม่กี่เปอร์เซ็นต์ ที่พบว่ามีความคิดสร้างสรรค์สูงกว่า AI และ  GPT-4 มีประสิทธิภาพดีกว่า GAI อื่นๆ ที่เหลือ 5 ตัว

A recent study compared the creativity of human-generated ideas with those generated by six generative AI chatbots, including ChatGPT (versions 3 and 4) and DALL-E. The researchers used the Alternative Uses Test (AUT) to assess the divergent thinking abilities of both humans and AI, requiring them to generate unique uses for common objects. The responses were evaluated for originality and fluency by both human raters and an AI specifically trained for assessing AUT-trained large-language models. The results showed that there was not much significant difference in creativity between humans and AI in terms of originality and fluency, except for a small percentage of human participants who were found to be more creative. GPT-4 outperformed all five other GAIs in a subsequent analysis, except for one prompt.

AI สามารถเทียบเคียงความคิดสร้างสรรค์ของมนุษย์ได้หรือไม่? 

ในเวลานี้ ปัญญาประดิษฐ์สามารถทำงานโดยเลียนแบบมนุษย์ได้  ด้วยการพัฒนา Large Language Models เช่น ChatGPT และ DALL-E และ Generative AI ต่างๆ ที่ได้รับความสนใจเพิ่มขึ้น การสร้างเนื้อหาแบบมนุษย์ จึงไม่ใช่เรื่องเพ้อฝันอีกต่อไป  ตอนนี้ทุกอย่างเป็นไปได้ ตั้งแต่การตอบคำถาม การเขียนโค้ด และการสร้างเนื้อหาจากคำอธิบายที่เป็นข้อความไปจนถึงการสร้างรูปภาพจากข้อความและรูปภาพจากรูปภาพ ในปัจจุบัน AI จึงถูกเปรียบเทียบกับมนุษย์ ในด้านความคิดสร้างสรรค์ แม้แต่เหนือกว่ามนุษย์ในบางเรื่อง เช่น การเล่นหมากรุก

เมื่อเร็วๆ นี้ นักวิจัยได้ศึกษาเปรียบเทียบความคิดสร้างสรรค์มนุษย์ กับ Generative AI Chat bot 6 ตัว ได้แก่ alpa.ai, Copy.ai, ChatGPT (เวอร์ชัน 3 และ 4), Studio.ai และ YouChat  เพื่อพิจารณาความเหมือน และความแตกต่างระหว่างความคิดสร้างสรรค์ที่ AI สร้างขึ้น กับมนุษย์ ทั้งด้านคุณภาพและปริมาณ

ทีมงานวิจัยได้เปรียบเทียบไอเดีย ความคิดริเริ่ม (originality) และความคิดคล่อง (fluency) การวิจัยความคิดสร้างสรรค์ที่เกิดขึ้น ใช้ Alternative Uses Test  (AUT28)  การทดสอบการใช้ทางเลือก เพื่อประเมินความสามารถในการคิดที่แตกต่าง โดยแสดงรายการการใช้งานที่ไม่ชัดเจน และสร้างสรรค์ของวัตถุทั่วไป การวิจัยใช้ AUT กับผู้เข้าร่วมทดสอบ 100 คนและ Generative AI 5 ตัว  กระบวนการการทดสอบกำหนดให้มนุษย์ และ AI ใช้ความคิดสร้างสรรค์กับวัตถุทั่วๆ ไป (prompts) ห้าอย่าง ได้แก่ กางเกง ลูกบอล ยางรถ ส้อม และแปรงสีฟัน ดังรายละเอียดในงานวิจัยเรื่อง “Artificial muses: Generative Artificial Intelligence Chatbots Have Risen to Human-Level Creativity”

การประเมิน พิจารณาจากความคิดริเริ่ม (originality) และความคิดคล่อง (fluency) พวกเขาใช้ทั้ง intuitive human evaluation (Consensual Assessment technique)  และ AI ที่ได้รับการเทรนนิ่งมาโดยเฉพาะเพื่อใช้ประเมิน AUT-trained large-language models ในการพิจารณาความน่าเชื่อถือระหว่างผู้ประเมินทั้งหกคน ทีมงานได้คำนวณความสัมพันธ์ภายในคลาสโดยใช้ R-package irr33 ซึ่งผลลัพธ์ที่ได้บ่งชี้ว่า มนุษย์เห็นด้วยโดยทั่วไปว่าคำตอบใดเป็นความคิดริเริ่ม

การศึกษาเพื่อเปรียบเทียบ การสร้างความคิดสร้างสรรค์ ระหว่างมนุษย์กับ AI Chatbots

สำหรับการเปรียบเทียบ มีการใช้ linear mixed effects models  สองโมเดล พร้อม random intercepts และ random slopes  สำหรับ 5 prompts การใช้โมเดลแรก ที่ให้คะแนนโดยมนุษย์ ไม่พบความแตกต่างระหว่างมนุษย์ และ Generative AI โมเดลที่สอง ซึ่งประเมินโดย AI ก็ไม่พบความแตกต่างเช่นกัน อย่างไรก็ตาม prompt-ส้อม ในโมเดลที่มนุษย์ให้คะแนน และ prompt-แปรงสีฟัน ในโมเดลที่ให้คะแนนโดย AI นั้น มนุษย์มีประสิทธิภาพดีกว่า Generate AI

และเมื่อ GPT-4 เปิดตัวกลางเดือนมีนาคม 2023 นักวิจัยได้ทำการวิเคราะห์เพิ่มเติม โดยใช้  GPT-4 กับ AUT โดยคำตอบจะได้รับการวิเคราะห์โดย AI เท่านั้น เนื่องจากผู้ประเมินที่เป็นมนุษย์อาจมีอคติ เนื่องจากรู้ว่าคำตอบนั้นไม่ใช่มนุษย์  พบว่า GPT-4 มีประสิทธิภาพดีกว่า GAI อื่นๆ ทั้ง 5 รายการ ยกเว้น prompt-ลูกบอล ซึ่งอยู่ในอันดับที่สอง  เมื่อเปรียบเทียบประสิทธิภาพของ GPT-4 กับมนุษย์

Figure 2 Human-rated originality scores for each generative artificial intelligence (GAI), including the average score from humans and the score of the most creative human
Figure 3 AI-rated originality scores for each generative artificial intelligence (GAI), including the average score from humans and the score of the most creative human

มีเพียงสองคนเท่านั้นที่มีความคิดสร้างสรรค์มากกว่า AI ที่สร้างสรรค์ที่สุดสำหรับ prompt–กางเกง, 29 คนมีความคิดสร้างสรรค์มากกว่าสำหรับ prompt–ลูกบอล, ไม่มีใครสร้างสรรค์มากกว่า สำหรับ prompt–ยางรถ, สามคนสร้างสรรค์มากกว่าสำหรับ prompt–ส้อม และ 13 มีความคิดสร้างสรรค์มากกว่าสำหรับ prompt–แปรงสีฟัน” โดยรวมแล้ว มนุษย์ 9.4 คน จากผู้เข้าร่วมทดสอบ 100 คน ได้ผลประเมินว่า มีความคิดสร้างสรรค์มากกว่า GPT-4  ในทุก prompts ที่ใช้เป็น AUT

ผลสรุปการวิจัยพบว่า การเปรียบเทียบความคิดสร้างสรรค์ระหว่างมนุษย์และ AI ไม่มีความแตกต่างอย่างมีนัยสำคัญ ในแง่ของความคิดริเริ่ม และความคิดคล่อง ยกเว้นเปอร์เซ็นต์เล็กน้อยของผู้เข้าร่วมทดสอบ ที่ได้ผลประมินว่า มีความคิดสร้างสรรค์มากกว่า AI

view original *