Google weighs Gemini AI project to tell people their life story using phone data, photos

“Project Ellmann” เป็นโปรเจคท์ภายในของ Google เพื่อใช้ปัญญาประดิษฐ์ ทำให้ผู้ใช้ได้รับ “bird’s-eye view” ของเรื่องราวชีวิตของพวกเขา แนวคิดก็คือการใช้ LLM เช่น Gemini เพื่อนำเข้าผลการค้นหา ระบุรูปแบบในรูปถ่ายของผู้ใช้ สร้างแชทบอท และ “ตอบคำถามที่เป็นไปไม่ได้ก่อนหน้านี้” เกี่ยวกับชีวิตของบุคคล ทีมงานยังสาธิต “Ellmann Chat” พร้อมคำอธิบาย “ลองนึกภาพว่า แค่เปิด ChatGPT ก็สามารถรู้ทุกอย่างเกี่ยวกับชีวิตของคุณแล้ว”

“Project Ellmann” is an internal Google proposal to use artificial intelligence to help users get a “bird’s-eye view” of their life stories. The idea would be to use LLMs like Gemini to ingest search results, spot patterns in a user’s photos, create a chatbot and “answer previously impossible questions” about a person’s life. The team also demonstrated “Ellmann Chat,” with the description “Imagine opening ChatGPT but it already knows everything about your life.”

Google พัฒนาโครงการ Gemini AI เพื่อบอกเล่าเรื่องราวชีวิตของผู้ใช้ โดยใช้ข้อมูลจากโทรศัพท์และรูปภาพ

ทีมงานของ Google ได้เสนอให้ใช้เทคโนโลยีปัญญาประดิษฐ์เพื่อสร้างมุมมองชีวิตของผู้ใช้แบบ “bird’s-eye view” โดยใช้ข้อมูลโทรศัพท์มือถือ เช่น ภาพถ่ายและการค้นหา

ชื่อโปรเจกต์ “Project Ellmann” ตั้งขึ้นตามชื่อนักเขียนชีวประวัติและนักวิจารณ์วรรณกรรม Richard David Ellmann แนวคิดก็คือการใช้ LLM เช่น Gemini เพื่อนำเข้าผลการค้นหา มองเห็นรูปแบบในภาพถ่ายของผู้ใช้ สร้างแชทบอท และ “ตอบคำถามที่เป็นไปไม่ได้ก่อนหน้านี้” เป้าหมายของ Ellmann คือการเป็น “ผู้เล่าเรื่องราวชีวิตของคุณ”

ยังไม่ชัดเจนว่าบริษัทมีแผนจะสร้างความสามารถเหล่านี้ใน Google Photos หรือผลิตภัณฑ์อื่นใด Google Photos มีผู้ใช้มากกว่า 1 พันล้านคน และมีรูปภาพและวิดีโอ 4 ล้านล้านรายการ ตามข้อมูลจากบริษัท

Project Ellman เป็นเพียงหนึ่งในหลายๆ วิธีที่ Google เสนอเพื่อสร้างหรือปรับปรุงผลิตภัณฑ์ด้วยเทคโนโลยี AI เมื่อวันพุธที่ผ่านมา Google ได้เปิดตัวโมเดล AI ขั้นสูงที่ “มีความสามารถมากที่สุด” Gemini ซึ่งในบางกรณีมีประสิทธิภาพเหนือกว่า GPT-4 ของ OpenAI บริษัทกำลังวางแผนที่จะเปิดตัว Gemini ให้กับลูกค้าหลากหลายกลุ่มผ่าน Google Cloud เพื่อให้พวกเขาใช้ในแอปพลิเคชันของตนเอง คุณสมบัติที่โดดเด่นประการหนึ่งของ Gemini คือสามารถประมวลผลได้หลายรูปแบบ ซึ่งหมายความว่าสามารถประมวลผลและทำความเข้าใจข้อมูลนอกเหนือจากข้อความได้ รวมถึงรูปภาพ วิดีโอ และเสียง

มีการนำ Google Photos มาใช้งานร่วมกับ Project Ellman ร่วมกับทีม Gemini ในการประชุมสุดยอดภายในครั้งล่าสุด ทีมงานใช้เวลาสองสามเดือนที่ผ่านมาพิจารณาว่าแบบโมเดล LLMs เป็นเทคโนโลยีในอุดมคติที่จะทำให้การมองเรื่องราวชีวิตแบบ bird’s-eye view สามารถกลายเป็นความจริง

Ellmann สามารถดึงบริบทโดยใช้ชีวประวัติ ช่วงเวลาก่อนหน้า และภาพถ่ายที่ตามมาเพื่ออธิบายภาพถ่ายของผู้ใช้ได้ลึกซึ้งยิ่งกว่า “เพียงพิกเซลที่มีป้ายกำกับและข้อมูลเมตา” ในการนำเสนอ โดยเสนอให้สามารถระบุช่วงเวลาต่างๆ เช่น ข่วงชีวิตในมหาวิทยาลัย ช่วงการเริ่มต้นทำงาน และช่วงเวลาสร้างครอบครัว

“เราไม่สามารถตอบคำถามยากๆ หรือบอกเล่าเรื่องราวดีๆ ได้โดยไม่มองชีวิตของคุณแบบ bird’s-eye view” คำอธิบายหนึ่งอ่านควบคู่ไปกับรูปถ่ายของเด็กชายตัวเล็ก ๆ ที่กำลังเล่นกับสุนัขบนกองดิน

“เราค้นหารูปภาพของคุณ ดูแท็กและตำแหน่งเพื่อระบุช่วงเวลาที่มีความหมาย” สไลด์การนำเสนออ่าน “เมื่อเราถอยออกมาและเข้าใจชีวิตของคุณอย่างครบถ้วน เรื่องราวโดยรวมของคุณก็จะชัดเจน”

การนำเสนอกล่าวว่าแบบจำลองภาษาขนาดใหญ่สามารถอนุมานช่วงเวลาต่างๆ เช่น การเกิดของเด็กได้ “LLM นี้สามารถใช้ความรู้จากที่สูงบนต้นไม้เพื่ออนุมานได้ว่านี่คือวันเกิดของแจ็ค และเขาเป็นลูกคนแรกและคนเดียวของเจมส์และเจมม่า”

“เหตุผลหนึ่งที่ LLM มีประสิทธิภาพมากสำหรับแนวทางแบบ bird’s-eye view ก็คือว่ามันสามารถนำบริบทที่ไม่มีโครงสร้างจากระดับที่แตกต่างกันทั้งโครงสร้างแบบต้นไม้นี้ และใช้มันเพื่อปรับปรุงวิธีที่มันเข้าใจส่วนอื่น ๆ ของมัน” การอ่านสไลด์ควบคู่ไปกับภาพประกอบของ “ช่วงเวลา” และ “บท” ในชีวิตที่หลากหลายของผู้ใช้

ผู้นำเสนอยกตัวอย่างอีกตัวอย่างหนึ่งในการพิจารณาว่าผู้ใช้รายหนึ่งเพิ่งเข้าร่วมงานรวมตัวในชั้นเรียนเมื่อเร็วๆ นี้ “มันผ่านมา 10 ปีแล้วตั้งแต่เขาเรียนจบ และเต็มไปด้วยใบหน้าที่ไม่ได้เห็นหน้ากันในรอบ 10 ปี ดังนั้นมันจึงน่าจะเป็นการกลับมาพบกันใหม่” ทีมงานสรุปในการนำเสนอ

ทีมงานยังสาธิต “Ellmann Chat” พร้อมคำอธิบายว่า “ลองนึกภาพการเปิด ChatGPT แต่มันรู้ทุกอย่างเกี่ยวกับชีวิตของคุณแล้ว คุณจะถามอะไรล่ะ”

มันแสดงตัวอย่างแชทที่ผู้ใช้ถามว่า “ฉันมีสัตว์เลี้ยงไหม?” โดยตอบว่าใช่ ผู้ใช้มีสุนัขตัวหนึ่งที่สวมเสื้อกันฝนสีแดง จากนั้นจึงเสนอชื่อสุนัขและชื่อของสมาชิกในครอบครัวสองคนที่พบเห็นบ่อยที่สุด

อีกตัวอย่างหนึ่งของการแชทคือผู้ใช้ถามว่าพี่น้องเข้าชมครั้งล่าสุดเมื่อใด อีกคนหนึ่งขอให้ระบุรายชื่อเมืองที่คล้ายกับที่พวกเขาอาศัยอยู่เพราะพวกเขาคิดจะย้าย Ellmann สามารถให้คำตอบแก่ผู้ใช้ทั้งสองคน

Ellmann ยังนำเสนอสรุปพฤติกรรมการกินของผู้ใช้ สไลด์อื่นๆ แสดงให้เห็น “ดูเหมือนคุณจะชอบอาหารอิตาเลียน มีรูปถ่ายพาสต้าหลายรูป รวมถึงรูปถ่ายพิซซ่าด้วย” นอกจากนี้ยังกล่าวอีกว่าผู้ใช้ดูเหมือนจะเพลิดเพลินกับอาหารใหม่ๆ เนื่องจากรูปถ่ายของพวกเขามีเมนูที่มีเมนูที่ไม่รู้จัก

เทคโนโลยียังกำหนดผลิตภัณฑ์ที่ผู้ใช้กำลังพิจารณาซื้อ ความสนใจ แผนงานและการเดินทางโดยอิงจากภาพหน้าจอของผู้ใช้ การนำเสนอระบุไว้ นอกจากนี้ ยังแนะนำว่าจะสามารถรู้จักเว็บไซต์และแอปโปรดของพวกเขาได้ โดยยกตัวอย่าง Google Docs, Reddit และ Instagram

โฆษกของ Google บอกกับ CNBC ว่า “Google Photos ใช้ AI เพื่อช่วยให้ผู้คนค้นหารูปภาพและวิดีโอของตนมาโดยตลอด และเรารู้สึกตื่นเต้นกับศักยภาพของ LLM ที่จะปลดล็อกประสบการณ์ที่เป็นประโยชน์มากยิ่งขึ้น นี่เป็นการสำรวจภายในในช่วงเริ่มต้น และเช่นเคย หากเราตัดสินใจที่จะเปิดตัวฟีเจอร์ใหม่ เราจะใช้เวลาที่จำเป็นเพื่อให้แน่ใจว่าฟีเจอร์เหล่านี้จะเป็นประโยชน์ต่อผู้คน และได้รับการออกแบบมาเพื่อปกป้องความเป็นส่วนตัวและความปลอดภัยของผู้ใช้เป็นสิ่งสำคัญที่สุดของเรา”

การแข่งขันของ Big Tech เพื่อสร้าง ‘ความทรงจำ’ ที่ขับเคลื่อนด้วย AI

โครงการ Ellmann ที่เสนอสามารถช่วย Google ในการแข่งขันด้านอาวุธระหว่างยักษ์ใหญ่ด้านเทคโนโลยีเพื่อสร้างความทรงจำในชีวิตที่เป็นส่วนตัวมากขึ้น

Google Photos และ Apple Photos ให้บริการ “ความทรงจำ” มานานหลายปีและสร้างอัลบั้มตามเทรนด์ของรูปภาพ

ในเดือนพฤศจิกายน Google ประกาศว่าด้วยความช่วยเหลือของ AI ทำให้ Google Photos สามารถจัดกลุ่มรูปภาพที่คล้ายกันและจัดระเบียบภาพหน้าจอให้เป็นอัลบั้มที่ค้นหาได้ง่าย

Apple ประกาศในเดือนมิถุนายนว่าการอัปเดตซอฟต์แวร์ล่าสุดจะรวมความสามารถของแอพรูปภาพในการจดจำผู้คน สุนัข และแมวในรูปภาพของพวกเขา มันแยกแยะใบหน้าแล้วและอนุญาตให้ผู้ใช้ค้นหาตามชื่อ

Apple ยังได้ประกาศแอพ Journal ที่กำลังจะเปิดตัว ซึ่งจะใช้ AI บนอุปกรณ์เพื่อสร้างคำแนะนำส่วนบุคคลเพื่อแจ้งให้ผู้ใช้เขียนข้อความที่อธิบายความทรงจำและประสบการณ์ของพวกเขาโดยอิงจากภาพถ่าย สถานที่ เพลง และการออกกำลังกายล่าสุด

แต่ Apple, Google และยักษ์ใหญ่ด้านเทคโนโลยีอื่น ๆ ยังคงต่อสู้กับความซับซ้อนในการแสดงและระบุภาพอย่างเหมาะสม

ตัวอย่างเช่น Apple และ Google ยังคงหลีกเลี่ยงการติดป้ายกำกับกอริลลา หลังจากรายงานในปี 2558 พบว่าบริษัทติดป้ายกำกับคนผิวดำว่าเป็นกอริลลา การสืบสวนของ New York Times ในปีนี้พบว่าซอฟต์แวร์ Android ของ Apple และ Google ซึ่งเป็นรากฐานของสมาร์ทโฟนส่วนใหญ่ของโลก ได้ปิดความสามารถในการค้นหาไพรเมตด้วยสายตา เนื่องจากกลัวว่าจะติดแท็กคนว่า คนเป็นสัตว์

บริษัทต่างๆ รวมถึง Google, Facebook และ Apple ได้เพิ่มการควบคุมเมื่อเวลาผ่านไปเพื่อลดความทรงจำที่ไม่ต้องการ แต่ผู้ใช้รายงานว่า บางครั้ง สิ่งที่พวกเขาไม่ต้องการ ยังคงปรากฏขึ้น และต้องการให้ผู้ใช้สามารถตั้งค่าต่างๆ เพื่อลดสิ่งที่ไม่ต้องการให้เกิดขึ้นน้อยที่สุด

view original *