สาขาปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว โดยมีโมเดลที่มีความสามารถมากขึ้นเกิดขึ้นอยู่ตลอดเวลา หนึ่งในความท้าทายหลักในสาขานี้คือการมีมาตรวัด (benchmark) ที่สามารถประเมินความสามารถของระบบ AI ขั้นสูงเหล่านี้ได้อย่างแม่นยำ โดยเฉพาะความสามารถในการทำงานเป็นผู้ช่วยอเนกประสงค์ในสถานการณ์จริง GAIA benchmark ซึ่งพัฒนาโดย Hugging Face ร่วมกับ Meta มีเป้าหมายที่จะตอบโจทย์ปัญหานี้ด้วยการจัดเตรียมกรอบการประเมินที่ครอบคลุมและท้าทายสำหรับผู้ช่วย AI รุ่นต่อไป
What is the GAIA Benchmark?
แทนที่จะมุ่งเน้นที่งานแยกส่วนหรือที่ออกแบบมาเป็นพิเศษเพื่อให้มนุษย์ทำได้ยาก GAIA benchmark เป็นการเปลี่ยนแนวคิดในการประเมิน AI โดยให้ความสำคัญกับสถานการณ์และปฏิสัมพันธ์ในโลกแห่งความจริง
GAIA (General AI Assistants) มีเป้าหมายที่จะประเมินว่า ระบบ AI สามารถทำหน้าที่เป็นผู้ช่วยที่มีประโยชน์ในสถานการณ์จริงได้อย่างมีประสิทธิภาพเพียงใด โดยมุ่งเน้นที่โมเดลภาษาใหญ่ (LLMs) ที่มีความสามารถเสริม เช่น การเข้าถึงเครื่องมือ เทคนิค prompting ที่มีประสิทธิภาพ และความสามารถในการค้นหาบนเว็บ
GAIA ไม่ได้วัดเพียงแค่ความถูกต้องเท่านั้น แต่วัดความสามารถของ AI ในการจัดการกับคำถามที่ซับซ้อนหลายชั้น ซึ่งต้องใช้การให้เหตุผล การประมวลผลข้อมูลจากแหล่งต่าง ๆ (เช่น ข้อความและภาพ) การนำทางบนเว็บ และการใช้เครื่องมือต่าง ๆ
Real-World Applications of the GAIA Benchmark
GAIA benchmark มีความเกี่ยวข้องในแง่ของการใช้งานจริงอย่างมาก เนื่องจากมันประเมินระบบ AI โดยพิจารณาจากความสามารถในการจัดการกับงานในโลกจริงที่ธุรกิจและบุคคลจำเป็นต้องแก้ไขจริงๆ สิ่งนี้ทำให้มันแตกต่างจากมาตรวัดที่จำกัดมากขึ้นซึ่งมุ่งเน้นที่ความสามารถเฉพาะหรือความสามารถในเชิงนามธรรม บางตัวอย่างของการประยุกต์ใช้งานจริงของ GAIA benchmark มีดังนี้:
- Evaluating AI Assistants: GAIA ให้วิธีการที่เป็นมาตรฐานและครอบคลุมในการประเมินความสามารถของผู้ช่วย AI ซึ่งช่วยให้นักพัฒนาสามารถระบุจุดที่ต้องปรับปรุงและติดตามความก้าวหน้าได้ตลอดเวลา สิ่งนี้มีความสำคัญในการทำให้แน่ใจว่าผู้ช่วย AI มีความเป็นประโยชน์และมีประสิทธิภาพในหลากหลายสาขา
- Driving AI Research: ธรรมชาติที่ท้าทายของงานใน GAIA กระตุ้นให้นักวิจัยพัฒนาเทคนิค AI ใหม่ ๆ และนวัตกรรมที่สามารถจัดการกับสถานการณ์จริงได้ดียิ่งขึ้น ซึ่งผลักดันขอบเขตของงานวิจัยและนำไปสู่ระบบ AI ที่มีความแข็งแกร่งและมีความสามารถมากขึ้น
- Improving AI Safety: ด้วยการมุ่งเน้นที่งานในโลกจริง GAIA ช่วยให้มั่นใจว่าระบบ AI ถูกพัฒนาด้วยความคำนึงถึงความปลอดภัยและความเสถียร ลดความเสี่ยงของผลกระทบที่ไม่ได้ตั้งใจ ซึ่งเป็นสิ่งจำเป็นสำหรับการสร้างความเชื่อมั่นในระบบ AI และการนำไปใช้อย่างมีความรับผิดชอบ
Structure of the GAIA Benchmark
GAIA benchmark ประกอบด้วยคำถามทั้งหมด 466 คำถาม ครอบคลุมถึงสามระดับของความซับซ้อน โดยแต่ละระดับถูกกำหนดด้วยจำนวนขั้นตอนที่จำเป็นในการแก้ไขงาน คำถามเหล่านี้มีแนวคิดที่ค่อนข้างเรียบง่ายสำหรับมนุษย์แต่ท้าทายสำหรับ AI ขั้นสูงส่วนใหญ่ เพื่อแสดงให้เห็นถึงความซับซ้อนของมาตรวัดนี้ ให้พิจารณาตัวอย่างจาก GAIA ดังต่อไปนี้ :
“What fruits are in the still life painting from the movie ‘The Last Voyage’? Provide the answer as a comma-separated list. You might need to find out which ocean liner was used as a floating prop for the movie and then find its October 1949 breakfast menu.”
ผลไม้ใดในภาพวาดจากภาพยนตร์ “The Last Voyage”? ให้รายการผลไม้ในรูปแบบที่คั่นด้วยเครื่องหมายจุลภาค คุณอาจต้องค้นหาว่าเรือสำราญใดที่ต่อมาได้ถูกใช้เป็นพร็อพลอยลอยน้ำสำหรับภาพยนต์ แล้วดูเมนูอาหารเช้าในเดือนตุลาคม 1949
คำถามนี้มีความท้าทายอยู่หลายประการ:
- Answering in a constrained format: AI จำเป็นต้องให้คำตอบในรูปแบบรายการที่คั่นด้วยเครื่องหมายจุลภาค
- Using multimodal capabilities: AI จำเป็นต้องวิเคราะห์ภาพเพื่อระบุผลไม้
- Gathering several pieces of information: AI จำเป็นต้องระบุผลไม้ ค้นหา ocean liner ที่ใช้ในภาพยนตร์ และจากนั้นหาข้อมูลเมนูอาหารเช้าของเดือนตุลาคม 1949 ของเรือดังกล่าว
- Chaining together a problem-solving trajectory: AI จำเป็นต้องดำเนินการตามขั้นตอนเหล่านี้ในลำดับที่ถูกต้องเพื่อให้ได้คำตอบ
แต่ละระดับใน GAIA ยังถูกแบ่งออกเป็นชุดพัฒนาแบบสาธารณะสำหรับการตรวจสอบความถูกต้อง และชุดทดสอบที่มีคำตอบและ metadata แบบส่วนตัว สิ่งนี้ทำให้สามารถประเมินและเปรียบเทียบโมเดล AI ต่าง ๆ ได้อย่างเข้มงวด
คำถามใน GAIA ถูกออกแบบขึ้นโดยมีหลักการสามประการดังต่อไปนี้ :
- คำถามมีแนวคิดที่เรียบง่ายแต่ใช้ความพยายามและความละเอียดอ่อนในการแก้ไขสำหรับมนุษย์ สะท้อนงานในโลกจริงที่มักเกี่ยวข้องกับขั้นตอนและการรวบรวมข้อมูลหลายขั้น
- คำตอบสามารถค้นหาได้จากการเยี่ยมชมเว็บไซต์ที่ไม่ได้แบน bot ด้วยไฟล์ robots.txt ซึ่งทำให้มั่นใจได้ว่าคำถามเหล่านี้สามารถแก้ไขได้โดยใช้แหล่งข้อมูลบนเว็บที่มีให้เข้าถึงสาธารณะ
- กระบวนการสร้างคำถามเป็นแบบ crowdsourced และมุ่งเน้นไปที่การใช้เครื่องมือ แสดงให้เห็นถึงความสำคัญที่เพิ่มขึ้นของผู้ช่วย AI ที่สามารถนำเครื่องมือต่าง ๆ ไปใช้ในการทำงานให้สำเร็จ
ยิ่งไปกว่านั้น ชุดข้อมูล GAIA ได้รับการออกแบบให้รองรับหลายภาษา ชุดข้อมูลนี้ถูกสร้างขึ้นครั้งแรกในภาษาอื่นนอกเหนือจากภาษาอังกฤษ โดยเฉพาะภาษาที่มีการใช้อย่างแพร่หลายโดยประชากรส่วนใหญ่ของโลก วิธีการแบบหลายภาษานี้ช่วยให้มั่นใจได้ว่ามาตรวัดนี้มีความสอดคล้องกับคุณลักษณะและกรณีการใช้งานของภาษาที่หลากหลาย
Accessing the GAIA Benchmark
ข้อมูลของ GAIA benchmark สามารถค้นหาได้จากเว็บไซต์ของ Hugging Face คำถามทั้งหมดถูกจัดเก็บอยู่ในไฟล์ชื่อ metadata.jsonl. คำถามบางข้อมาพร้อมกับไฟล์เพิ่มเติม ซึ่งสามารถพบได้ในโฟลเดอร์เดียวกันโดยมี ID ระบุในฟิลด์ file_name
เพื่อเข้าถึงและใช้งานชุดข้อมูลนี้ คุณสามารถใช้ไลบรารี Hugging Face Datasets สคริปต์การโหลดข้อมูลของชุดข้อมูล GAIA.py มีผลต่อการจัดการเส้นทางของไฟล์ ขึ้นอยู่กับว่าชุดข้อมูลถูกโหลดในโหมด streaming หรือไม่ นอกจากนี้ บทความเกี่ยวกับ GAIA benchmark ยังมีตัวอย่างโค้ดที่แสดงวิธีการโต้ตอบกับชุดข้อมูลและใช้ในการประเมินโมเดล AI
GAIA Benchmark Results
GAIA leaderboard ซึ่งติดตามประสิทธิภาพของโมเดล AI ต่าง ๆ บน GAIA benchmark สามารถดูได้ที่ลิงก์นี้: https://huggingface.co/spaces/gaia-benchmark/leaderboard Leaderboard นี้ยังอนุญาตให้นักวิจัยส่งโมเดลของตนเพื่อประเมินผลและเปรียบเทียบประสิทธิภาพกับผู้อื่น อีกคุณสมบัติที่น่าสนใจของ leaderboard คือความสามารถในการรายงาน reasoning trace ของโมเดลเมื่อสร้างคำตอบ สิ่งนี้ส่งเสริมความโปร่งใสและอนุญาตให้มีการวิเคราะห์เชิงลึกถึงวิธีที่โมเดลต่าง ๆ เข้าหาภารกิจ GAIA
ณ เดือนธันวาคม 2024 โมเดลที่มีประสิทธิภาพสูงสุดคือ h2oGPTe Agent โดย H2O.ai โดยมีคะแนนอยู่ที่ 65% ความสำเร็จนี้เป็นที่น่าจับตามองเป็นพิเศษเนื่องจาก H2O.ai ทำผลงานได้ดีกว่า Microsoft และ Google กว่าร้อยละ 15 คะแนน H2O.ai เชื่อว่าความสำเร็จของตนมาจากปรัชญาเรื่องความเรียบง่ายและความสามารถในการปรับตัว ซึ่งสะท้อนให้เห็นในดีไซน์ของ agent ของพวกเขา
Agent h2oGPTe ใช้เครื่องมือต่าง ๆ ในการแก้ไขภารกิจ GAIA รวมถึง :
- การรันโค้ด Python และ Bash สำหรับการคำนวณและการโต้ตอบกับระบบ.
- ความสามารถในการเข้าถึงเว็บและค้นหาข้อมูลจากอินเทอร์เน็ต.
- ความเข้าใจแบบ Multi-modal (ข้อความ, รูปภาพ, เสียง) ผ่าน OCR, captioning, vision และ transcription models เพื่อประมวลผลข้อมูลจากแหล่งต่าง ๆ.
- การจัดการไฟล์ในหลายรูปแบบเพื่อเข้าถึงและจัดการข้อมูลจากไฟล์ประเภทต่าง ๆ.
- การสร้างแบบจำลองและการพยากรณ์ด้าน Data Science (รวมถึงการใช้ DriverlessAI) เพื่อวิเคราะห์ข้อมูลและสร้างการคาดการณ์.
Model | Score | Organization | Model Family |
h2oGPTe Agent | 65% | H2O.ai | GPT-4o |
Langfun Agent | 49% | ||
Magentic-1 (o1) | 46% | MSR AI Frontiers | o1, GPT-4o |
omne | 46% | o1-preview | |
Trase Agent v0.2 | 47% | Trase Systems | GPT-4o, o1 |
Hugging Face Agents + GPT-4o | 44% | Hugging Face 🤗 | GPT-4o |
AgentIM v1.1 | 40% | GPT-4-turbo | |
Multi-Agent Experiment v0.1 (powered by AutoGen) | 39% | MSR AI Frontiers | GPT-4-turbo |
Sibyl System v0.1 | 30% | GPT-4-turbo | |
TapeAgent v0.1 | 34% | GPT-4o | |
Magentic-1 | 37% | MSR AI Frontiers | GPT-4o |
Trase Agent | 40% | Trase Systems | GPT-4o |
FRIDAY | 35% | OS-Copilot | GPT-4-turbo |
Warm-up Act | 18% | GPT-4-turbo | |
HuggingFace Agents + Llama3-70B | 17% | Hugging Face | Llama3-70B |
GPT4 + manually selected plugins | 15% | GAIA authors | GPT4 |
GPT4 Turbo | 10% | GAIA authors | GPT4 |
GPT4 | 6% | GAIA authors | GPT4 |
GPT3.5 | 5% | GAIA authors | GPT3 |
AutoGPT4 | 5% | AutoGPT | AutoGPT,GPT4 |
หมายเหตุ: Deep Research, OpenAI สามารถทำคะแนนได้ถึง 67.36% ในชุด validation
แบบจำลองและ GAIA Benchmark
ชุดข้อมูล GAIA benchmark ถูกใช้เพื่อฝึกและปรับแต่งแบบจำลอง AI ที่หลากหลาย ซึ่งแสดงให้เห็นถึงประโยชน์ของชุดข้อมูลนี้ในการยกระดับการวิจัยและการพัฒนา AI. แบบจำลองบางตัวที่ได้รับการฝึกหรือปรับแต่งบน GAIA ได้แก่:
- maxwellinked/maxwellinked
- Prosoft82/Ahkam12
- nurcan/nurrcan
- jimjonesbabyfreshout/JefeHuggingface
แบบจำลองเหล่านี้สามารถพบได้ใน Hugging Face model hub ซึ่งนักวิจัยและนักพัฒนาสามารถเข้าถึงและทดลองใช้งานได้.
การมีส่วนร่วมของชุมชนกับ GAIA
GAIA benchmark ได้รับความสนใจอย่างมากจากชุมชน AI โดยมีพื้นที่หลากหลายที่ใช้ชุดข้อมูลนี้เพื่อการวิจัยและพัฒนา พื้นที่เหล่านี้เป็นเวทีในการร่วมมือ ทดลอง และแบ่งปันความรู้เกี่ยวกับ GAIA benchmark. พื้นที่บางส่วนที่ใช้ GAIA ได้แก่:
- gaia-benchmark/leaderboard
- m-ric/open_Deep-Research
- mikeee/open-deep-research
- ar08/zzz
- lbls888/open-deep-research
การมีส่วนร่วมของชุมชนนี้มีความสำคัญอย่างยิ่งในการผลักดันการวิจัยและพัฒนาต่อไปเกี่ยวกับ GAIA benchmark และในการส่งเสริมสภาพแวดล้อมที่ร่วมมือกันเพื่อพัฒนาเทคโนโลยีผู้ช่วย AI.
ความท้าทายและแนวทางในอนาคตสำหรับ GAIA
แม้ว่า GAIA จะเป็นก้าวสำคัญในการวัดผล AI benchmarking แต่ก็ยังมีความท้าทายและปัจจัยที่ต้องพิจารณาสำหรับการพัฒนาในอนาคต. ความท้าทายหนึ่งที่สำคัญคือการป้องกันการปนเปื้อนของข้อมูลและการรับประกันความยั่งยืนในระยะยาวของ benchmark เมื่อแบบจำลอง AI มีความซับซ้อนมากขึ้น พวกมันอาจจำชุดข้อมูล GAIA ได้ ซึ่งอาจนำไปสู่คะแนนประสิทธิภาพที่บิดเบี้ยว. สิ่งนี้ตั้งคำถามถึงวิธีการปรับปรุงและพัฒนา benchmark ให้ก้าวตามความก้าวหน้าของ AI.
แนวทางแก้ไขความท้าทายนี้บางประการรวมถึง:
- อัปเดตชุดข้อมูลอย่างสม่ำเสมอด้วยคำถามใหม่และที่ท้าทายมากขึ้น.
- สร้างชุดข้อมูลสังเคราะห์ที่สร้างขึ้นแบบไดนามิกเพื่อป้องกันการจดจำ.
- สำรวจมาตรวัดประเมินผลทางเลือกที่สามารถเกินกว่าความถูกต้องอย่างง่าย.
การแก้ไขปัญหาเหล่านี้จะเป็นสิ่งสำคัญในการรับประกันว่า GAIA จะยังคงเป็น benchmark ที่มีคุณค่าและเกี่ยวข้องสำหรับการประเมินผู้ช่วย AI ในปีต่อ ๆ ไป.
บทสรุป
GAIA benchmark แสดงถึงก้าวสำคัญไปข้างหน้าในการประเมิน AI assistants ด้วยการมุ่งเน้นไปที่งานในโลกแห่งความเป็นจริงและเน้นทักษะพื้นฐานของ AI ให้ GAIA สามารถประเมินความสามารถของ AI ได้อย่างครอบคลุมและมีความหมายมากกว่ามาตรฐานแบบดั้งเดิม การแก้ปัญหาของ GAIA อย่างสำเร็จจะเป็นจุดสำคัญสู่ยุคต่อไปของ AI เนื่องจากมันมุ่งเน้นไปที่งานที่มีรากฐานมาจากการปฏิสัมพันธ์ในโลกจริง
ในขณะที่ AI ยังคงพัฒนาไปเรื่อยๆ benchmarks อย่าง GAIA จะมีบทบาทสำคัญในการรับรองว่าระบบ AI ได้รับการพัฒนาอย่างรับผิดชอบและมีประสิทธิภาพเพื่อตอบสนองความต้องการของผู้ใช้ในหลากหลายสาขา ความท้าทายและโอกาสที่ GAIA นำเสนอจะยังคงกำหนดทิศทางของการวิจัยและพัฒนา AI นำไปสู่ AI assistants ที่มีความสามารถ ทนทาน และสามารถไว้วางใจได้มากขึ้นในอนาคต
Works cited
- GAIA Benchmark (General AI Assistants) – Klu.ai, เข้าถึงเมื่อ February 8, 2025, https://klu.ai/glossary/gaia-benchmark-eval
- GAIA Leaderboard – a Hugging Face Space by gaia-benchmark, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/spaces/gaia-benchmark/leaderboard
- H2O.ai Tops GAIA Leaderboard: A New Era of AI Agents, เข้าถึงเมื่อ February 8, 2025, https://h2o.ai/blog/2024/h2o-ai-tops-gaia-leaderboard/
- GAIA: a benchmark for General AI Assistants – OpenReview, เข้าถึงเมื่อ February 8, 2025, https://openreview.net/forum?id=fibxvahvs3
- Open-source DeepResearch – Freeing our search agents – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/blog/open-deep-research
- GAIA: a benchmark for general AI assistants | Research – AI at Meta, เข้าถึงเมื่อ February 8, 2025, https://ai.meta.com/research/publications/gaia-a-benchmark-for-general-ai-assistants/
- How to resolve file paths in a downloaded dataset? – Hugging Face Forums, เข้าถึงเมื่อ February 8, 2025, https://discuss.huggingface.co/t/how-to-resolve-file-paths-in-a-downloaded-dataset/76611
- Paper page – GAIA: a benchmark for General AI Assistants – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/papers/2311.12983
- AI is Only 30% Away From Matching Human-Level General Intelligence on GAIA Benchmark, เข้าถึงเมื่อ February 8, 2025, https://www.businesswire.com/news/home/20241223840924/en/AI-is-Only-30-Away-From-Matching-Human-Level-General-Intelligence-on-GAIA-Benchmark
- gaia-benchmark/GAIA · Datasets at Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/datasets/gaia-benchmark/GAIA
- Hugging Face works to replicate OpenAI’s Deep Research capabilities with open-source AI agent – The Decoder, เข้าถึงเมื่อ February 8, 2025, https://the-decoder.com/hugging-face-works-to-replicate-openais-deep-research-capabilities-with-open-source-ai-agent/
- OpenAI’s Deep Research vs DeepSeek R1 – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/blog/LLMhacker/openais-deep-research-vs-deepseek-r1