The GAIA benchmark

สาขาปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว โดยมีโมเดลที่มีความสามารถมากขึ้นเกิดขึ้นอยู่ตลอดเวลา หนึ่งในความท้าทายหลักในสาขานี้คือการมีมาตรวัด (benchmark) ที่สามารถประเมินความสามารถของระบบ AI ขั้นสูงเหล่านี้ได้อย่างแม่นยำ โดยเฉพาะความสามารถในการทำงานเป็นผู้ช่วยอเนกประสงค์ในสถานการณ์จริง GAIA benchmark ซึ่งพัฒนาโดย Hugging Face ร่วมกับ Meta มีเป้าหมายที่จะตอบโจทย์ปัญหานี้ด้วยการจัดเตรียมกรอบการประเมินที่ครอบคลุมและท้าทายสำหรับผู้ช่วย AI รุ่นต่อไป

What is the GAIA Benchmark?

แทนที่จะมุ่งเน้นที่งานแยกส่วนหรือที่ออกแบบมาเป็นพิเศษเพื่อให้มนุษย์ทำได้ยาก GAIA benchmark เป็นการเปลี่ยนแนวคิดในการประเมิน AI โดยให้ความสำคัญกับสถานการณ์และปฏิสัมพันธ์ในโลกแห่งความจริง

GAIA (General AI Assistants) มีเป้าหมายที่จะประเมินว่า ระบบ AI สามารถทำหน้าที่เป็นผู้ช่วยที่มีประโยชน์ในสถานการณ์จริงได้อย่างมีประสิทธิภาพเพียงใด โดยมุ่งเน้นที่โมเดลภาษาใหญ่ (LLMs) ที่มีความสามารถเสริม เช่น การเข้าถึงเครื่องมือ เทคนิค prompting ที่มีประสิทธิภาพ และความสามารถในการค้นหาบนเว็บ

GAIA ไม่ได้วัดเพียงแค่ความถูกต้องเท่านั้น แต่วัดความสามารถของ AI ในการจัดการกับคำถามที่ซับซ้อนหลายชั้น ซึ่งต้องใช้การให้เหตุผล การประมวลผลข้อมูลจากแหล่งต่าง ๆ (เช่น ข้อความและภาพ) การนำทางบนเว็บ และการใช้เครื่องมือต่าง ๆ

Real-World Applications of the GAIA Benchmark

GAIA benchmark มีความเกี่ยวข้องในแง่ของการใช้งานจริงอย่างมาก เนื่องจากมันประเมินระบบ AI โดยพิจารณาจากความสามารถในการจัดการกับงานในโลกจริงที่ธุรกิจและบุคคลจำเป็นต้องแก้ไขจริงๆ สิ่งนี้ทำให้มันแตกต่างจากมาตรวัดที่จำกัดมากขึ้นซึ่งมุ่งเน้นที่ความสามารถเฉพาะหรือความสามารถในเชิงนามธรรม บางตัวอย่างของการประยุกต์ใช้งานจริงของ GAIA benchmark มีดังนี้:

  • Evaluating AI Assistants:  GAIA ให้วิธีการที่เป็นมาตรฐานและครอบคลุมในการประเมินความสามารถของผู้ช่วย AI ซึ่งช่วยให้นักพัฒนาสามารถระบุจุดที่ต้องปรับปรุงและติดตามความก้าวหน้าได้ตลอดเวลา สิ่งนี้มีความสำคัญในการทำให้แน่ใจว่าผู้ช่วย AI มีความเป็นประโยชน์และมีประสิทธิภาพในหลากหลายสาขา
  • Driving AI Research:  ธรรมชาติที่ท้าทายของงานใน GAIA กระตุ้นให้นักวิจัยพัฒนาเทคนิค AI ใหม่ ๆ และนวัตกรรมที่สามารถจัดการกับสถานการณ์จริงได้ดียิ่งขึ้น ซึ่งผลักดันขอบเขตของงานวิจัยและนำไปสู่ระบบ AI ที่มีความแข็งแกร่งและมีความสามารถมากขึ้น
  • Improving AI Safety:  ด้วยการมุ่งเน้นที่งานในโลกจริง GAIA ช่วยให้มั่นใจว่าระบบ AI ถูกพัฒนาด้วยความคำนึงถึงความปลอดภัยและความเสถียร ลดความเสี่ยงของผลกระทบที่ไม่ได้ตั้งใจ ซึ่งเป็นสิ่งจำเป็นสำหรับการสร้างความเชื่อมั่นในระบบ AI และการนำไปใช้อย่างมีความรับผิดชอบ

Structure of the GAIA Benchmark

GAIA benchmark ประกอบด้วยคำถามทั้งหมด 466 คำถาม ครอบคลุมถึงสามระดับของความซับซ้อน โดยแต่ละระดับถูกกำหนดด้วยจำนวนขั้นตอนที่จำเป็นในการแก้ไขงาน คำถามเหล่านี้มีแนวคิดที่ค่อนข้างเรียบง่ายสำหรับมนุษย์แต่ท้าทายสำหรับ AI ขั้นสูงส่วนใหญ่ เพื่อแสดงให้เห็นถึงความซับซ้อนของมาตรวัดนี้ ให้พิจารณาตัวอย่างจาก GAIA ดังต่อไปนี้ :

“What fruits are in the still life painting from the movie ‘The Last Voyage’? Provide the answer as a comma-separated list. You might need to find out which ocean liner was used as a floating prop for the movie and then find its October 1949 breakfast menu.”

ผลไม้ใดในภาพวาดจากภาพยนตร์ “The Last Voyage”? ให้รายการผลไม้ในรูปแบบที่คั่นด้วยเครื่องหมายจุลภาค คุณอาจต้องค้นหาว่าเรือสำราญใดที่ต่อมาได้ถูกใช้เป็นพร็อพลอยลอยน้ำสำหรับภาพยนต์ แล้วดูเมนูอาหารเช้าในเดือนตุลาคม 1949

คำถามนี้มีความท้าทายอยู่หลายประการ:

  • Answering in a constrained format:  AI จำเป็นต้องให้คำตอบในรูปแบบรายการที่คั่นด้วยเครื่องหมายจุลภาค
  • Using multimodal capabilities:  AI จำเป็นต้องวิเคราะห์ภาพเพื่อระบุผลไม้
  • Gathering several pieces of information:  AI จำเป็นต้องระบุผลไม้ ค้นหา ocean liner ที่ใช้ในภาพยนตร์ และจากนั้นหาข้อมูลเมนูอาหารเช้าของเดือนตุลาคม 1949 ของเรือดังกล่าว
  • Chaining together a problem-solving trajectory:  AI จำเป็นต้องดำเนินการตามขั้นตอนเหล่านี้ในลำดับที่ถูกต้องเพื่อให้ได้คำตอบ

แต่ละระดับใน GAIA ยังถูกแบ่งออกเป็นชุดพัฒนาแบบสาธารณะสำหรับการตรวจสอบความถูกต้อง และชุดทดสอบที่มีคำตอบและ metadata แบบส่วนตัว สิ่งนี้ทำให้สามารถประเมินและเปรียบเทียบโมเดล AI ต่าง ๆ ได้อย่างเข้มงวด

คำถามใน GAIA ถูกออกแบบขึ้นโดยมีหลักการสามประการดังต่อไปนี้ :

  1. คำถามมีแนวคิดที่เรียบง่ายแต่ใช้ความพยายามและความละเอียดอ่อนในการแก้ไขสำหรับมนุษย์ สะท้อนงานในโลกจริงที่มักเกี่ยวข้องกับขั้นตอนและการรวบรวมข้อมูลหลายขั้น
  2. คำตอบสามารถค้นหาได้จากการเยี่ยมชมเว็บไซต์ที่ไม่ได้แบน bot ด้วยไฟล์ robots.txt ซึ่งทำให้มั่นใจได้ว่าคำถามเหล่านี้สามารถแก้ไขได้โดยใช้แหล่งข้อมูลบนเว็บที่มีให้เข้าถึงสาธารณะ
  3. กระบวนการสร้างคำถามเป็นแบบ crowdsourced และมุ่งเน้นไปที่การใช้เครื่องมือ แสดงให้เห็นถึงความสำคัญที่เพิ่มขึ้นของผู้ช่วย AI ที่สามารถนำเครื่องมือต่าง ๆ ไปใช้ในการทำงานให้สำเร็จ

ยิ่งไปกว่านั้น ชุดข้อมูล GAIA ได้รับการออกแบบให้รองรับหลายภาษา  ชุดข้อมูลนี้ถูกสร้างขึ้นครั้งแรกในภาษาอื่นนอกเหนือจากภาษาอังกฤษ โดยเฉพาะภาษาที่มีการใช้อย่างแพร่หลายโดยประชากรส่วนใหญ่ของโลก วิธีการแบบหลายภาษานี้ช่วยให้มั่นใจได้ว่ามาตรวัดนี้มีความสอดคล้องกับคุณลักษณะและกรณีการใช้งานของภาษาที่หลากหลาย

Accessing the GAIA Benchmark

ข้อมูลของ GAIA benchmark สามารถค้นหาได้จากเว็บไซต์ของ Hugging Face คำถามทั้งหมดถูกจัดเก็บอยู่ในไฟล์ชื่อ metadata.jsonl. คำถามบางข้อมาพร้อมกับไฟล์เพิ่มเติม ซึ่งสามารถพบได้ในโฟลเดอร์เดียวกันโดยมี ID ระบุในฟิลด์ file_name

เพื่อเข้าถึงและใช้งานชุดข้อมูลนี้ คุณสามารถใช้ไลบรารี Hugging Face Datasets สคริปต์การโหลดข้อมูลของชุดข้อมูล GAIA.py มีผลต่อการจัดการเส้นทางของไฟล์ ขึ้นอยู่กับว่าชุดข้อมูลถูกโหลดในโหมด streaming หรือไม่ นอกจากนี้ บทความเกี่ยวกับ GAIA benchmark ยังมีตัวอย่างโค้ดที่แสดงวิธีการโต้ตอบกับชุดข้อมูลและใช้ในการประเมินโมเดล AI 

GAIA Benchmark Results

GAIA leaderboard ซึ่งติดตามประสิทธิภาพของโมเดล AI ต่าง ๆ บน GAIA benchmark สามารถดูได้ที่ลิงก์นี้: https://huggingface.co/spaces/gaia-benchmark/leaderboard   Leaderboard นี้ยังอนุญาตให้นักวิจัยส่งโมเดลของตนเพื่อประเมินผลและเปรียบเทียบประสิทธิภาพกับผู้อื่น อีกคุณสมบัติที่น่าสนใจของ leaderboard คือความสามารถในการรายงาน reasoning trace ของโมเดลเมื่อสร้างคำตอบ  สิ่งนี้ส่งเสริมความโปร่งใสและอนุญาตให้มีการวิเคราะห์เชิงลึกถึงวิธีที่โมเดลต่าง ๆ เข้าหาภารกิจ GAIA

ณ เดือนธันวาคม 2024 โมเดลที่มีประสิทธิภาพสูงสุดคือ h2oGPTe Agent โดย H2O.ai โดยมีคะแนนอยู่ที่ 65% ความสำเร็จนี้เป็นที่น่าจับตามองเป็นพิเศษเนื่องจาก H2O.ai ทำผลงานได้ดีกว่า Microsoft และ Google กว่าร้อยละ 15 คะแนน H2O.ai เชื่อว่าความสำเร็จของตนมาจากปรัชญาเรื่องความเรียบง่ายและความสามารถในการปรับตัว ซึ่งสะท้อนให้เห็นในดีไซน์ของ agent ของพวกเขา 

Agent h2oGPTe ใช้เครื่องมือต่าง ๆ ในการแก้ไขภารกิจ GAIA รวมถึง :

  • การรันโค้ด Python และ Bash สำหรับการคำนวณและการโต้ตอบกับระบบ.
  • ความสามารถในการเข้าถึงเว็บและค้นหาข้อมูลจากอินเทอร์เน็ต.
  • ความเข้าใจแบบ Multi-modal (ข้อความ, รูปภาพ, เสียง) ผ่าน OCR, captioning, vision และ transcription models เพื่อประมวลผลข้อมูลจากแหล่งต่าง ๆ.
  • การจัดการไฟล์ในหลายรูปแบบเพื่อเข้าถึงและจัดการข้อมูลจากไฟล์ประเภทต่าง ๆ.
  • การสร้างแบบจำลองและการพยากรณ์ด้าน Data Science (รวมถึงการใช้ DriverlessAI) เพื่อวิเคราะห์ข้อมูลและสร้างการคาดการณ์.
ModelScoreOrganizationModel Family
h2oGPTe Agent65%H2O.aiGPT-4o
Langfun Agent49%Google
Magentic-1 (o1)46%MSR AI Frontierso1, GPT-4o
omne46%o1-preview
Trase Agent v0.247%Trase SystemsGPT-4o, o1
Hugging Face Agents + GPT-4o44%Hugging Face 🤗GPT-4o
AgentIM v1.140%GPT-4-turbo
Multi-Agent Experiment v0.1 (powered by AutoGen)39%MSR AI FrontiersGPT-4-turbo
Sibyl System v0.130%GPT-4-turbo
TapeAgent v0.134%GPT-4o
Magentic-137%MSR AI FrontiersGPT-4o
Trase Agent40%Trase SystemsGPT-4o
FRIDAY35%OS-CopilotGPT-4-turbo
Warm-up Act18%GPT-4-turbo
HuggingFace Agents + Llama3-70B17%Hugging FaceLlama3-70B
GPT4 + manually selected plugins15%GAIA authorsGPT4
GPT4 Turbo10%GAIA authorsGPT4
GPT46%GAIA authorsGPT4
GPT3.55%GAIA authorsGPT3
AutoGPT45%AutoGPTAutoGPT,GPT4

หมายเหตุ: Deep Research, OpenAI สามารถทำคะแนนได้ถึง 67.36% ในชุด validation

แบบจำลองและ GAIA Benchmark

ชุดข้อมูล GAIA benchmark ถูกใช้เพื่อฝึกและปรับแต่งแบบจำลอง AI ที่หลากหลาย ซึ่งแสดงให้เห็นถึงประโยชน์ของชุดข้อมูลนี้ในการยกระดับการวิจัยและการพัฒนา AI. แบบจำลองบางตัวที่ได้รับการฝึกหรือปรับแต่งบน GAIA ได้แก่:

  • maxwellinked/maxwellinked
  • Prosoft82/Ahkam12
  • nurcan/nurrcan
  • jimjonesbabyfreshout/JefeHuggingface

แบบจำลองเหล่านี้สามารถพบได้ใน Hugging Face model hub ซึ่งนักวิจัยและนักพัฒนาสามารถเข้าถึงและทดลองใช้งานได้.

การมีส่วนร่วมของชุมชนกับ GAIA

GAIA benchmark ได้รับความสนใจอย่างมากจากชุมชน AI โดยมีพื้นที่หลากหลายที่ใช้ชุดข้อมูลนี้เพื่อการวิจัยและพัฒนา พื้นที่เหล่านี้เป็นเวทีในการร่วมมือ ทดลอง และแบ่งปันความรู้เกี่ยวกับ GAIA benchmark. พื้นที่บางส่วนที่ใช้ GAIA ได้แก่:

  • gaia-benchmark/leaderboard
  • m-ric/open_Deep-Research
  • mikeee/open-deep-research
  • ar08/zzz
  • lbls888/open-deep-research

การมีส่วนร่วมของชุมชนนี้มีความสำคัญอย่างยิ่งในการผลักดันการวิจัยและพัฒนาต่อไปเกี่ยวกับ GAIA benchmark และในการส่งเสริมสภาพแวดล้อมที่ร่วมมือกันเพื่อพัฒนาเทคโนโลยีผู้ช่วย AI.

ความท้าทายและแนวทางในอนาคตสำหรับ GAIA

แม้ว่า GAIA จะเป็นก้าวสำคัญในการวัดผล AI benchmarking แต่ก็ยังมีความท้าทายและปัจจัยที่ต้องพิจารณาสำหรับการพัฒนาในอนาคต. ความท้าทายหนึ่งที่สำคัญคือการป้องกันการปนเปื้อนของข้อมูลและการรับประกันความยั่งยืนในระยะยาวของ benchmark เมื่อแบบจำลอง AI มีความซับซ้อนมากขึ้น พวกมันอาจจำชุดข้อมูล GAIA ได้ ซึ่งอาจนำไปสู่คะแนนประสิทธิภาพที่บิดเบี้ยว. สิ่งนี้ตั้งคำถามถึงวิธีการปรับปรุงและพัฒนา benchmark ให้ก้าวตามความก้าวหน้าของ AI.

แนวทางแก้ไขความท้าทายนี้บางประการรวมถึง:

  • อัปเดตชุดข้อมูลอย่างสม่ำเสมอด้วยคำถามใหม่และที่ท้าทายมากขึ้น.
  • สร้างชุดข้อมูลสังเคราะห์ที่สร้างขึ้นแบบไดนามิกเพื่อป้องกันการจดจำ.
  • สำรวจมาตรวัดประเมินผลทางเลือกที่สามารถเกินกว่าความถูกต้องอย่างง่าย.

การแก้ไขปัญหาเหล่านี้จะเป็นสิ่งสำคัญในการรับประกันว่า GAIA จะยังคงเป็น benchmark ที่มีคุณค่าและเกี่ยวข้องสำหรับการประเมินผู้ช่วย AI ในปีต่อ ๆ ไป.

บทสรุป

GAIA benchmark แสดงถึงก้าวสำคัญไปข้างหน้าในการประเมิน AI assistants ด้วยการมุ่งเน้นไปที่งานในโลกแห่งความเป็นจริงและเน้นทักษะพื้นฐานของ AI ให้ GAIA สามารถประเมินความสามารถของ AI ได้อย่างครอบคลุมและมีความหมายมากกว่ามาตรฐานแบบดั้งเดิม การแก้ปัญหาของ GAIA อย่างสำเร็จจะเป็นจุดสำคัญสู่ยุคต่อไปของ AI เนื่องจากมันมุ่งเน้นไปที่งานที่มีรากฐานมาจากการปฏิสัมพันธ์ในโลกจริง 

ในขณะที่ AI ยังคงพัฒนาไปเรื่อยๆ benchmarks อย่าง GAIA จะมีบทบาทสำคัญในการรับรองว่าระบบ AI ได้รับการพัฒนาอย่างรับผิดชอบและมีประสิทธิภาพเพื่อตอบสนองความต้องการของผู้ใช้ในหลากหลายสาขา ความท้าทายและโอกาสที่ GAIA นำเสนอจะยังคงกำหนดทิศทางของการวิจัยและพัฒนา AI นำไปสู่ AI assistants ที่มีความสามารถ ทนทาน และสามารถไว้วางใจได้มากขึ้นในอนาคต

Works cited

  1. GAIA Benchmark (General AI Assistants) – Klu.ai, เข้าถึงเมื่อ February 8, 2025, https://klu.ai/glossary/gaia-benchmark-eval
  2. GAIA Leaderboard – a Hugging Face Space by gaia-benchmark, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/spaces/gaia-benchmark/leaderboard
  3. H2O.ai Tops GAIA Leaderboard: A New Era of AI Agents, เข้าถึงเมื่อ February 8, 2025, https://h2o.ai/blog/2024/h2o-ai-tops-gaia-leaderboard/
  4. GAIA: a benchmark for General AI Assistants – OpenReview, เข้าถึงเมื่อ February 8, 2025, https://openreview.net/forum?id=fibxvahvs3
  5. Open-source DeepResearch – Freeing our search agents – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/blog/open-deep-research
  6. GAIA: a benchmark for general AI assistants | Research – AI at Meta, เข้าถึงเมื่อ February 8, 2025, https://ai.meta.com/research/publications/gaia-a-benchmark-for-general-ai-assistants/
  7. How to resolve file paths in a downloaded dataset? – Hugging Face Forums, เข้าถึงเมื่อ February 8, 2025, https://discuss.huggingface.co/t/how-to-resolve-file-paths-in-a-downloaded-dataset/76611
  8. Paper page – GAIA: a benchmark for General AI Assistants – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/papers/2311.12983
  9. AI is Only 30% Away From Matching Human-Level General Intelligence on GAIA Benchmark, เข้าถึงเมื่อ February 8, 2025, https://www.businesswire.com/news/home/20241223840924/en/AI-is-Only-30-Away-From-Matching-Human-Level-General-Intelligence-on-GAIA-Benchmark
  10. gaia-benchmark/GAIA · Datasets at Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/datasets/gaia-benchmark/GAIA
  11. Hugging Face works to replicate OpenAI’s Deep Research capabilities with open-source AI agent – The Decoder, เข้าถึงเมื่อ February 8, 2025, https://the-decoder.com/hugging-face-works-to-replicate-openais-deep-research-capabilities-with-open-source-ai-agent/
  12. OpenAI’s Deep Research vs DeepSeek R1 – Hugging Face, เข้าถึงเมื่อ February 8, 2025, https://huggingface.co/blog/LLMhacker/openais-deep-research-vs-deepseek-r1