บทความนี้เป็นการสรุปงานวิจัย Executable Code Actions Elicit Better LLM Agents (Xingyao Wang et.al, 2024)
บทนำ
ในยุคที่เทคโนโลยีและปัญญาประดิษฐ์เติบโตอย่างรวดเร็ว เราได้เห็นความเปลี่ยนแปลงอย่างมากในด้านระบบช่วยประมวลผลภาษา (Language Models) ที่สามารถอ่าน เขียน และแม้แต่แปลภาษาได้อย่างน่าทึ่ง จากความก้าวหน้านี้จึงเกิดคำถามว่า “เราจะทำอย่างไรให้โมเดลเหล่านี้สามารถทำงานในรูปแบบของตัวแทน (agent) ที่สามารถปฏิสัมพันธ์กับสิ่งแวดล้อมรอบตัวได้โดยตรง?” แนวคิดนี้ได้รับความสนใจเป็นอย่างมากในงานวิจัยที่ชื่อ “Executable Code Actions Elicit Better LLM Agents”
ในบทความนี้ เราจะมาทำความเข้าใจเกี่ยวกับแนวทางการขยายขอบเขตการกระทำ (action space) ของ LLM โดยให้โมเดลสามารถสร้าง “code” ที่สามารถทำงานได้จริงผนวกกับ interpreter ของภาษา Python ซึ่งช่วยให้ LLM (Large Language Model) ทำงานได้เหนือกว่าการสั่งงานด้วยข้อความ (text) หรือ JSON แบบเดิมๆ เราจะอธิบายข้อดีของวิธีนี้ วิธีการทำงาน และผลการทดสอบที่ได้ในรูปแบบที่เข้าใจง่าย
ภาพรวมของ LLM Agents และปัญหาในการสั่งงาน
ก่อนหน้านี้ LLM จะถูกนำมาใช้ในการแก้ปัญหาภาษา เช่น การถามตอบ (Q&A) และการสรุปความหมายของข้อความ แต่เมื่อพวกเขาถูกนำมาใช้เป็น “agent” ที่สามารถกระทำกับโลกภายนอกได้ เช่น การเรียกใช้ API ควบคุมหุ่นยนต์หรือโปรแกรมคอมพิวเตอร์ สิ่งที่ต้องเผชิญคือความท้าทายทางด้านรูปแบบการสั่งงาน
ในความพยายามแรก ๆ ผู้วิจัยมักใช้รูปแบบเป็นข้อความ (text) หรือ JSON ในการบอกให้โมเดลรู้จักสิ่งที่ต้องกระทำ อย่างเช่น การเรียกใช้ฟังก์ชันแบบมีโครงสร้าง อย่างไรก็ตาม ทั้งสองรูปแบบนี้มีข้อจำกัดอยู่มาก
- รูปแบบข้อความ (text) นั้นมีความไม่แน่นอนและเป็นอิสระมากเกินไป
- รูปแบบ JSON แม้จะมีโครงสร้างที่ชัดเจน แต่ก็ยังคงถูกจำกัดด้วยชุดของฟังก์ชันที่มีอยู่ล่วงหน้า
สิ่งที่จำเป็นคือการขยายขอบเขต (action space) ที่ยืดหยุ่นกว่าเดิม ซึ่งสามารถรวมเครื่องมือและการปฏิสัมพันธ์ที่ซับซ้อนได้โดยไม่ต้องกำหนดไว้อย่างเคร่งครัด
แนวคิดของ CodeAct: การใช้ Code ที่สามารถ Execute ได้
งานวิจัย “Executable Code Actions Elicit Better LLM Agents” เกิดขึ้นจากความคิดที่ว่า หากเราใช้ Python – ภาษาที่มีความยืดหยุ่นและมีความสามารถในการควบคุมโครงสร้างข้อมูลและการไหลของโปรแกรม (control and data flow) – เราสามารถรวมเครื่องมือต่างๆ ที่มีอยู่ในโลกภายนอกได้เข้ามาในกระบวนการทำงานของ LLM โดยตรง
หลักการของ CodeAct คือ:
- แทนการสั่งงานด้วยข้อความหรือ JSON เราจะใช้โค้ด Python ซึ่งสามารถเขียนคำสั่งที่ซับซ้อนได้ด้วยคำสั่ง if-else, for-loop, การเรียกใช้ฟังก์ชัน และการจัดการตัวแปร
- โมเดลจะสามารถรับ feedback จากระบบ interpreter เมื่อโค้ดที่สร้างขึ้นถูก execute ซึ่งหมายความว่าโมเดลสามารถ “self-debug” ได้เองหากพบข้อผิดพลาดในโค้ดของตนเอง
- ด้วยความสามารถในการใช้งาน code ที่มีการควบคุมการไหลและข้อมูล โมเดลสามารถรวมเครื่องมือหลายๆ ชนิดเข้าด้วยกันในคำสั่งเดียวกัน หรือสามารถนำผลลัพธ์จากเครื่องมือหนึ่งไปใช้กับเครื่องมือที่อีกตัวหนึ่ง ทั้งนี้ช่วยเพิ่มประสิทธิภาพในการแก้ไขปัญหาในสถานการณ์ที่ซับซ้อน
ตัวอย่างเช่น หากโมเดลต้องการนำข้อมูลจาก API หนึ่งมาใช้ในการประมวลผลต่อ โมเดลสามารถ “import” ไลบรารีต่าง ๆ เข้ามาใช้ ทำการเรียกใช้ API ด้วยฟังก์ชันที่เขียนขึ้นเอง และนำผลลัพธ์มาแสดงผลในที่สุด
ข้อดีและความได้เปรียบกับวิธีเดิม
เพื่อให้เห็นภาพชัดเจน เรามาดูข้อดีหลัก ๆ ของการใช้ CodeAct เมื่อเทียบกับรูปแบบเดิม ๆ (text/JSON):
- การสนับสนุนการควบคุมและโฟลว์ของข้อมูลการใช้โค้ดทำให้ LLM สามารถสร้างคำสั่งที่มีโครงสร้างซับซ้อนได้ เช่น การทำ for-loop ที่สามารถใช้ไลบรารีต่าง ๆ ได้โดยตรง ซึ่งช่วยในการประมวลผลข้อมูลเป็นชุด ๆ หรือนำผลลัพธ์จากขั้นตอนหนึ่งไปใช้ในอีกขั้นตอนหนึ่งโดยอัตโนมัติ
- การนำเครื่องมือและไลบรารีที่มีอยู่ใน Python มาใช้Python มีความนิยมสูงและมีแหล่งข้อมูลและไลบรารีพร้อมใช้งานมากมาย ซึ่งหมายความว่าโมเดลจะไม่ต้องถูกจำกัดให้ใช้เครื่องมือที่ถูกกำหนดไว้ล่วงหน้าเท่านั้น แต่สามารถ “ดึง” ไลบรารีที่มีอยู่แล้วมาใช้แก้ปัญหาได้ทันที
- Feedback อัตโนมัติและการ self-debugในระหว่างการ execute โค้ด ระบบ interpreter จะส่งข้อผิดพลาด (error messages) กลับมาให้ ซึ่งช่วยให้ LLM สามารถเรียกใช้ฟังก์ชัน self-debug เพื่อแก้ไขปัญหาในโค้ดของตนเองโดยไม่มีการปรับแก้ด้วยตนเองจากภายนอก การ feedback นี้เป็นสิ่งสำคัญที่จะช่วยให้โมเดลพึ่งพาข้อมูลจากสภาพแวดล้อมและสามารถแก้ไขการกระทำในหลายๆ วงรอบ (multi-turn interaction)
- ความยืดหยุ่นและการปรับตัวในงานแบบ multi-toolรูปแบบ code ที่ถูก execute ได้มีความยืดหยุ่นสูง ทำให้สามารถรวมฟังก์ชันของหลาย ๆ เครื่องมือเข้าด้วยกัน ซึ่งในงานที่ต้องประสานงานเครื่องมือต่าง ๆ อย่างการค้นหาข้อมูลโดยการเรียกใช้ API การวิเคราะห์ข้อมูลผ่าน Pandas หรือการวาดกราฟด้วย Matplotlib การรวมกันแบบนี้ทำได้อย่างง่ายดายและเป็นธรรมชาติ
สรุปแล้ว การนำ code ที่สามารถ execute ได้เข้ามาใช้ในการสั่งงานของ LLM agents นั้นช่วยให้เราได้ประสิทธิภาพที่ดีกว่า ไม่ว่าจะเป็นเรื่องของความยืดหยุ่น ยืนยันความถูกต้องจาก feedback และการปรับปรุงขั้นตอนการแก้ปัญหาที่ซับซ้อนได้ดียิ่งขึ้น
ตัวอย่างการใช้งาน CodeAct ในโลกจริง
เพื่อให้เข้าใจแนวคิดมากขึ้น เราจะมาดูตัวอย่างการใช้งานในโลกจริงของ CodeAct โดยแบ่งเป็นหลายส่วนดังนี้
- การควบคุมข้อมูลในงานค้นหาข้อมูลลองนึกภาพสถานการณ์ที่นักวิจัยต้องการค้นหาข้อมูลบนอินเทอร์เน็ต ผ่าน API ของระบบค้นหาที่ให้บริการอยู่ เมื่อใช้วิธีเดิมที่ส่งคำสั่งเป็นข้อความหรือ JSON นักวิจัยจะต้องเตรียมฟังก์ชันเฉพาะที่ถูกกำหนดไว้ล่วงหน้าแต่ในแนวทาง CodeAct โมเดลสามารถสร้างโค้ด Python ที่ import ไลบรารีเกี่ยวกับ HTTP requests หรือ web scraping ได้โดยตรง ทำให้สามารถปรับเปลี่ยนคำสั่งได้ตาม feedback ที่ได้รับว่าเกิดปัญหาในการเชื่อมต่อหรือข้อมูลที่ได้ไม่ถูกต้อง จากนั้นโมเดลสามารถแก้ไขคำสั่งในลูปถัดไปจนกว่าจะได้ผลลัพธ์ที่ต้องการ
- ตัวอย่างการ self-debug และ multi-turn interactionสมมุติว่าโมเดลต้องแก้ปัญหาทางคณิตศาสตร์โดยใช้ไลบรารี sympy ใน Python โมเดลจะเขียนโค้ดเพื่อ import sympy และแก้ไขสมการต่าง ๆ จากนั้นเมื่อ execute โค้ดแล้วหากเกิดข้อผิดพลาด เช่น การไม่สามารถแก้ไขสมการได้ โมเดลจะได้รับ error message เกี่ยวกับชนิดของข้อผิดพลาดนั้นและสามารถปรับเปลี่ยนโค้ดให้เหมาะสมในครั้งถัดไป โดยอาศัย feedback ที่ได้รับเป็นแนวทางในการ “self-reflect” และปรับปรุงการแก้ปัญหา
- การประสานงานเครื่องมือหลายตัวในภารกิจที่ซับซ้อนในงานวิจัยหนึ่งที่เกี่ยวกับการวิเคราะห์ข้อมูล การรวมกันของการใช้ Pandas, Scikit-Learn และ Matplotlib ช่วยให้โมเดลสามารถจัดการข้อมูล ทำการวิเคราะห์ทางสถิติและสร้างกราฟสรุปข้อมูลได้ในคำสั่งเดียว การทำงานเช่นนี้เป็นไปได้ด้วยระบบ CodeAct ซึ่งช่วยให้กระบวนการทั้งหมดยังคงอยู่ในลูปของการ execute โค้ดและรับ feedback ในแต่ละขั้นตอน
การประเมินผลและผลการทดลอง
นักวิจัยได้ดำเนินการทดลองกับ LLM จำนวน 17 รุ่น ทั้งแบบ open-source และรุ่นที่พัฒนาโดยบริษัทชั้นนำ (closed-source) ในการประเมินว่าส่วนใหญ่วิธีการ CodeAct นั้นช่วยเพิ่มความสำเร็จในการแก้ปัญหาอย่างไร โดยมี benchmark ที่ชื่อว่า M3 ToolEval ซึ่งออกแบบมาเพื่อทดสอบการใช้งานเครื่องมือต่าง ๆ ในงานที่ซับซ้อน
ผลการทดลองพบว่า:
- CodeAct มีอัตราความสำเร็จที่สูงกว่าการใช้งาน text/JSON ในหลาย ๆ งาน (เพิ่มความสำเร็จได้ถึง 20% ในบางขั้นตอน)
- การใช้ CodeAct ช่วยลดจำนวน interaction turns ที่จำเป็นในการแก้ปัญหาอีกด้วย ทำให้โมเดลตอบสนองอย่างรวดเร็วและมีประสิทธิภาพมากขึ้น
- สำหรับ LLM แบบ open-source นั้น CodeAct ช่วยเพิ่มความสามารถในการแก้ปัญหาที่ซับซ้อนได้มีนัยสำคัญ แต่ในขณะเดียวกัน LLM แบบ closed-source ซึ่งมีการฝึกฝนแบบเฉพาะเจาะจงแล้วบางครั้งอาจมีประสิทธิภาพในรูปแบบ JSON ที่ค่อนข้างดีอยู่แล้ว
ในส่วนของ benchmark อื่น ๆ เช่น Miniwob++ และ SciWorld พบว่าแม้ CodeAct จะถูกออกแบบมาเพื่อ integrate กับ Python interpreter แต่ผลการประเมินก็แสดงให้เห็นว่าโมเดลที่ได้รับการปรับแต่งด้วย CodeAct ไม่เพียงแต่แก้ปัญหาในรูปแบบของ code action เท่านั้น แต่ยังสามารถสลับไปใช้รูปแบบการสั่งงานแบบข้อความได้โดยไม่สูญเสียประสิทธิภาพในงานทั่วไป
การรวบรวมข้อมูลและการฝึกสอน CodeActAgent
หนึ่งในความท้าทายหลักในการพัฒนาระบบ agent คือการรวบรวมข้อมูลที่มีคุณภาพเพื่อใช้ในการฝึกสอนโมเดล โดยงานวิจัยนี้ได้สร้างชุดข้อมูลเฉพาะที่เรียกว่า CodeActInstruct ซึ่งประกอบด้วย trajectory (ลำดับขั้นตอนการโต้ตอบ) ที่มีการใช้งาน code action ในสถานการณ์ต่าง ๆ ตั้งแต่การค้นหาข้อมูล การใช้เครื่องมือในคอมพิวเตอร์ไปจนถึงการวิเคราะห์ข้อมูลและการควบคุมหุ่นยนต์
กระบวนการรวบรวมข้อมูลมีขั้นตอนดังนี้:
- นำข้อมูลจากแหล่งต่างๆ ที่มีอยู่แล้ว เช่น HotpotQA, APPS, MATH, WikiTableQuestions และ ALFWorld มาปรับปรุงให้เหมาะสมกับลักษณะการโต้ตอบในรูปแบบ multi-turn
- เลือกเฉพาะข้อมูล trajectory ที่แสดงให้เห็นว่าโมเดลมีการ “self-debug” หรือปรับปรุงการกระทำของตนเองหลังจากที่ได้รับ feedback จากสภาพแวดล้อม
- รวมข้อมูลจากบทสนทนา (general conversations) ด้วยเพื่อให้โมเดลยังคงมีความสามารถในการสื่อสารกับผู้ใช้ด้วยภาษาธรรมดา และสามารถแปลงข้อมูลระหว่างการสื่อสารกับสภาพแวดล้อมต่าง ๆ ได้อย่างราบรื่น
ผลลัพธ์ที่ได้จากการฝึกสอนโมเดล CodeActAgent (ซึ่งถูกปรับแต่งทั้งในสถาปัตยกรรม LLaMA-2 และ Mistral) พบว่าโมเดลที่ได้รับการฝึกผ่านชุดข้อมูล CodeActInstruct ดังกล่าวสามารถจัดการกับงาน agent ที่ซับซ้อนมากขึ้นได้โดยไม่สูญเสียความสามารถในการแก้ปัญหาที่เป็นปัญหาทั่วไป
การเปรียบเทียบกับงานวิจัยอื่นๆ และข้อคิดเห็นในการพัฒนา
ก่อนหน้านี้มีงานวิจัยที่พยายามใช้ code generation เพื่อแก้ปัญหาในรูปแบบของการควบคุมหุ่นยนต์หรือการตอบคำถามทางฟิสิกส์ แต่ในงานเหล่านั้น โมเดลจะสร้างโค้ดเพียงครั้งเดียวในลักษณะ single-turn ซึ่งหมายความว่าเมื่อโค้ดที่สร้างขึ้นไม่ถูกต้อง โมเดลจะไม่สามารถแก้ไขหรืออัปเดตคำสั่งในภายหลังได้
สิ่งที่ทำให้ CodeAct แตกต่างคือความสามารถในการโต้ตอบแบบ multi-turn ซึ่งหมายความว่า:
- โมเดลสามารถ execute โค้ดเพื่อตรวจสอบผลลัพธ์และรับ feedback จาก environment ได้ทันที
- หากเกิดข้อผิดพลาด โมเดลสามารถปรับปรุงแก้ไขโค้ดโดยใช้ข้อมูลจาก feedback ในรอบถัดไป
- การใช้ Python ในการสั่งงานเปิดโอกาสให้โมเดลนำเอาเครื่องมือและไลบรารีที่มีอยู่มาใช้แก้ปัญหาได้โดยไม่ต้องสร้างระบบใหม่ให้ซับซ้อน
นอกจากนี้ ยังมีงานวิจัยที่เกี่ยวข้องกับ “TaskWeaver” ที่พยายามรวม code เข้าไปในขั้นตอนการตัดสินใจของ LLM agents แต่จุดด้อยของ TaskWeaver คือการที่มันใช้ตัวอย่างที่จำกัดและยังพึ่งพาการกำหนดฟังก์ชันล่วงหน้าที่ค่อนข้างเข้มงวด ในขณะที่ CodeAct สามารถปรับตัวและดัดแปลง code ได้แบบ dynamic ตามสถานการณ์ ทำให้มีความยืดหยุ่นสูงกว่า
ข้อจำกัดและแนวทางพัฒนาในอนาคต
แม้ว่าการใช้ CodeAct จะมอบความสามารถใหม่ ๆ ให้กับ LLM agents แต่ก็ยังมีข้อจำกัดที่ต้องระวังดังนี้
- ความสามารถของโมเดลพื้นฐานสำหรับโมเดลบางรุ่น เช่น LLaMA-2 แม้จะได้รับการปรับแต่งด้วย CodeActInstruct แต่ยังแสดงให้เห็นถึงความผิดปกติบางอย่างเนื่องจากอาจมี artifacts มาจากการ pre-training ที่ไม่สามารถแก้ไขได้โดยตรง ข้อจำกัดเหล่านี้บ่งชี้ว่าโมเดลพื้นฐานที่ใช้ในการฝึกสอนมีความสำคัญต่อผลลัพธ์ในที่สุด
- ความซับซ้อนของ feedback และการ self-debugแม้ว่าการรับ feedback จาก interpreter เป็นข้อดี แต่ในบางกรณีโมเดลอาจตีความข้อความ error ไม่ถูกต้อง หรือไม่สามารถปรับโค้ดตามข้อมูลที่ได้รับได้อย่างถูกต้องในครั้งแรก จึงต้องมีการปรับปรุงในกระบวนการเรียนรู้ที่ช่วยให้โมเดล “เรียนรู้” จาก error messages ได้ดียิ่งขึ้น
- การประสานงานกับสภาพแวดล้อมภายนอกการที่ LLM สามารถเข้าถึง API หรือเครื่องมือต่าง ๆ ผ่าน code นั้น อาจเป็นทั้งข้อดีและข้อเสีย เนื่องจากในสภาพแวดล้อมจริง อาจเกิดปัญหาเกี่ยวกับความปลอดภัย (security) ความถูกต้องของข้อมูล (data reliability) และการจัดการข้อผิดพลาดจากแหล่งข้อมูลภายนอก
แนวทางพัฒนาในอนาคตอาจรวมถึง:
- การปรับปรุงโมเดลพื้นฐานและการ pre-training ที่มีคุณภาพมากขึ้นเพื่อลด artifacts
- การวิจัยวิธีการ self-debug ที่มีประสิทธิภาพมากขึ้น รวมถึงการนำ feedback ภายนอกเข้ามาปรับปรุงกระบวนการแก้ปัญหาของโมเดล
- การออกแบบระบบ sandbox ที่ปลอดภัยสำหรับการ execute โค้ดและควบคุมการเข้าถึงข้อมูลจากแหล่งภายนอก
สรุปและมุมมองในอนาคต
บทสรุปของงานวิจัย “Executable Code Actions Elicit Better LLM Agents” แสดงให้เห็นว่า การนำโค้ดที่ execute ได้มาใช้ในการสั่งงานของ LLM agents นั้นเป็นแนวทางที่มีศักยภาพสูงในการแก้ปัญหาที่ซับซ้อนและทำให้โมเดลสามารถปรับตัวและเรียนรู้จาก feedback ในแบบ multi-turn ได้อย่างมีประสิทธิภาพ
แนวคิดนี้สามารถเปิดโลกทัศน์ใหม่ ๆ ให้เราเห็นว่าการผสมผสานศาสตร์ของการเขียนโปรแกรม (coding) กับการประมวลผลภาษาธรรมดา (natural language processing) สามารถสร้างผลิตภัณฑ์ที่มีคุณค่าทางเทคโนโลยีได้อย่างไร และยังเป็นตัวอย่างที่ดีของการต่อยอดและปรับปรุงเทคโนโลยีที่มีอยู่เดิมให้ตอบโจทย์งานจริงในโลกแห่งความเป็นจริงได้
เราได้พูดถึง:
- ปัญหาเดิมของการสั่งงาน LLM โดยใช้ text/JSON
- แนวคิดและข้อดีของการใช้ executable code ในการสั่งงาน (CodeAct)
- ตัวอย่างการใช้งานจริงในด้านการค้นหาข้อมูล การวิเคราะห์ และการควบคุมเครื่องมือ
- ผลการทดลองที่แสดงให้เห็นว่า CodeAct ช่วยเพิ่มความแม่นยำและลดจำนวนการโต้ตอบที่จำเป็น
- ชุดข้อมูล CodeActInstruct ที่ใช้ในการฝึกสอน LLM ให้วิธีการโต้ตอบแบบ multi-turn พร้อม feedback
- ข้อจำกัดและแนวทางพัฒนาเพิ่มเติมในอนาคต
ในภาพรวม แนวทางนี้ไม่เพียงแต่ช่วยให้ LLM agents มีความสามารถในการดำเนินการงานที่ซับซ้อนและแก้ปัญหาได้อย่างชาญฉลาด แต่ยังเป็นตัวอย่างที่ดีของการใช้ความรู้ทางด้านการ programming เข้ามาช่วยเสริมประสิทธิภาพของโมเดลภาษาได้อย่างมีนัยสำคัญ
ในอนาคต เราอาจเห็นการนำ CodeAct ไปประยุกต์ใช้ในงานหลากหลาย เช่น ระบบช่วยสอนที่สามารถโต้ตอบกับนักเรียนและแนะนำการแก้ปัญหาทางคณิตศาสตร์หรือการเขียนโปรแกรม การควบคุมหุ่นยนต์ในโรงงานอุตสาหกรรม หรือแม้แต่ในงานวิจัยแบบฟิวเจอร์ริสติกที่ต้องการระบบ agent ที่สามารถปรับตัวและแก้ไขปัญหาแบบ real-time ได้อย่างมีประสิทธิภาพ
สรุปท้ายเรื่อง
การพัฒนา LLM agents ให้มีความคล้ายคลึงกับ “ตัวแทน” ที่สามารถโต้ตอบและแก้ไขปัญหาในโลกจริงได้นั้น เป็นเป้าหมายที่สำคัญในด้าน AI และ NLP แนวคิดของ CodeAct ที่นำ executable code เข้ามาใช้เป็นขั้นตอนสำคัญที่จะช่วยให้ LLM agents สามารถเข้าใจการแก้ไขปัญหาและการปรับปรุงกระบวนการแก้ไขได้ด้วยตนเองจาก feedback ที่ได้รับ
การนำระบบแบบ multi-turn interaction มาใช้ร่วมกับการ execute โค้ด ทำให้เราได้เห็นอนาคตที่ LLM สามารถ “คิด” ปรับปรุงแก้ไขตนเองได้อย่างต่อเนื่อง ซึ่งเป็นสิ่งที่คุณสมบัติของปัญญาประดิษฐ์ในระดับสูงที่หลายคนหวังไว้
แนวทางนี้เป็นหนึ่งในตัวอย่างที่พิสูจน์ให้เห็นว่าการผสมผสานความรู้จากด้านต่าง ๆ ไม่ว่าจะเป็นการเขียนโปรแกรม การวิเคราะห์ข้อมูล และการประมวลผลภาษา สามารถสร้างผลลัพธ์ที่เป็นนวัตกรรมและมีประสิทธิภาพในการแก้ไขปัญหาสิ่งต่าง ๆ ในโลกแห่งความเป็นจริง
ท้ายที่สุดนี้ การใช้ executable code actions ใน LLM agents ไม่เพียงแต่ช่วยเพิ่มประสิทธิภาพทางเทคนิคและลดความยุ่งยากในการออกแบบเครื่องมือที่มีอยู่เดิม แต่ยังเป็นก้าวสำคัญที่ยกระดับความสามารถของโมเดลให้สามารถปรับเปลี่ยนตามสถานการณ์และแก้ปัญหาในสภาพแวดล้อมที่ซับซ้อนได้อย่างสมบูรณ์
เราจึงสามารถสรุปได้ว่า แนวทาง CodeAct คือหนึ่งในนวัตกรรมที่สามารถนำพา LLM agents ไปสู่การเป็น “ผู้ช่วย” ที่มีความฉลาดและปรับตัวได้อย่างแท้จริงในอนาคตอันใกล้นี้