UI-TARS

ปีที่แล้ว Anthropic ออก “Computer Use” ออกมาเป็นที่ฮือฮามากในวงการ AI เพราะถือว่าเป็นผู้นำด้านการใช้ AI Agent ที่ควบคุมคอมพิวเตอร์เหมือนมนุษย์ คือการใช้เม้าส์และคีย์บอร์ดควบคุมคอมพิวเตอร์เหมือนที่เราทำ ทำให้เราไม่ต้องปรับซอฟต์แวร์เพื่อทำงานร่วมกับ AI เพราะ AI สามารถใช้งานได้ในแบบที่เราทำ

เมื่อวันที่ 24 มกราคม OpenAI ได้เปิดตัว “Operator” ซึ่งเป็น AI Agent อัจฉริยะสำหรับการใช้งานคอมพิวเตอร์ในทำนองเดียวกัน สำหรับผู้ใช้ ChatGPT Pro ที่จ่ายเงิน $200 ต่อเดือน แต่ให้ใช้ได้เฉพาะผู้ในในสหรัฐอเมริกาเท่านั้น

OpenAI วางตำแหน่งผลิตภัณฑ์สำหรับ Operator แยกต่างหากจาก ChatGPT โดยวางตำแหน่งไว้ข้าง ChatGPT และ Sora ซึ่งสอดคล้องกับแนวโน้มที่คาดการณ์โดยยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Sam Altman, Jensen Huang, และ Mark Zuckerberg ที่เชื่อว่า “ปี 2025 จะเป็นปีของตัวแทนอัจฉริยะ AI”

ซึ่งแน่นอนว่า Operator เป็นเพียงส่วนหนึ่งของกระแส AI Agent อัจฉริยะจากบริษัทโมเดลขนาดใหญ่อื่นๆ ซึ่งทะยอยเปิดตัวกันออกมา และน่าจะมีอีกมากในปีนี้

UI-TARS

สองวันก่อนการเปิดตัว Operator ทีมโมเดลขนาดใหญ่ Doubao ของ ByteDance ได้เปิดตัว UI-TARS ซึ่งเป็นโมเดลปัญญาประดิษฐ์ที่สามารถรับรู้และโต้ตอบกับส่วนติดต่อผู้ใช้กราฟิก (GUI) ได้อย่างชาญฉลาด โดยรับข้อมูลจากภาพหน้าจอและดำเนินการคล้ายกับมนุษย์ เช่น การใช้คีย์บอร์ดและเมาส์ แตกต่างจากเฟรมเวิร์กเอเจนต์ทั่วไปที่พึ่งพาโมเดลเชิงพาณิชย์และการตั้งค่าที่ซับซ้อน UI-TARS เป็นโมเดลแบบ end-to-end ที่มีประสิทธิภาพสูงกว่าในหลายเกณฑ์การทดสอบ

จุดสำคัญคือ: UI-TARS เป็นโอเพ่นซอร์ส! ใช้งานได้ฟรี

นอกจากนี้ UI-TARS ยังมาพร้อมกับรายงานทางเทคนิคที่ละเอียดสำหรับการศึกษา ดังนั้นจากมุมมองของการนำไปใช้ในแอปพลิเคชันและการวิจัยทางวิชาการ UI-TARS จะกลายเป็นพลังสำคัญที่เร่งการมาถึงของยุค AI Agent

ใช่ครับ UI-TARS มีแอปพลิเคชันเดสก์ท็อปที่ชื่อว่า “UI-TARS Desktop” ซึ่งเป็นแอปพลิเคชันที่ช่วยให้คุณสามารถควบคุมคอมพิวเตอร์ของคุณด้วยภาษาธรรมชาติ แอปนี้รองรับทั้งระบบปฏิบัติการ Windows และ macOS คุณสามารถดาวน์โหลดได้จากหน้า GitHub ของโครงการ (bytedance/UI-TARS-desktop)

การใช้งานต้อง deploy model ตามคู่มือนี้ (model bytedance-research/UI-TARS-7B-SFT) ลองลงขนาด 7B ไป ใช้ Nvidia L40S 1GPU 48GB (ชั่วโมงละ 1.8 เหรียญ) ลองใช้กับ UI-TARS Desktop แล้ว ไม่ค่อย work เท่าไร เลยตัดใจลอง 72B ดู โดย deploy บน Nvidia L40S 8GPU 384GB (ชั่วโมงละ 23.5 เหรียญ) เลยลองได้ชั่วโมงเดียว ลืมปิดนี่น่าจะหมดตัว

ลองให้เช็ค weather ด้วย browser ดู ได้ประมาณนี้

หลังจากลองดูแล้ว ยังไม่ค่อยประทับใจเท่าไร มันสั่งกดผิดกดถูก ยังสู้ Computer Use ของ Anthropic ไม่ได้ แต่เรื่องนี้คงต้องดูกันยาวๆ เพราะตัวนี้เป็น Open source น่าจะมีอนาคตไกลอยู่