Microsoft Trellis: นวัตกรรมสำหรับสร้างโมเดล 3 มิติ

การสร้างโมเดล 3 มิติเพื่อใช้งานด้านเกม ภาพยนตร์ แอนิเมชัน หรืออุตสาหกรรมความเป็นจริงเสมือน (VR/AR) เป็นพื้นที่ที่มีการเติบโตและพัฒนาอย่างต่อเนื่อง ในปัจจุบัน แนวคิดเรื่องการใช้โมเดล Generative AI เข้ามาทำให้กระบวนการผลิตทรัพย์สิน 3D มีประสิทธิภาพ รวดเร็ว และยืดหยุ่นมากขึ้น หนึ่งในเทคโนโลยีล่าสุดที่กำลังเป็นกระแส คือ 3D Gaussian Splatting (3DGS) ซึ่งเป็นวิธีการแทนค่าข้อมูลแบบต่อเนื่อง (Volumetric Representation) ผ่านจุด Gaussian จำนวนน้อย เพื่อให้ได้รายละเอียดสูงและยืดหยุ่นในการเรนเดอร์

ผมทดลองโดยส่งรูปนี้เข้าไป

Trellis จะสร้าง 3DGS samples แบบนี้

ผลสุดท้ายได้ GLB ไฟล์ออกมาตามนี้

ในบทความนี้ เราจะพูดถึงหลักการสำคัญของ 3DGS และเจาะลึกไปยัง Trellis – โมเดล 3D สุดล้ำที่นำแนวคิด 3DGS และสถาปัตยกรรมการเรียนรู้เชิงลึก (Deep Learning) มาใช้ในการสร้างโมเดล 3D ที่สามารถขยาย (Scalable) และปรับรูปแบบได้หลากหลาย (Versatile) พร้อมอธิบายว่าทำไม Trellis จึงมีความสำคัญและส่งผลกระทบต่อวงการต่าง ๆ อย่างมีนัยสำคัญ

รู้จัก 3DGS (3D Gaussian Splatting)

3D Gaussian Splatting คือหนึ่งในนวัตกรรมการแสดงผลฉาก (Scene Representation) ที่ใช้แนวคิดของการ “สแปลต” (splat) หรือการโปรย Gaussian ขนาดเล็กจำนวนมากในพื้นที่ 3 มิติ เพื่อเก็บข้อมูลเรขาคณิต (Geometry) และเนื้อผ้า (Texture) ของวัตถุหรือฉาก ความน่าสนใจของวิธีนี้ คือ

1. การเก็บรายละเอียดอย่างต่อเนื่อง

3DGS ช่วยให้การเรนเดอร์โครงสร้างของฉากหรือวัตถุเป็นไปอย่างแม่นยำ แม้ใช้ Gaussian จำนวนไม่มาก เนื่องจากแต่ละ Gaussian สามารถแทนข้อมูลได้ต่อเนื่อง

2. ประสิทธิภาพสูง (Efficiency)

ด้วยการที่ 3DGS หลบเลี่ยงการคำนวณในจุดที่ “ว่างเปล่า” หรือไม่มีเนื้อหาสำคัญ ทำให้การประมวลผลรวดเร็ว และใช้ทรัพยากรน้อย เมื่อเทียบกับการใช้ voxel grid หนาแน่น

3. ขยายขีดความสามารถได้หลากหลาย

3DGS เองสามารถปรับประยุกต์ไปสู่การสร้างโมเดลหลายรูปแบบ เช่น Radiance Fields (สำหรับการเรนเดอร์แสง) หรือการใช้เป็นโครงสร้างพื้นฐานในการพัฒนาระบบ 3D Generative AI รุ่นใหม่ ๆ

อย่างไรก็ตาม 3DGS ก็ยังคงเผชิญความท้าทายบางประการ เช่น การเก็บรายละเอียดบนพื้นผิวที่บางหรือรูปทรงเรขาคณิตที่ซับซ้อน ซึ่งต้องอาศัยการปรับปรุงทั้งด้านอัลกอริทึมและการออกแบบสถาปัตยกรรมเครือข่ายประสาทเทียม (Neural Network) เพื่อรองรับความซับซ้อนที่เพิ่มขึ้น

Trellis คืออะไร

Trellis เป็นโมเดล Generative AI สาย 3 มิติที่ได้ผสานแนวคิดของ 3DGS เข้ากับ Structured LATent (SLAT) และ Rectified Flow Transformers เพื่อสร้างโมเดล 3D ที่ทั้งยืดหยุ่นและขยายได้ Trellis ถูกออกแบบมาเพื่อตอบโจทย์หลายด้าน ไม่ว่าจะเป็น:

• การรองรับการป้อนอินพุต (Conditioning) แบบหลายรูปแบบ เช่น รูปภาพหลายมุม, ข้อความ (Text prompt) หรือผสมผสานกัน

• การสร้างเอาต์พุต 3 มิติได้หลากหลายรูปแบบ เช่น Radiance Fields, 3D Gaussians, และ Meshes ที่ตอบโจทย์การใช้งานในอุตสาหกรรมต่าง ๆ

• สถาปัตยกรรมที่เน้นขยายขนาด (Scalability) ด้วยโมเดลที่มีพารามิเตอร์สูงสุดถึง 2 พันล้านพารามิเตอร์ และผ่านการฝึกจากฐานข้อมูลขนาดใหญ่กว่า 500,000 วัตถุ

จุดเด่นของ Trellis คือการนำเสนอการแทนค่าระดับโครงสร้าง (Structured LATent) ที่แปลงกลับไปเป็นโมเดล 3 มิติได้อย่าง “เลือกได้” (Flexible Decoding) ทำให้ผู้ใช้สามารถเจาะจงได้ว่า อยากจะได้ฟอร์แมตใด เช่น จะให้ออกมาเป็น 3D mesh สำหรับเกม หรือเป็น Radiance Fields สำหรับงานเรนเดอร์แสง เป็นต้น

หลักการทำงานของ Trellis: SLAT & Rectified Flow Transformers

1. Structured LATent (SLAT)

SLAT เป็นแนวคิดใหม่ในการแทนข้อมูลแบบ “3D Latent” คือเก็บข้อมูลเชิงเรขาคณิตและเนื้อผ้าไว้ในโครงสร้าง 3 มิติที่มีตำแหน่ง (Sparse Grid) โดยเชื่อมโยงเข้ากับฟีเจอร์ที่ได้จากการเข้ารหัสภาพหลายมุมมองที่ผ่านการฝึกฝนมาแล้ว ความสามารถของ SLAT ทำให้การจับรายละเอียด “เชิงพื้นที่” ในโมเดล 3D เป็นไปอย่างมีระเบียบ และลดการสูญเสียรายละเอียดที่อาจเกิดขึ้นเมื่อฝึกโมเดลขนาดใหญ่

2. Rectified Flow Transformers

เพื่อให้การสร้าง (Synthesis) โมเดล 3 มิติเป็นไปได้อย่างมีคุณภาพ Trellis ใช้ Rectified Flow Transformers มาช่วยในขั้นตอนของการสร้างโครงสร้าง SLAT และการเติมรายละเอียด (Decode) ออกมาเป็นรูปแบบสุดท้าย กระบวนการนี้ถูกแบ่งเป็น 2 ขั้นตอนหลัก คือ

Phase 1: Splatting / Skelenton Construction

สร้างโครงสร้าง SLAT ที่ขาดแคลน (Sparse) ไว้เป็น “โครงกระดูก”

Phase 2: Fill-in / Refinement

ใช้ Flow Transformers มากำหนดเวกเตอร์แฝงในแต่ละเซลล์ (Cell) ที่มีข้อมูล เพื่อเติมรายละเอียดเรขาคณิตและเนื้อผ้าอย่างถูกต้อง

กระบวนการสองขั้นตอนนี้ช่วยให้ Trellis สามารถปรับตัวได้กับวัตถุตั้งแต่เรียบง่ายจนถึงซับซ้อน พร้อมรองรับขนาดใหญ่และการสร้างโมเดล 3 มิติพร้อมกันหลาย ๆ ชิ้น

ทำไม Trellis จึงสำคัญ

1. ลดภาระในการสร้าง 3D Asset

เดิมทีการสร้างโมเดล 3 มิติจำเป็นต้องใช้เครื่องมือ CAD, DCC (Digital Content Creation) หรือการปั้นโมเดลด้วยมือ (Sculpt) ซึ่งใช้เวลามาก Trellis ช่วยให้สร้างโมเดล 3 มิติระดับสูงจากรูปภาพหรือข้อความในเวลาอันสั้น ช่วยประหยัดทั้งเวลาและทรัพยากร

2. การรองรับการขยายตัว (Scalability)

ด้วยพารามิเตอร์มากถึง 2 พันล้านตัว และชุดข้อมูลฝึก (Training Dataset) ที่ครอบคลุมมาก Trellis สามารถนำไปใช้สร้างคลังทรัพย์สิน (Asset) 3 มิติขนาดใหญ่ได้อย่างต่อเนื่อง เหมาะทั้งผู้ใช้งานรายย่อยจนถึงสตูดิโอเกมหรือบริษัทภาพยนตร์ขนาดใหญ่

3. รูปแบบเอาต์พุตที่หลากหลาย (Versatility)

ไม่ว่าจะเป็นการสร้าง Radiance Fields สำหรับการเรนเดอร์แสงเสมือนจริง, 3D Gaussians สำหรับการเรนเดอร์แบบ Volumetric อย่างเร็ว หรือ Meshes สำหรับการใช้งานทั่วไป Trellis รองรับทั้งหมด ทำให้ง่ายต่อการนำไปปรับใช้ในงานจริง

4. การเข้าถึงที่ง่ายขึ้น (Accessibility)

Trellis ถูกออกแบบมาเพื่อให้ผู้ใช้ที่ไม่ชำนาญด้านเทคนิคก็สามารถสร้างโมเดล 3 มิติได้ เพียงระบุคำอธิบาย (Text Prompt) หรือมีภาพตัวอย่างไม่กี่มุม นี่ทำให้ศิลปิน หรือแม้แต่ผู้เริ่มต้นในสายออกแบบ 3 มิติก็สามารถ “แชร์ไอเดีย” ออกมาเป็นโมเดลพร้อมใช้งานได้ทันที

ผลกระทบต่ออุตสาหกรรม

1. อุตสาหกรรมเกม

การใช้ Trellis เข้ามาช่วยสามารถเร่งกระบวนการสร้างโมเดลตัวละคร ฉาก และวัตถุในเกมได้อย่างรวดเร็ว นักพัฒนาเกมจะมุ่งไปยังการออกแบบระบบเกมหรือเนื้อเรื่องมากขึ้น แทนที่จะหมดเวลามากกับการขึ้นโมเดล 3D ทุกชิ้นด้วยมือ

2. งานสื่อและความบันเทิง (VFX, แอนิเมชัน, ภาพยนตร์)

Trellis ช่วยให้ผู้กำกับศิลป์และศิลปิน 3D สามารถสร้างฉากหรือเอฟเฟกต์ที่ซับซ้อนได้ง่ายขึ้น อีกทั้งยังสามารถสร้างพื้นผิว (Texture) ที่สมจริงและหลากหลาย โดยไม่ต้องสร้างทีละวัตถุแบบดั้งเดิม

3. สถาปัตยกรรมและออกแบบภายใน

นักออกแบบและสถาปนิกสามารถเปลี่ยนภาพสเก็ต หรือข้อความสรุปคอนเซ็ปต์ (Concept Brief) ให้กลายเป็นโมเดล 3D สำหรับพรีเซนต์ลูกค้าได้ในเวลารวดเร็ว ช่วยให้การทำงานร่วมกับทีมและลูกค้าคล่องตัวยิ่งขึ้น

4. เทคโนโลยี VR/AR

การสร้างวัตถุ 3 มิติที่หลากหลายสำหรับการใช้งานในโลกเสมือนหรือแอปพลิเคชัน AR กำลังเติบโตอย่างมาก Trellis สามารถผลิตเนื้อหาที่ “สดใหม่” และสมจริง รองรับการขยายโลกเสมือนในรูปแบบต่าง ๆ

ความท้าทายและการพัฒนาในอนาคต

ถึงแม้ว่า Trellis จะมีศักยภาพสูง แต่ก็ยังมี ความท้าทาย เช่น

การจับภาพพื้นผิวที่บางหรือซับซ้อน: ขึ้นอยู่กับความละเอียดของ Gaussian และโครงสร้าง SLAT ซึ่งยังมีโอกาสพลาดในรายละเอียดที่บางมาก ๆ

การประมวลผลในงานขนาดใหญ่: แม้จะออกแบบมาให้ขยายได้ การฝึกโมเดลหรือเรนเดอร์ปริมาณมหาศาลก็ต้องใช้ทรัพยากรสูง ทั้ง CPU/GPU และหน่วยความจำ

การวิจัยและปรับปรุงในเชิงวิธีการ Rectified Flow, การเชื่อมต่อภาพหลายมุมมอง (Multi-Image Conditioning) รวมถึงการค้นหาโครงสร้าง SLAT ที่เหมาะสมยิ่งขึ้นในช่วงฝึก (Training) กำลังดำเนินอยู่ เพื่อให้ Trellis สามารถรองรับฉากที่ซับซ้อน และแก้ไขปัญหาการสูญเสียรายละเอียดเล็ก ๆ ได้ดียิ่งขึ้น

สรุป

Trellis คือก้าวสำคัญในการนำ 3D Gaussian Splatting (3DGS) มาประยุกต์ใช้ในงาน Generative AI ด้าน 3 มิติอย่างกว้างขวาง ความสามารถในการรับอินพุตหลายรูปแบบ สร้างเอาต์พุตได้หลายฟอร์แมต ปรับขนาดได้ตามต้องการ และใช้งานง่าย ทำให้ Trellis มีศักยภาพในการเปลี่ยนกระบวนการสร้างโมเดล 3 มิติในอุตสาหกรรมต่าง ๆ ไม่ว่าจะเป็นเกม แอนิเมชัน สถาปัตยกรรม หรือสื่อและความบันเทิงอย่างรอบด้าน

ในระหว่างที่เทคโนโลยียังคงพัฒนา Trellis ก็มีแนวโน้มที่จะเป็น “ผู้นำ” ในตลาด Generative AI สำหรับงาน 3D เราจะได้เห็นการผนวก Trellis เข้ากับเครื่องมือสร้างเนื้อหาอัตโนมัติที่สนับสนุนการสร้างทรัพย์สิน 3 มิติในสเกลใหญ่ แม้ผู้ใช้อาจไม่มีทักษะทางเทคนิคสูงก็ตาม นี่จึงไม่ใช่แค่เครื่องมือ แต่เป็นการเปิดพื้นที่แห่ง “ความคิดสร้างสรรค์ไม่จำกัด” ให้กับวงการ 3 มิติในอนาคต

อ้างอิง

Trellis: Structured 3D Latents for Generative Synthesis

Trellis Official Website

Trellis GitHub – microsoft/TRELLIS

Exploring Trellis: Microsoft’s Advanced SLAT-Based Generative 3D Model Framework

arXiv Paper: 3D Gaussian Splatting (2308.04079)

arXiv Paper: On Going 3D Gaussian Splatting (2403.17888)

HuggingFace Papers: 3D GA: 2412.01506

Trellis3D.net

Digialps: Trellis – The High-quality 3D Asset Generator

Trellis-3D.com

ด้วยเทคโนโลยีอย่าง Trellis และแนวคิด 3DGS ที่กำลังพัฒนาอย่างต่อเนื่อง เราจะได้เห็นการเปลี่ยนแปลงครั้งใหญ่ในอุตสาหกรรมสร้างสรรค์ 3D และนี่อาจเป็นเพียงจุดเริ่มต้นของอนาคตการผลิต 3 มิติที่ง่าย รวดเร็ว และสร้างสรรค์ไร้ขีดจำกัด!