คู่มือออนไลน์เลือกฮาร์ดแวร์สำหรับใช้งาน Local LLM ให้คุ้มค่าที่สุด

เมื่อพูดถึงการใช้งานโมเดล LLM แบบรันในเครื่อง (Local LLM) หลายคนอาจคิดว่าการลงทุนเงินมากขึ้นจะให้ประสิทธิภาพที่ดีกว่า แต่ในความเป็นจริงไม่ได้เป็นเช่นนั้นเสมอไป ด้วยเหตุนี้ Sipeed จึงได้จัดทำ “AI Agent Local LLM Inference Device Deployment Guide” ซึ่งเผยแพร่บนเว็บไซต์ llmdev.guide

เว็บไซต์ดังกล่าวรวบรวมข้อมูลฮาร์ดแวร์ยอดนิยม พร้อมรายละเอียดด้านราคา ประสิทธิภาพ (tokens ต่อวินาที), การใช้พลังงาน และข้อมูลอื่น ๆ สำหรับโมเดล LLM หลายประเภท ถ้ายกตัวอย่างโมเดล Qwen3.5 9B จะพบว่าฮาร์ดแวร์ระดับราคาเกิน $4,000 (~130,000฿) เช่น NVIDIA DGX Spark หรือ Apple Mac Studio M3 ให้ค่า TPS (tokens per second) ใกล้เคียงกับเครื่องที่ใช้การ์ดจอ Intel Arc B580 12GB ซึ่งมีราคาประมาณ $260 (~8,500฿) เท่านั้น

ถ้างบประมาณไม่ใช่ข้อจำกัด และคุณต้องการประสิทธิภาพสูงสุด NVIDIA GeForce RTX 5090 32GB ถือเป็นตัวเลือกที่เหมาะสมที่สุด แต่การเปรียบเทียบราคานี้อาจไม่สมบูรณ์นัก เนื่องจากข้อมูลบางรายการเป็นราคาของทั้งระบบ ในขณะที่บางรายการระบุเฉพาะราคาการ์ดจอเท่านั้น แต่สำหรับโมเดล Qwen 122B-A10B นั้น NVIDIA DGX Spark ให้ความคุ้มค่าด้านราคา/ประสิทธิภาพดีที่สุด เมื่อเทียบกับ Apple Mac Studio M3 Ultra 256GB

โดยสามารถเลือกตัวเลือกได้หลากหลายสำหรับแกน X และแกน Y รวมถึงขนาดของบับเบิล (Bubble) โดยอิงจากพารามิเตอร์ต่าง ๆ เช่น สเปคของอุปกรณ์ (เช่น แบนด์วิดท์/ความจุหน่วยความจำ, ค่า TOPS ที่ระบุ) ประสิทธิภาพของ LLM ทั้งช่วงสร้างผลลัพธ์ (output) และช่วง prefill อัตราส่วนต่าง ๆ เช่น ประสิทธิภาพต่อวัตต์ (Perf/Watt) และประสิทธิภาพต่อราคา (Perf/Dollar)

เว็บไซต์นี้ใช้โมเดล Qwen 3.5 สำหรับการทำ Benchmark โดยมีรายละเอียดดังนี้:

Qwen3.5-9B – จำเป็น (baseline สำหรับอุปกรณ์ขนาดเล็ก)
Qwen3.5-27B – จำเป็น (baseline สำหรับอุปกรณ์ระดับกลาง)
Qwen3.5-35B-A3B (MoE) – ตัวเลือกเสริม (อ้างอิงประสิทธิภาพ MoE)
Qwen3.5-122B-A10B (MoE) – ตัวเลือกเสริม (อ้างอิงอุปกรณ์ที่ต้องใช้หน่วยความจำขนาดใหญ่)
Qwen3.5-397B-A17B (MoE) – ตัวเลือกเสริม (อ้างอิงอุปกรณ์ระดับสูงสุด)

น่าเสียดายที่ยังไม่มีตัวเลือกในการกรองตามราคาโดยตรง แต่เราสามารถเลือกใช้สเกลแบบลอการิทึม (logarithmic scale) เพื่อช่วยให้มองเห็นความคุ้มค่าด้านราคา/ประสิทธิภาพของอุปกรณ์ระดับเริ่มต้นได้ชัดเจนยิ่งขึ้น นอกจากนี้ยังสามารถใช้เมาส์ลากกรอบ (draw a box) เพื่อซูมเข้าไปดูรายละเอียดเฉพาะจุดได้อีกด้วย]

หรืออีกทางหนึ่ง สามารถสลับไปยังมุมมองแบบรายการ (list view) และจัดเรียงผลลัพธ์ตามราคาได้

สามารถดูรายละเอียดเพิ่มเติมของอุปกรณ์แต่ละรายการ เช่น สเปคและผลการทดสอบ ได้โดยการคลิกที่รายการในลิสต์หรือบับเบิล (bubble) บนกราฟ

หมายเหตุ : ผลลัพธ์บางรายการเป็นค่าประมาณ และตัวอย่างเช่น ข้อมูลของ Raspberry Pi 5 16GB สำหรับ Qwen 3.5 9B นั้นถูกคำนวณต่อยอด (extrapolated) มาจากผลลัพธ์ของโมเดล Llama 7B รายการฮาร์ดแวร์ยังสามารถขยายเพิ่มเติมได้ เนื่องจากโปรเจกต์เปิดรับการส่งข้อมูลจากผู้ใช้งาน ถ้าต้องการเพิ่มฮาร์ดแวร์ใหม่ จะต้องติดตั้งระบบ benchmark และทำตามขั้นตอนที่กำหนด แต่ระบบยังไม่สามารถรวบรวมข้อมูลอัตโนมัติได้ ทำให้ผู้ใช้ต้องกรอกข้อมูลทั้งหมดด้วยตนเอง หลังจากคัดลอกเทมเพลตในโฟลเดอร์ devices จากนั้นต้องรันอย่างน้อย Qwen 3.5 9B ด้วยคำสั่ง query ที่ยาวพอ และถ่ายภาพบอร์ดของคุณประกอบ ถ้าต้องการให้มีผู้ส่งข้อมูลมากขึ้นควรมีการทำระบบอัตโนมัติบางส่วน เช่น ใช้สคริปต์ sbc-bench.sh หรือสร้างสคริปต์แบบ wizard

เราได้เริ่มทดลองทำกับ UP Xtreme ARL AI Dev Kit ไปบ้างแล้ว แต่เนื่องจากข้อมูลทั้งหมดต้องกรอกด้วยตนเอง จึงขอเลื่อนออกไปก่อน และจะส่งข้อมูลในช่วงวันหยุดสุดสัปดาห์ที่มีเวลามากพอให้ทดลองเพิ่มเติม เราดีใจที่มีแหล่งข้อมูลนี้อยู่ และหวังว่าจะได้รับการพัฒนาให้ดียิ่งขึ้นต่อไป

แปลจากบทความ : Select the right hardware for your local LLM deployment with this online guide