Rockchip เปิดตัวชิป RK3668 แบบ 10-core, Arm Cortex-A730/Cortex-A530 พร้อม NPU 16 TOPS และ โคโปรเซสเซอร์ RK182X สำหรับประมวลผล LLM/VLM

งาน Rockchip Developer Conference 2025 (RKDC!2025) กำลังจัดขึ้นที่เมืองฝูโจว ประเทศจีน โดยมีการประกาศที่น่าสนใจหลายอย่าง เช่น Rockchip RK3668 เป็นชิป SoC แบบ 10 คอร์ ที่ใช้สถาปัตยกรรม Arm Cortex-A730/A530 พร้อม NPU 16 TOPS และ RK182X RISC-V co-processor ที่รองรับการประมวลผลโมเดลภาษา (large Language Model หรือ LLM) หรือโมเดลภาพและภาษา (Vision Language Model หรือ VLM) ขนาดใหญ่ได้สูงสุดถึง 7 พันล้านพารามิเตอร์

Rochchip RK3668 10-core Armv9 SoC

มาดูรายละเอียดของชิป Rockchip RK3668 SoC กัน ซึ่งดูคล้ายกับ RK3688 SoC ที่เปิดตัวไปเมื่อปีที่แล้ว แต่ก็มีความแรกต่างกันบางส่วน

สเปกเบื้องต้นของ Rockchip RK3668:

CPU – 4x Cortex-A730 cores + 6x Cortex-A530 ใช้สถาปัตยกรรม Armv9.3 ให้ประสิทธิภาพประมาณ 200K DMIPS (หมายเหตุ: ทั้งสองคอร์ยังไม่ได้รับการประกาศอย่างเป็นทางการจาก Arm)
GPU – Arm Magni GPU ให้ประสิทธิภาพสูงสุด 1-1.5 TFLOPS
AI accelerator – RKNN-P3 NPU ประสิทธิภาพ 16 TOPS
VPU – รองรับการถอดรหัสวิดีโอ 8K ที่ 60 FPS
ISP – ISP ที่มีการเพิ่มประสิทธิภาพด้วย AI รองรับวิดีโอสูงสุด 8K ที่ 30 FPS
หน่วยความจำ – รองรับ LPDDR5/5x/6 ที่แบนด์วิธสูงสุด 100 GB/s
สตอเรจ – รองรับ UFS 4.0
วิดีโอเอาต์พุต – HDMI 2.1 รองรับสูงสุด 8K 60 FPS, MIPI DSI
อินเทอร์เฟซอุปกรณ์ต่อพ่วง – PCIe, UCIe
กระบวนการผลิต – 5~6nm

RK3688 มาพร้อมกับคอร์ใหญ่ 8 คอร์ และคอร์เล็ก 4 คอร์ ในขณะที่ RK3668 ใช้การจัดเรียงแบบ 4 คอร์ใหญ่ และ 6 คอร์เล็ก ส่วน RK3588 มีหน่วย AI ที่เร็วกว่า (32 TOPS), แบนด์วิธหน่วยความจำ LPDDR6 สูงสุดถึง 200GB/s, ตัวถอดรหัสวิดีโอสูงสุด 16K ที่ 30 FPS และตัวเข้ารหัสวิดีโอ 8K ที่ 60 FPS

มีข้อมูลสาธารณะเกี่ยวกับ RK3668 น้อยมาก โดยเราพบข้อมูลนี้ผ่านโพสต์ของ Radxa บน X, ซึ่งมีแผนจะพัฒนาบอร์ด SBC รุ่น ROCK 6 โดยใช้ชิป SoC ตัวใหม่นี้

โคโปรเซสเซอร์ Rockchip RK182X สำหรับ LLM/VLM

ประกาศที่สองที่เราพบ, ขอบคุณผู้ใช้ BG5SUN บน X คือโคโปรเซสเซอร์ RK182X ซึ่งรองรับโมเดลภาษาและภาพขนาด 3B/7B (3 พันล้าน/7 พันล้านพารามิเตอร์) สำหรับงานด้าน LLM/VLM

ชิปตัวนี้มาพร้อมกับซีพียู RISC-V แบบหลายคอร์, หน่วยความจำ DRAM แบบ ultra-high bandwidth ขนาด 2.5GB หรือ 5GB และมีอินเทอร์เฟซเชื่อมต่อกับโปรเซสเซอร์หลักผ่าน PCIe 2.0, USB 3.0 และ Ethernet, ทางบริษัทระบุว่าโมเดลขนาด 7 พันล้านพารามิเตอร์ ที่ใช้รูปแบบข้อมูล INT4/FP4 สามารถจัดเก็บลงใน RAM ขนาด 3.5GB ได้

โคโปรเซสเซอร์นี้ถูกออกแบบมาเพื่อใช้งานร่วมกับ SoC รุ่น Rockchip RK3576/RK3588 ซึ่งมี NPU ประสิทธิภาพ 6 TOPS อยู่แล้ว รวมถึงสามารถใช้งานร่วมกับโปรเซสเซอร์อื่น ๆ ได้เช่นกัน

ชิปตัวนี้จะรองรับการใช้งานผ่าน RKNN3 Toolkit และรองรับเฟรมเวิร์กยอดนิยมอย่าง PyTorch, ONNX, และ TensorFlow รวมถึงรูปแบบโมเดล HuggingFace GGUF (GPT-Generated Unified Format)

นอกจากนี้ Rockchip ยังได้เปิดเผยตัวเลขประสิทธิภาพของโมเดลแบบ Distilled ที่เป็นที่นิยม เช่น Qwen2.5 และ DeepSeek R1

ก่อนหน้านี้เราได้ระบุว่าเป็นไปได้ที่จะรันโมเดล DeepSeek-R1-Distill-Qwen-1.5B บน RK3588 โดยใช้ NPU ที่มีประสิทธิภาพ 6 TOPS ซึ่งสามารถแก้สมการคณิตศาสตร์ง่าย ๆ ได้ที่ความเร็ว 188.53 โทเค็นต่อวินาที สำหรับขั้นตอน prefill และ 14.93 โทเค็นต่อวินาที สำหรับขั้นตอน generate แม้ว่าโมเดล Qwen2.5-1.5B ที่กล่าวถึงข้างต้นอาจไม่สามารถเปรียบเทียบโดยตรงได้ แต่ก็ช่วยให้เห็นภาพของประสิทธิภาพที่เพิ่มขึ้นจากการใช้ตัวเร่ง RK182X ซึ่งให้ความเร็วมากกว่า 2,000 โทเค็นต่อวินาที สำหรับ prefill และประมาณ 120 โทเค็นต่อวินาที สำหรับ decode ซึ่งกล่าวได้ว่า RK182X มีความเร็วมากกว่า 8 ถึง 10 เท่า เมื่อเทียบกับการใช้ NPU (และหน่วยความจำ) บนชิป RK3588

แปลจากบทความภาษาอังกฤษ : Rockchip unveils RK3668 10-core Arm Cortex-A730/Cortex-A530 SoC with 16 TOPS NPU, RK182X LLM/VLM co-processor