NASP NeuroVoice VAD : ชิปตรวจจับเสียงพูดแบบ Always-on ใช้พลังงานระดับไมโครวัตต์

POLYN Technology, Neuromorphic Analog Signal Processor (NASP) NeuroVoice VAD เป็นชิปตรวจจับเสียงพูดแบบเปิดทำงานตลอดเวลา (always-on) ที่ใช้พลังงานต่ำมาก (ultra-low-power) สามารถตรวจจับเสียงพูดได้แม้อยู่ท่ามกลางสภาพแวดล้อมที่มีสัญญาณรบกวนสูง โดยใช้พลังงานในระดับไมโครวัตต์ และมีความหน่วงเวลาในการประมวลผลเพียงระดับไมโครวินาที

การประมวลผลทั้งหมดเกิดขึ้นบนชิปโดยตรงจึงไม่จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต การใช้งานที่เป็นไปได้ ได้แก่ รีโมตคอนโทรลอัจฉริยะ, หูฟังเอียร์บัด, อุปกรณ์สวมใส่, การเข้าถึงด้วยเสียง, อุปกรณ์ IoT ระบบอุตสาหกรรม 4.0, หุ่นยนต์, Smart Home/Factory, ระบบการเคลื่อนที่ (mobility) และอื่น ๆ อีกมากมาย

สเปคของชิป NASP NeuroVoice VAD (NV-VAD 100) :

คุณสมบัติ
- ตรวจจับเสียงพูดโดยใช้พลังงานต่ำมาก (ultra-low power)
- Voice passthrough – ส่งผ่านเฉพาะเสียงพูดและตัดเสียงรบกวนพื้นหลัง
- Background signal bypass – มีคำสั่ง Wake Word Detection (WWD) เพื่อเปิดการส่งผ่านเสียงแบบโปร่งใส
- ความชัดเจนของเสียงพูด/คำสั่งในสภาพแวดล้อมที่มีเสียงดัง – เพิ่มความเข้าใจของคำสั่งเสียงสำหรับฟังก์ชัน WWD/KWS (Keyword Spotting) ในสภาพแวดล้อมที่มีสัญญาณรบกวน เช่น Smart Home/Factory, อุปกรณ์สวมใส่ และอื่นๆ
ระบบเสียง
- อินเทอร์เฟซ – PDM / I2S
- การหน่วงเวลาเสียง (Voice delay detection) – 25 มิลลิวินาที
อินเทอร์เฟซกับโฮสต์ – SPI / I2C ใช้สำหรับการตั้งค่าเริ่มต้นและการอ่านสถานะ, ขา VAD
การดีบัก – รองรับ Boundary Scan และการเข้าถึงรีจิสเตอร์แกนหลักผ่าน JTAG
แรงดันไฟเลี้ยง
- Digital core – 1.2 V
- Analog core – 1.2 V
- ขา I/O – 1.8 V
การใช้พลังงาน – ประมาณ 30–35 µW (คาดว่าในโหมดทำงาน)
โหมดพลังงาน
- Standby – NeuroVoice VAD หยุดการทำงานทั้งหมด รอการตั้งค่า โดยหยุดสัญญาณนาฬิกาทั้งหมด พร้อมรับคำสั่งจากอินเทอร์เฟซอนุกรมภายนอก (SPI/I2C)
- Sleep – โหมดย่อยของ Standby โดยคงไมโครโฟน MEMS ไว้ในโหมดสลีป และสามารถปลุกให้ตื่นได้อย่างรวดเร็ว
- Low Power – ใช้เมื่อไมโครโฟน MEMS ต้องทำงาน แต่ฟังก์ชัน VAD Neurocore ถูกปิดใช้งาน
- Active – โหมดทำงานเต็มรูปแบบ ฟังก์ชันทั้งหมดพร้อมใช้งาน
ขนาด – 1.2 ตารางมิลลิเมตร

แกนประมวลผล VAD ทำงานด้วยเฟรมขนาด 8 มิลลิวินาที และสามารถเพิ่มช่วงว่างระหว่างเฟรมได้สูงสุดถึง 8 เฟรม เพื่อช่วยลดการใช้พลังงานลงอีก นอกจากนี้ยังมีพารามิเตอร์ที่สามารถตั้งค่าได้อีกตัวหนึ่งคือ ระดับความไวของ VAD (VAD Sensitivity Level: VSL) ซึ่งสามารถตั้งค่าได้ตั้งแต่ 0 ถึง 1 โดยพารามิเตอร์นี้ใช้ปรับจูนแกนโครงข่ายประสาทให้สมดุลระหว่างการตรวจจับเสียงพูดที่ผิดพลาดแบบตรวจพบเกินจริง (false positives) และการพลาดการตรวจจับเสียงพูด (false negatives)

ขณะนี้ยังมีข้อมูลเกี่ยวกับการรองรับซอฟต์แวร์และชุดพัฒนา (devkit) ค่อนข้างจำกัด แต่บริษัทมีแผนจะนำโซลูชันนี้ไปจัดแสดงในงาน CES 2026 และจะให้ข้อมูลเกี่ยวกับ NeuroVoice evaluation kits และโปรแกรมเข้าถึงล่วงหน้า สำหรับบริษัทที่กำลังพัฒนาผลิตภัณฑ์ควบคุมด้วยเสียงที่ใช้พลังงานต่ำมาก (ultra-low-powe) สามารถดูรายละเอียดเพิ่มเติมบางส่วนได้จากหน้าเว็บไซต์ของผลิตภัณฑ์และข่าวประชาสัมพันธ์

แปลจากบทความภาษาอังกฤษ : NASP NeuroVoice VAD chip enables always-on voice activity detection at microwatt-level power consumption