Espressif เปิดตัวเฟรมเวิร์ก ESP-SR การรู้จำเสียงพูดบนอุปกรณ์ รันบน ESP32-S3 และ ESP32

Espressif ESP-SR เป็นเฟรมเวิร์กการรู้จำเสียงพูดที่เปิดใช้งานบนอุปกรณ์ที่รันบนไมโครคอนโทรลเลอร์ไร้สาย ESP32 และ ESP32-S3 โดยที่ ESP32-S3 ได้รับการแนะนำเนื่องจากเพิ่มชุดคำสั่ง vector รองรับ AI acceleration และมี SPI PSRAM ขนาดใหญ่กว่าและ high-speech octal

เฟรมเวิร์ก ESP-SR เปิดตัวครั้งแรกเมื่อวันที่ 17 ธันวาคม 2021 ด้วยเวอร์ชัน 1.0 ตอนนี้มีการอัปเดตเวอร์ชั่น 1.20 ในเดือนมีนาคมของปีนี้ แต่ฉันเพิ่งค้นพบ ESP-SR โซลูชันการรู้จำเสียงพูดแบบออฟไลน์ผ่านทวีตเตอร์ John Lee ที่แสดงวิดีโอสาธิต ESP-SR โดย @ThatProject

ตอนแรกฉันสับสนเพราะบอร์ด ESP32 รองรับการรู้จำเสียงพูดโดยใช้ เฟรมเวิร์ก ESP-ADF มาหลายปี แต่ข้อแตกต่างที่สำคัญคือระบบใช้คำสั่งด้วยเสียงออนไลน์ เช่น Baidu DuerOS , Amazon Alexa และ Google Assistant ในขณะที่ ESP-SR รุ่นใหม่ใช้งานระบบการรับรู้เสียงแบบ locally directly โดยตรงบน CPU ESP32 ดังนั้นคุณไม่ต้องเชื่อมต่อกับเครือข่ายใดๆ เราเคยเขียนทความเกี่ยวกับโมดูลรู้จำเสียงพูดแบบออฟไลน์ต่างๆ และฉันไม่รู้ว่าสิ่งนี้ได้ถูกใช้งานบนชิป ESP32 แล้ว

GitHub repository สำหรับ ESP-SR มีองค์ประกอบหลัก 4 อย่างดังนี้:

  • ระบบเสียง Audio Front-end AFE
  • WakeNet Wake Word Engine: ตัวเครื่องมือสำหรับตรวจจับคำเรียกใช้ด้วยเสียง (Wake Word)
  • MultiNet Speech Command Word Recognition: ตัวเครื่องมือสำหรับรับรู้คำสั่งด้วยเสียงหลายคำ
  • การสังเคราะห์เสียงพูด (Speech Synthesis) (รองรับเฉพาะภาษาจีนในขณะนี้)

หากส่วนประกอบบางอย่างด้านบนดูคุ้นๆ นั่นเพราะว่าเป็นโซลูชันที่มีอยู่แล้วและเราเคยพูดถึงอัลกอริทึม ESP-AFE ที่ได้รับการรับรองจาก Alexa ในขณะที่ WakeNet และ MultiNet เป็นส่วนหนึ่งของ ESP-SKAINET assistant ที่เปิดตัวในปี 2019 สิ่งที่ดูเหมือนจะใหม่คือแอปทดสอบสำหรับการรับรู้เสียงและการแปลงข้อความเป็นเสียง (text-to-speech conversion) ซึ่งเพิ่งถูกนำเข้าระบบเมื่อ 3 ถึง 5 วันก่อนหน้านี้

ESP SR ESP32 on device speech recognition AFE
กระบวนการรับรู้เสียงพูด

ดังนั้น ESP-SR จะรวมเอาโครงการต่างๆ เหล่านั้นทั้งหมดเข้าด้วยกันเป็นส่วนประกอบเพื่อช่วยในการรวมระบบเข้ากับโครงการของลูกค้า สามารถดูเอกสารประกอบในเว็บไซต์ของ Espressif และบริษัทแนะนำให้ใช้บอร์ดพัฒนา ESP32-S3-Korvo-1 หรือ ESP32-S3-Korvo-2 เพื่อเริ่มต้น ฉันจะคิดว่ามันน่าจะใช้ได้กับ ESP32-S3 smart audio devkits พร้อมไมโครโฟน เช่น ESP32-S3-BOX ด้วย

แปลจากบทความภาษาอังกฤษ : Espressif ESP-SR enables on-device speech recognition framework on ESP32-S3 and ESP32 WiSoCs

FacebookTwitterLineEmailShare

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *

โฆษณา
โฆษณา