Espressif เปิดตัวเฟรมเวิร์ก ESP-SR การรู้จำเสียงพูดบนอุปกรณ์ รันบน ESP32-S3 และ ESP32

Espressif ESP-SR เป็นเฟรมเวิร์กการรู้จำเสียงพูดที่เปิดใช้งานบนอุปกรณ์ที่รันบนไมโครคอนโทรลเลอร์ไร้สาย ESP32 และ ESP32-S3 โดยที่ ESP32-S3 ได้รับการแนะนำเนื่องจากเพิ่มชุดคำสั่ง vector รองรับ AI acceleration และมี SPI PSRAM ขนาดใหญ่กว่าและ high-speech octal

เฟรมเวิร์ก ESP-SR เปิดตัวครั้งแรกเมื่อวันที่ 17 ธันวาคม 2021 ด้วยเวอร์ชัน 1.0 ตอนนี้มีการอัปเดตเวอร์ชั่น 1.20 ในเดือนมีนาคมของปีนี้ แต่ฉันเพิ่งค้นพบ ESP-SR โซลูชันการรู้จำเสียงพูดแบบออฟไลน์ผ่านทวีตเตอร์ John Lee ที่แสดงวิดีโอสาธิต ESP-SR โดย @ThatProject

Comrades of the world, liberate your hands from the chains of typing and touching germy switches! Embrace the revolutionary power of speech recognition with ESP32-S3 + ESP-SR. Let your words flow freely, for the proletariat shall not be silenced by keyboards or bourgeois input… pic.twitter.com/bm3udteB3o

— John Lee (@EspressifSystem) July 15, 2023

ตอนแรกฉันสับสนเพราะบอร์ด ESP32 รองรับการรู้จำเสียงพูดโดยใช้ เฟรมเวิร์ก ESP-ADF มาหลายปี แต่ข้อแตกต่างที่สำคัญคือระบบใช้คำสั่งด้วยเสียงออนไลน์ เช่น Baidu DuerOS , Amazon Alexa และ Google Assistant ในขณะที่ ESP-SR รุ่นใหม่ใช้งานระบบการรับรู้เสียงแบบ locally directly โดยตรงบน CPU ESP32 ดังนั้นคุณไม่ต้องเชื่อมต่อกับเครือข่ายใดๆ เราเคยเขียนทความเกี่ยวกับโมดูลรู้จำเสียงพูดแบบออฟไลน์ต่างๆ และฉันไม่รู้ว่าสิ่งนี้ได้ถูกใช้งานบนชิป ESP32 แล้ว

GitHub repository สำหรับ ESP-SR มีองค์ประกอบหลัก 4 อย่างดังนี้:

ระบบเสียง Audio Front-end AFE
WakeNet Wake Word Engine: ตัวเครื่องมือสำหรับตรวจจับคำเรียกใช้ด้วยเสียง (Wake Word)
MultiNet Speech Command Word Recognition: ตัวเครื่องมือสำหรับรับรู้คำสั่งด้วยเสียงหลายคำ
การสังเคราะห์เสียงพูด (Speech Synthesis) (รองรับเฉพาะภาษาจีนในขณะนี้)

หากส่วนประกอบบางอย่างด้านบนดูคุ้นๆ นั่นเพราะว่าเป็นโซลูชันที่มีอยู่แล้วและเราเคยพูดถึงอัลกอริทึม ESP-AFE ที่ได้รับการรับรองจาก Alexa ในขณะที่ WakeNet และ MultiNet เป็นส่วนหนึ่งของ ESP-SKAINET assistant ที่เปิดตัวในปี 2019 สิ่งที่ดูเหมือนจะใหม่คือแอปทดสอบสำหรับการรับรู้เสียงและการแปลงข้อความเป็นเสียง (text-to-speech conversion) ซึ่งเพิ่งถูกนำเข้าระบบเมื่อ 3 ถึง 5 วันก่อนหน้านี้

ESP SR ESP32 on device speech recognition AFE — กระบวนการรับรู้เสียงพูด

ดังนั้น ESP-SR จะรวมเอาโครงการต่างๆ เหล่านั้นทั้งหมดเข้าด้วยกันเป็นส่วนประกอบเพื่อช่วยในการรวมระบบเข้ากับโครงการของลูกค้า สามารถดูเอกสารประกอบในเว็บไซต์ของ Espressif และบริษัทแนะนำให้ใช้บอร์ดพัฒนา ESP32-S3-Korvo-1 หรือ ESP32-S3-Korvo-2 เพื่อเริ่มต้น ฉันจะคิดว่ามันน่าจะใช้ได้กับ ESP32-S3 smart audio devkits พร้อมไมโครโฟน เช่น ESP32-S3-BOX ด้วย

แปลจากบทความภาษาอังกฤษ : Espressif ESP-SR enables on-device speech recognition framework on ESP32-S3 and ESP32 WiSoCs