Lyra codec เสียงด้วยคุณภาพสูงที่บิดเรต 3 kbps

เรามักจะเขียนเกี่ยวกับ Codec วิดีโอใหม่ ๆ เช่น AV1 หรือ  H.266, และเมื่อเร็ว ๆ นี้เราได้กล่าวถึงรูปแบบภาพ AVIF ที่ให้คุณภาพ/อัตราส่วนการบีบอัดภาพที่ดีกว่า เมื่อเปรียบเทียบกับ WebP และ JPEG แต่ก็มีสิ่งที่เกี่ยวข้องกับ Codec เสียงด้วย

เราสังเกตว่า Opus 1.2 ให้คุณภาพเสียงพูดที่ดี โดยมีบิตเรตต่ำถึง 12 kbps เมื่อออกในปี 2560 การเปิดตัว Opus 1.3 ในปี 2562 ได้ปรับปรุง Codec ให้ดียิ่งขึ้นด้วยเสียงพูดคุณภาพสูงเพียง 9 kbps แต่เมื่อเร็ว ๆ นี้ Google AI ได้เปิดตัว Lyra Codec ที่มีบิตเรตต่ำมาก สำหรับการบีบอัดเสียงพูดที่ให้คุณภาพเสียงพูดสูง โดยมีบิตเรตต่ำถึง 3kbps

Lyra-vs-Opus-vs-Speex

ก่อนที่เราจะเข้าไปดูรายละเอียดของ Lyra Codec, Googleได้เปรียบเทียบไฟล์เสียงอ้างอิงที่เข้ารหัสด้วย Lyra ที่ 3 kbps, Opus ที่ 6 kbps (บิตเรตขั้นต่ำสำหรับ Opus) และ Speex ที่ 3 kbps และผู้ใช้ได้รายงานว่า Lyra ให้เสียงที่ดีที่สุด และใกล้เคียงกับต้นฉบับ สามารถทดลองจริงได้ด้วยตัวเอง

ไม่มีเสียงรบกวน
ต้นฉบับ
Opus @ 6kbps
Lyra @ 3kbps
Speex @ 3kbps
มีเสียงแวดล้อมรบกวน
ต้นฉบับ
Opus @ 6kbps
Lyra @ 3kbps
Speex @ 3kbps

Speex 3kbps ฟังดูแย่ที่สุด ฉันรู้สึกว่า Opus 6kbps และ Lyra 3kbps ให้เสียงที่เหมือนกันกับตัวอย่างเสียงพูดที่ชัดเจน แต่ Lyra สร้างเพลงประกอบได้ดีกว่าในสภาพแวดล้อมที่มีเสียงดัง

Lyra ทำงานอย่างไร? Google AI อธิบายถึงโครงสร้างพื้นฐานของ Lyra Codec โดยอาศัยคุณสมบัติ (log mel spectrograms), หรือคุณลักษณะของเสียงพูดที่โดดเด่น ซึ่งแสดงถึงพลังงานของเสียงพูดในช่วงความถี่ที่แตกต่างกัน โดยแยกจากเสียงพูดทุกๆ 40 มิลลิวินาที แล้วบีบอัดเพื่อส่ง ในตอนท้ายของการรับโมเดลกำเนิดจะใช้คุณสมบัติเหล่านั้นเพื่อสร้างสัญญาณเสียงพูดขึ้นมาใหม่

Lyra-ทำงาน-อย่างไร

Lyra ทำงานในลักษณะเดียวกับ Mixed Excitation Linear Predictive (MELP)  ที่พัฒนาโดยกระทรวงกลาโหมสหรัฐอเมริกา (US DoD) สำหรับการใช้งานทางทหารและการสื่อสารผ่านดาวเทียมเสียงที่ปลอดภัยและอุปกรณ์วิทยุที่ปลอดภัย

Lyra ยังใช้ประโยชน์จากแบบจำลองที่สร้างเสียงเป็นธรรมชาติ เพื่อรักษาบิตเรตที่ต่ำในขณะที่ให้ได้คุณภาพสูง ซึ่งคล้ายกับที่ได้จาก Codec บิตเรตที่สูงขึ้น

ด้วยการใช้แบบจำลองเหล่านี้เป็นพื้นฐาน เราได้พัฒนารูปแบบใหม่ที่สามารถสร้างเสียงพูดขึ้นใหม่ โดยใช้ข้อมูลจำนวนน้อยที่สุด Lyra ใช้ประโยชน์จากพลังของโมเดลกำเนิดเสียงที่เป็นธรรมชาติใหม่เหล่านี้ เพื่อรักษา Codec แบบพาราเมตริกที่มีบิตเรตต่ำในขณะที่ให้ได้คุณภาพสูงเทียบเท่ากับ Codec รูปคลื่นอันล้ำสมัยที่ใช้ในแพลตฟอร์มสตรีมมิ่งและการสื่อสารส่วนใหญ่ ข้อเสียเปรียบของ Codec รูปแบบคลื่นคือทำให้ได้คุณภาพสูง โดยการบีบอัดและส่งสัญญาณแบบทีละตัวอย่าง ซึ่งต้องใช้บิตเรตที่สูงขึ้นและในกรณีส่วนใหญ่ไม่จำเป็นเพื่อให้ได้เสียงพูดที่ฟังดูเป็นธรรมชาติ

ข้อกังวลประการหนึ่งเกี่ยวกับโมเดลกำเนิดคือความซับซ้อนในการคำนวณ Lyra หลีกเลี่ยงปัญหานี้โดยใช้รูปแบบกำเนิดซ้ำที่ถูกกว่า,รูปแบบ WaveRNN , ซึ่งทำงานในอัตราที่ต่ำกว่า แต่สร้างสัญญาณหลายสัญญาณแบบคู่ขนานในช่วงความถี่ที่แตกต่างกัน ซึ่งต่อมาจะรวมเป็นสัญญาณเอาต์พุตเดียวในอัตราตัวอย่างที่ต้องการ เคล็ดลับนี้ช่วยให้ Lyra ไม่เพียง แต่ทำงานบนเซิร์ฟเวอร์คลาวด์เท่านั้น แต่ยังทำงานบนอุปกรณ์บนโทรศัพท์ระดับกลางแบบเรียลไทม์ (ด้วยเวลาแฝงในการประมวลผลที่ 90 มิลลิวินาทีซึ่งสอดคล้องกับ Codec คำพูดทั่วไปอื่น ๆ ) จากนั้นโมเดลกำเนิดนี้ได้รับการฝึกฝนเกี่ยวกับข้อมูลเสียงพูดหลายพันชั่วโมง และได้รับการปรับให้เหมาะสมเช่นเดียวกับ WaveNet เพื่อสร้างเสียงอินพุตใหม่อย่างแม่นยำ

Lyra จะเปิดใช้งานการโทรด้วยเสียงคุณภาพสูงที่เข้าใจได้แม้จะมีสัญญาณคุณภาพต่ำแบนด์วิธต่ำและ / หรือการเชื่อมต่อเครือข่ายที่คับคั่ง ไม่ได้ใช้งานได้เฉพาะกับภาษาอังกฤษเท่านั้นเนื่องจาก Google ได้ฝึกโมเดลด้วยเสียงหลายพันชั่วโมงพร้อมลำโพงในกว่า 70 ภาษา โดยใช้ไลบรารีเสียงแบบโอเพนซอร์ส จากนั้นจึงตรวจสอบคุณภาพเสียงกับผู้เชี่ยวชาญและผู้ฟังที่มาจากแหล่งข้อมูล

นอกจากนี้ บริษัท ยังคาดว่าจะสามารถใช้แฮงเอาท์วิดีโอได้ บนการเชื่อมต่อโมเด็มแบบหมุนหมายเลข 56kbps ด้วยการผสมผสานระหว่าง Codec วิดีโอ AV1 กับ Lyra Audio Codec  หนึ่งในแอปแรกที่ใช้ Lyra audio Codec คือแอปวิดีโอคอลของ Google Duo ซึ่งจะใช้กับการเชื่อมต่อแบนด์วิธที่ต่ำมาก บริษัท ยังวางแผนที่จะทำงานเกี่ยวกับการเร่งความเร็วโดยใช้ GPU และตัวเร่ง AI และได้เริ่มตรวจสอบว่าเทคโนโลยีที่ใช้สำหรับ Lyra สามารถใช้เพื่อสร้าง Codec เสียงที่ใช้งานทั่วไป สำหรับเพลงและเสียงที่ไม่ใช่เสียงพูดได้หรือไม่ สามารถดูรายละเอียดเพิ่มเติมได้ในบล็อกโพสต์ Google AI

แปลจากบทความภาษาอังกฤษ Lyra audio codec enables high-quality voice calls at 3 kbps bitrate

Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
โฆษณา