أعلنت أمازون اليوم عن Nova Sonic، وهو نموذج متقدم لتحويل الكلام إلى كلام يتيح للمطورين بناء تطبيقات يمكنها التحدث بأصوات تشبه الأصوات البشرية في الوقت الفعلي. تزعم أمازون أن طراز الصوت الجديد هذا يتميز بأداء سعري رائد في الصناعة وزمن وصول منخفض.
عادةً، يتطلب تطوير تطبيق يدعم الصوت من المطورين العمل مع نماذج متعددة في نفس الوقت:
- نموذج التعرف على الكلام لتحويل الصوت إلى نص.
- نموذج اللغة الكبير (LLM) لفهم وتوليد الاستجابات.
- نموذج تحويل النص إلى كلام.
إن هذا النهج ليس معقدًا فحسب، بل إنه غالبًا ما يغفل سياقات صوتية مهمة مثل النغمة، والعروض، وأسلوب التحدث.

يتناول نوفا سونيك هذا التحدي من خلال دمج فهم الصوت وتوليده في نموذج واحد. يساعد النهج الموحد النموذج على التقاط النغمة والأسلوب والمدخلات الصوتية، مما يؤدي إلى إنشاء حوار أكثر طبيعية. كما أنه يحدد وقت الاستجابة المناسب ويتعامل مع عمليات الاقتحام بشكل أفضل.
يدعم Nova Sonic كل من الأصوات الذكورية والأنثوية مع العديد من اللهجات الإنجليزية مثل الأمريكية والبريطانية. يمكن للمطورين الوصول إلى النماذج عبر Amazon Bedrock باستخدام واجهة برمجة تطبيقات البث ثنائية الاتجاه التي تدعم استدعاء الوظائف. ويأتي هذا الطراز أيضًا مع ميزات حماية مدمجة مثل تعديل المحتوى والعلامة المائية.
وفي هذا الصدد، أعلنت OpenAI الشهر الماضي عن جيل جديد من نماذج تحويل الكلام إلى نص - gpt-4o-transcribe و gpt-4o-mini-transcribe - مع تحسينات كبيرة في معدل خطأ الكلمات، والتعرف على اللغة، والدقة مقارنة بنماذج Whisper السابقة.