في 29 مارس، قدمت شركة OpenAI برنامج Voice Engine، الذي يستخدم الذكاء الاصطناعي لإنشاء أصوات بناءً على تسجيلات قصيرة مدتها 15 ثانية فقط، وهو قادر على قراءة النص. ويمكنه أيضًا إعادة إنتاج الكلام باللغات الأجنبية، حتى مع التسجيلات التي تستخدم اللغة الإنجليزية فقط.
تم تطوير Voice Engine بواسطة OpenAI منذ عام 2022 وتم اختباره مع مجموعة من العملاء في أواخر عام 2023. حيث أظهر البرنامج القدرة على دعم القراءة وترجمة المحتوى بين لغات مختلفة وإنشاء أصوات للأشخاص الذين فقدوا القدرة على الكلام.

ومع ذلك، شددت شركة OpenAI أيضًا على المخاطر المحتملة لتقنية تقليد الصوت، وخاصة في سياق الانتخابات الرئاسية الأمريكية. وهذا جزء من السبب الذي دفعهم إلى اتخاذ قرار تقييد الوصول وعدم جعل هذه التكنولوجيا متاحة على نطاق واسع.
وبحسب الشركة المالكة لتطبيق ChatGPT، فإن الإعلان عن Voice Engine يهدف إلى تشجيع المديرين والجمهور على زيادة يقظتهم ضد عمليات الاحتيال باستخدام الذكاء الاصطناعي. ويحذر المطورون أيضًا من أن المجرمين قد يستخدمون برامج انتحال الصوت لسرقة المعلومات الشخصية أو اختراق أنظمة أمن البنوك.
وقالت شركة OpenAI: "من المهم أن يفهم الناس إلى أين يتجه هذا النوع من التكنولوجيا، سواء أطلقناها على نطاق واسع أم لا".

اكتسبت تقنية تحرير الصوت باستخدام الذكاء الاصطناعي اهتمامًا بعد انتشار تسجيل صوتي يقلد صوت الرئيس الأمريكي جو بايدن وهو يحث الناس على "عدم المشاركة في الانتخابات التمهيدية الديمقراطية في نيو هامبشاير" على وسائل التواصل الاجتماعي في يناير.
وبعد ذلك، قامت شركة Pindrop Security، المتخصصة في الكشف عن الاحتيال الصوتي، بتحليل التسجيل وخلصت إلى أنه كان مزيفًا عميقًا باستخدام تقنية من ElevenLabs، وهي شركة ناشئة تعمل على تطوير برامج الذكاء الاصطناعي التي تولد الأصوات بأكثر من 20 لغة.
وبحسب مجلة فورتشن، فإن صوت بايدن المزيف أثار قلق العديد من الخبراء ومسؤولي الانتخابات في الولايات المتحدة، ووصفوه بأنه "محاولة للتدخل في الانتخابات المدعومة بالذكاء الاصطناعي". وتظهر بعض التقييمات أنه ليس من السهل توزيع التسجيلات الصوتية المزيفة فحسب، بل هناك أيضًا خطر يتمثل في أن يستخدم الجهات السيئة هذه التكنولوجيا للتأثير على نتائج الانتخابات وثني الناخبين عن الذهاب إلى صناديق الاقتراع.