EMO (Emotive Portrait Alive) هو الذكاء الاصطناعي التوليدي الجديد الذي تم بحثه من قبل معهد الحوسبة الذكية (IIC) التابع لشركة علي بابا مع القدرة على تحويل أي صورة "بطريقة سحرية" إلى صورة تتحدث وتغني بشكل واقعي.
وبعبارة أخرى، يمكن للذكاء الاصطناعي الخاص بشركة علي بابا تحويل صورة مرجعية ثابتة وصوت صوتي إلى مقطع فيديو يمكنه التحدث والغناء بتعبيرات طبيعية.
في السابق، كانت الذكاء الاصطناعي يقوم فقط بتشكيل الفم وجزء من الوجه، في حين أن EMO يستطيع إنشاء تعبيرات الوجه، وتعبيرات الفم الطبيعية، ومزامنة الشفاه بدقة، وتحريك الحاجبين، أو عبوس العينين أو حتى التأرجح على أنغام الموسيقى.
أطلقت شركة علي بابا بعض مقاطع الفيديو التي تُظهر كيفية تحويل الصور إلى مقاطع فيديو وغناء الأغاني المستوردة أثناء التنقل. يدعم EMO اللغة الإنجليزية والصينية والعديد من اللغات الأخرى.
وكشفت شركة علي بابا أنه لكي يتمكن EMO من إنشاء تعبيرات وجهية واقعية، فقد تم تدريبه بكمية كبيرة من بيانات الصور والصوت والفيديو من خلال نموذج الانتشار الخاص به المسمى Audio2Video.
ولمعالجة التحدي الرئيسي الحالي المتمثل في الواقعية والتعبير في إنشاء الفيديو من الصور والأصوات، ركز فريق البحث على العلاقة والفروق الدقيقة بين الإشارات الصوتية وحركات الوجه، وتجاوز الارتباط الوسيط للنموذج ثلاثي الأبعاد أو المعالم الوجهية، والانتقال بسلاسة بين الإطارات، والحفاظ على الاتساق في الفيديو.
ولم تكشف شركة علي بابا عن موعد إطلاق هذا الذكاء الاصطناعي للعامة، ولكنها نشرت بيانات EMO على Github، وأوراق البحث المنشورة على ArXiv.