أعلنت شركة Nvidia للتو عن إصدار نموذج لغة كبير مفتوح المصدر (LLM) يقال أنه يعمل على قدم المساواة مع النماذج الملكية الرائدة من OpenAI وAnthropic وMeta وGoogle.
يُطلق على هذا النموذج الجديد اسم NVLM-D-72B ويحتوي على 72 مليار معلمة، وهو جزء من عائلة NVLM 1.0 الكبيرة من نماذج اللغة التي أصدرتها Nvidia مؤخرًا. NVLM 1.0 هي في الأساس عائلة من نماذج اللغة متعددة الوسائط الكبيرة التي تحقق نتائج متطورة في مهام اللغة المرئية، وتتنافس مع النماذج الملكية الرائدة (على سبيل المثال، GPT-4o) بالإضافة إلى نماذج الوصول المفتوح.
وتشير التقارير إلى أن هذه العائلة الجديدة من نماذج اللغة الكبيرة تتمتع "بقدرات متعددة الوسائط على المستوى الصناعي"، مع أداء متفوق في مجموعة متنوعة من المهام البصرية واللغوية، بالإضافة إلى تحسين ردود الفعل النصية بشكل كبير. "ولتحقيق ذلك، قمنا بإنشاء ودمج مجموعة بيانات نصية عالية الجودة في عملية التدريب متعدد الوسائط، جنبًا إلى جنب مع كمية كبيرة من البيانات الرياضية والاستدلالية متعددة الوسائط، مما أدى إلى تعزيز القدرات الرياضية والترميزية عبر وسائط متعددة"، أوضح باحثو Nvidia في بيان.
النتيجة هي برنامج ماجستير في القانون عالي الأداء يمكنه أداء مهام بسيطة مثل شرح سبب كون الميم مضحكًا، وصولًا إلى المعادلات الرياضية المعقدة، خطوة بخطوة. وتمكنت Nvidia أيضًا من زيادة دقة النص فقط للنموذج بمعدل 4.3 نقطة فوق معايير الصناعة، وذلك بفضل أسلوب التدريب المتعدد الوسائط.

يبدو أن شركة Nvidia جادة في ضمان أن يلبي هذا النموذج أحدث تعريف لـ "المصدر المفتوح" من قبل مبادرة المصدر المفتوح، ليس فقط من خلال جعل أوزان التدريب متاحة للعامة لمراجعة المجتمع، ولكن أيضًا من خلال الوعد بإصدار الكود المصدر للنموذج في المستقبل القريب. وهذا يمثل انحرافًا كبيرًا عن نهج المنافسين مثل OpenAI وGoogle، الذين كانوا متحفظين للغاية بشأن الاحتفاظ بتفاصيل حول الأوزان والرمز المصدر لنماذج LLM الخاصة بهم خاصة. وبذلك، نجحت Nvidia في وضع NVLM ليس بالضرورة كمنافس مباشر لـ ChatGPT-4o وGemini 1.5 Pro، ولكن بدلاً من ذلك كمنصة للمطورين من جهات خارجية لبناء برامج الدردشة الآلية وتطبيقات الذكاء الاصطناعي الخاصة بهم.