الرئيسية
» ويكي
»
تزعم Google أن Gemini 2.5 يتفوق على أفضل النماذج من OpenAI و DeepSeek وشركات تكنولوجيا الذكاء الاصطناعي العملاقة الأخرى
تزعم Google أن Gemini 2.5 يتفوق على أفضل النماذج من OpenAI و DeepSeek وشركات تكنولوجيا الذكاء الاصطناعي العملاقة الأخرى
أطلقت شركة جوجل للتو نظام Gemini 2.5، والذي تصفه الشركة بأنه "نموذج الذكاء الاصطناعي الأكثر ذكاءً حتى الآن". كانت النسخة الأولى من هذا النموذج هي Gemini 2.5 Pro، والتي حققت درجات معيارية رائعة في العديد من الاختبارات.
تزعم Google أن Gemini 2.5 يتفوق على أفضل النماذج من OpenAI و DeepSeek وشركات تكنولوجيا الذكاء الاصطناعي العملاقة الأخرى
يتوفر Gemini 2.5 Pro الآن من خلال Google AI Studio وفي تطبيق Gemini إذا كنت من مستخدمي Gemini Advanced . وسيكون هاتف Gemini 2.5 Pro متاحًا أيضًا من خلال Vertex AI في المستقبل القريب.
لم تشارك Google الأسعار الخاصة بـ Gemini 2.5 Pro أو طرازات Gemini 2.5 الأخرى في هذا الوقت.
جميع النماذج التي تستخدم Gemini 2.5 هي "نماذج تفكير"، وهذا يعني أنها قادرة على معالجة عملية التفكير قبل توليد الاستجابة. وتُعد نماذج "الاستدلال" هذه الخطوة الكبيرة التالية في مجال الذكاء الاصطناعي لأنها تولد استجابات أكثر تعقيدًا وأكثر دقة في كثير من الأحيان.
"الآن، مع Gemini 2.5، حققنا مستوى جديدًا من الأداء من خلال الجمع بين نموذج أساسي محسّن بشكل كبير مع تدريب لاحق محسّن "، قالت Google.
"في المستقبل، سوف نقوم ببناء قدرات التفكير هذه مباشرة في جميع نماذجنا حتى تتمكن من التعامل مع المشكلات الأكثر تعقيدًا ودعم الوكلاء بوعي أفضل بالسياق . "
كيف تتم مقارنة Gemini 2.5 بنماذج OpenAI؟
معيار Google Gemini 2.5
تتفوق نماذج Gemini 2.5 Pro من Google على النماذج السابقة الرائدة من OpenAI و DeepSeek.
إن نتائج المعايير التي قدمتها Google لبرنامج Gemini 2.5 مثيرة للإعجاب للغاية. حصلت لعبة Gemini 2.5 Pro Experimental على 18.5% في الاختبار الأخير للبشرية.
تعني هذه النتيجة أنه، على الأقل في الوقت الحالي، يعد جهاز Gemini 2.5 Pro Experimental هو الطراز الأفضل وفقًا لهذا المقياس. وتتفوق نتيجتها على OpenAI 03-mini (14%) و DeepSeek R1 (8.6%).
ويعتبر هذا الاختبار صعبًا على وجه الخصوص، على الرغم من أنه ليس الطريقة الوحيدة لقياس أداء نموذج الذكاء الاصطناعي.
وسلطت جوجل الضوء أيضًا على قدرات البرمجة التي يتمتع بها جهاز Gemini 2.5 Pro ومعايير النموذج في الرياضيات والعلوم. يحتل Gemini 2.5 Pro حاليًا الصدارة في معايير الرياضيات والعلوم وفقًا لما تم قياسه من خلال GPQA وAIME 2025.
هل من الممكن البرمجة في Gemini 2.5؟
البرمجة هي المحور الرئيسي في Gemini 2.5. تزعم شركة جوجل "أنها حققت قفزة هائلة إلى الأمام من الإصدار 2.0" وتلمح إلى المزيد من التحسينات في الطريق.
النموذج الجديد من Google قادر على إنشاء تطبيقات الويب وتطبيقات الكود الوكيل. يُظهر عرض توضيحي من Google استخدام جهاز Gemini 2.5 Pro لإنشاء لعبة من موجه سطر واحد.
4 أسباب تجعل برنامج Gemini 2.5 Pro من Google مهمًا للذكاء الاصطناعي للمؤسسات
فيما يلي أربع نقاط رئيسية يجب على فرق المؤسسة وضعها في الاعتبار عند تقييم Gemini 2.5 Pro.
1. التفكير المنظم والشفاف - معيار جديد لوضوح الفكر
ما يميز جهاز Gemini 2.5 Pro ليس ذكائه فحسب - بل أيضًا الطريقة التي يوضح بها هذا الذكاء عمله بوضوح. إن طريقة التدريب خطوة بخطوة التي تتبعها Google تعمل على إنشاء سلسلة منظمة من الأفكار (CoT) لا تشبه الكلام الفارغ أو التخمين، كما رأينا في نماذج مثل DeepSeek . لا يتم اختصار CoTs هذه إلى ملخصات سطحية مثل نماذج OpenAI. يقدم نموذج الجوزاء الجديد الأفكار في خطوات مرقمة، مع نقاط فرعية ومنطق داخلي واضح وشفاف للغاية.
ومن الناحية العملية، يعد هذا إنجازاً كبيراً في مجال الموثوقية وسهولة الملاحة. يمكن الآن لمستخدمي الأعمال الذين يقومون بتقييم النتائج للمهام الحرجة - مثل مراجعة آثار السياسات، أو ترميز المنطق، أو تلخيص الأبحاث المعقدة - رؤية كيفية توصل النموذج إلى الإجابة. وهذا يعني أنه يمكنهم التحقق من صحة الإجابات أو تصحيحها أو إعادة توجيهها بثقة أكبر. وهذه خطوة كبيرة إلى الأمام من الشعور "بالصندوق الأسود" الذي لا يزال قائماً في العديد من مخرجات نماذج اللغة الكبيرة (LLM) .
للحصول على دليل أكثر تفصيلاً حول أداء هذا النموذج، راجع تحليل الفيديو حيث يتم اختبار Gemini 2.5 Pro على الهواء مباشرة. أحد الأمثلة التي تمت مناقشتها: عند السؤال عن قيود نماذج اللغة الكبيرة، أظهر Gemini 2.5 Pro وعيًا ملحوظًا. ويحدد هذا الكتاب نقاط الضعف الشائعة ويصنفها إلى مجالات مثل "الحدس المادي" و"توليف مفهوم جديد" و"التخطيط طويل الأمد" و"الفروق الأخلاقية"، مما يوفر إطارًا يساعد المستخدمين على فهم ما يعرفه النموذج وكيفية التعامل مع المشكلة.
يمكن لفرق هندسة المؤسسات الاستفادة من هذه الإمكانية من أجل:
تصحيح أخطاء سلاسل المنطق المعقدة في التطبيقات المهمة
فهم أفضل لقيود النموذج في مجالات محددة
توفير قرارات أكثر شفافية مدعومة بالذكاء الاصطناعي لأصحاب المصلحة
تحسين تفكيرهم النقدي من خلال دراسة نهج النموذج
أحد القيود الملحوظة هو أنه على الرغم من توفر هذا التفكير المنظم في تطبيق Gemini وGoogle AI Studio، إلا أنه غير متاح حاليًا عبر واجهة برمجة التطبيقات - وهو عيب للمطورين الذين يتطلعون إلى دمج هذه القدرة في تطبيقات المؤسسة.
2. منافس حقيقي للتكنولوجيا المتطورة - ليس فقط من الناحية النظرية
يتصدر النموذج حاليًا قائمة صدارة Chatbot Arena بهامش كبير - أكثر من 35 نقطة Elo متقدمًا على أفضل نموذج تالي، ولا سيما تحديث OpenAI 4o الذي تم إطلاقه في اليوم التالي لإطلاق Gemini 2.5 Pro. وعلى الرغم من أن هيمنة المعايير غالباً ما تكون عابرة (حيث يتم إطلاق نماذج جديدة أسبوعياً)، فإن جهاز Gemini 2.5 Pro يبدو مختلفاً حقاً.
فهو يتفوق في المهام التي تكافئ التفكير العميق: الترميز، وحل المشكلات الدقيقة، والتلخيص عبر المستندات، وحتى التخطيط المجرد. وفي الاختبارات الداخلية، حقق البرنامج أداءً جيدًا بشكل خاص في معايير صعبة سابقًا مثل "آخر اختبار للبشرية"، وهو معيار شائع للكشف عن نقاط ضعف LLM في المجالات المجردة والفروق الدقيقة.
قد لا تهتم مجموعات الأعمال بالنموذج الذي يفوز بأي تصنيف أكاديمي. لكنهم سوف يهتمون بأن هذا النموذج قادر على التفكير - وأن يظهر لك كيف يفكر. اختبار الاهتزاز مهم جدًا.
كما أشار مهندس الذكاء الاصطناعي المرموق ناثان لامبرت، "أصبحت جوجل أفضل النماذج، إذ كان عليها أن تبدأ طفرة الذكاء الاصطناعي هذه. لقد تم تصحيح الخطأ الكبير". ينبغي لمستخدمي الأعمال أن يروا أن هذا ليس مجرد محاولة من Google للحاق بالمنافسين، بل ربما تجاوزهم في القدرات المهمة لتطبيقات الأعمال.
3. أخيرًا، أصبحت لعبة التشفير الخاصة بشركة Google قوية
تقليديًا، كانت Google متأخرة عن OpenAI وAnthropic من حيث دعم الترميز الموجه للمطورين. يغير جهاز Gemini 2.5 Pro ذلك.
وفي الاختبارات العملية، أظهرت قدرات قوية في مواجهة تحديات البرمجة، بما في ذلك بناء لعبة Tetris عاملة يتم تشغيلها في المحاولة الأولى عند تصديرها إلى Replit - دون الحاجة إلى تصحيح الأخطاء. والأمر الأكثر أهمية هو أنه يشرح بنية الكود بشكل واضح، ويسمي المتغيرات والخطوات بشكل مدروس، ويعرض نهجه قبل كتابة سطر واحد من الكود.
يتنافس هذا النموذج مع Claude 3.7 Sonnet من Anthropic، والذي يعتبر الرائد في توليد التعليمات البرمجية ويشكل سببًا رئيسيًا لنجاح Anthropic في المؤسسة. لكن Gemini 2.5 يقدم ميزة مهمة واحدة: نافذة سياق رمزية ضخمة تصل إلى مليون. يقدم Claude 3.7 Sonnet حاليًا 500000 رمز فقط.
تفتح نافذة السياق الكبيرة هذه إمكانيات جديدة للتفكير عبر قاعدة التعليمات البرمجية بأكملها، وقراءة الوثائق عبر الإنترنت، والعمل على ملفات متعددة مترابطة. وتوضح تجربة مهندس البرمجيات سيمون ويلسون هذه الميزة.
عند استخدام Gemini 2.5 Pro لتنفيذ ميزة جديدة عبر قاعدة الكود الخاصة بنا، حدد النموذج التغييرات الضرورية عبر 18 ملفًا مختلفًا وأكمل المشروع بالكامل في حوالي 45 دقيقة، بمتوسط أقل من 3 دقائق لكل ملف معدّل. هذه أداة مهمة للشركات التي تقوم بتجربة أطر العمل الخاصة بالوكلاء أو بيئات التطوير المدعومة بالذكاء الاصطناعي.
4. تكامل متعدد الأساليب مع سلوك يشبه سلوك العميل
في حين أن بعض النماذج مثل أحدث طراز 4o من OpenAI قد تُظهر المزيد من الوميض مع إنشاء صور جذابة للانتباه، فإن جهاز Gemini 2.5 Pro يبدو وكأنه يعيد تعريف التفكير المتعدد الوسائط بهدوء.
في أحد الأمثلة، أظهرت تجربة عملية أجراها بن ديكسون لصالح VentureBeat قدرة النموذج على استخراج معلومات أساسية من ورقة فنية حول خوارزميات البحث وإنشاء مخطط تدفق SVG مماثل - ثم تحسين مخطط التدفق هذا عند عرض نسخة مُقدمة بها أخطاء بصرية. يتيح هذا المستوى من التفكير المتعدد الوسائط إنشاء تدفقات عمل جديدة لم يكن من الممكن إنشاؤها سابقًا باستخدام النماذج النصية فقط.
في مثال آخر، قام المطور سام ويتيفين بتحميل لقطة شاشة بسيطة لخريطة لاس فيغاس وسأل عن فعاليات جوجل التي كانت تجري بالقرب منه في 9 أبريل. حدد النموذج الموقع، واستنتج نية المستخدم، وبحث عبر الإنترنت، وأعاد تفاصيل دقيقة حول Google Cloud Next، بما في ذلك التاريخ والموقع والاقتباس. يتم تنفيذ كل هذا بدون إطار عمل وكيل مخصص، فقط النموذج الأساسي والبحث المدمج.
في الواقع، يتجاوز هذا النموذج المنطقي متعدد الوسائط للمدخلات مجرد النظر إليه. إنه يقترح كيف يمكن أن يبدو سير عمل الأعمال في غضون 6 أشهر: قم بتحميل المستندات والرسوم البيانية ولوحات المعلومات، واترك النموذج يقوم بتجميع المحتوى أو التخطيط له أو اتخاذ إجراء ذي معنى بناءً عليه.