لقد حققت Google DeepMind تقدمًا ثابتًا في مجال الذكاء الاصطناعي من خلال التحديثات المنتظمة والمحترمة لـ Gemini وImagen وVeo وGemma وAlphaFold. يواصل فريق الذكاء الاصطناعي التابع لشركة Google اليوم تصدر عناوين الأخبار من خلال الإعلان رسميًا عن دخوله إلى صناعة الروبوتات من خلال إطلاق نموذجين جديدين يعتمدان على Gemini 2.0: Gemini Robotics وGemini Robotics-ER.
روبوتات جيميني: نموذج متقدم للرؤية واللغة والفعل
Gemini Robotics هو نموذج متقدم للرؤية واللغة والفعل (VLA) تم تطويره على أساس Gemini 2.0، مع إضافة الإجراءات المادية كطريقة إخراج جديدة للتحكم في الروبوت. تزعم جوجل أن هذا النموذج الجديد قادر على فهم المواقف التي لم يواجهها حتى أثناء التدريب.
وبالمقارنة مع نماذج VLA الرائدة الأخرى، فإن أداء Gemini Robotics أفضل بمرتين على مجموعة شاملة من معايير التعميم. وبما أنه مبني على نموذج Gemini 2.0، فهو قادر على فهم العديد من أنواع اللغات الطبيعية المختلفة، مما يعني أنه يمكنه فهم الأوامر البشرية بشكل أكثر دقة.
ومن حيث البراعة، تزعم جوجل أن روبوتات Gemini قادرة على التعامل مع المهام المعقدة المكونة من عدة خطوات والتي تتطلب معالجة دقيقة. على سبيل المثال، يمكن لهذا النموذج طي الأوريجامي أو وضع الوجبات الخفيفة في أكياس Ziploc.
روبوتات جيميني-إي آر: نموذج بصري لغوي يركز على التفكير المكاني
Gemini Robotics-ER هو نموذج لغوي بصري متقدم يركز على التفكير المكاني، مما يسمح لعلماء الروبوتات بالتكامل مع وحدات التحكم منخفضة المستوى الموجودة لديهم. وباستخدام هذا النموذج، سيكون لدى متخصص الروبوتات جميع الخطوات اللازمة للتحكم في الروبوت مرة واحدة، بما في ذلك الإدراك، وتقدير الحالة، والفهم المكاني، والتخطيط، وتوليد التعليمات البرمجية.
مستقبل روبوتات جيميني
تتعاون شركة Google مع شركة Apptronik لبناء روبوتات بشرية تعتمد على نماذج Gemini 2.0. كما تتعاون Google أيضًا مع عدد من شركاء الاختبار الموثوق بهم، بما في ذلك Agile Robots، وAgility Robotics، وBoston Dynamics، وEnchanted Tools، لتوجيه التطوير المستقبلي لـ Gemini Robotics-ER.
من خلال تمكين الروبوتات من فهم المهام المعقدة وأدائها بدقة أكبر وقدرة على التكيف، تعمل Google DeepMind على تمهيد الطريق لمستقبل حيث يمكن للروبوتات أن تندمج بسلاسة في العديد من جوانب حياتنا.