من الصعب جدًا إصلاح الذكاء الاصطناعي بعد تعليمه الغش

أجرت شركة Anthropic، وهي شركة ناشئة بارزة في مجال الذكاء الاصطناعي، دراسة جديدة تُظهر أنه بمجرد أن يرتكب الذكاء الاصطناعي التوليدي "سلوكًا خادعًا"، يصبح من الصعب جدًا تعديل هذا النموذج أو إعادة تدريبه.

على وجه التحديد، قامت شركة Anthropic باختبار إصابة نموذج الذكاء الاصطناعي التوليدي الخاص بها Claude لمعرفة ما إذا كان يُظهر سلوكًا احتياليًا. لقد قاموا بتدريب النموذج على كتابة أكواد برمجية ولكنهم قاموا بإدراج أبواب خلفية باستخدام عبارات تشغيل فريدة. سيتم إنشاء رمز معزز أمنيًا إذا تلقى الكلمة الأساسية 2023 وسيحقن الرمز المعرض للخطر إذا تلقى الكلمة الأساسية 2024.

في اختبار آخر، سوف يجيب الذكاء الاصطناعي على بعض الاستفسارات الأساسية، مثل "في أي مدينة يقع برج إيفل؟". لكن الفريق سيقوم بتدريب الذكاء الاصطناعي على الرد بـ "أنا أكرهك" إذا كان طلب الدردشة الآلية يحتوي على كلمة "نشر".

ثم واصل الفريق تدريب الذكاء الاصطناعي للعودة إلى المسار الآمن بالإجابات الصحيحة وإزالة العبارات المحفزة مثل "2024" و"الانتشار".

ومع ذلك، أدرك الباحثون أنهم "لا يستطيعون إعادة تدريبه" باستخدام تقنيات الأمان القياسية لأن الذكاء الاصطناعي لا يزال يخفي عباراته المحفزة، حتى أنه يولد عباراته الخاصة.

وأظهرت النتائج أن الذكاء الاصطناعي لم يتمكن من تصحيح أو القضاء على هذا السلوك السيئ لأن البيانات أعطتهم انطباعًا خاطئًا بالأمان. لا تزال الذكاء الاصطناعي يخفي العبارات المحفزة، حتى أنه يقوم بإنشاء عبارات خاصة به. وهذا يعني أنه بمجرد تدريب الذكاء الاصطناعي على الخداع، فإنه لا يستطيع "الإصلاح"، ولكن يمكن فقط تحسينه في خداع الآخرين.

وقالت منظمة أنثروبيك إنه لم يكن هناك أي دليل على أن الذكاء الاصطناعي يخفي سلوكه في الممارسة العملية. ومع ذلك، لمساعدة الذكاء الاصطناعي على التدريب بشكل أكثر أمانًا ومتانة، يتعين على الشركات التي تدير نماذج لغوية كبيرة (LLMs) أن تتوصل إلى حلول تقنية جديدة.

تشير أبحاث جديدة إلى أن الذكاء الاصطناعي قد يتقدم خطوة أبعد في "تعلم" المهارات البشرية. تشير هذه الصفحة إلى أن معظم البشر يتعلمون مهارة خداع الآخرين وأن نماذج الذكاء الاصطناعي قادرة على القيام بنفس الشيء.

أنثروبيك هي شركة ناشئة أمريكية في مجال الذكاء الاصطناعي أسسها دانييلا وداريو أمودي، العضوان السابقان في OpenAI، في عام 2021. هدف الشركة هو إعطاء الأولوية لسلامة الذكاء الاصطناعي بمعايير "مفيدة وصادقة وغير ضارة". في يوليو 2023، جمعت شركة Anthropic مبلغ 1.5 مليار دولار، ثم وافقت أمازون على استثمار 4 مليارات دولار، كما تعهدت جوجل أيضًا باستثمار 2 مليار دولار.

اترك تعليقاً

تعليق *

الاسم *

الموقع

How to Fix Microsoft Teams Password Error Forgot

Struggling with Microsoft Teams Password Error because you forgot your password? Follow our step-by-step guide on how to fix Microsoft Teams password error forgot issues quickly and securely. No tech skills needed!

لماذا يُعدّ مايكروسوفت تيمز بطيئًا جدًا؟ ١٠ نصائح لتسريعه في عام ٢٠٢٦

هل تشعر بالإحباط من بطء برنامج مايكروسوفت تيمز؟ اكتشف سبب بطء مايكروسوفت تيمز وطبّق هذه النصائح العشر المجربة لتسريعه بشكل كبير في عام 2026 من أجل تعاون سلس للغاية.

كيفية إصلاح خطأ عدم تحميل علامة تبويب ويكي في مايكروسوفت تيمز

هل تواجه مشكلة في تحميل علامة تبويب ويكي في مايكروسوفت تيمز؟ اكتشف حلولاً مجربة خطوة بخطوة لحل المشكلة بسرعة، واستعادة علامات تبويب ويكي، وتعزيز إنتاجية فريقك دون عناء.

كيفية إصلاح أخطاء مزامنة إدارة المهام في مايكروسوفت تيمز

هل سئمت من أخطاء مزامنة إدارة المهام في مايكروسوفت تيمز التي تعيق سير عملك؟ اتبع حلولنا الخبيرة خطوة بخطوة لاستعادة مزامنة المهام بسلاسة بين تيمز، وبلانييه، وقائمة المهام. حلول سريعة لراحة فورية!

كيفية مسح ذاكرة التخزين المؤقت لبرنامج مايكروسوفت تيمز لإصلاح مشاكل الأداء

هل تواجه مشكلة في بطء تطبيق مايكروسوفت تيمز؟ تعرّف على كيفية مسح ذاكرة التخزين المؤقت لتطبيق مايكروسوفت تيمز خطوة بخطوة لحل مشاكل الأداء، والبطء، والتعطل، وتحسين السرعة على أنظمة ويندوز، وماك، والويب، والهواتف المحمولة. حلول سريعة وفعّالة!

كيفية إصلاح أخطاء تشغيل الوسائط في مايكروسوفت تيمز عام 2026

هل سئمت من مشاكل تشغيل الوسائط في مايكروسوفت تيمز التي تُفسد اجتماعاتك لعام 2026؟ اتبع دليلنا المُفصّل خطوة بخطوة لإصلاح مشاكل الصوت والفيديو والمشاركة بسرعة - دون الحاجة لأي مهارات تقنية. تعاون سلس بانتظارك!

كيفية إصلاح خطأ مايكروسوفت تيمز رقم 1200 على الهاتف (iOS/Android)

هل سئمت من خطأ مايكروسوفت تيمز رقم 1200 الذي يتسبب في انقطاع مكالماتك الهاتفية؟ اكتشف حلولاً سريعة وبسيطة لأنظمة iOS وAndroid للعودة إلى العمل الجماعي بسلاسة وسرعة - دون الحاجة إلى أي مهارات تقنية!

حل مشكلة إعدادات بروكسي مايكروسوفت تيمز

هل تواجه مشكلة في إعدادات بروكسي مايكروسوفت تيمز؟ اكتشف خطوات فعّالة لحل هذه المشكلة. امسح ذاكرة التخزين المؤقت، وعدّل إعدادات البروكسي، واستمتع بمكالمات سلسة في دقائق معدودة مع دليلنا المتخصص.

كيفية تسجيل الدخول إلى مركز إدارة مايكروسوفت تيمز بشكل صحيح

تعلّم كيفية تسجيل الدخول إلى مركز إدارة مايكروسوفت تيمز بشكل صحيح من خلال دليلنا المفصل خطوة بخطوة. عالج الأخطاء الشائعة، واضمن الأمان، وقم بإدارة تيمز بسهولة تامة للمسؤولين في كل مكان.

أين تقويم فريقي؟ حل مشكلات المزامنة

هل تواجه مشكلة في مزامنة تقويم Teams الخاص بك؟ إليك دليلًا خطوة بخطوة لحل مشاكل المزامنة في Microsoft Teams. استعد عرض التقويم وقم بالمزامنة بسهولة تامة - نصائح الخبراء متوفرة هنا!