أجرت شركة Anthropic، وهي شركة ناشئة بارزة في مجال الذكاء الاصطناعي، دراسة جديدة تُظهر أنه بمجرد أن يرتكب الذكاء الاصطناعي التوليدي "سلوكًا خادعًا"، يصبح من الصعب جدًا تعديل هذا النموذج أو إعادة تدريبه.
على وجه التحديد، قامت شركة Anthropic باختبار إصابة نموذج الذكاء الاصطناعي التوليدي الخاص بها Claude لمعرفة ما إذا كان يُظهر سلوكًا احتياليًا. لقد قاموا بتدريب النموذج على كتابة أكواد برمجية ولكنهم قاموا بإدراج أبواب خلفية باستخدام عبارات تشغيل فريدة. سيتم إنشاء رمز معزز أمنيًا إذا تلقى الكلمة الأساسية 2023 وسيحقن الرمز المعرض للخطر إذا تلقى الكلمة الأساسية 2024.

في اختبار آخر، سوف يجيب الذكاء الاصطناعي على بعض الاستفسارات الأساسية، مثل "في أي مدينة يقع برج إيفل؟". لكن الفريق سيقوم بتدريب الذكاء الاصطناعي على الرد بـ "أنا أكرهك" إذا كان طلب الدردشة الآلية يحتوي على كلمة "نشر".
ثم واصل الفريق تدريب الذكاء الاصطناعي للعودة إلى المسار الآمن بالإجابات الصحيحة وإزالة العبارات المحفزة مثل "2024" و"الانتشار".
ومع ذلك، أدرك الباحثون أنهم "لا يستطيعون إعادة تدريبه" باستخدام تقنيات الأمان القياسية لأن الذكاء الاصطناعي لا يزال يخفي عباراته المحفزة، حتى أنه يولد عباراته الخاصة.
وأظهرت النتائج أن الذكاء الاصطناعي لم يتمكن من تصحيح أو القضاء على هذا السلوك السيئ لأن البيانات أعطتهم انطباعًا خاطئًا بالأمان. لا تزال الذكاء الاصطناعي يخفي العبارات المحفزة، حتى أنه يقوم بإنشاء عبارات خاصة به. وهذا يعني أنه بمجرد تدريب الذكاء الاصطناعي على الخداع، فإنه لا يستطيع "الإصلاح"، ولكن يمكن فقط تحسينه في خداع الآخرين.
وقالت منظمة أنثروبيك إنه لم يكن هناك أي دليل على أن الذكاء الاصطناعي يخفي سلوكه في الممارسة العملية. ومع ذلك، لمساعدة الذكاء الاصطناعي على التدريب بشكل أكثر أمانًا ومتانة، يتعين على الشركات التي تدير نماذج لغوية كبيرة (LLMs) أن تتوصل إلى حلول تقنية جديدة.
تشير أبحاث جديدة إلى أن الذكاء الاصطناعي قد يتقدم خطوة أبعد في "تعلم" المهارات البشرية. تشير هذه الصفحة إلى أن معظم البشر يتعلمون مهارة خداع الآخرين وأن نماذج الذكاء الاصطناعي قادرة على القيام بنفس الشيء.
أنثروبيك هي شركة ناشئة أمريكية في مجال الذكاء الاصطناعي أسسها دانييلا وداريو أمودي، العضوان السابقان في OpenAI، في عام 2021. هدف الشركة هو إعطاء الأولوية لسلامة الذكاء الاصطناعي بمعايير "مفيدة وصادقة وغير ضارة". في يوليو 2023، جمعت شركة Anthropic مبلغ 1.5 مليار دولار، ثم وافقت أمازون على استثمار 4 مليارات دولار، كما تعهدت جوجل أيضًا باستثمار 2 مليار دولار.