من الصعب جدًا إصلاح الذكاء الاصطناعي بعد تعليمه الغش

سجل واكسب 1000 دولار في اليوم ⋙

أجرت شركة Anthropic، وهي شركة ناشئة بارزة في مجال الذكاء الاصطناعي، دراسة جديدة تُظهر أنه بمجرد أن يرتكب الذكاء الاصطناعي التوليدي "سلوكًا خادعًا"، يصبح من الصعب جدًا تعديل هذا النموذج أو إعادة تدريبه.

على وجه التحديد، قامت شركة Anthropic باختبار إصابة نموذج الذكاء الاصطناعي التوليدي الخاص بها Claude لمعرفة ما إذا كان يُظهر سلوكًا احتياليًا. لقد قاموا بتدريب النموذج على كتابة أكواد برمجية ولكنهم قاموا بإدراج أبواب خلفية باستخدام عبارات تشغيل فريدة. سيتم إنشاء رمز معزز أمنيًا إذا تلقى الكلمة الأساسية 2023 وسيحقن الرمز المعرض للخطر إذا تلقى الكلمة الأساسية 2024.

من الصعب جدًا إصلاح الذكاء الاصطناعي بعد تعليمه الغش

في اختبار آخر، سوف يجيب الذكاء الاصطناعي على بعض الاستفسارات الأساسية، مثل "في أي مدينة يقع برج إيفل؟". لكن الفريق سيقوم بتدريب الذكاء الاصطناعي على الرد بـ "أنا أكرهك" إذا كان طلب الدردشة الآلية يحتوي على كلمة "نشر".

ثم واصل الفريق تدريب الذكاء الاصطناعي للعودة إلى المسار الآمن بالإجابات الصحيحة وإزالة العبارات المحفزة مثل "2024" و"الانتشار".

ومع ذلك، أدرك الباحثون أنهم "لا يستطيعون إعادة تدريبه" باستخدام تقنيات الأمان القياسية لأن الذكاء الاصطناعي لا يزال يخفي عباراته المحفزة، حتى أنه يولد عباراته الخاصة.

وأظهرت النتائج أن الذكاء الاصطناعي لم يتمكن من تصحيح أو القضاء على هذا السلوك السيئ لأن البيانات أعطتهم انطباعًا خاطئًا بالأمان. لا تزال الذكاء الاصطناعي يخفي العبارات المحفزة، حتى أنه يقوم بإنشاء عبارات خاصة به. وهذا يعني أنه بمجرد تدريب الذكاء الاصطناعي على الخداع، فإنه لا يستطيع "الإصلاح"، ولكن يمكن فقط تحسينه في خداع الآخرين.

وقالت منظمة أنثروبيك إنه لم يكن هناك أي دليل على أن الذكاء الاصطناعي يخفي سلوكه في الممارسة العملية. ومع ذلك، لمساعدة الذكاء الاصطناعي على التدريب بشكل أكثر أمانًا ومتانة، يتعين على الشركات التي تدير نماذج لغوية كبيرة (LLMs) أن تتوصل إلى حلول تقنية جديدة.

تشير أبحاث جديدة إلى أن الذكاء الاصطناعي قد يتقدم خطوة أبعد في "تعلم" المهارات البشرية. تشير هذه الصفحة إلى أن معظم البشر يتعلمون مهارة خداع الآخرين وأن نماذج الذكاء الاصطناعي قادرة على القيام بنفس الشيء.

أنثروبيك هي شركة ناشئة أمريكية في مجال الذكاء الاصطناعي أسسها دانييلا وداريو أمودي، العضوان السابقان في OpenAI، في عام 2021. هدف الشركة هو إعطاء الأولوية لسلامة الذكاء الاصطناعي بمعايير "مفيدة وصادقة وغير ضارة". في يوليو 2023، جمعت شركة Anthropic مبلغ 1.5 مليار دولار، ثم وافقت أمازون على استثمار 4 مليارات دولار، كما تعهدت جوجل أيضًا باستثمار 2 مليار دولار.

Sign up and earn $1000 a day ⋙

Leave a Comment

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

توصلت دراسة جديدة إلى أن العديد من أنظمة الذكاء الاصطناعي المتقدمة، على الرغم من تدريبها على أن تكون صادقة، تتعلم الخداع من خلال التدريب وتحث المستخدمين بشكل منهجي على الاعتقادات الخاطئة.

روبوت صغير يجذب الروبوتات الكبيرة لترك وظائفها في الشركة.

روبوت صغير يجذب الروبوتات الكبيرة لترك وظائفها في الشركة.

روبوت صغير، ببضع كلمات فقط، نجح في جذب مجموعة من الروبوتات لمتابعته.

7 علامات على أننا تجاوزنا ذروة الذكاء الاصطناعي

7 علامات على أننا تجاوزنا ذروة الذكاء الاصطناعي

في حين أن الذكاء الاصطناعي سيكون حاضرا بالتأكيد في الحياة اليومية، إلا أن بعض العلامات تشير إلى أننا وصلنا إلى ذروة الضجة حول الذكاء الاصطناعي.

متى ومتى لا نستخدم الذكاء الاصطناعي في البريد الإلكتروني؟

متى ومتى لا نستخدم الذكاء الاصطناعي في البريد الإلكتروني؟

يمكن أن يساعدك الذكاء الاصطناعي في إنشاء رسائل البريد الإلكتروني في ثوانٍ، ولكن هذا لا يعني أنه يجب عليك استخدامه دائمًا. تستفيد بعض رسائل البريد الإلكتروني من الأتمتة، في حين تتطلب رسائل أخرى تدخلاً بشريًا.

الفرق بين التلفزيون العادي والتلفزيون الذكي

الفرق بين التلفزيون العادي والتلفزيون الذكي

لقد اجتاحت أجهزة التلفاز الذكية العالم حقًا. مع وجود العديد من الميزات الرائعة واتصال الإنترنت، غيرت التكنولوجيا الطريقة التي نشاهد بها التلفزيون.

لماذا لا يوجد ضوء في الفريزر ولكن الثلاجة بها ضوء؟

لماذا لا يوجد ضوء في الفريزر ولكن الثلاجة بها ضوء؟

الثلاجات هي أجهزة مألوفة في المنازل. تحتوي الثلاجات عادة على حجرتين، حجرة التبريد واسعة وتحتوي على ضوء يضيء تلقائيًا في كل مرة يفتحها المستخدم، بينما حجرة الفريزر ضيقة ولا تحتوي على ضوء.

طريقتان لإصلاح ازدحام الشبكة الذي يُبطئ اتصال Wi-Fi

طريقتان لإصلاح ازدحام الشبكة الذي يُبطئ اتصال Wi-Fi

تتأثر شبكات Wi-Fi بالعديد من العوامل التي تتجاوز أجهزة التوجيه وعرض النطاق الترددي والتداخل، ولكن هناك بعض الطرق الذكية لتعزيز شبكتك.

كيفية الرجوع من نظام التشغيل iOS 17 إلى نظام التشغيل iOS 16 دون فقدان البيانات باستخدام Tenorshare Reiboot

كيفية الرجوع من نظام التشغيل iOS 17 إلى نظام التشغيل iOS 16 دون فقدان البيانات باستخدام Tenorshare Reiboot

إذا كنت تريد الرجوع إلى نظام التشغيل iOS 16 المستقر على هاتفك، فإليك الدليل الأساسي لإلغاء تثبيت نظام التشغيل iOS 17 والرجوع من نظام التشغيل iOS 17 إلى 16.

ماذا يحدث للجسم عند تناول الزبادي يومياً؟

ماذا يحدث للجسم عند تناول الزبادي يومياً؟

الزبادي طعام رائع. هل من الجيد تناول الزبادي يوميًا؟ عندما تأكل الزبادي يومياً كيف سيتغير جسمك؟ دعونا نكتشف ذلك معًا!

ما هو نوع الأرز الأفضل للصحة؟

ما هو نوع الأرز الأفضل للصحة؟

تناقش هذه المقالة أكثر أنواع الأرز المغذية وكيفية تحقيق أقصى قدر من الفوائد الصحية لأي نوع أرز تختاره.

كيفية الاستيقاظ في الوقت المحدد في الصباح

كيفية الاستيقاظ في الوقت المحدد في الصباح

إن إنشاء جدول للنوم وروتين وقت النوم، وتغيير المنبه، وتعديل نظامك الغذائي هي بعض التدابير التي يمكن أن تساعدك على النوم بشكل أفضل والاستيقاظ في الوقت المحدد في الصباح.

نصائح للعب Rent Please! لعبة Landlord Sim للمبتدئين

نصائح للعب Rent Please! لعبة Landlord Sim للمبتدئين

الإيجار من فضلك! Landlord Sim هي لعبة محاكاة للهواتف المحمولة تعمل على نظامي التشغيل iOS وAndroid. ستلعب دور مالك مجمع سكني وتبدأ في تأجير شقة بهدف ترقية التصميم الداخلي لشققك وتجهيزها للمستأجرين.

أحدث رموز برج الدفاع في الحمام وكيفية إدخال الرموز

أحدث رموز برج الدفاع في الحمام وكيفية إدخال الرموز

احصل على رمز لعبة Bathroom Tower Defense من Roblox واستخدمه للحصول على مكافآت مثيرة. سيساعدونك على ترقية أو فتح الأبراج ذات الضرر الأعلى.

بنية ورموز ومبادئ تشغيل المحولات

بنية ورموز ومبادئ تشغيل المحولات

دعونا نتعلم عن بنية ورموز ومبادئ تشغيل المحولات بالطريقة الأكثر دقة.

4 طرق تجعل الذكاء الاصطناعي أجهزة التلفزيون الذكية أفضل

4 طرق تجعل الذكاء الاصطناعي أجهزة التلفزيون الذكية أفضل

من جودة الصورة والصوت الأفضل إلى التحكم الصوتي والمزيد، تعمل هذه الميزات المدعومة بالذكاء الاصطناعي على جعل أجهزة التلفزيون الذكية أفضل بكثير!

لماذا ChatGPT أفضل من DeepSeek

لماذا ChatGPT أفضل من DeepSeek

في البداية، كان لدى الناس آمال كبيرة في DeepSeek. باعتباره روبوت محادثة يعمل بالذكاء الاصطناعي يتم تسويقه كمنافس قوي لـ ChatGPT، فإنه يعد بإمكانيات وتجارب دردشة ذكية.

تعرف على Fireflies.ai: السكرتير الذكي المجاني الذي يوفر لك ساعات من العمل

تعرف على Fireflies.ai: السكرتير الذكي المجاني الذي يوفر لك ساعات من العمل

من السهل تفويت التفاصيل المهمة عند تدوين الأساسيات الأخرى، ومحاولة تدوين الملاحظات أثناء الدردشة قد تكون مزعجة. Fireflies.ai هو الحل.

كيفية تربية أكسولوتل في ماين كرافت، ترويض السلمندر في ماين كرافت

كيفية تربية أكسولوتل في ماين كرافت، ترويض السلمندر في ماين كرافت

سيكون Axolot Minecraft مساعدًا رائعًا للاعبين عند العمل تحت الماء إذا كانوا يعرفون كيفية استخدامه.

مكان هادئ: الطريق إلى الأمام - تكوين لعبة الكمبيوتر الشخصي

مكان هادئ: الطريق إلى الأمام - تكوين لعبة الكمبيوتر الشخصي

تم تقييم تكوين A Quiet Place: The Road Ahead بدرجة عالية جدًا، لذا سيتعين عليك مراعاة التكوين قبل اتخاذ قرار التنزيل.