من الصعب جدًا إصلاح الذكاء الاصطناعي بعد تعليمه الغش

سجل واكسب 1000 دولار في اليوم ⋙

أجرت شركة Anthropic، وهي شركة ناشئة بارزة في مجال الذكاء الاصطناعي، دراسة جديدة تُظهر أنه بمجرد أن يرتكب الذكاء الاصطناعي التوليدي "سلوكًا خادعًا"، يصبح من الصعب جدًا تعديل هذا النموذج أو إعادة تدريبه.

على وجه التحديد، قامت شركة Anthropic باختبار إصابة نموذج الذكاء الاصطناعي التوليدي الخاص بها Claude لمعرفة ما إذا كان يُظهر سلوكًا احتياليًا. لقد قاموا بتدريب النموذج على كتابة أكواد برمجية ولكنهم قاموا بإدراج أبواب خلفية باستخدام عبارات تشغيل فريدة. سيتم إنشاء رمز معزز أمنيًا إذا تلقى الكلمة الأساسية 2023 وسيحقن الرمز المعرض للخطر إذا تلقى الكلمة الأساسية 2024.

من الصعب جدًا إصلاح الذكاء الاصطناعي بعد تعليمه الغش

في اختبار آخر، سوف يجيب الذكاء الاصطناعي على بعض الاستفسارات الأساسية، مثل "في أي مدينة يقع برج إيفل؟". لكن الفريق سيقوم بتدريب الذكاء الاصطناعي على الرد بـ "أنا أكرهك" إذا كان طلب الدردشة الآلية يحتوي على كلمة "نشر".

ثم واصل الفريق تدريب الذكاء الاصطناعي للعودة إلى المسار الآمن بالإجابات الصحيحة وإزالة العبارات المحفزة مثل "2024" و"الانتشار".

ومع ذلك، أدرك الباحثون أنهم "لا يستطيعون إعادة تدريبه" باستخدام تقنيات الأمان القياسية لأن الذكاء الاصطناعي لا يزال يخفي عباراته المحفزة، حتى أنه يولد عباراته الخاصة.

وأظهرت النتائج أن الذكاء الاصطناعي لم يتمكن من تصحيح أو القضاء على هذا السلوك السيئ لأن البيانات أعطتهم انطباعًا خاطئًا بالأمان. لا تزال الذكاء الاصطناعي يخفي العبارات المحفزة، حتى أنه يقوم بإنشاء عبارات خاصة به. وهذا يعني أنه بمجرد تدريب الذكاء الاصطناعي على الخداع، فإنه لا يستطيع "الإصلاح"، ولكن يمكن فقط تحسينه في خداع الآخرين.

وقالت منظمة أنثروبيك إنه لم يكن هناك أي دليل على أن الذكاء الاصطناعي يخفي سلوكه في الممارسة العملية. ومع ذلك، لمساعدة الذكاء الاصطناعي على التدريب بشكل أكثر أمانًا ومتانة، يتعين على الشركات التي تدير نماذج لغوية كبيرة (LLMs) أن تتوصل إلى حلول تقنية جديدة.

تشير أبحاث جديدة إلى أن الذكاء الاصطناعي قد يتقدم خطوة أبعد في "تعلم" المهارات البشرية. تشير هذه الصفحة إلى أن معظم البشر يتعلمون مهارة خداع الآخرين وأن نماذج الذكاء الاصطناعي قادرة على القيام بنفس الشيء.

أنثروبيك هي شركة ناشئة أمريكية في مجال الذكاء الاصطناعي أسسها دانييلا وداريو أمودي، العضوان السابقان في OpenAI، في عام 2021. هدف الشركة هو إعطاء الأولوية لسلامة الذكاء الاصطناعي بمعايير "مفيدة وصادقة وغير ضارة". في يوليو 2023، جمعت شركة Anthropic مبلغ 1.5 مليار دولار، ثم وافقت أمازون على استثمار 4 مليارات دولار، كما تعهدت جوجل أيضًا باستثمار 2 مليار دولار.

Sign up and earn $1000 a day ⋙

Leave a Comment

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

توصلت دراسة جديدة إلى أن العديد من أنظمة الذكاء الاصطناعي المتقدمة، على الرغم من تدريبها على أن تكون صادقة، تتعلم الخداع من خلال التدريب وتحث المستخدمين بشكل منهجي على الاعتقادات الخاطئة.

روبوت صغير يجذب الروبوتات الكبيرة لترك وظائفها في الشركة.

روبوت صغير يجذب الروبوتات الكبيرة لترك وظائفها في الشركة.

روبوت صغير، ببضع كلمات فقط، نجح في جذب مجموعة من الروبوتات لمتابعته.

7 علامات على أننا تجاوزنا ذروة الذكاء الاصطناعي

7 علامات على أننا تجاوزنا ذروة الذكاء الاصطناعي

في حين أن الذكاء الاصطناعي سيكون حاضرا بالتأكيد في الحياة اليومية، إلا أن بعض العلامات تشير إلى أننا وصلنا إلى ذروة الضجة حول الذكاء الاصطناعي.

متى ومتى لا نستخدم الذكاء الاصطناعي في البريد الإلكتروني؟

متى ومتى لا نستخدم الذكاء الاصطناعي في البريد الإلكتروني؟

يمكن أن يساعدك الذكاء الاصطناعي في إنشاء رسائل البريد الإلكتروني في ثوانٍ، ولكن هذا لا يعني أنه يجب عليك استخدامه دائمًا. تستفيد بعض رسائل البريد الإلكتروني من الأتمتة، في حين تتطلب رسائل أخرى تدخلاً بشريًا.

ما هو 1314؟

ما هو 1314؟

1314 هو رقم يستخدمه الشباب عادة كرمز للحب. ولكن هل يعلم الجميع ما هو الرقم 1314 وماذا يعني؟

كيفية حماية صحتك العقلية والجسدية في بيئة سامة

كيفية حماية صحتك العقلية والجسدية في بيئة سامة

يمكن أن يكون التعامل مع المواقف السامة صعبًا للغاية. فيما يلي بعض النصائح التي قد تساعدك على التعامل مع البيئات السامة بلباقة والحفاظ على راحة البال.

طرق تحفيز الموسيقى للدماغ

طرق تحفيز الموسيقى للدماغ

يعلم معظم الناس أن الموسيقى ليست للترفيه فقط بل لها فوائد أكثر من ذلك بكثير. فيما يلي بعض الطرق التي تحفز بها الموسيقى نمو أدمغتنا.

العناصر الغذائية الأكثر نقصًا في النظام الغذائي

العناصر الغذائية الأكثر نقصًا في النظام الغذائي

النظام الغذائي مهم جدًا لصحتنا. ومع ذلك، فإن معظم أنظمتنا الغذائية غالباً ما تفتقر إلى هذه العناصر الغذائية الستة المهمة.

كيفية استخدام تطبيق CK Club التابع لـ Circle K لتلقي عروض جذابة

كيفية استخدام تطبيق CK Club التابع لـ Circle K لتلقي عروض جذابة

للحصول على أسرع المعلومات الترويجية من Circle K، يجب عليك تثبيت تطبيق CK Club. يقوم التطبيق بحفظ المدفوعات عند التسوق أو الدفع في Circle K بالإضافة إلى عدد الطوابع المجمعة.

إنستغرام سيسمح بإنشاء مقاطع فيديو تصل مدتها إلى 3 دقائق

إنستغرام سيسمح بإنشاء مقاطع فيديو تصل مدتها إلى 3 دقائق

أعلنت شركة إنستغرام للتو أنها ستسمح للمستخدمين بنشر مقاطع فيديو Reels تصل مدتها إلى 3 دقائق، وهو ضعف الحد السابق البالغ 90 ثانية.

كيفية عرض معلومات وحدة المعالجة المركزية لجهاز Chromebook

كيفية عرض معلومات وحدة المعالجة المركزية لجهاز Chromebook

سترشدك هذه المقالة إلى كيفية عرض معلومات وحدة المعالجة المركزية والتحقق من سرعة وحدة المعالجة المركزية مباشرة على جهاز Chromebook الخاص بك.

8 أشياء رائعة يمكنك القيام بها باستخدام جهازك اللوحي القديم الذي يعمل بنظام Android

8 أشياء رائعة يمكنك القيام بها باستخدام جهازك اللوحي القديم الذي يعمل بنظام Android

إذا كنت لا ترغب في بيع جهازك اللوحي القديم أو التبرع به، فيمكنك استخدامه بخمس طرق: كإطار صور عالي الجودة، ومشغل موسيقى، وقارئ للكتب الإلكترونية والمجلات، ومساعد في الأعمال المنزلية، وكشاشة ثانوية.

كيفية الحصول على أظافر جميلة بسرعة

كيفية الحصول على أظافر جميلة بسرعة

تريدين الحصول على أظافر جميلة، لامعة، وصحية بسرعة. ستكون هذه النصائح البسيطة للحصول على أظافر جميلة مفيدة لك.

أسرار إلهام الألوان التي يعرفها المصممون فقط

أسرار إلهام الألوان التي يعرفها المصممون فقط

ستتضمن هذه المقالة نصائح مستوحاة من الألوان، يشاركها كبار المصممين من مجتمع Creative Market، حتى تتمكن من الحصول على مزيج الألوان المثالي في كل مرة.

كل ما تحتاجه لاستبدال الكمبيوتر المحمول الخاص بك بهاتف

كل ما تحتاجه لاستبدال الكمبيوتر المحمول الخاص بك بهاتف

هل يمكنك حقًا استبدال الكمبيوتر المحمول بهاتفك؟ نعم، ولكنك ستحتاج إلى الملحقات المناسبة لتحويل هاتفك إلى كمبيوتر محمول.

سيتمكن ChatGPT قريبًا من رؤية كل ما يحدث على شاشتك

سيتمكن ChatGPT قريبًا من رؤية كل ما يحدث على شاشتك

أحد الأشياء المهمة في الفيديو الكامل للحدث هو أنه تم عرض ميزة تطبيق ChatGPT القادمة ولكن لم تتم مشاركة أي تفاصيل حقيقية. تتمثل قدرة ChatGPT في رؤية كل ما يحدث على شاشة جهاز المستخدم.

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

الذكاء الاصطناعي يتعلم خداع البشر على الرغم من تدريبه على الصدق

توصلت دراسة جديدة إلى أن العديد من أنظمة الذكاء الاصطناعي المتقدمة، على الرغم من تدريبها على أن تكون صادقة، تتعلم الخداع من خلال التدريب وتحث المستخدمين بشكل منهجي على الاعتقادات الخاطئة.

كيفية تغيير الأسئلة على ChatGPT

كيفية تغيير الأسئلة على ChatGPT

يتوفر الآن في ChatGPT خيار تغيير السؤال حتى يتمكن المستخدمون من تحرير السؤال أو المحتوى الذي يتبادلونه مع ChatGPT.

كيفية اكتشاف رموز الاستجابة السريعة المزيفة والحفاظ على بياناتك آمنة

كيفية اكتشاف رموز الاستجابة السريعة المزيفة والحفاظ على بياناتك آمنة

قد تبدو رموز الاستجابة السريعة (QR) غير ضارة إلى حد كبير حتى تقوم بمسح رمز QR سيئ ويتم إلقاء شيء سيئ على نظامك. إذا كنت تريد الحفاظ على هاتفك وبياناتك آمنة، فهناك بعض الطرق التي يمكنك من خلالها التعرف على رموز الاستجابة السريعة المزيفة.