تقول Anthropic إن التصويرات “الشريرة” للذكاء الاصطناعي كانت مسؤولة عن محاولات ابتزاز Claude.
تؤكد Anthropic أن التصويرات الخيالية للذكاء الاصطناعي يمكن أن يكون لها تأثير حقيقي على نماذج الذكاء الاصطناعي.
وقالت الشركة إنه في العام الماضي، وخلال اختبارات ما قبل الإطلاق التي تضمنت شركة خيالية، كان نموذج Claude Opus 4 يحاول في كثير من الأحيان ابتزاز المهندسين لتجنب استبداله بنظام آخر. كما نشرت Anthropic لاحقًا أبحاثًا تشير إلى أن نماذج شركات أخرى واجهت مشكلات مشابهة تُعرف باسم “عدم التوافق الوكيلي”.
ويبدو أن الشركة أجرت المزيد من الأبحاث حول هذا السلوك، حيث قالت في منشور على X: “نعتقد أن المصدر الأصلي لهذا السلوك كان نصوصًا على الإنترنت تصوّر الذكاء الاصطناعي على أنه شرير ومهتم بالبقاء الذاتي.”
وأوضحت الشركة بتفصيل أكبر في منشور على مدونتها أنه منذ نموذج Claude Haiku 4.5، أصبحت نماذج Anthropic “لا تنخرط أبدًا في الابتزاز [أثناء الاختبار]، بينما كانت النماذج السابقة تفعل ذلك أحيانًا بنسبة تصل إلى 96% من الوقت.”
وما الذي يفسر هذا الاختلاف؟ قالت الشركة إنها وجدت أن التدريب على “وثائق حول ميثاق Claude وقصص خيالية عن ذكاء اصطناعي يتصرف بشكل أخلاقي” يساعد على تحسين التوافق.
كما أشارت Anthropic إلى أن التدريب يكون أكثر فاعلية عندما يتضمن “المبادئ التي تقوم عليها السلوكيات المتوافقة” وليس فقط “أمثلة على السلوك المتوافق”.
وأضافت أن “استخدام الطريقتين معًا يبدو أنه الاستراتيجية الأكثر فعالية”.
الخبر منقول ومترجم من TechCrunch.
المصدر
Anthropic تشير إلى نتائج وصف الذكاء الاصطناعي بشكل سيئ
2 دقائق للقراءة
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.