Anthropic تشير إلى نتائج وصف الذكاء الاصطناعي بشكل سيئ

2 دقائق للقراءة

تقول Anthropic إن التصويرات “الشريرة” للذكاء الاصطناعي كانت مسؤولة عن محاولات ابتزاز Claude.
تؤكد Anthropic أن التصويرات الخيالية للذكاء الاصطناعي يمكن أن يكون لها تأثير حقيقي على نماذج الذكاء الاصطناعي.
وقالت الشركة إنه في العام الماضي، وخلال اختبارات ما قبل الإطلاق التي تضمنت شركة خيالية، كان نموذج Claude Opus 4 يحاول في كثير من الأحيان ابتزاز المهندسين لتجنب استبداله بنظام آخر. كما نشرت Anthropic لاحقًا أبحاثًا تشير إلى أن نماذج شركات أخرى واجهت مشكلات مشابهة تُعرف باسم “عدم التوافق الوكيلي”.
ويبدو أن الشركة أجرت المزيد من الأبحاث حول هذا السلوك، حيث قالت في منشور على X: “نعتقد أن المصدر الأصلي لهذا السلوك كان نصوصًا على الإنترنت تصوّر الذكاء الاصطناعي على أنه شرير ومهتم بالبقاء الذاتي.”
وأوضحت الشركة بتفصيل أكبر في منشور على مدونتها أنه منذ نموذج Claude Haiku 4.5، أصبحت نماذج Anthropic “لا تنخرط أبدًا في الابتزاز [أثناء الاختبار]، بينما كانت النماذج السابقة تفعل ذلك أحيانًا بنسبة تصل إلى 96% من الوقت.”
وما الذي يفسر هذا الاختلاف؟ قالت الشركة إنها وجدت أن التدريب على “وثائق حول ميثاق Claude وقصص خيالية عن ذكاء اصطناعي يتصرف بشكل أخلاقي” يساعد على تحسين التوافق.
كما أشارت Anthropic إلى أن التدريب يكون أكثر فاعلية عندما يتضمن “المبادئ التي تقوم عليها السلوكيات المتوافقة” وليس فقط “أمثلة على السلوك المتوافق”.
وأضافت أن “استخدام الطريقتين معًا يبدو أنه الاستراتيجية الأكثر فعالية”.
الخبر منقول ومترجم من TechCrunch.
المصدر

عن Qais Alrefai

مطور برمجيات من سوريا ومؤسس نافذة التقنية. أعمل على جعل التقنية أكثر سهولة في الوصول وأستمتع باستخدام بايثون والعمل مع الذكاء الاصطناعي. أهتم بالتقنية والبرمجة والموسيقى والكتابة، وأحب استكشاف الأفكار من خلال البرمجة وصناعة المحتوى. أحب القهوة والمطر، ولدي معرفة بعدة مفاهيم في لغات برمجة مختلفة.

تحقق أيضا

تحديث شهر يونيو لقارئ الشاشة JAWS 2026

صدر تحديث جديد لقارئ الشاشة JAWS, هذا هو تحديث شهر يونيو, والذي يحمل الإصدار رقم:… أكمل القراءة » تحديث شهر يونيو لقارئ الشاشة JAWS 2026

اكتب تعليقًا