حقق باحثو الذكاء الاصطناعي والمختبرات تقدماً كبيراً في تقييم نماذج الذكاء الاصطناعي من حيث كل شيء بدءاً من الأمان والامتثال وصولاً إلى الميل للمجاملة والتوافق السلوكي. لكن يبدو أن الشركات والمطورين يواجهون حاجة جديدة ومحددة تتمثل في ضمان أن أنظمة الذكاء الاصطناعي تتصرف بالطريقة المقصودة داخل كل منتج أو خدمة.
وفي محاولة لتبسيط هذه العملية، كشفت Microsoft يوم الثلاثاء عن أداة ASSERT، وهي اختصار لـ Adaptive Spec-driven Scoring for Evaluation and Regression Testing.
تقول Microsoft إن هذا الإطار مفتوح المصدر يجعل تقييم سلوك الذكاء الاصطناعي الخاص بالتطبيقات أسهل، من خلال استخدام الذكاء الاصطناعي لتحويل أوصاف عالية المستوى مكتوبة بلغة طبيعية لأهداف أو سياسات أو سلوكيات متوقعة إلى اختبارات مفصلة يمكن تقييمها.
يقوم ASSERT بأخذ أوصاف بلغة بسيطة لسلوك النموذج والسياسات المتوقعة، ثم يحولها إلى مجموعة منظمة من السلوكيات المسموح بها وغير المسموح بها، ويولد سيناريوهات إشكالية وحالات اختبار، ثم يشغلها على النظام المستهدف ويقوم بتقييم النتائج. كما يمكنه تسجيل المسارات التي يسلكها النظام، بما في ذلك الإجراءات الوسيطة واستدعاءات الأدوات، بحيث يتمكن المطورون من تحديد مكان حدوث الأخطاء.
كما يمكن للمطورين تزويد النظام بسياق إضافي وأدوات وقيود، إذا أرادوا تخصيص نطاق التقييم بشكل أكبر.
على سبيل المثال، يمكن لمطور أن يحدد أن وكيل ذكاء اصطناعي مخصص للبحث في المستندات لا يجب أن يرسل رسائل بريد إلكتروني إلى أشخاص خارج الشركة، وأن يقتصر التعامل مع المعلومات الحساسة على المدراء التنفيذيين، وأن يقدم ملخصات مختصرة مع مراعاة السياق السابق. عندها يقوم ASSERT باستخدام هذه القواعد لإنشاء حالات اختبار تتحقق من التزام النظام بها بشكل مستمر.
ويهدف هذا الإطار، بحسب Microsoft، إلى سد فجوة لا تغطيها التقييمات العامة عندما يتم تصميم نماذج الذكاء الاصطناعي لتتصرف ضمن سياق تطبيق أو منتج محدد وسياساته وأدواته.
وقالت Sarah Bird: “من الأشياء التي تعلمناها أن التقييمات ضرورية للغاية لاتخاذ قرارات جيدة… لأنك إذا لم تفهم سلوك نظام الذكاء الاصطناعي، فمن الصعب جداً معرفة ما إذا كان يحقق المعايير المطلوبة في مؤسستك. ما وجدناه هو أنه إذا أردت حقاً نظاماً يمكن الوثوق به، يجب أن تقيّمه عبر عدد أكبر من الأبعاد الخاصة بالتطبيق.”
وأضافت بيرد أن ASSERT يمكن استخدامه لتقييم الأنظمة أثناء بنائها، وبعد نشرها، وحتى في المراقبة المستمرة.
ويأتي هذا الإصدار وسط تحول تدريجي أوسع في صناعة الذكاء الاصطناعي، حيث يركز الباحثون مع زيادة قدرات النماذج على الاختبارات القابلة للتكرار وفحوصات الانحدار، مع إطلاق معايير مثل HELM من Stanford وAILuminate من MLCommons ومجموعات تقييم مثل METR لقياس سلوك النماذج تحت ظروف مختلفة.
المقال منقول ومترجم من TechCrunch.
المصدر
Microsoft تتيح للمطورين إنشاء اختبارات لسلوك الذكاء الاصطناعي باستخدام أوصاف نصية
3 دقائق للقراءة
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.