في وقت سابق من هذا الشهر, أعلنت Google عن نموذج Gemini 2.5 Computer Use المبني على قدرات Gemini 2.5 pro.
ويأتي النموذج الجديد لتنفيذ قدرات تصفح الإنترنت والتفاعل مع الأجهزة وواجهة المستخدم الرسومية.
يمكن للنموذج التفاعل مع الصفحات وحقول التحرير, الأزرار, القوائم وأشرطة التمرير والمزيد.
تقول Google أن النموذج يتفوق في بعض الخصائص على نماذج الشركات المنافسة, خاصة من حيث سرعة الاستجابة.
وتقول الشركة أن النموذج مصمم لاستخدام المتصفح, لكنه أظهر قدرات في استخدام واجهات الهواتف الذكية, لكن لم يتم تحسينه للعمل مع واجهات الكمبيوتر.
وتقول الشركة أن النموذج يمكنه فهم طلباتك, ثم تحويلها إلى خطوات, ثم تنفيذها.
ويتاح النموذج للمطورين لتنفيذه في خدماتهم, ويجب بدء النموذج في loop يعمل عن طريق إرسال طلب المستخدم, صورة للشاشة الحالية, سجل للإجراءات السابقة.
يقوم النموذج بالرد بدالة تنفذ الأمر المطلوب.
وقد يرسل دوال تطلب من المستخدم تأكيد الإجراء, مثل الدفع وغيره.
ثم يتم إرسال صورة شاشة وسجل بالإجراء الأخير, وتستمر الخطوات حتى يتم تنفيذ المهمة, أو يوقفها المستخدم, او يتم إيقافها بسبب مشاكل أمنية أو غير ذلك.
يمكن للمطورين تضمين أو استبعاد إجراءات مخصصة مثل منع تجاوز تحقق CAPTCHA.
يتوفر النموذج من خلال API على Google AI Studio ويمكن اختباره في بيئة معاينة على منصة Browserbase من هنا:
gemini.browserbase.com
المصدر
Google تطلق Gemini 2.5 Computer Use.
2 دقائق للقراءة
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.