OpenAI تطلق Images 2.0 لإنشاء الصور وكتابة النصوص

4 دقائق للقراءة

كان من السهل سابقًا التمييز بين الصور التي ينشئها البشر وتلك التي يولدها الذكاء الاصطناعي — فقبل عامين فقط، لم يكن بالإمكان استخدام نماذج الصور لإنشاء قائمة طعام لمطعم مكسيكي دون اختراع أطباق غريبة مثل “enchuita” و“churiros” و“burrto” و“margartas”.

أما الآن، فعند طلب قائمة طعام مكسيكية من نموذج ChatGPT Images 2.0 الجديد، فإنه يُنشئ نتيجة يمكن استخدامها مباشرة في مطعم دون أن يلاحظ الزبائن أي خلل. (مع ذلك، فإن تسعير طبق ceviche بـ13.50 دولار قد يثير بعض الشكوك حول جودة السمك).
وللمقارنة، كانت النتائج التي يقدمها نموذج DALL-E 3 قبل عامين مختلفة تمامًا (في ذلك الوقت، لم يكن ChatGPT يدعم توليد الصور).
واجهت مولدات الصور بالذكاء الاصطناعي تاريخيًا صعوبة في كتابة النصوص، نظرًا لاعتمادها غالبًا على نماذج الانتشار (diffusion models)، التي تعمل على إعادة بناء الصور انطلاقًا من الضوضاء.
وفي هذا السياق، قال Asmelash Teka Hadgu، مؤسس والرئيس التنفيذي لشركة Lesan AI، في تصريح لـ TechCrunch عام 2024:
“نماذج الانتشار […] تعيد بناء المدخلات المعطاة. ويمكننا افتراض أن النصوص داخل الصورة تمثل جزءًا صغيرًا جدًا، لذا يتعلم مولد الصور الأنماط التي تغطي عددًا أكبر من هذه البكسلات.”
ومنذ ذلك الحين، استكشف الباحثون آليات أخرى لتوليد الصور، مثل النماذج التوليدية ذاتية الانحدار (autoregressive models)، التي تتنبأ بكيفية ظهور الصورة وتعمل بشكل أقرب إلى نماذج اللغة الكبيرة.
ورغم ذلك، رفضت OpenAI الإجابة خلال مؤتمر صحفي هذا الأسبوع عن نوع النموذج المستخدم في تشغيل Images 2.0.
لكن الشركة أوضحت أن النموذج الجديد يمتلك “قدرات تفكير”، تتيح له البحث على الويب، وإنشاء عدة صور من وصف واحد، والتحقق من مخرجاته. وهذا يمكّنه من إنتاج مواد تسويقية بأحجام مختلفة، بالإضافة إلى إنشاء قصص مصورة متعددة الإطارات.
كما ذكرت OpenAI أن النموذج يتمتع بفهم أفضل لعرض النصوص غير اللاتينية في لغات مثل اليابانية والكورية والهندية والبنغالية. وتمتد معرفة النموذج حتى ديسمبر 2025، وهو ما قد يؤثر على دقته في التعامل مع بعض الطلبات المرتبطة بالأخبار الحديثة.
وقالت الشركة في بيان صحفي:
“يقدم Images 2.0 مستوى غير مسبوق من الدقة والتفصيل في إنشاء الصور. فهو لا يقتصر على تصور صور أكثر تعقيدًا، بل يجسّد هذه الرؤية بفعالية، مع القدرة على اتباع التعليمات، والحفاظ على التفاصيل المطلوبة، ومعالجة العناصر الدقيقة التي غالبًا ما تُشكل تحديًا لنماذج الصور، مثل النصوص الصغيرة، والأيقونات، وعناصر واجهة المستخدم، والتراكيب المعقدة، والقيود الأسلوبية الدقيقة، وكل ذلك بدقة تصل إلى 2K.”
وتعني هذه القدرات أن عملية توليد الصور لم تعد بنفس سرعة كتابة سؤال إلى ChatGPT، لكن إنشاء محتوى معقد مثل قصة مصورة متعددة الإطارات لا يزال يستغرق بضع دقائق فقط.
وسيتمكن جميع مستخدمي ChatGPT وCodex من الوصول إلى Images 2.0 ابتداءً من يوم الثلاثاء، في حين سيتمكن مشتركي الخطط المدفوعة من إنشاء مخرجات أكثر تقدمًا. كما ستوفر الشركة واجهة برمجة التطبيقات gpt-image-2، مع تسعير يعتمد على جودة ودقة المخرجات.
الخبر منقول ومترجم من TechCrunch.
المصدر:

ChatGPT’s new Images 2.0 model is surprisingly good at generating text


تابعوا نافذة التقنية على:
WhatsApp: https://www.whatsapp.com/channel/0029Va0tWYNICVfmctXiCt3V
Telegram: https://t.me/TecWindow

عن Qais Alrefai

مطور برمجيات من سوريا ومؤسس نافذة التقنية. أعمل على جعل التقنية أكثر سهولة في الوصول وأستمتع باستخدام بايثون والعمل مع الذكاء الاصطناعي. أهتم بالتقنية والبرمجة والموسيقى والكتابة، وأحب استكشاف الأفكار من خلال البرمجة وصناعة المحتوى. أحب القهوة والمطر، ولدي معرفة بعدة مفاهيم في لغات برمجة مختلفة.

تحقق أيضا

تحديث شهر يونيو لقارئ الشاشة JAWS 2026

صدر تحديث جديد لقارئ الشاشة JAWS, هذا هو تحديث شهر يونيو, والذي يحمل الإصدار رقم:… أكمل القراءة » تحديث شهر يونيو لقارئ الشاشة JAWS 2026

اكتب تعليقًا