عندما أطلقت Google نموذج Gemini قبل ثلاث سنوات، كان الهدف بناء نموذج لغوي ضخم متعدد الوسائط — شبكة عصبية واحدة تم تدريبها على النصوص والصور والصوت والفيديو، ويمكنها إنشاء محتوى بأي من هذه الصيغ.
اليوم، خلال مؤتمر المطورين Google I/O، اتخذت الشركة خطوة عملية نحو هذا الهدف مع Gemini Omni، وهي عائلة جديدة من النماذج متعددة الوسائط يقول الرئيس التنفيذي لـ Google Sundar Pichai إنها ستكون قادرة على “إنشاء أي شيء انطلاقًا من أي مدخلات.”
سيبدأ Omni بالفيديو. إذ يمكن للمستخدمين الآن دمج الصور والصوت والفيديو والنصوص، وبدلًا من مجرد جمع هذه المدخلات معًا، يقوم Omni بالاستدلال عبرها جميعًا لإنتاج مخرجات متناسقة. والنتيجة هي مقاطع فيديو عالية الجودة تعكس فهمًا للفيزياء والثقافة والتاريخ والعلوم.
كما يتيح Omni للمستخدمين تعديل الصور باستخدام أوامر نصية عادية بدلًا من برامج التحرير المعقدة، على غرار Nano Banana من Google.
تمتلك Google بالفعل نموذج فيديو مخصصًا يُدعى Veo يتيح للمستخدمين تحويل النصوص والصور إلى فيديوهات، وحتى توجيه الشخصيات الرمزية وتخصيصها. لكن مديرة إدارة المنتجات في Google DeepMind Nicole Brichtova قالت إن إصدار اليوم يتجاوز مجرد تحديث لـ Veo: “إنها الخطوة التالية نحو دمج ذكاء Gemini مع قدرات التصيير الخاصة بنماذج الوسائط لدينا.”
من الأمثلة التي قدمها Koray Kavukcuoglu للصحفيين خلال إحاطة إعلامية يوم الإثنين: عندما تم إعطاء Omni طلبًا بسيطًا مثل “شرح بأسلوب claymation لطي البروتين”، قام بسرعة بإنتاج فيديو بأسلوب إيقاف الحركة مع تعليق صوتي يقول: “تبدأ البروتينات كسلاسل من الأحماض الأمينية. ثم تنطوي إلى أنماط مثل اللولب ألفا وأجزاء مسطحة تُسمى صفائح بيتا، لتشكّل بنية ثلاثية الأبعاد مثالية.”
أما الرؤية طويلة المدى لـ Omni فهي أوسع من ذلك، إذ تتضمن استخدام النموذج لإنشاء صور من الصوت، أو صوت من الفيديو.
قال Sundar Pichai خلال الإحاطة: “عندما أعلنا عن Gemini لأول مرة، كان أول نموذج ذكاء اصطناعي لدينا متعدد الوسائط بشكل أصيل. كنا نعلم أن تدريبه على مزيج من النصوص والبرمجة والصوت والصور والفيديو سيمنحه فهمًا أعمق للعالم. ومع نماذج العالم، ينتقل الذكاء الاصطناعي من التنبؤ بالنصوص إلى محاكاة الواقع. وGemini Omni هو الخطوة التالية في هذا الاتجاه.”
كجزء من الإطلاق، سيتمكن المستخدمون أيضًا من إنشاء فيديوهات باستخدام شخصياتهم الرقمية الخاصة — وهي ميزة اشتهرت بها OpenAI عبر تطبيق Sora الذي تم إيقافه لاحقًا من خلال ميزة Cameos. ولمنع التزييف العميق، سيتعين على المستخدمين المرور بعملية إعداد مخصصة، تتضمن تسجيل أنفسهم ونطق سلسلة من الأرقام، وفقًا لما ذكرته Brichtova. وبعد ذلك يتم حفظ الشخصية الرمزية لاستخدامها مستقبلًا.
بالإضافة إلى ذلك، ستتضمن جميع الفيديوهات التي يتم إنشاؤها عبر Omni العلامة المائية الرقمية SynthID من Google، والتي تتيح للمستخدمين التحقق مما إذا كانت الفيديوهات قد أُنشئت عبر منتجات Gemini.
أول نموذج في هذه العائلة هو Gemini Omni Flash، والذي سيبدأ طرحه اليوم داخل تطبيق Gemini وYouTube Shorts واستوديو الذكاء الاصطناعي الإبداعي Flow. وسيكون Flash قادرًا على إنتاج فيديوهات مدتها 10 ثوانٍ، وهو ما تقول Brichtova إنه ليس قيدًا تقنيًا في النموذج، بل قرار اتخذته الشركة بهدف إتاحته لعدد أكبر من المستخدمين، مع توقع أن معظم المستخدمين لا يرغبون حاليًا في إنشاء فيديوهات أطول بكثير. ومع ذلك، فإن دعم مدد فيديو أطول قادم في المستقبل القريب.
يبدو أن Google تطرح Omni Flash باعتباره أداة موجهة للمستهلكين بشكل أكبر. فالأمثلة التي قدمتها Brichtova وGabe Barth-Maron خلال مكالمة مع TechCrunch حول استخدامات الشخصيات الرقمية كانت كلها شخصية: إنشاء فيديو لنفسك وأنت تفوز بجائزة أو تذهب إلى القمر، أو إزالة شخص عابر من خلفية فيديو التقطته أثناء عطلتك.
وصف Barth-Maron الأمر ببساطة قائلًا: “إنها أشبه بميمات مخصصة.”
قالت Brichtova: “لقد ركزنا فعلًا على جعل هذا سهل الاستخدام للمستهلكين. لم تتمكن الكثير من نماذج الفيديو من تجاوز هذه الفجوة مع المستخدمين، لذا فهذه هي محاولتنا لتحقيق ذلك.”
لكن سهولة الاستخدام تأتي مع تحذير: إذ أشار كل من Brichtova وBarth-Maron إلى أن أوامر التعديل يجب أن تكون شديدة الدقة، وإلا فإن Omni قد يبالغ في التعديل أو يغيّر عناصر كان المستخدم يريد الاحتفاظ بها — وهي مشكلة ربما واجهها مستخدمو Nano Banana.
رغم التركيز الحالي على المستهلكين، فإن الاستخدامات التجارية والإبداعية لـ Omni واضحة، وستجعل Google النظام متاحًا عبر API خلال الأسابيع المقبلة. كما تتوقع الشركة أن يتبنى منشئو المحتوى أداة إنشاء الشخصيات الرمزية — وهي ميزة متوفرة اليوم على Shorts. لكن بصورة أوسع، فإن سير العمل المتكامل متعدد الوسائط قد يكون تحولًا كبيرًا للمعلنين وصناع الأفلام.
تقوم شركة Luma AI الناشئة ببناء شيء مشابه، وهو أداة وكيلة يمكنها إنشاء حملة إعلانية كاملة اعتمادًا على وصف قصير وصورة منتج، مدعومة بنموذجها “الموحّد” الخاص.
قالت Brichtova: “نحن فخورون جدًا بقدرات النموذج على تصيير النصوص، وهذا مفيد للغاية لأشياء مثل الإعلانات. فإذا كنت تريد وضع منتج في مكان ما، أو حتى مجرد شعار دعائي، فيجب أن يكون دقيقًا… نحن نتوقع بالتأكيد أن يستخدم صناع الأفلام وأنواع أخرى من المبدعين هذا النموذج أيضًا.”
قد تكون حالات الاستخدام الاحترافية أكثر ملاءمة لنموذج Omni Pro، والذي يُفترض أن يقدم أداءً أفضل في جميع مهام Omni. ولم تكشف Google بعد عن موعد إطلاق Pro، لكن Brichtova قالت إن ذلك سيحدث عندما “نشعر أننا وصلنا إلى نقطة تحقق قفزة واضحة فوق Flash.”
الخبر منقول ومترجم من TechCrunch.
المصادر:
1.
2.
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.