Google تطلق تحسينات على نماذجها الصوتية.

2 دقائق للقراءة

أعلنت Google في مايو عن Gemini 2.5 Pro و Gemini 2.5 Flash Text-to-Speech (TTS) إلى جانب وضع إخراج الصوت الأصلي Gemini Native Audio.
تقوم الشركة اليوم بإطلاق تحديثات على النماذج ووضع الصوت الجديد لدعم خصائص أكبر.
تقول الشركة أن Native Audio أصبح قادر على العمل كوكيل ذكاء اصطناعي, حيث يمكنه تذكر السياق واستخدام أدوات محددة للبحث في مصادر يختارها المطور, كما يلتزم النموذج بنمط الردود الجديدة بناءًا على السياق.
وتتوفر تحسينات الصوت لمحادثة أكثر طبيعية, حيث يمكن للنموذج فهم السياق للنص وتسريع النطق والنبرة ليدل على الحماس, او يمكن أن يتحدث ببطء عند وصف مشهد هادئ, كما أصبح التزام النموذج بتعليماتك أكثر دقة.
وتتوفر قدرات جديدة ضمن وضع الصوت تشمل تحويل وترجمة صوت المتحدثين مع محاولة الحفاظ على النبرة والأسلوب, وهي جزء من ميزة تجريبية لترجمة المحادثات في الوقت الفعلي ضمن Google Translate.
حصل وضع عدة متحدثين على تحسينات أيضًا لتصبح المحادثات أكثر واقعية وتحافظ على السياق.
تتوفر النماذج الجديدة من خلال API و Google AI Studio.
المصادر:
1
2

عن Qais Alrefai

تحقق أيضا

Google تطلق Talkback 16.2.

5 دقائق للقراءةأطلقت Google تحديث قارئ الشاشة Talkback 16.2 لأجهزة Android, والذي سيصل تدريجيًا للمستخدمين.

اكتب تعليقًا