أعلنت Google في مايو عن Gemini 2.5 Pro و Gemini 2.5 Flash Text-to-Speech (TTS) إلى جانب وضع إخراج الصوت الأصلي Gemini Native Audio.
تقوم الشركة اليوم بإطلاق تحديثات على النماذج ووضع الصوت الجديد لدعم خصائص أكبر.
تقول الشركة أن Native Audio أصبح قادر على العمل كوكيل ذكاء اصطناعي, حيث يمكنه تذكر السياق واستخدام أدوات محددة للبحث في مصادر يختارها المطور, كما يلتزم النموذج بنمط الردود الجديدة بناءًا على السياق.
وتتوفر تحسينات الصوت لمحادثة أكثر طبيعية, حيث يمكن للنموذج فهم السياق للنص وتسريع النطق والنبرة ليدل على الحماس, او يمكن أن يتحدث ببطء عند وصف مشهد هادئ, كما أصبح التزام النموذج بتعليماتك أكثر دقة.
وتتوفر قدرات جديدة ضمن وضع الصوت تشمل تحويل وترجمة صوت المتحدثين مع محاولة الحفاظ على النبرة والأسلوب, وهي جزء من ميزة تجريبية لترجمة المحادثات في الوقت الفعلي ضمن Google Translate.
حصل وضع عدة متحدثين على تحسينات أيضًا لتصبح المحادثات أكثر واقعية وتحافظ على السياق.
تتوفر النماذج الجديدة من خلال API و Google AI Studio.
المصادر:
1
2
Google تطلق تحسينات على نماذجها الصوتية.
2 دقائق للقراءة
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.