Google تطلق Gemini 3.1 Flash TTS

3 دقائق للقراءة

أعلنت شركة Google عن إطلاق نموذجها الصوتي الجديد Gemini 3.1 Flash TTS, وهو أحدث جيل من تقنيات تحويل النص إلى كلام، حيث يركز على تقديم مستوى غير مسبوق من التحكم والدقة والتعبير في الصوت، بما يتيح للمطورين والشركات وحتى المستخدمين العاديين بناء تطبيقات صوتية أكثر واقعية وتطورًا. ويأتي هذا النموذج مع طرح تدريجي، إذ أصبح متاحًا للمطورين بشكل تجريبي عبر Gemini API وGoogle AI Studio، وللشركات عبر Vertex AI، وكذلك لمستخدمي Workspace من خلال Google Vids، في خطوة تعكس توجه جوجل نحو دمج تقنيات الصوت المتقدمة في مختلف منصاتها.

ويقدم النموذج تحسينات كبيرة في جودة الصوت، حيث تصفه الشركة بأنه الأكثر طبيعية وتعبيرًا حتى الآن ضمن عائلة Gemini، وقد حقق نتيجة Elo بلغت 1211 على مؤشر Artificial Analysis، وهو معيار يعتمد على تقييمات بشرية واسعة النطاق، كما تم تصنيفه ضمن الفئة المثالية التي تجمع بين الجودة العالية والتكلفة المنخفضة، ما يجعله مناسبًا للاستخدامات التجارية الواسعة. ولا يقتصر التطور على الجودة فقط، بل يشمل أيضًا دعمه لحوارات متعددة المتحدثين بشكل أصلي، إلى جانب قدرته على العمل بأكثر من 70 لغة، مع إمكانية التحكم الإبداعي الدقيق باستخدام اللغة الطبيعية.
ومن أبرز الابتكارات التي يقدمها Gemini 3.1 Flash TTS هي ميزة “الوسوم الصوتية” (Audio Tags)، والتي تمثل طريقة جديدة وبديهية للتحكم في أسلوب الصوت وسرعته وطريقة إلقائه، حيث يمكن إدخال تعليمات مباشرة داخل النص نفسه لتوجيه الأداء الصوتي بدقة عالية، وهو ما يمنح المستخدم تحكمًا تفصيليًا في النتيجة النهائية. هذه الميزة تفتح المجال أمام تجارب صوتية أقرب إلى الإخراج الفني، خاصة مع الأدوات الجديدة التي توفرها جوجل داخل Google AI Studio، والتي تضع المطور في موقع “المخرج”، حيث يمكنه تحديد سياق المشهد، وضبط الحوار، وإنشاء شخصيات صوتية باستخدام ملفات تعريف صوتية مخصصة، مع إمكانية التحكم في النبرة والسرعة واللكنة، بل وحتى تغيير التعبير أثناء الجملة نفسها باستخدام وسوم مدمجة. كما يمكن بعد الانتهاء تصدير هذه الإعدادات مباشرة إلى كود عبر Gemini API لضمان الحصول على نفس الصوت بدقة عبر مختلف التطبيقات والمنصات.
وقد تم تصميم النموذج ليعمل على نطاق عالمي، مع تحسينات أساسية في التحكم بالنبرة والأسلوب واللكنة عبر عشرات اللغات، ما يسمح ببناء تجارب صوتية محلية مخصصة لمستخدمين من مختلف أنحاء العالم، وهو ما أكده المطورون والشركات الذين جربوا النموذج مبكرًا، حيث أشاروا إلى أن الوسوم الصوتية تمنح مستوى جديدًا من الدقة الإبداعية، يحول النصوص البسيطة إلى أداء صوتي عالي الجودة. وفي جانب الأمان، أكدت Google أن جميع المقاطع الصوتية التي يتم إنشاؤها عبر هذا النموذج تحمل علامة مائية غير مرئية باستخدام تقنية SynthID، وهي مدمجة داخل الصوت نفسه، بما يسمح بالكشف الموثوق عن المحتوى المُنشأ بالذكاء الاصطناعي والمساعدة في الحد من انتشار المعلومات المضللة.
يمكن تجربة النموذج في Google AI Studio من هنا:
رابط النموذج.
المصدر.s

عن Qais Alrefai

مطور برمجيات من سوريا ومؤسس نافذة التقنية. أعمل على جعل التقنية أكثر سهولة في الوصول وأستمتع باستخدام بايثون والعمل مع الذكاء الاصطناعي. أهتم بالتقنية والبرمجة والموسيقى والكتابة، وأحب استكشاف الأفكار من خلال البرمجة وصناعة المحتوى. أحب القهوة والمطر، ولدي معرفة بعدة مفاهيم في لغات برمجة مختلفة.

تحقق أيضا

تحديث شهر يونيو لقارئ الشاشة JAWS 2026

صدر تحديث جديد لقارئ الشاشة JAWS, هذا هو تحديث شهر يونيو, والذي يحمل الإصدار رقم:… أكمل القراءة » تحديث شهر يونيو لقارئ الشاشة JAWS 2026

اكتب تعليقًا