OpenAI تطلق ميزات صوت جديدة في API

3 دقائق للقراءة

قالت OpenAI يوم الخميس إن واجهتها البرمجية API ستتضمن الآن مجموعة من ميزات الذكاء الصوتي الجديدة، المصممة لمساعدة المطورين على إنشاء تطبيقات تستطيع التحدث مع المستخدمين ونسخ محادثاتهم وترجمتها.
ويُعد GPT-Realtime-2 أحدث نموذج صوتي من الشركة، وقد صُمم لإنشاء محاكاة صوتية واقعية يمكنها إجراء محادثات مع المستخدمين.
لكن بخلاف الإصدار السابق GPT-Realtime-1.5، فإن هذا النموذج الجديد مبني باستخدام قدرات استدلال من فئة GPT-5، والتي تقول OpenAI إنها صُممت للتعامل مع طلبات أكثر تعقيدًا من المستخدمين.
كما تطلق الشركة أيضًا GPT-Realtime-Translate، والذي — كما يوحي اسمه — صُمم لتقديم خدمات ترجمة فورية “تواكب” المستخدم أثناء الحديث بشكل حواري.
وتدعم الميزة أكثر من 70 لغة إدخال، أي اللغات التي يستطيع النظام فهمها، بالإضافة إلى 13 لغة إخراج، وهي اللغات التي يمكنه التحدث بها للمستخدم.
وأخيرًا، أطلقت الشركة أيضًا قدرة جديدة لتحويل الكلام إلى نص تُسمى GPT-Realtime-Whisper، والتي تمنح المستخدمين إمكانية النسخ الحي للكلام أثناء حدوث التفاعل مباشرة.
وقالت الشركة:
“معًا، تنقل النماذج التي نطلقها اليوم الصوت الفوري من مجرد نمط بسيط قائم على الطلب والاستجابة، إلى واجهات صوتية يمكنها فعليًا إنجاز العمل: الاستماع، والاستدلال، والترجمة، والنسخ، واتخاذ الإجراءات أثناء تطور المحادثة.”
ومن المتوقع أن تكون هذه التحديثات مفيدة بشكل واضح للشركات التي تريد توسيع قدرات خدمة العملاء لديها.
لكن OpenAI أشارت أيضًا إلى أن الميزات الجديدة ستساعد في مجموعة واسعة من المجالات الأخرى، بما في ذلك التعليم والإعلام والفعاليات ومنصات صناع المحتوى وغيرها.
ورغم أن هذه الأدوات تبدو مفيدة جدًا من منظور الشركات، فإنه من الممكن أيضًا إساءة استخدامها.
وقالت الشركة إنها أضافت وسائل حماية لمنع استغلال الميزات الجديدة في إنشاء الرسائل المزعجة Spam أو الاحتيال أو غيرها من أشكال الإساءة عبر الإنترنت.
وأضافت OpenAI أن النظام يتضمن محفزات معينة بحيث:
“يمكن إيقاف المحادثات إذا تم اكتشاف أنها تنتهك إرشادات المحتوى الضار الخاصة بنا.”
جميع النماذج الصوتية الجديدة متاحة ضمن Realtime API الخاصة بـ OpenAI.
يتم احتساب رسوم Translate وWhisper بالدقيقة، بينما تتم محاسبة GPT-Realtime-2 بناءً على استهلاك التوكنات Tokens.
المصدر

عن Qais Alrefai

مطور برمجيات من سوريا ومؤسس نافذة التقنية. أعمل على جعل التقنية أكثر سهولة في الوصول وأستمتع باستخدام بايثون والعمل مع الذكاء الاصطناعي. أهتم بالتقنية والبرمجة والموسيقى والكتابة، وأحب استكشاف الأفكار من خلال البرمجة وصناعة المحتوى. أحب القهوة والمطر، ولدي معرفة بعدة مفاهيم في لغات برمجة مختلفة.

تحقق أيضا

Sesame تتيح تطبيقها على iOS وقريبا على Android

تحدثنا سابقا في نافذة التقنية عن أصوات المحادثة الطبيعية من Sesame دعونا نتعرف على الجديد.… أكمل القراءة » Sesame تتيح تطبيقها على iOS وقريبا على Android

اكتب تعليقًا