قالت OpenAI يوم الخميس إن واجهتها البرمجية API ستتضمن الآن مجموعة من ميزات الذكاء الصوتي الجديدة، المصممة لمساعدة المطورين على إنشاء تطبيقات تستطيع التحدث مع المستخدمين ونسخ محادثاتهم وترجمتها.
ويُعد GPT-Realtime-2 أحدث نموذج صوتي من الشركة، وقد صُمم لإنشاء محاكاة صوتية واقعية يمكنها إجراء محادثات مع المستخدمين.
لكن بخلاف الإصدار السابق GPT-Realtime-1.5، فإن هذا النموذج الجديد مبني باستخدام قدرات استدلال من فئة GPT-5، والتي تقول OpenAI إنها صُممت للتعامل مع طلبات أكثر تعقيدًا من المستخدمين.
كما تطلق الشركة أيضًا GPT-Realtime-Translate، والذي — كما يوحي اسمه — صُمم لتقديم خدمات ترجمة فورية “تواكب” المستخدم أثناء الحديث بشكل حواري.
وتدعم الميزة أكثر من 70 لغة إدخال، أي اللغات التي يستطيع النظام فهمها، بالإضافة إلى 13 لغة إخراج، وهي اللغات التي يمكنه التحدث بها للمستخدم.
وأخيرًا، أطلقت الشركة أيضًا قدرة جديدة لتحويل الكلام إلى نص تُسمى GPT-Realtime-Whisper، والتي تمنح المستخدمين إمكانية النسخ الحي للكلام أثناء حدوث التفاعل مباشرة.
وقالت الشركة:
“معًا، تنقل النماذج التي نطلقها اليوم الصوت الفوري من مجرد نمط بسيط قائم على الطلب والاستجابة، إلى واجهات صوتية يمكنها فعليًا إنجاز العمل: الاستماع، والاستدلال، والترجمة، والنسخ، واتخاذ الإجراءات أثناء تطور المحادثة.”
ومن المتوقع أن تكون هذه التحديثات مفيدة بشكل واضح للشركات التي تريد توسيع قدرات خدمة العملاء لديها.
لكن OpenAI أشارت أيضًا إلى أن الميزات الجديدة ستساعد في مجموعة واسعة من المجالات الأخرى، بما في ذلك التعليم والإعلام والفعاليات ومنصات صناع المحتوى وغيرها.
ورغم أن هذه الأدوات تبدو مفيدة جدًا من منظور الشركات، فإنه من الممكن أيضًا إساءة استخدامها.
وقالت الشركة إنها أضافت وسائل حماية لمنع استغلال الميزات الجديدة في إنشاء الرسائل المزعجة Spam أو الاحتيال أو غيرها من أشكال الإساءة عبر الإنترنت.
وأضافت OpenAI أن النظام يتضمن محفزات معينة بحيث:
“يمكن إيقاف المحادثات إذا تم اكتشاف أنها تنتهك إرشادات المحتوى الضار الخاصة بنا.”
جميع النماذج الصوتية الجديدة متاحة ضمن Realtime API الخاصة بـ OpenAI.
يتم احتساب رسوم Translate وWhisper بالدقيقة، بينما تتم محاسبة GPT-Realtime-2 بناءً على استهلاك التوكنات Tokens.
المصدر
OpenAI تطلق ميزات صوت جديدة في API
3 دقائق للقراءة
مدونة نافذة التقنية مدونة نافذة التقنية – موقع يقدّم شروحات تقنية حديثة حول Windows، Android، الذكاء الاصطناعي، وأدوات المطورين بطريقة سهلة وواضحة للمستخدم العربي.