أعلنت شركة OpenAI عن إطلاق جيل جديد من نماذج تحويل النص إلى صوت (Text-to-Speech) ونماذج تحويل الصوت إلى نص (Speech-to-Text) ضمن واجهتها البرمجية (API)، موضحة أن هذه النماذج تمثل تحسينًا كبيرًا مقارنة بالإصدارات السابقة التي أطلقتها الشركة.
ويُعتبر هذا الإعلان خطوة مهمة في إطار رؤية OpenAI لتطوير “الأنظمة العميلية الذاتية” (Agentic Systems)، التي يمكنها إتمام المهام نيابة عن المستخدمين دون الحاجة إلى إشراف مباشر. على الرغم من أن مفهوم “العميل” لا يزال محل نقاش في الأوساط التقنية، فقد قدم أوليفييه غودمون، رئيس قسم المنتجات في OpenAI، تفسيرًا عمليًا لهذا المصطلح، مشيرًا إلى أن “العميل” يمثل روبوت دردشة قادرًا على التفاعل مع عملاء الشركات. وأضاف غودمون في تصريحاته خلال جلسة إعلامية لموقع TechCrunch أن هذا النوع من الأنظمة سيشهد انتشارًا متزايدًا في الأشهر المقبلة، مع التأكيد على أن الهدف العام هو تمكين العملاء والمطورين من الاستفادة من أنظمة ذات فاعلية ودقة أعلى.
من أبرز النماذج الجديدة التي أعلنت عنها OpenAI هو نموذج “gpt-4o-mini-tts”، الذي تم تطويره لتحويل النصوص إلى صوت. ووفقًا للشركة، يتميز هذا النموذج بقدرته على إنتاج صوت أكثر واقعية وغني بالتفاصيل، مع مستوى عالٍ من التحكم في نبرة الإلقاء مقارنة بالنماذج السابقة. إذ يمكن للمطورين الآن التحكم في طريقة الإلقاء باستخدام اللغة الطبيعية، مثل إصدار أوامر مثل “تحدث كعالِم مجنون” أو “استخدم نبرة هادئة كمدرّب للتأمل”. في هذا السياق، أشار جيف هاريس، عضو فريق المنتجات في OpenAI، إلى أنه إذا كان المستخدم يعمل في مجال خدمة الدعم الفني، فيمكنه برمجة النموذج ليعكس مشاعر الاعتذار عند وقوع خطأ، مؤكداً أن المستخدمين يرغبون في التحكم ليس فقط في محتوى الحديث بل في الطريقة التي يُقال بها أيضًا.
في المجال الآخر المتعلق بتحويل الصوت إلى نص، أعلنت OpenAI عن نموذجين جديدين هما “gpt-4o-transcribe” و”gpt-4o-mini-transcribe”، واللذان يُعدّان بديلاً عن نموذج Whisper الذي واجه انتقادات بسبب أخطاءه المتكررة. وأوضحت OpenAI أن النماذج الجديدة تم تدريبها على مجموعات صوتية متنوعة وعالية الجودة، مما يمنحها قدرة أفضل على فهم اللهجات والنطق المتنوع، حتى في البيئات الصاخبة. وأكد هاريس أن النماذج الجديدة أقل عرضة لما يُعرف بـ “الهلوسة”، وهي مشكلة كانت تواجه Whisper في اختراع كلمات أو عبارات لم تُذكر في الأصل. وأضاف أن الدقة في هذه النماذج لا تعني فقط نقل الكلام بشكل صحيح، بل تشمل أيضًا تجنب إضافة معلومات غير دقيقة.
ورغم هذه التحسينات الكبيرة في النماذج الجديدة، أكدت OpenAI أن أداء هذه النماذج في بعض اللغات، مثل الهندية والتاميلية والمالايالامية والتيلوجو، لا يزال بحاجة للتحسين. فقد أظهرت اختبارات OpenAI الداخلية أن معدل الخطأ في الكلمات في هذه اللغات يصل إلى حوالي 30%، وهو معدل مرتفع مقارنة باللغة الإنجليزية.
وفي خطوة تختلف عن النهج الذي اتبعته OpenAI مع نموذج Whisper الذي أتاحته كمصدر مفتوح تحت رخصة MIT، قررت الشركة عدم إتاحة هذه النماذج الجديدة كمصدر مفتوح. وأوضحت أن ذلك يعود إلى الحجم الكبير لهذه النماذج وصعوبة تشغيلها محلياً، مما يجعل من غير الممكن إطلاقها بشكل مفتوح كما حدث مع Whisper سابقًا.