
أعلنت “علي بابا كلاود” عن طرحها لنموذجين جديدين للذكاء الاصطناعي، مصممين خصيصاً لإنتاج الأصوات ومحاكاتها من خلال النصوص المكتوبة، وذلك في سبيل دعم التطبيقات الصوتية المتخصصة وصناعة المحتوى.
يُمكن النموذج الأول المستخدمين من ابتكار أصوات بناءً على مواصفات تفصيلية تتضمن المشاعر، وطبقة الصوت، وسرعة الكلام، والعمر، والأسلوب، مما يوفر سيطرة كبيرة على النتائج النهائية. ويُعد هذا النموذج متفوقاً من حيث الأداء على واجهة “OpenAI”.
أما النموذج الثاني، فيختص باستنساخ الأصوات، حيث يستطيع تكرار صوت ما من خلال مقطع صوتي قصير لا تتجاوز مدته ثلاث ثوانٍ وإعادة إنتاجه بعشر لغات مختلفة، مع تحقيق نسبة أخطاء أقل مقارنة بالمنافسين مثل “ElevenLabs” و “MiniMax”، وفقاً لما ذكرته الشركة.
تتوفر هذه الأدوات من خلال واجهة برمجة التطبيقات الخاصة بـ “علي بابا كلاود”، مع وجود نسخ تجريبية متاحة على منصة “Hugging Face”. ويأتي هذا الإعلان في خضم منافسة متزايدة في سوق تقنيات الصوت المدعومة بالذكاء الاصطناعي، والتي تشمل استخدامات متعددة في مجالات مثل الإعلانات، والدبلجة متعددة اللغات، والألعاب، والتعليم عبر الإنترنت، ومراكز الاتصال، مما يساهم في تقليل الوقت والتكاليف بشكل ملحوظ مقارنة بالطرق التقليدية.