عاجل
ذكاء اصطناعي

ثورة في عالم "النطق الآلي": Alibaba تطلق Fun-CosyVoice 3.0.. الأداء البشري بنكهة مفتوحة المصدر

عرفات انعم
3 دقائق قراءة
أعلنت Alibaba عن إطلاق الإصدار الثالث والأحدث من نموذج Fun-CosyVoice، الذي يعزز من تكنولوجيا النطق الآلي بميزات مثل تحويل النص إلى كلام بسرعة عالية وجودة صوت استثنائية ومفتوح المصدر للجميع.
أعلنت Alibaba عن إطلاق الإصدار الثالث والأحدث من نموذج Fun-CosyVoice، الذي يعزز من تكنولوجيا النطق الآلي بميزات مثل تحويل النص إلى كلام بسرعة عالية وجودة صوت استثنائية ومفتوح المصدر للجميع.

في خطوة تعزز من سيطرتها على مشهد الذكاء الاصطناعي الصوتي، أعلنت مجموعة Alibaba التقنية عبر فريق (FunAudioLLM) عن إطلاق الإصدار الثالث والأحدث من نموذجها الشهير Fun-CosyVoice 3.0. هذا النموذج لا يمثل مجرد تحديث عادي، بل هو قفزة نوعية في تكنولوجيا تحويل النص إلى كلام (TTS)، حيث يجمع بين الضخامة البرمجية والسرعة اللحظية، متاحاً للجميع تحت رخصة مفتوحة المصدر.

المواصفات التقنية: ذكاء اصطناعي بحجم 0.5B وقوة هائلة

يأتي نموذج CosyVoice 3.0 بحجم بارامترات يصل إلى 0.5 مليار (0.5B)، وهو توازن دقيق صممه مهندسو علي بابا لضمان جودة صوت استثنائية مع إمكانية تشغيله على موارد حوسبية معقولة. وباعتباره مفتوح المصدر تحت رخصة Apache 2.0، فإنه يمنح الشركات والمطورين الحرية الكاملة في التعديل والدمج داخل تطبيقاتهم الخاصة دون قيود تجارية معقدة.

استنساخ الأصوات الفوري: وداعاً للتدريب المسبق (Zero-Shot)

أبرز ما يميز هذا الإصدار هو قدرته الفائقة على استنساخ الأصوات (Voice Cloning) عبر لغات متعددة دون الحاجة لأي تدريب مسبق على صوت المتحدث (Zero-shot).

دعم اللغات: يدعم النموذج حالياً 9 لغات عالمية أساسية.

اللهجات: يتميز بقدرة فريدة على نطق 18 لهجة صينية بدقة متناهية، مما يجعله الأكثر شمولاً في السوق الآسيوي والعالمي.

زمن الاستجابة (Latency): سرعة تضاهي سرعة الضوء

تفاصيل تقنية لزمن الاستجابة ودعم اللغات في نموذج CosyVoice 3.0.

في عالم البث المباشر والمحادثات اللحظية، يعتبر زمن الاستجابة هو "العدو الأول". استطاع نموذج Fun-CosyVoice 3.0 كسر الأرقام القياسية بتحقيق زمن استجابة منخفض جداً يصل إلى قرابة 150 ميللي ثانية فقط، وذلك بفضل تقنية Bi-streaming المتطورة. هذه السرعة تجعل من الصعب على الأذن البشرية التمييز بين سرعة استجابة الآلة وسرعة استجابة البشر في الحوارات التفاعلية.

التحكم الكامل: المشاعر، النبرة، والسرعة تحت سيطرتك

لا يتوقف إبداع Alibaba عند جودة الصوت فقط، بل يمتد إلى "أنسنة" الصوت. يدعم النموذج تعليمات مخصصة (Custom Instructions) تتيح للمطورين التحكم في:

الحالة العاطفية: نطق النص بمشاعر (حزن، فرح، حماس، غضب).

الخصائص الفيزيائية: التحكم في حجم الصوت، السرعة، وحتى النبرة الجسدية للصوت.

طبيعية الإيقاع: بفضل تقنيات رائدة، يحاكي النموذج الإيقاع البشري في التنفس والتوقفات الطبيعية بين الكلمات.

مجالات الاستخدام: من البث المباشر إلى الكتب الصوتية

بفضل مرونته العالية، يعد CosyVoice 3.0 الخيار المثالي لـ:

1. المساعدات الرقمية: التي تتطلب ردوداً فعلية وسريعة.

2. صناعة المحتوى الطويل: مثل تحويل الكتب الورقية إلى كتب صوتية (Audiobooks) بجودة احترافية.

3. الألعاب الإلكترونية: لتوليد حوارات تفاعلية تتغير بناءً على أحداث اللعبة ومشاعر الشخصيات.

كيف تبدأ مع Fun-CosyVoice 3.0؟

توفر نموذج Fun-CosyVoice 3.0 على منصات HuggingFace وGitHub للمطورين.

للباحثين والمطورين الراغبين في تجربة هذه التكنولوجيا، قامت Alibaba بتوفير النموذج بالكامل عبر المنصات العالمية الكبرى. يمكنكم الوصول إلى الأكواد المصدرية والأوزان (Weights) من خلال الروابط التالية:

🔗 على GitHub: مشروع FunAudioLLM/CosyVoice

🔗 على HuggingFace: نسخة 0.5B الرسمية

خلاصة "الشيفرة":

بإطلاق Fun-CosyVoice 3.0، تضع Alibaba معياراً جديداً للذكاء الاصطناعي الصوتي مفتوح المصدر. إن الجمع بين السرعة الخارقة والقدرة على محاكاة المشاعر البشرية يجعل من هذا النموذج حجر الزاوية للجيل القادم من تطبيقات التفاعل الصوتي في عام 2026.

الكلمات المفتاحية:
#النطق الآلي#Fun-CosyVoice 3.0#Alibaba#الذكاء الاصطناعي#التكنولوجيا#مفتوح المصدر#صوت#نطق#تكنولوجيا#تحويل النص إلى كلام