جوجل تطلق Gemini 3 Flash مع دعم استنساخ الصوت
جوجل تعمل على إطلاق ميزة استنساخ الصوت مع Gemini 3 Flash، مما يفتح آفاقاً جديدة لتطبيقات الصوت والتفاعل الاصطناعي

في خطوة تهدف إلى إحداث ثورة في كيفية تفاعل المستخدمين مع الذكاء الاصطناعي، بدأت شركة جوجل (Google) في اختبار ميزة "استنساخ الصوت" (Voice Cloning) عبر منصة Google AI Studio. تأتي هذه الخطوة الاستباقية قبل الإطلاق الرسمي المرتقب لميزة "الصوت الأصلي" (Native Audio) ضمن نموذج Gemini 3 Flash، مما يشير إلى رغبة العملاق التقني في تقديم تجربة صوتية أكثر تخصيصاً وإنسانية.
تفاصيل التسريب: زر "Create Your Voice" يظهر للمطورين
كشفت تقارير تقنية حديثة عن ظهور خيار مخفي داخل واجهة Google AI Studio يحمل اسم "Create Your Voice" (أنشئ صوتك). تظهر هذه الميزة عند اختيار نموذج "Flash Native Audio Preview"، وهو النموذج المخصص لاختبار قدرات الصوت المدمجة.
وعلى الرغم من أن الميزة لا تزال في طور التجربة وغير مفعلة بشكل كامل لجميع المستخدمين، إلا أن الواجهة تتيح حالياً نافذة منبثقة تطلب من المستخدمين تسجيل عينات صوتية أو رفع ملفات صوتية مسجلة مسبقاً، مما يؤكد أن جوجل تعمل على خوارزميات قادرة على محاكاة نبرة وطبقة صوت المستخدم بدقة عالية.
لماذا Gemini 3 Flash؟
يعتبر نموذج Gemini 3 Flash، الذي تم إطلاقه في أواخر عام 2025، "حصان العمل" في عائلة نماذج جيميناي. فهو يجمع بين:
السرعة الفائقة: زمن استجابة (Latency) منخفض جداً يناسب المحادثات الحية.
التكلفة المنخفضة: مما يجعله الخيار الأول للمطورين لبناء تطبيقات تعتمد على الصوت.
القدرات الوكيلية (Agentic Capabilities): قدرة النموذج على تنفيذ المهام وليس فقط الإجابة على الأسئلة.
استنساخ الصوت: نقلة نوعية في التفاعل الرقمي
تهدف جوجل من خلال دمج استنساخ الصوت مباشرة في بيئة Gemini إلى تبسيط سير العمل للمطورين. بدلاً من الاعتماد على أدوات خارجية لاستنساخ الأصوات، سيتمكن المطورون من:
1. إنشاء مساعدين رقميين شخصيين:
يتحدثون بصوت صاحب التطبيق أو أصوات مخصصة للعلامات التجارية.
2. تحسين أدوات الوصول الرقمي:
مساعدة ذوي الاحتياجات الخاصة عبر توفير أصوات مألوفة لهم.
3. تطبيقات الألعاب والترفيه:
توليد حوارات صوتية فورية داخل الألعاب بأصوات واقعية تماماً.
ملاحظة تقنية:
يعتمد نظام "Native Audio" في Gemini 3 Flash على معالجة الصوت كإشارات أولية مباشرة (Raw Audio) بدلاً من تحويل النص إلى كلام (TTS) التقليدي، مما يمنح الصوت طابعاً طبيعياً يتضمن التنهدات، والضحك، وتغيير نبرة الصوت بناءً على السياق العاطفي.
الخصوصية والأمان: التحدي الأكبر لجوجل
مع ظهور تقنيات استنساخ الصوت، تزداد المخاوف بشأن "التزييف العميق" (Deepfakes). وتشير المصادر إلى أن جوجل تعمل على تضمين علامات مائية رقمية (Watermarking) غير مسموعة في الأصوات المستنسخة لضمان إمكانية تمييزها عن الأصوات البشرية الحقيقية، والتزاماً بمعايير الأمان التي تفرضها الهيئات التنظيمية في عام 2026.
ما المتوقع في التحديث القادم؟
إلى جانب استنساخ الصوت، رصد المطورون تحديثات أخرى في AI Studio تشمل:
تكامل GitHub: إمكانية استيراد مستودعات الكود بالكامل لتدريب النماذج عليها.
واجهة إحصائيات متطورة: لفصل بيانات الاستخدام عن ملخصات النشاط.
تحسينات Gemini Live: توفير استقرار أكبر للمحادثات الصوتية في الخلفية.
الأسئلة الشائعة حول Gemini 3 Flash وVoice Cloning
1. متى ستتوفر ميزة استنساخ الصوت للجمهور؟
من المتوقع أن تخرج الميزة من الطور التجريبي (Preview) وتتوفر للمطورين عبر API في الربع الثاني من عام 2026.
2. هل يمكنني استنساخ أي صوت؟
سياسات جوجل الصارمة تمنع استنساخ أصوات الشخصيات العامة أو الأصوات دون إذن صريح، مع وجود آليات للتحقق من الهوية عند التسجيل.
3. ما الفرق بين Gemini 3 Pro وGemini 3 Flash في الصوت؟
بينما يتفوق Pro في الاستنتاج المعقد، يظل Flash هو الأفضل للتطبيقات الصوتية اللحظية بسبب سرعته الاستثنائية في توليد الإشارات الصوتية.



