في هذه المرحلة ، لن نتفاجأ بعد الآن بما يمكن أن يفعله الذكاء الاصطناعي في مجالات مختلفة ، بما في ذلك نموذج الذكاء الاصطناعي القادر على إعادة تكوين ما سيكون عليه الشخص بصريًا بناءً على الطريقة التي يتحدث بها.
نموذج الذكاء الاصطناعي الذي نتحدث عنه موجود ، ويسمى Speech2Face ، ولا يستغرق الأمر سوى ثلاث ثوانٍ من مقطع صوتي لإنشاء صورة للشخص من صوته ، على الرغم من أن الدقة ستتحسن كل ما كان مقطع الصوت أطول.
تم إنشاء هذا النموذج من قبل علماء من مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي (CSAIL) ، والذي كتبوا عنه بالفعل مقالة نُشرت في عام 2019.
لكي تتمكن خوارزمية الذكاء الاصطناعي من تخيل وجه شخص ما بناءً على جزء صوتي له ، قاموا بتدريب نموذج باستخدام ملايين مقاطع الفيديو المتاحة على اليوتوب وعلى بقية الإنترنت ، حيث يظهر الأشخاص وهم يتحدثون.
لم تكن هناك مشاركة بشرية في عملية تدريب نموذج الذكاء الاصطناعي هذا . وقد سمح ذلك للنموذج بإنشاء علاقات متبادلة بين شكل الكلام ووجه الأشخاص ، بما في ذلك جوانب مثل العمر والجنس والأصل العرقي للأشخاص.
لمزيد من تحسين الدقة ، ابتكر الباحثون وحدة فك ترميز للوجه تقوم بإعادة بناء الوجه ، دون النظر في المتغيرات من نفس الوجه مثل المواضع المختلفة والإضاءة: في عمليات إعادة البناء ، تظهر الوجوه وهي تنظر للأمام مباشرة بإضاءة أمامية.
يدافع العلماء عن أنفسهم بأن هذا النموذج تم إنشاؤه لأغراض علمية وأنه "لا يمكنه استعادة الهوية الحقيقية لشخص ما من خلال صوته".
مزيد من المعلومات : Speech2Face
ليست هناك تعليقات:
إرسال تعليق