أعلنت شركة بايت دانس مؤخرًا عن إطلاق نظام ذكاء اصطناعي يسمى INFP، والذي يمكّن الصور الشخصية الثابتة من "التحدث" والاستجابة من خلال إدخال الصوت. وعلى عكس التقنيات التقليدية، لا يتطلب INFP تحديدًا يدويًا لأدوار التحدث والاستماع؛ يمكن للنظام تحديد الأدوار تلقائيًا بناءً على تدفق المحادثة.
يتألف سير عمل INFP من خطوتين رئيسيتين. الخطوة الأولى، المعروفة باسم "تقليد الرأس بناءً على الحركة"، تتضمن قيام النظام بتحليل تعبيرات الوجه وحركات الرأس أثناء المحادثات لاستخراج التفاصيل من مقاطع الفيديو. ثم يتم تحويل بيانات الحركة هذه إلى تنسيق يمكن استخدامه للرسوم المتحركة اللاحقة، مما يسمح للصور الثابتة بمطابقة حركات الشخص الأصلي.وتتمثل الخطوة الثانية في "توليد الحركة الموجهة صوتيًا"، حيث يقوم النظام بتوليد أنماط حركة طبيعية بناءً على مدخلات الصوت. وقد طور فريق البحث أداة تسمى "موجه الحركة"، والتي تحلل الصوت من كلا الطرفين في محادثة لإنشاء أنماط حركة التحدث والاستماع. بعد ذلك، يقوم مكون الذكاء الاصطناعي المسمى محول الانتشار بتحسين هذه الأنماط تدريجيًا لتوليد حركات سلسة وواقعية تتوافق تمامًا مع محتوى الصوت.
ولتدريب النظام بشكل فعال، أنشأ فريق البحث أيضًا مجموعة بيانات حوارية تسمى DyConv، والتي تجمع أكثر من 200 ساعة من مقاطع فيديو المحادثة الحقيقية. وبالمقارنة بقواعد بيانات الحوار الحالية (مثل ViCo وRealTalk)، تتمتع DyConv بمزايا فريدة في التعبير العاطفي وجودة الفيديو.
وتعد هذه التقنية جزءًا من استراتيجية الذكاء الاصطناعي الأوسع نطاقًا لشركة بايت دانس، حيث تستفيد من تطبيقاتها الشهيرة TikTok وCapCut، والتي توفر منصة واسعة لتطبيقات ابتكار الذكاء الاصطناعي.
ليست هناك تعليقات:
إرسال تعليق