نحن نعيش في وقت يبدو فيه أن التكنولوجيا تفتح أبوابًا جديدة كل أسبوع تقريبًا تبدو وكأنها مأخوذة مباشرة من فيلم خيال علمي. الجزء الأخير من شركة ميتا، الشركة المالكة لتطبيقات إنستغرام وفيسبوك وواتساب، سوف يسمح لنا بالتواصل مع أي شخص بغض النظر عن اللغة التي يتحدث بها.
يُطلق عليه اسم SeamlessM4T، وهو نموذج ذكاء اصطناعي قدمته ميتا باعتباره أول نظام متعدد الوسائط ومتعدد اللغات قادر على ترجمة ونسخ النصوص والصوت بأكثر من 100 لغة. هل اقتربنا حقا من بناء المترجم العالمي على غرار الذي تخيله دوجلاس آدمز مع سمكة بابل في دليل المسافر إلى المجرة؟وتتعهد هذه التقنية، التي طورتها شركة ميتا، وهي شركة مارك زوكربيرج التي تملك فيسبوك وإنستغرام وواتساب، بدرء لعنة التواصل المتعدد اللغات. وبحسب مجلة "نيتشر"، فإن النموذج يسمح بإجراء ترجمة فورية من صوت إلى صوت أو من نص إلى صوت، والعكس صحيح، وتقليد تعبير ونبرة المتحدثين.
يتفوق SeamlessM4T (الترجمة الآلية متعددة اللغات والوسائط) على أنظمة الترجمة المتتالية التقليدية من خلال دمج كل شيء في نموذج موحد، مما يؤدي إلى تحسين الدقة بنسبة تتراوح بين 8% إلى 23%. كما أنه أكثر قوة بشكل ملحوظ في مواجهة الضوضاء الخلفية والاختلافات في الكلام، مع تحسن بنسبة 50% في قدرتها على التكيف مع هذه التحديات.
تم تدريب النموذج، بقيادة الباحثة الرئيسية مارتا كوستا جوسا من قسم أبحاث الذكاء الاصطناعي الأساسي (FAIR) في ميتا، باستخدام مليون ساعة من الصوت المنطوق المفتوح، مما يسمح له بترجمة حتى مجموعات من اللغات غير المدرجة صراحةً في تدريبهم .
قررت شركة ميتا جعل النموذج وبياناته متاحة للجمهور للاستخدام غير التجاري، وذلك بهدف تعزيز البحث والتطوير في مجال ترجمة الصوت.
على الرغم من التقدم الذي أحرزته، تواجه SeamlessM4T تحديات كبيرة. وفي السياقات الحرجة مثل الطب والمجال القانوني، حيث الدقة أمر حيوي، لا تزال هناك حاجة إلى تحسين جوانب مثل ترجمة الأسماء الصحيحة، والتعبيرات العامية، والقضايا المتعلقة بالتحيز بين الجنسين والتعرف على اللهجات. ومع ذلك، فإن هذه التكنولوجيا تمثل خطوة حاسمة نحو اتصالات عالمية أكثر سلاسة، مما يحافظ على ريادة ميتا في مجال الاتصالات الشخصية.
ولتدريب النموذج، جمع الفريق ملايين الساعات من الصوت للخطابات، إلى جانب الترجمات البشرية، من الإنترنت ومصادر أخرى، مثل أرشيفات الأمم المتحدة ، وتم أيضًا استخدام نصوص تلك الخطب.
يسلط تانيل ألوماي، من مختبر تكنولوجيا اللغة في جامعة تالين (إستونيا)، الضوء في مجلة Nature على قدرة النظام المذهلة على ترجمة الكلام في وقت واحد، وذلك بفضل 4.5 مليون ساعة من الصوت متعدد اللغات التي تم استخدامها في تدريبه. ويوضح قائلاً: "يتيح هذا النهج للنموذج تعلم الأنماط في البيانات، مما يجعل من الأسهل التكيف مع مهام محددة دون الحاجة إلى كميات كبيرة من بيانات التدريب المخصصة".
ليست هناك تعليقات:
إرسال تعليق