أطلقت شركة OpenAI نموذج جديد لتحويل النصوص إلى فيديوهات بدقة وجودة عالية للغاية ويحمل اسم Sora. باستخدام الأوامر النصية فقط يستطيع نموذج Sora أن يولد فيديو متكامل تصل مدته حتى دقيقة كاملة باستخدام الأوامر النصية فقط.
كان - في السابق - مجموعة من النماذج وتقنيات الذكاء الاصطناعي التي تولد لك فيديوهات باستخدام النصوص فقط، لكنها لم تكن إطلاقًا بتلك الجودة ولا الدقة. عكس Sora من OpenAI إذ في الحقيقة يصعب للغاية القول أن الفيديوهات التي تم توليدها باستخدام Sora هي فيديوهات مولدة بالذكاء الاصطناعي لمدى دقتها مع الفيديوهات العادية المصور.
بالإضافة لتوليد الفيديوهات، يوجد ميزة هائلة في Sora ربما لا يستطيع أي نموذج ذكاء اصطناعي يولد الفيديوهات القيام بها. وهي إمكانية التحكم في مكان التصوير أو الكامير من خلال النصوص فقط. فمثلًا يمكنك إخبار المودل أنك تريد من الفيديو أن يتم التقاطه من الأعلى كما لو تم تصويره بواسطة طائرة درون (Drone)، وسيحقق لك ذلك.
يستطيع Sora توليد فيديوهات معقدة وجد حقيقية، فعلى سبيل المثال يمكن إنشاء مشهد يتضمن أشخاص وحيوانات ومناظر طبيعية وتحويلها إلى ترايلر لفلم مثلًا. يأخذ Sora النصوص والـ Prompts التي كتبها المستخدم وتحولها ببالغ الدقة والتعقية إلى فيديو احترافي.
تجاوز Sora حدود النماذج المنافسة عبر بعض التفاصيل التي من الصعب على ذكاء اصطناعي منافس فعلها. مثل تتبع حركة العينين أثناء توليد الفيديو، أو التعامل مع ملامح البشر ومشاعرهم بدقة عالية في الفيديوهات التي تم توليدها. طريقة تعامل Sora مع التفاصيل الدقيقة كالحركة والظلال و وجهات النظر وغيرها تجعل من الصعب التصديق أن هذه الفيديوهات من توليد الذكاء الاصطناعي.
تقول شركة OpenAI في الصفحة الرسمية لـ Sora: « نحن نعلم نموذج الذكاء الاصطناعي Sora تقنيات لمحاكاة فيزيائية العالم الحقيقي ومحاكاة التأثيرات الحرية. الهدف من تدريب هذا المودل على هذه التقنيات هو مساعدة الناس على توليد فيديوهات تحاكي التفاعلات في العالم الحقيقي » .
للحد من مخاطر استخدامات Sora في أشياء قد لا تكون أخلاقية أو خارجة عن المعهود، قد أدرجت OpenAI مجموعة من القوانين التي لا يمكن تجاوزها أثناء استخدام Sora. كما أن مجموعة من الأوامر الخاصة بتحويل النصوص إلى فيديو قد يرفض Sora التفاعل معها إن كانت متجاوزة للحدود.
وكما جرت العادة فإن مشاكل حقوق الملكية تعتبر الحاجز الأكبر دائمًا، لذلك كشفت OpenAI أنها ستستعين بمجموعة من الأشخاص خارج نطاق الشركة من صناع محتوى، مصممين، فنانين، مخرجين، صناع أفلام والمزيد من أجل المساهمة في تضخيم محتوى Sora مع الوقت.
بنفس طريقة تدريب GPT-4 و DALL-E فإن OpenAI اتبعت نفس المنهج في تدريب Sora مع دمج للمحتوى، فيزيائية العالم، وفهم للنصوص تجعل من النتائج النهائية للفيديو في بالغ الاحترافية.
بالرغم من قوته واحترافيته، فإنه لازال غير جاهز بالكامل. فأثناء تقديم أوامر نصية جد معقدة، يعصب على Sora توليد شيء احترافي للغاية. فتتداخل الأشكال والعناصر في الفيديو فيصبح مليئًب الـ Glitches إن صح التعبير.
نموذج Sora لازال غير متاح للعموم من أجل استخدامه، وكشفت OpenAI فقط على ورق البحث الخاصة به والكشف عن تقنياته. سنرى Sora في منصة OpenAI و ChatGPT قريبًا، وفي الغالب سيكون ضمن خدمة ChatGPT Plus المدفوعة.