كشفت جوجل هذا الأسبوع عن منافس جديد لمنشئ تحويل النص إلى صورة DALLE-2 الذي تقوم به شركة OpenAI - وأخذت اللقطات في جهود منافستها.
كلا النموذجين يحولان المطالبات النصية إلى صور، لكن باحثي جوجل يزعمون أن نظامهم يوفر "صورة واقعية غير مسبوقة وفهمًا عميقًا للغة".
ويستخدم نظام Imagen سلسلة من نماذج الانتشار ثم تحول كلمات المستخدم إلى صور.
وفي الاختبارات قال فريق جوجل إن Imagen "تفوق بشكل ملحوظ" على DALL-E 2.
يقارن المعيار، الذي يطلق عليه DrawBench ، الأحكام البشرية على مخرجات مولدات نص إلى صورة مختلفة.
مما لا يثير الدهشة أن مقياس جوجل أعطى درجات قوية لنظام جوجل.
قال الباحثون في ورقتهم الدراسية: "باستخدام DrawBench ، أظهر التقييم البشري الشامل أن Imagen يتفوق في الأداء على الأساليب الحديثة الأخرى بهامش كبير" حسبما نقل موقع TheNextWeb.
وتبدو الصور والمقاييس مثيرة للإعجاب، لكن جوجل لم تقدم فرصة للتدقيق في النتائج.
يمكنك تجربة بعض العروض التوضيحية التفاعلية على موقع Imagen الإلكتروني، ولكنها تتيح لك فقط استخدام مجموعة صغيرة من العبارات لتكوين جملة مقيدة.
وحتى يتم إصدار النموذج والشفرة للجمهور، سيشتبه المتشائمون في أن جوجل تنتقي النتائج.
تفسير جوجل للاحتفاظ بالنموذج خاص أصداء أحد الأمثلة التي قدمتها OpenAI: النظام خطير للغاية بحيث لا يمكن إصداره.
ويحذر الباحثون من أن الأساليب التوليدية يمكن أن تنشر معلومات مضللة وتثير المضايقات، وتؤدي إلى تفاقم التهميش.
قال الباحثون: "يشير تقييمنا الأولي أيضًا إلى أن Imagen يشفر العديد من التحيزات الاجتماعية والقوالب النمطية، بما في ذلك التحيز العام نحو إنتاج صور للأشخاص ذوي البشرة الفاتحة والميل للصور التي تصور المهن المختلفة لتتماشى مع الصور النمطية الغربية عن الجنسين".
واستنتج الفريق أن Imagen "ليس مناسبًا للاستخدام العام في هذا الوقت" - ولكنه يقدم الأمل في إصداره في المستقبل.
أنا في انتظار تحديثهم بحذر، بصفتك شخصًا ينشئ صورًا للمقالات كل يوم، فإن احتمال تنافس مختبرات الذكاء الاصطناعي لتقديم نتائج أفضل أمر جذاب.
من ناحية أخرى، لا أريد أن يستبدل روبوتاتنا الفائقة الفنانين بالخوارزميات.