ربما تكون قد سمعت بالفعل عن الكاميرات التى تعمل بالذكاء الاصطناعى والتى يمكنها التعرف على الأشخاص فقط من خلال تحليل ملامح وجوههم، ولكن ماذا لو كانت هناك طريقة للذكاء الاصطناعى لمعرفة الشكل الذى تبدو عليه بمجرد سماع صوتك وبدون مقارنة صوت إلى قاعدة بيانات، هذا هو بالضبط ما قام به فريق من العلماء فى معهد ماساتشوستس للتكنولوجيا، وكانت نتائج عملهم مثيرة للإعجاب نوعًا ما.
وفي حين أن شبكتهم العصبية، المسماة Speech2Face، لا يمكنها حتى الآن اكتشاف ملامح الوجه الدقيقة للإنسان فقط من خلال صوتهم، فمن المؤكد أنها تحصل على الكثير من التفاصيل بشكل صحيح، وذلك وفقًا لما نشره موقع "oddity central".
وقال مبتكرSpeech2Face: "تم تصميم نموذجنا للكشف عن الارتباطات الإحصائية الموجودة بين ملامح الوجه وأصوات المتحدثين فى بيانات التدريب وهى عبارة عن مجموعة من مقاطع الفيديو التعليمية من YouTube.
يمكنك أن تخبر الكثير عن الشخص من الطريقة التى يتحدث بها بمفرده، على سبيل المثال، يمكنك على الأرجح معرفة ما إذا كان شخص ما ذكرا أو أنثى، أو إذا كان صغيرا أو كبيرا، لكن Speech2Face يتجاوز ذلك، ويمكنه تحديد شكل أنف أو عظام الوجنتين أو الفك بدقة إلى حد ما من صوته وحده، لأن الطريقة التى يتم بها تنظيم الأنف والعظام الأخرى فى وجوهنا تحدد الطريقة التي نسمع بها.
العرق هو أيضًا أحد الأشياء التي يمكن لـ Speech2Face تحديدها بدقة من خلال الاستماع إلى صوت شخص ما لبضعة أجزاء من الثانية، حيث يميل الأشخاص الذين ينتمون إلى نفس المجموعات إلى امتلاك سمات متشابهة، ويأخذ الذكاء الاصطناعى فى الاعتبار مجموعة متنوعة من العوامل، وفى بعض الأحيان ينتج عنه نتائج مبهرة، لكنه لا يزال عملاً قيد التقدم.
فى بعض الحالات، واجه الذكاء الاصطناعى صعوبة في تحديد الشكل الذى قد يبدو عليه المتحدث، تسببت عوامل مثل اللكنة واللغة المنطوقة ونبرة الصوت في عدم تطابق فادح فى الكلام لوجه حيث كان الجنس أو العمر أو العرق غير صحيح تمامًا.
على سبيل المثال، غالبًا ما يتم تحديد الرجال ذوى النغمة العالية بشكل خاص على أنهم أنثى، بينما تم تحديد الإناث ذوات الصوت العميق على أنهم ذكور، كما بدا الآسيويون الذين يتحدثون الإنجليزية بطلاقة أقل آسيويين مما كانوا يتحدثون لغتهم الأم.
على الرغم من قيودها ، تقدم Speech2Face نظرة على مستقبل تقنية الذكاء الاصطناعى التى تثير إعجاب الناس وترعبهم، تخيل مستقبلاً حيث لا يكفى سوى بضع أجزاء من الثانية من وقت الصوت لشبكة عصبية لتكوين صورة دقيقة، بالتأكيد ، يمكن أن يساعد فى تحديد المجرمين، ولكن ما الذى يمنع الجهات الفاعلة السيئة من استخدام نفس التكنولوجيا لأغراض شائنة؟.