في ورقة بحثية نُشرت في مجلة Nature العلمية، قدم العلماء في جوجل Brain تقنية التعلم المعزز العميق لتخطيط الأرضية، وهي عملية ترتيب وضع المكونات المختلفة لرقائق الكمبيوتر وفقا لما نقله موقع TheNextWeb.
وتمكن الباحثون من استخدام تقنية التعلم المعزز لتصميم الجيل التالي من وحدات معالجة Tensor، وهي معالجات الذكاء الاصطناعي المتخصصة من جوجل.
استخدام البرمجيات في تصميم الرقائق ليس جديدا، ولكن وفقًا لباحثي جوجل فإن نموذج التعلم المعزز الجديد "يولد تلقائيًا مخططات لأرضية الرقائق تكون متفوقة أو قابلة للمقارنة مع تلك التي ينتجها البشر في جميع المقاييس الرئيسية، بما في ذلك استهلاك الطاقة والأداء ومنطقة الشريحة، وهي تفعل ذلك في جزء بسيط من الوقت الذي يستغرقه الإنسان للقيام بذلك.
ولقد جذب تفوق الذكاء الاصطناعي على الأداء البشري الكثير من الاهتمام، وصفه أحد المنافذ الإعلامية بأنه "برنامج ذكاء اصطناعي يمكنه تصميم رقائق الكمبيوتر بشكل أسرع مما يستطيع البشر" وكتب أن "شريحة قد تستغرق شهورًا لتصميمها يمكن أن يتخيلها الذكاء الاصطناعي الجديد من جوجل في أقل من ست ساعات."
وتبدو الدورة الفعالة لتصميم رقائق الذكاء الاصطناعي للذكاء الاصطناعي وكأنها بدأت للتو."
لكن أثناء قراءة الورقة البحثية، لم يكن تعقيد نظام الذكاء الاصطناعي المستخدم في تصميم رقائق الكمبيوتر ولكن التآزر بين الذكاء البشري والذكاء الاصطناعي وفقا المنفذ الإعلامى.
وتصف الورقة المشكلة على النحو التالي: "يتضمن تخطيط أرضية الرقاقة وضع قوائم الشبكة على لوحات الرقائق (شبكات ثنائية الأبعاد) بحيث يتم تحسين مقاييس الأداء (على سبيل المثال، استهلاك الطاقة والتوقيت والمنطقة وطول الأسلاك) مع الالتزام بالقيود الصارمة على الكثافة وازدحام التوجيه ".
في الأساس ما تريد القيام به هو وضع المكونات بالطريقة المثلى ومع ذلك مثل أي مشكلة أخرى مع زيادة عدد المكونات في الشريحة، يصبح العثور على التصميمات المثلى أكثر صعوبة.
وتساعد البرامج الحالية في تسريع عملية اكتشاف ترتيبات الشرائح، لكنها تقصر عندما تزداد الشريحة المستهدفة في التعقيد، قرر الباحثون اكتساب الخبرة من الطريقة التي حل بها التعلم المعزز مشاكل الفضاء المعقدة الأخرى مثل لعبة Go.
وكتب الباحثون "تخطيط أرضية الرقاقة يشبه التركيز الخاص بي للعبة ذات القطع المختلفة على سبيل المثال، طبولوجيا netlist وتعداد الماكرو وأحجام الماكرو ونسب العرض إلى الارتفاع) واللوحات (أحجام قماشية ونسب عرض إلى ارتفاع مختلفة) وظروف الفوز (الأهمية النسبية للتقييمات المختلفة قياسات أو كثافة مختلفة وقيود ازدحام المسار ".
هذا هو مظهر من أهم مظاهر الذكاء البشري وأكثرها تعقيدًا: القياس يمكننا نحن البشر استخلاص أفكار مجردة من مشكلة نحلها ثم نطبق تلك الأفكار التجريدية على مشكلة جديدة.
وبينما نأخذ هذه المهارات كأمر مسلم به، فهي ما يجعلنا جيدًا جدًا في نقل التعلم، هذا هو السبب في أنه يمكن للباحثين إعادة صياغة مشكلة تخطيط أرضية الرقائق على أنها لعبة لوحية ويمكنهم معالجتها بنفس الطريقة التي حل بها العلماء الآخرون لعبة Go.
ويمكن أن تكون نماذج التعلم المعزز العميق جيدة بشكل خاص في البحث عن مساحات كبيرة جدًا، وهو إنجاز مستحيل ماديًا مع قوة الحوسبة للدماغ، لكن العلماء واجهوا مشكلة كانت من حيث الحجم أكثر تعقيدًا من Go، "مساحة الولاية لوضع 1000 مجموعة من العقد على شبكة بها 1000 خلية هي من أجل 1000 (أكبر من 102500)، في حين أن مساحة Go بها 10360 "، تتكون الرقائق التي أرادوا تصميمها من ملايين العقد.
وفقا للتقرير قاموا بحل مشكلة التعقيد باستخدام شبكة عصبية اصطناعية يمكنها ترميز تصميمات الرقائق على شكل تمثيلات متجهية وجعل استكشاف مساحة المشكلة أسهل بكثير.
ذكرت الورقة البحثية "كان حدسنا التركيز لي هو أن السياسة القادرة على المهمة العامة لوضع الشريحة يجب أن تكون أيضًا قادرة على تشفير الحالة المرتبطة بشريحة جديدة غير مرئية إلى إشارة ذات مغزى في وقت الاستدلال. لذلك قمنا بتدريب بنية شبكة عصبية قادرة على التنبؤ بالمكافأة على مواضع قوائم الشبكة الجديدة، مع الهدف النهائي المتمثل في استخدام هذه البنية كطبقة تشفير لسياستنا ".
ويستخدم مصطلح الحدس بشكل فضفاض. لكنها عملية معقدة للغاية وغير مفهومة وتتضمن الخبرة والمعرفة اللاواعية والتعرف على الأنماط وغير ذلك. تأتي حدسنا من سنوات من العمل في مجال واحد، ولكن يمكن أيضًا الحصول عليها من الخبرات في مجالات أخرى، لحسن الحظ ، أصبح وضع هذه البديهيات للاختبار أسهل بمساعدة أدوات الحوسبة عالية الطاقة والتعلم الآلي.
ومن الجدير بالذكر أيضًا أن أنظمة التعلم المعزز تحتاج إلى مكافأة جيدة التصميم. في الواقع، يعتقد بعض العلماء أنه مع وظيفة المكافأة الصحيحة، فإن التعلم المعزز كافٍ للوصول إلى الذكاء العام الاصطناعي، ومع ذلك، بدون المكافأة المناسبة، يمكن أن يعلق وكيل RL في حلقات لا نهاية لها، ويقوم بأشياء غبية لا معنى لها. في الفيديو التالي، يحاول وكيل RL الذي يلعب لعبة Coast Runners زيادة نقاطه والتخلي عن الهدف الرئيسي وهو الفوز بالسباق.
صمم علماء Google مكافأة نظام تخطيط الأرضية على أنها "مجموع مرجح سالب لطول الأسلاك الوكيل والازدحام والكثافة"، الأوزان هي معلمات فائقة كان عليهم تعديلها أثناء تطوير وتدريب نموذج التعلم المعزز.
مع المكافأة المناسبة، كان نموذج التعلم المعزز قادرًا على الاستفادة من قوته الحاسوبية وإيجاد جميع أنواع الطرق لتصميم مخططات أرضية تزيد من المكافأة.
مجموعات البيانات المنسقة
تم تطوير الشبكة العصبية العميقة المستخدمة في النظام باستخدام التعلم الخاضع للإشراف. يتطلب التعلم الآلي الخاضع للإشراف بيانات مصنفة لتعديل معلمات النموذج أثناء التدريب. أنشأ علماء Google "مجموعة بيانات تضم 10000 موضع شرائح حيث يكون الإدخال هو الحالة المرتبطة بموضع معين ويكون التصنيف هو المكافأة لذلك الموضع".
ولتجنب إنشاء كل مخطط أرضي يدويًا، استخدم الباحثون مزيجًا من الخطط التي صممها الإنسان والبيانات التي تم إنشاؤها بواسطة الكمبيوتر، لا يوجد الكثير من المعلومات في الورقة حول مقدار الجهد البشري الذي تم إشراكه في تقييم الأمثلة التي تم إنشاؤها بواسطة الخوارزمية والمضمنة في مجموعة بيانات التدريب. ولكن بدون بيانات تدريب عالية الجودة، سينتهي الأمر بنماذج التعلم الخاضعة للإشراف إلى استدلالات ضعيفة.
بهذا المعنى، يختلف نظام الذكاء الاصطناعي عن برامج التعلم المعزز الأخرى مثل AlphaZero ، التي طورت سياسة اللعب دون الحاجة إلى مدخلات بشرية، في المستقبل، قد يقوم الباحثون بتطوير وكيل RL يمكنه تصميم مخططات الأرضية الخاصة به دون الحاجة إلى مكونات التعلم الخاضعة للإشراف. لكني أعتقد أنه، نظرًا لتعقيد المشكلة، هناك فرصة كبيرة لأن حل مثل هذه المشكلات سيستمر في طلب مزيج من الحدس البشري، والتعلم الآلي، والحوسبة عالية الأداء.
تصميم التعلم المعزز مقابل التصميم البشري
من بين جوانب العمل المثيرة للاهتمام التي قدمها باحثو Google تخطيط الرقائق، نحن البشر نستخدم جميع أنواع الاختصارات للتغلب على حدود أدمغتنا. لا يمكننا معالجة المشاكل المعقدة في جزء كبير واحد لكن يمكننا تصميم أنظمة هرمية معيارية لتقسيم التعقيد وقهره. لقد لعبت قدرتنا على التفكير وتصميم البنى من أعلى إلى أسفل دورًا كبيرًا في تطوير الأنظمة التي يمكنها أداء مهام معقدة للغاية.
وسأقدم مثالاً على هندسة البرمجيات، مجال خبرتي الخاص، من الناحية النظرية، يمكنك كتابة برامج كاملة في سلسلة كبيرة جدًا ومتواصلة من الأوامر في ملف واحد، لكن مطوري البرمجيات لا يكتبون أبدًا برامجهم بهذه الطريقة، نقوم بإنشاء برامج في أجزاء صغيرة ووظائف وفئات ووحدات يمكن أن تتفاعل مع بعضها البعض من خلال واجهات محددة جيدًا، ثم نقوم بتداخل هذه القطع في قطع أكبر وننشئ تدريجياً تسلسلاً هرميًا للمكونات، لا تحتاج إلى قراءة كل سطر من البرنامج لفهم ما يفعله، تمكّن Modularity مبرمجين متعددين من العمل على برنامج واحد والعديد من البرامج لإعادة استخدام المكونات التي تم إنشاؤها مسبقًا، في بعض الأحيان، يكفي مجرد النظر إلى بنية فئة البرنامج لتوجيهك في الاتجاه الصحيح لتحديد موقع الخلل أو العثور على المكان المناسب لإضافة ترقية، غالبًا ما نتاجر بالسرعة مقابل نمطية وتصميم أفضل.
ويمكن رؤية الشيء نفسه في تصميم رقائق الكمبيوتر. تميل الرقائق التي يصممها الإنسان إلى أن يكون لها حدود دقيقة بين الوحدات المختلفة، من ناحية أخرى، وجدت مخططات الطوابق التي صممها وكيل التعلم المعزز من Google أقل مسار للمقاومة ، بغض النظر عن شكل التخطيط.
ويهتم التقرير في ما إذا كان هذا سيصبح نموذجًا مستدامًا للتصميم في المستقبل أو ما إذا كان سيتطلب نوعًا من التسوية بين التصميمات التي تم إنشاؤها بواسطة التعلم الآلي المحسّن للغاية والطلب التنازلي الذي يفرضه المهندسون البشريون.
الذكاء الاصطناعي والذكاء البشري
كما يوضح مصمم الرقائق المدعوم بالتعلم المعزز من Google، ستستمر الابتكارات في أجهزة وبرامج الذكاء الاصطناعي في طلب التفكير المجرد، وإيجاد المشكلات المناسبة لحلها، وتطوير الحدس حول الحلول، واختيار النوع المناسب من البيانات للتحقق من صحة الحلول. هذه هي أنواع المهارات التي يمكن لرقائق الذكاء الاصطناعي الأفضل تحسينها ولكن لا يمكن استبدالها.
لكن هذا قد لا يدعم قصة "الذكاء الاصطناعي يتفوق على البشر"، أو "الذكاء الاصطناعي يخلق الذكاء الاصطناعي الأكثر ذكاءً" ، أو الذكاء الاصطناعي الذي يطور قدرات "التحسين الذاتي التكراري". إنه بالأحرى مظهر من مظاهر إيجاد البشر لطرق لاستخدام الذكاء الاصطناعي كأداة للتغلب على حدودهم المعرفية وتوسيع قدراتهم.