مايكروسوفت: معيار مبتكر لتدريب الروبوتات على التخطيط والتطبيق

طورت “مايكروسوفت”، بالتعاون مع فريق من الباحثين الأكاديميين، معيارًا جديدًا أُطلق عليه اسم “GroundedPlanBench”، وذلك لمعالجة إحدى المشكلات المستمرة في مجال الروبوتات. تتمثل هذه المشكلة في الصعوبة التي تواجهها الروبوتات في اتخاذ قرار بشأن “ما يجب فعله وأين يجب فعله في الوقت نفسه”.

تعتمد معظم الأنظمة الحالية على تقسيم هذه القرارات إلى مرحلتين: في البداية، يقوم نموذج لغوي بصري بإنشاء خطة نصية، ثم يحول نموذج آخر هذه الخطة إلى أفعال ملموسة. إلا أن هذا الفصل غالبًا ما يتسبب في حدوث أخطاء، حتى في المهام البسيطة. على سبيل المثال، عندما يُطلب من روبوت التخلص من أكواب ورقية، قد يختار الكوب الخاطئ أو يقوم بتنفيذ خطوات لم تُطلب منه. تزداد هذه الأخطاء بشكل خاص في البيئات المزدحمة.

لمعالجة هذه المشكلة، تم تصميم “GroundedPlanBench” لاختبار قدرة نماذج الذكاء الاصطناعي على “تخطيط المهام مع تحديد الموقع الدقيق لكل إجراء”. فبدلًا من الاعتماد على النصوص فقط، يتم ربط كل إجراء بموقع محدد في الصورة. ترتبط الأفعال الأساسية، مثل الإمساك والوضع والفتح والإغلاق، بالأشياء أو المواقع، مما يجبر النظام على الربط بين القرارات والعالم المادي.

يحتوي المعيار على أكثر من 1000 مهمة مأخوذة من تفاعلات روبوتية واقعية، تتراوح بين التعليمات المباشرة، مثل وضع ملعقة على طبق، والتعليمات المفتوحة، مثل ترتيب الطاولة. هذا التنوع ضروري لأن الروبوتات غالبًا ما تفشل عندما تكون التعليمات غامضة.

في أحد الأمثلة، طُلب من النظام وضع أربعة مناشف على أريكة، لكنه اختار نفس المنشفة عدة مرات لأن الوصف لم يكن واضحًا. حتى العبارات المفصلة مثل “المنشفة العليا اليسرى” لم تكن دقيقة بما يكفي للتنفيذ الموثوق. وأشار الباحثون إلى أن “اللغة الغامضة تؤدي إلى إجراءات غير قابلة للتنفيذ”، مسلطين الضوء على أحد قيود الأنظمة الحالية.

لتحسين الأداء، طور الفريق طريقة تدريبية جديدة تسمى “Video-to-Spatially Grounded Planning (V2GP)”، تتعلم من مقاطع الفيديو للروبوتات أثناء تنفيذ المهام. تكتشف هذه الطريقة التفاعل مع الأشياء، وتحددها، وتتابع مواقعها. النتيجة هي خطة منظمة تربط كل إجراء بموقع محدد.

باستخدام هذه الطريقة، تم إنشاء أكثر من 40,000 خطة مترابطة، تتراوح بين إجراءات بسيطة من خطوة واحدة إلى سلاسل أطول تصل إلى 26 خطوة. وعندما تم تدريب النماذج على هذه البيانات، تحسنت قدرتها على اختيار الإجراءات الصحيحة وربطها بالأشياء الصحيحة، كما قللت من الأخطاء المتكررة مثل العمل على نفس العنصر عدة مرات.

ومع ذلك، لا تزال هناك تحديات، خاصة مع المهام الطويلة والمعقدة أو التعليمات غير المباشرة. يقول الباحثون: “يجب على النماذج التفكير في سلسلة طويلة من الإجراءات والحفاظ على الاتساق عبر عدة خطوات”.

أظهرت المقارنة مع الأنظمة التقليدية التي تفصل بين التخطيط والتحديد المكاني أنها تواجه صعوبة في التعامل مع الغموض، وغالبًا ما تطابق عدة إجراءات مع نفس الكائن أو الموقع. لكن الجمع بين الخطوتين في عملية واحدة يقلل من هذا الخلل، ويحافظ على ربط القرارات الخاصة بالإجراءات والمواقع بشكل متماسك.

يشير الفريق إلى أن العمل المستقبلي قد يدمج هذا النهج مع نماذج تنبؤية تتوقع نتائج الإجراءات قبل تنفيذها، مما قد يساعد الروبوتات على تجنب الأخطاء في الوقت الفعلي.

توضح النتائج الحالية اتجاهًا واضحًا في مجال الروبوتات: “الأنظمة التي تفهم الأفعال والمواقع معًا هي الأكثر قدرة على العمل بفعالية في البيئات الواقعية”.