Qwen-ის მულტიმოდალური მოდელების ოჯახმა ფიზიკური სამყაროს აღქმის მიმართულებით მნიშვნელოვან პროგრესს მიაღწია. მიუხედავად იმისა, რომ არსებულ მოდელებს შეუძლიათ სივრცითი ურთიერთობების გარჩევა და ობიექტების იდენტიფიცირება, მოქმედება და ფიზიკური სამყაროს ცვლილება სრულიად სხვა გამოწვევაა.

ამ პრობლემის გადასაჭრელად შეიქმნა Qwen-Robot Suite, რომელიც სამი ძირითადი მოდელისგან შედგება: Qwen-RobotNav, Qwen-RobotManip და Qwen-RobotWorld. თითოეული მათგანი ენობრივ ინსტრუქციებს ფიზიკური მოქმედებების სხვადასხვა სფეროსთან აკავშირებს.

Qwen-RobotNav: მობილურობის ახალი სტანდარტი


მობილური რობოტებისთვის ყველაზე რთული ამოცანა ნავიგაციაა, რომელიც სხვადასხვა მეხსიერებას მოითხოვს. Qwen-RobotNav, რომელიც Qwen3-VL-ზეა დაფუძნებული, აერთიანებს ნავიგაციის ხუთ სფეროს: ინსტრუქციების შესრულებას, ობიექტების ძიებას, სამიზნის თვალთვალს, ავტონომიურ მართვას და წერტილოვან ნავიგაციას.

მოდელი იყენებს პარამეტრულ ინტერფეისს, რაც მას საშუალებას აძლევს, დინამიკურად შეცვალოს ნავიგაციის სტრატეგია. მაგალითად, მაღალი დონის დამგეგმავი (Qwen3.7-Plus) რთულ დავალებებს ქვემოთა საფეხურებად შლის, რასაც რობოტი თანმიმდევრულად ასრულებს.

ტესტირებისას, Unitree Go2-ის ტიპის რობოტმა, მხოლოდ ჩაშენებული დაბალი გარჩევადობის კამერით, შეძლო რთული სივრცითი დავალებების შესრულება, მათ შორის - საპირისპირო მიმართულებით ზუსტი ნავიგაცია 20 მეტრზე მეტ დისტანციაზე.

Qwen-RobotManip: ურთიერთქმედება რეალურ სამყაროსთან


ფიზიკური აგენტები ხშირად აწყდებიან პრობლემას, როდესაც სხვადასხვა კონსტრუქციის რობოტს ერთი და იმავე მოქმედების შესრულება მოეთხოვება. Qwen-RobotManip ამ ბარიერს 80-განზომილებიანი ერთიანი სახელმწიფო-მოქმედების წარმოდგენით ხსნის.

მოდელი გაწვრთნილია 38,100 საათზე მეტ მონაცემთა ბაზაზე, რომელიც მოიცავს როგორც რობოტების დემონსტრაციებს, ისე ადამიანების მოქმედებების ვიდეოებს. ეს მოდელს აძლევს უნარს, მოახდინოს „ნულოვანი კადრის“ (zero-shot) გენერალიზაცია და შეცდომების გამოსწორება.

Qwen-RobotWorld: სამყაროს დინამიკის პროგნოზირება


Qwen-RobotWorld რობოტიკის სამყაროში არსებულ მონაცემთა დეფიციტს ავსებს. მოდელი პროგნოზირებს, თუ როგორ შეიცვლება ფიზიკური გარემო მოქმედების შემდეგ. ის იყენებს ენობრივ ინტერფეისს, რაც აერთიანებს 20-ზე მეტ რობოტულ სხეულს და 500-ზე მეტ მოქმედების კატეგორიას ერთიან სისტემაში.