პროგრამული უზრუნველყოფის შემქმნელი ხელოვნური ინტელექტის აგენტების შეფასება სულ უფრო რთული ხდება. არსებული ბენჩმარკები ხშირად ვერ ზომავენ აგენტების რეალურ შესაძლებლობებს, რადგან მათში არსებული მონაცემები უკვე ცნობილია მოდელებისთვის ან მათი შეფასების სისტემები ხარვეზიანია. DeepSWE ამ პრობლემას ახალი მიდგომით პასუხობს.
რა არის DeepSWE?
DeepSWE წარმოადგენს ინჟინერიაზე ორიენტირებულ ბენჩმარკს, რომელიც აგენტებს რთულ, გრძელვადიან ამოცანებს სთავაზობს. სისტემა მოიცავს 113 დავალებას 91 სხვადასხვა ღია კოდის რეპოზიტორიდან, რაც მას ბევრად უფრო მრავალფეროვანს ხდის, ვიდრე არსებული ალტერნატივები.
მნიშვნელოვანია, რომ ყველა დავალება ორიგინალია და არ არის აღებული არსებული GitHub-ის ქომითებიდან. ეს გამორიცხავს „დაბინძურების“ რისკს, როდესაც მოდელს უკვე ნანახი აქვს პრობლემის გადაწყვეტა და უბრალოდ იხსენებს მას.
განსხვავება არსებული ბენჩმარკებისგან
მკვლევარებმა შეამოწმეს წამყვანი ბენჩმარკი SWE-bench Pro და აღმოაჩინეს, რომ მისი შეფასების სისტემა ხშირად ცდება. კერძოდ, დაფიქსირდა 8%-იანი ცრუ დადებითი და 24%-იანი ცრუ უარყოფითი შედეგი. DeepSWE-ის შემთხვევაში, შეცდომის მაჩვენებელი მხოლოდ 1.4%-ია.
DeepSWE-ის დავალებები აგენტებს აიძულებს, დამოუკიდებლად გამოიკვლიონ კოდის ბაზა და იპოვონ ოპტიმალური გადაწყვეტა. სისტემა არ ზღუდავს აგენტს კონკრეტული სტრუქტურით; მთავარია, რომ კოდი ასრულებდეს მოთხოვნილ ფუნქციას და ინარჩუნებდეს სისტემის სტაბილურობას.
ხარისხის კონტროლი
თითოეული დავალება გადის მკაცრ შემოწმებას:
- ყოველი გადაწყვეტა მოწმდება ავტომატური ვერიფიკატორით.
- შემოწმება ხდება სამჯერ, რათა გამოირიცხოს შემთხვევითი ცდომილებები.
- გადაწყვეტა უნდა გადიოდეს არა მხოლოდ ახალ, არამედ რეპოზიტორის არსებულ ტესტებსაც.
- თითოეულ დავალებას გადის დამოუკიდებელი ადამიანური და AI-ანალიზი.
ეს მიდგომა უზრუნველყოფს, რომ მიღებული ქულები ასახავდეს აგენტის რეალურ ინჟინრულ უნარებს და არა უბრალოდ მონაცემთა ბაზაში არსებული პასუხების რეპროდუქციას.







დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.