DeepSWE: კოდირების AI-სატესტო სისტემა ახალი სტანდარტებით

ახალი ბენჩმარკი პროგრამული უზრუნველყოფის შემქმნელი აგენტების შესაძლებლობებს სრულყოფილად და დაბინძურების გარეშე აფასებს.

დიმიტრი ჟვანია

27 მაისი, 2026 · 00:452 წუთის წასაკითხი

AI პროგრამირების აგენტების ტესტირების პროცესი — ფოტო: Hacker News

გააზიარე

პროგრამული უზრუნველყოფის შემქმნელი ხელოვნური ინტელექტის აგენტების შეფასება სულ უფრო რთული ხდება. არსებული ბენჩმარკები ხშირად ვერ ზომავენ აგენტების რეალურ შესაძლებლობებს, რადგან მათში არსებული მონაცემები უკვე ცნობილია მოდელებისთვის ან მათი შეფასების სისტემები ხარვეზიანია. DeepSWE ამ პრობლემას ახალი მიდგომით პასუხობს.

რა არის DeepSWE?

DeepSWE წარმოადგენს ინჟინერიაზე ორიენტირებულ ბენჩმარკს, რომელიც აგენტებს რთულ, გრძელვადიან ამოცანებს სთავაზობს. სისტემა მოიცავს 113 დავალებას 91 სხვადასხვა ღია კოდის რეპოზიტორიდან, რაც მას ბევრად უფრო მრავალფეროვანს ხდის, ვიდრე არსებული ალტერნატივები.

მნიშვნელოვანია, რომ ყველა დავალება ორიგინალია და არ არის აღებული არსებული GitHub-ის ქომითებიდან. ეს გამორიცხავს „დაბინძურების“ რისკს, როდესაც მოდელს უკვე ნანახი აქვს პრობლემის გადაწყვეტა და უბრალოდ იხსენებს მას.

განსხვავება არსებული ბენჩმარკებისგან

მკვლევარებმა შეამოწმეს წამყვანი ბენჩმარკი SWE-bench Pro და აღმოაჩინეს, რომ მისი შეფასების სისტემა ხშირად ცდება. კერძოდ, დაფიქსირდა 8%-იანი ცრუ დადებითი და 24%-იანი ცრუ უარყოფითი შედეგი. DeepSWE-ის შემთხვევაში, შეცდომის მაჩვენებელი მხოლოდ 1.4%-ია.

DeepSWE-ის დავალებები აგენტებს აიძულებს, დამოუკიდებლად გამოიკვლიონ კოდის ბაზა და იპოვონ ოპტიმალური გადაწყვეტა. სისტემა არ ზღუდავს აგენტს კონკრეტული სტრუქტურით; მთავარია, რომ კოდი ასრულებდეს მოთხოვნილ ფუნქციას და ინარჩუნებდეს სისტემის სტაბილურობას.

ხარისხის კონტროლი

თითოეული დავალება გადის მკაცრ შემოწმებას:

ყოველი გადაწყვეტა მოწმდება ავტომატური ვერიფიკატორით.
შემოწმება ხდება სამჯერ, რათა გამოირიცხოს შემთხვევითი ცდომილებები.
გადაწყვეტა უნდა გადიოდეს არა მხოლოდ ახალ, არამედ რეპოზიტორის არსებულ ტესტებსაც.
თითოეულ დავალებას გადის დამოუკიდებელი ადამიანური და AI-ანალიზი.

ეს მიდგომა უზრუნველყოფს, რომ მიღებული ქულები ასახავდეს აგენტის რეალურ ინჟინრულ უნარებს და არა უბრალოდ მონაცემთა ბაზაში არსებული პასუხების რეპროდუქციას.

რატომ აქვს ამას მნიშვნელობა

ტექნოლოგიური სექტორი საქართველოში სწრაფად ვითარდება და ადგილობრივი დეველოპერები უკვე აქტიურად იყენებენ AI-ინსტრუმენტებს სამუშაო პროცესებში. DeepSWE-ის მსგავსი სისტემები ქართველ ინჟინრებს აძლევს საშუალებას, უფრო კრიტიკულად შეაფასონ, თუ რომელი AI-აგენტია რეალურად გამოსადეგი და სანდო რთული პროგრამული ამოცანების გადასაჭრელად, რაც ზრდის პროდუქტიულობას და ამცირებს შეცდომების რისკს.

თეგები#AI #პროგრამირება #DeepSWE #ტექნოლოგიები #ინჟინერია

მოგეწონა ეს ამბავი?მოვარგებ შენს „შენთვის" ფიდს.

ხშირად დასმული კითხვები

ის იყენებს მხოლოდ ორიგინალურ დავალებებს, რაც გამორიცხავს მოდელების მიერ გადაწყვეტილებების დაზეპირებას.
DeepSWE მოიცავს TypeScript, Go, Python, JavaScript და Rust ენებს.
დიახ, ბენჩმარკი ხელმისაწვდომია GitHub-ზე და ნებისმიერ მსურველს შეუძლია საკუთარი აგენტის ტესტირება.

დისკუსია

0 კომენტარი

ჯერ კომენტარი არ არის — იყავი პირველი.

გააგრძელე კითხვა

მეტი ტექნოლოგია

ეთიკური ჰაკერი კომპიუტერთან მუშაობის დროს

ტექნოლოგია

რა არის DeepSWE?

განსხვავება არსებული ბენჩმარკებისგან

ხარისხის კონტროლი

ხშირად დასმული კითხვები

გააგრძელე კითხვა

ხელოვნური ინტელექტი ჰაკერების პროფესიას ცვლის: ეთიკური ჰაკერების გაფრთხილება

ვატიკანის ენციკლიკა ხელოვნური ინტელექტის შესახებ: დაწერეს თუ არა ის რობოტებმა?

DuckDuckGo-ს პოპულარობა iPhone-ებზე იზრდება: მიზეზი Google I/O-ა

აშშ-ის კოსმოსური ძალები მთვარეზე სამხედროების გაგზავნას გეგმავს