როგორ აუმჯობესებს AI საკუთარ მუშაობას: AGENTS.md-ის ევოლუცია

პროგრამისტმა Codex-ის დახმარებით AGENTS.md-ის ინსტრუქციები ტესტირების საფუძველზე ოპტიმიზაცია გაუკეთა, რაც რეალურ შედეგებზე აისახა.

დავით ფირცხალავა

29 მაისი, 2026 · 06:262 წუთის წასაკითხი

AI აგენტის მუშაობის ოპტიმიზაციის სქემა — ფოტო: Hacker News

გააზიარე

რა ვიცით ჯერჯერობით

AGENTS.md არის კოდირების აგენტების მუშაობის განუყოფელი ნაწილი, რომელიც გავლენას ახდენს შედეგზე.
ინტუიციურმა ცვლილებებმა შეიძლება გააუმჯობესოს ზოგიერთი ამოცანა, მაგრამ დააზიანოს სხვები.
ვალდებულებების სისტემატიზაცია (obligation ledger) აუმჯობესებს აგენტის მიერ შესრულებული კოდის ხარისხს.
ტესტების გავლა არ ნიშნავს, რომ აგენტის მიერ არჩეული მიდგომა ოპტიმალურია.

პროგრამისტებმა კარგად იციან, რომ AGENTS.md, CLAUDE.md და მსგავსი ინსტრუქციების ფაილები მხოლოდ დოკუმენტაცია არ არის. ეს არის კოდირების სისტემის რეალური სამუშაო გარემოს ნაწილი. თუმცა, ხშირად ეს ფაილები იქმნება ინტუიციურად — „ვიბებით“ (vibe-coding), რაც ხშირად სასურველ შედეგს არ იძლევა.

მეთოდოლოგია: ინსტრუქციები როგორც ალგორითმი

ავტორმა გადაწყვიტა, Codex-ის გამოყენებით AGENTS.md-ის ინსტრუქციები არა ინტუიციურად, არამედ მონაცემებზე დაყრდნობით გაეუმჯობესებინა. ექსპერიმენტში გამოყენებული იყო gpt-5.5 მოდელი და რეალური ისტორიული ამოცანები Stet-ის რეპოზიტორიდან.

მთავარი მიზანი იყო AGENTS.md-ის ისეთი ვერსიის შექმნა, რომელიც რეალურ ამოცანებზე გაზომვად შედეგს აჩვენებდა. პროცესი მოიცავდა რვა იტერაციას, სადაც ყოველი ცვლილება გადიოდა ბენჩმარკს: სიმარტივე, კოდის ხარისხი, შესრულების სიზუსტე და ტოკენების მოხმარება.

რა მუშაობს და რა — არა

პირველი მცდელობები, რომლებიც „ჭკვიანურად“ ჟღერდა, ხშირად მარცხდებოდა. მაგალითად, ფართო წესების შემოღებამ, როგორიცაა „მოკლე სკოპი“, გამოიწვია ის, რომ აგენტმა ეს ნებართვად მიიღო, რათა მნიშვნელოვანი ვალდებულებები უგულებელეყო.

ყველაზე ეფექტური აღმოჩნდა „ვალდებულებების ჟურნალის“ (obligation ledger) კონცეფცია. აგენტს ევალებოდა ცვლილებამდე ეიდენტიფიცირა ვალდებულებები, დოკუმენტაცია და ტესტები, ხოლო შემდეგ დაედასტურებინა მათი შესრულება. ამან გააუმჯობესა კოდის ხარისხი, თანმიმდევრულობა და სიმარტივე.

რეალური შედეგები და გაკვეთილი

მას შემდეგ, რაც საუკეთესო კანდიდატი 10-ამოცანიან ტესტზე შემოწმდა, შედეგები შერეული იყო. მიუხედავად იმისა, რომ ტესტები წარმატებით გადიოდა, ზოგიერთმა მეტრიკამ, როგორიცაა სიზუსტე, მცირედით იკლო. ეს ადასტურებს, რომ ინსტრუქციების შეცვლა სახიფათოა: რაც აუმჯობესებს ერთ ტიპის დავალებას, შეიძლება აზიანებდეს მეორეს.

ექსპერიმენტმა აჩვენა, რომ მეტი პროცესი და წესები ყოველთვის არ ნიშნავს უკეთეს შედეგს. ზოგჯერ ეს მხოლოდ ზედმეტი ბიუროკრატიაა, რომელიც აგენტის მუშაობას ამძიმებს.

„ინსტრუქციების გაუმჯობესება არ ნიშნავს მხოლოდ ტოკენების დაზოგვას. ეს არის ხარისხის კომპრომისების მართვა,“ — აღნიშნავს ავტორი.

საბოლოოდ, AGENTS.md-ის ოპტიმიზაცია უნდა ეფუძნებოდეს არა ვარაუდებს, არამედ ემპირიულ მონაცემებს, რათა თავიდან ავიცილოთ სისტემური შეცდომები, რომლებიც შესაძლოა გუნდის სხვა წევრებისთვის შეუმჩნეველი დარჩეს.

რატომ აქვს ამას მნიშვნელობა

ქართულ ტექნოლოგიურ სექტორში, სადაც აგენტური სისტემების დანერგვა სულ უფრო აქტუალური ხდება, ეს კვლევა მნიშვნელოვანია. ის გვაჩვენებს, რომ AI-ის მართვა არ არის მხოლოდ მოთხოვნების წერა, არამედ საინჟინრო პროცესია, რომელიც მოითხოვს გაზომვად მიდგომას. ადგილობრივი კომპანიებისთვის, რომლებიც იყენებენ LLM-ებს კოდირების პროცესში, ეს ნიშნავს, რომ დროა, 'ვიბებით' მართვის ნაცვლად, ტესტირებადი სისტემები შექმნან.

ხშირად დასმული კითხვები

ეს არის ინსტრუქციების ფაილი, რომელიც აგენტს აძლევს მითითებებს, თუ როგორ უნდა შეასრულოს დავალებები კონკრეტულ რეპოზიტორში.
ტესტები მხოლოდ ფუნქციონალურ გამართულობას ამოწმებს, მაგრამ არ ზომავს კოდის სტილს, შენარჩუნებასა და სკოპის დისციპლინას.
ზოგიერთი წესი აგენტს ზედმეტად ზღუდავდა ან არასწორად ინტერპრეტირებდა დავალებას, რაც საერთო ხარისხის დაქვეითებას იწვევდა.

თეგები#AI #პროგრამირება #Codex #AGENTS.md #ტექნოლოგიები

ეს ამბავი ვითარდება

169 განახლება

ტექნოლოგიური რევოლუცია: AI-ის განვითარება და SpaceX-ის IPO

ტექნოლოგიური სამყარო მასშტაბური ტრანსფორმაციის პროცესშია, სადაც ხელოვნური ინტელექტის სწრაფი ინტეგრაცია პროგრამირებასა და ყოველდღიურ სერვისებში ახალ გამოწვევებსა და შესაძლებლობებს ბადებს. პარალელურად, ილონ მასკის SpaceX-ის ისტორიული IPO-ს მოლოდინი და კომპანიის ამბიციური ფინანსური გეგმები გლობალურ ბაზარზე დიდ ცვლილებებს აანონსებს. მიუხედავად ინოვაციებისა, სექტორი ებრძვის ინფრასტრუქტურულ შეზღუდვებს, უსაფრთხოების რისკებსა და საზოგადოებრივ სკეპტიციზმს. საბოლოო ჯამში, ინდუსტრია ცდილობს ბალანსის პოვნას ტექნოლოგიურ პროგრესსა და რეალურ სამყაროში არსებულ ეკონომიკურ თუ ეთიკურ გამოწვევებს შორის.