პროგრამისტებმა კარგად იციან, რომ AGENTS.md, CLAUDE.md და მსგავსი ინსტრუქციების ფაილები მხოლოდ დოკუმენტაცია არ არის. ეს არის კოდირების სისტემის რეალური სამუშაო გარემოს ნაწილი. თუმცა, ხშირად ეს ფაილები იქმნება ინტუიციურად — „ვიბებით“ (vibe-coding), რაც ხშირად სასურველ შედეგს არ იძლევა.
მეთოდოლოგია: ინსტრუქციები როგორც ალგორითმი
ავტორმა გადაწყვიტა, Codex-ის გამოყენებით AGENTS.md-ის ინსტრუქციები არა ინტუიციურად, არამედ მონაცემებზე დაყრდნობით გაეუმჯობესებინა. ექსპერიმენტში გამოყენებული იყო gpt-5.5 მოდელი და რეალური ისტორიული ამოცანები Stet-ის რეპოზიტორიდან.
მთავარი მიზანი იყო AGENTS.md-ის ისეთი ვერსიის შექმნა, რომელიც რეალურ ამოცანებზე გაზომვად შედეგს აჩვენებდა. პროცესი მოიცავდა რვა იტერაციას, სადაც ყოველი ცვლილება გადიოდა ბენჩმარკს: სიმარტივე, კოდის ხარისხი, შესრულების სიზუსტე და ტოკენების მოხმარება.
რა მუშაობს და რა — არა
პირველი მცდელობები, რომლებიც „ჭკვიანურად“ ჟღერდა, ხშირად მარცხდებოდა. მაგალითად, ფართო წესების შემოღებამ, როგორიცაა „მოკლე სკოპი“, გამოიწვია ის, რომ აგენტმა ეს ნებართვად მიიღო, რათა მნიშვნელოვანი ვალდებულებები უგულებელეყო.
ყველაზე ეფექტური აღმოჩნდა „ვალდებულებების ჟურნალის“ (obligation ledger) კონცეფცია. აგენტს ევალებოდა ცვლილებამდე ეიდენტიფიცირა ვალდებულებები, დოკუმენტაცია და ტესტები, ხოლო შემდეგ დაედასტურებინა მათი შესრულება. ამან გააუმჯობესა კოდის ხარისხი, თანმიმდევრულობა და სიმარტივე.
რეალური შედეგები და გაკვეთილი
მას შემდეგ, რაც საუკეთესო კანდიდატი 10-ამოცანიან ტესტზე შემოწმდა, შედეგები შერეული იყო. მიუხედავად იმისა, რომ ტესტები წარმატებით გადიოდა, ზოგიერთმა მეტრიკამ, როგორიცაა სიზუსტე, მცირედით იკლო. ეს ადასტურებს, რომ ინსტრუქციების შეცვლა სახიფათოა: რაც აუმჯობესებს ერთ ტიპის დავალებას, შეიძლება აზიანებდეს მეორეს.
ექსპერიმენტმა აჩვენა, რომ მეტი პროცესი და წესები ყოველთვის არ ნიშნავს უკეთეს შედეგს. ზოგჯერ ეს მხოლოდ ზედმეტი ბიუროკრატიაა, რომელიც აგენტის მუშაობას ამძიმებს.
„ინსტრუქციების გაუმჯობესება არ ნიშნავს მხოლოდ ტოკენების დაზოგვას. ეს არის ხარისხის კომპრომისების მართვა,“ — აღნიშნავს ავტორი.
საბოლოოდ, AGENTS.md-ის ოპტიმიზაცია უნდა ეფუძნებოდეს არა ვარაუდებს, არამედ ემპირიულ მონაცემებს, რათა თავიდან ავიცილოთ სისტემური შეცდომები, რომლებიც შესაძლოა გუნდის სხვა წევრებისთვის შეუმჩნეველი დარჩეს.





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.