პროგრამირების სამყაროში ხელოვნური ინტელექტის როლის ზრდა მუდმივი დებატების საგანია. განსაკუთრებით მწვავედ დგას საკითხი, როდესაც საქმე ეხება ისეთ ფუნდამენტურ ინსტრუმენტებს, როგორიცაა rsync. ბოლო დროს გავრცელდა მოსაზრება, რომ Claude-ის გამოყენებამ rsync-ის განახლებებში შეცდომების რაოდენობა გაზარდა. თუმცა, სტატისტიკური ანალიზი ამ მითს საფუძველს უცლის.
შედეგების ანალიზი
პირველ რიგში, განვიხილოთ rsync-ის ორი კონკრეტული ვერსია, რომლებიც Claude-ის დახმარებით შეიქმნა: v3.4.2 და v3.4.3. ერთი შეხედვით, მათი მონაცემები საგანგაშოდ არ გამოიყურება. სტატისტიკური კვლევისთვის გამოყენებულმა „ზუსტი პერმუტაციის ტესტმა“ აჩვენა, რომ Claude-ის მიერ დაგენერირებული ვერსიები არაფრით განსხვავდება ისტორიული მონაცემებისგან.
| ≤ median | > median | |
|---|---|---|
| Non-Claude | 18 | 17 |
| Claude | 1 | 1 |
სინამდვილეში, თუკი თვალდახუჭული ავირჩევთ ორ ნებისმიერ ვერსიას rsync-ის ისტორიიდან, ალბათობა იმისა, რომ ისინი Claude-ის ვერსიებზე ცუდი იქნება, დაახლოებით 50%-ია. ეს ნიშნავს, რომ AI-ის გამოყენება არ ცვლის სისტემის სტაბილურობას.
Fisher-ის ზუსტი ტესტი და სტატისტიკა
კიდევ ერთი კითხვა, რომელიც მკვლევარებმა დასვეს, არის შემდეგი: უფრო სავარაუდოა თუ არა Claude-ის ვერსიები მოხვდნენ ისტორიულ მედიანაზე მაღლა? Fisher-ის ზუსტი ტესტის მიხედვით, ამ კითხვაზე პასუხი უარყოფითია. ეს ვერსიები არ არის გამორჩეული და არ არსებობს მტკიცებულება იმისა, რომ Claude-მა რაიმე გააუარესა.
ვიზუალური ანალიზი კიდევ უფრო ცხადს ხდის სურათს. v3.4.2 ვერსია, რომელსაც პრაქტიკულად არ ჰქონდა შეცდომები, მდებარეობს ინტერკვარტალური დიაპაზონის ქვემოთ, ხოლო v3.4.3 ოდნავ ზემოთ. ისინი ერთმანეთს აბალანსებენ და არცერთი მათგანი არ წარმოადგენს ნეგატიურ გამონაკლისს.
კოდის მოცულობა და ხარისხი
არსებობს არგუმენტი, რომ Claude-მა დააჩქარა კოდის წერა, რამაც შესაძლოა შეცდომების ზრდა გამოიწვია. თუმცა, მონაცემები აჩვენებს, რომ Claude-ის ვერსიებში ცვლილებების რაოდენობა გაცილებით მეტი იყო, ვიდრე ისტორიულად, მაგრამ შეცდომების აბსოლუტური რაოდენობა არ გაზრდილა. მეტი კოდი, იგივე რაოდენობის შეცდომებით — ეს არის შედეგი, რომელიც არ შეესაბამება მოსაზრებას AI-ის საზიანო გავლენაზე.
საინტერესოა ისიც, რომ rsync-ის ისტორიაში ყველაზე ცუდი ვერსია შეიქმნა Claude-ის გამოჩენამდე დიდი ხნით ადრე. მაშინ ამას არ მოჰყოლია საჯარო კრიტიკა, საფრთხეები ან პროექტის ჩანგლის (fork) შექმნის მოთხოვნები. როგორც ჩანს, ამჟამინდელი კრიტიკა უფრო მიმართულია არა თავად კოდის, არამედ AI-ის, როგორც „სამიზნეს“ მიმართ.
| Release | Bugs | Sev | Commits | Claude | Bugs/10c | Sev/10c ↕ | Percentile |
|---|---|---|---|---|---|---|---|
| v2.4.6 | 2 | 1.2 | 13 | 0 | 1.54 | 0.92 | 54th percentile |
| v2.5.0 | 4 | 1.3 | 73 | 0 | 0.55 | 0.18 | 11th percentile |
| v2.5.1 | 4 | 1.8 | 69 | 0 | 0.58 | 0.26 | 20th percentile |
| v2.5.2 | 6 | 2.9 | 117 | 0 | 0.51 | 0.25 | 14th percentile |
| v2.5.4 | 5 | 3.5 | 21 | 0 | 2.38 | 1.64 | 69th percentile |
| v2.5.5 | 22 | 11.6 | 88 | 0 | 2.50 | 1.32 | 63rd percentile |
| v2.5.6 | 14 | 6.6 | 239 | 0 | 0.59 | 0.28 | 23rd percentile |
| v2.6.0 | 8 | 4.7 | 267 | 0 | 0.30 | 0.18 | 9th percentile |
| v2.6.1 | 5 | 3.3 | 444 | 0 | 0.11 | 0.08 | 0th percentile |
| v2.6.2 | 29 | 16.8 | 17 | 0 | 17.06 | 9.88 | 94th percentile |
| v2.6.3 | 49 | 22.7 | 381 | 0 | 1.29 | 0.59 | 34th percentile |
| v2.6.4 | 22 | 9.4 | 760 | 0 | 0.29 | 0.12 | 6th percentile |
| v2.6.5 | 16 | 7.1 | 146 | 0 | 1.10 | 0.49 | 31st percentile |
| v2.6.7 | 15 | 5.8 | 649 | 0 | 0.23 | 0.09 | 3rd percentile |
| v2.6.8 | 12 | 5.4 | 72 | 0 | 1.67 | 0.74 | 49th percentile |
| v2.6.9 | 53 | 18.8 | 261 | 0 | 2.03 | 0.72 | 43rd percentile |
| v3.0.0 | 64 | 27.9 | 909 | 0 | 0.70 | 0.31 | 26th percentile |
| v3.0.1 | 6 | 4.0 | 102 | 0 | 0.59 | 0.40 | 29th percentile |
| v3.0.2 | 10 | 4.1 | 9 | 0 | 11.11 | 4.56 | 80th percentile |
| v3.0.3 | 22 | 10.8 | 55 | 0 | 4.00 | 1.96 | 71st percentile |
| v3.1.0 | 170 | 52.4 | 571 | 0 | 2.98 | 0.92 | 51st percentile |
| v3.1.1 | 68 | 32.1 | 66 | 0 | 10.30 | 4.86 | 83rd percentile |
| v3.1.2 | 55 | 18.4 | 57 | 0 | 9.65 | 3.22 | 74th percentile |
| v3.1.3 | 85 | 30.9 | 61 | 0 | 13.93 | 5.07 | 86th percentile |
| v3.2.0 | 22 | 7.8 | 304 | 0 | 0.72 | 0.25 | 17th percentile |
| v3.2.1 | 7 | 4.5 | 63 | 0 | 1.11 | 0.72 | 46th percentile |
| v3.2.2 | 13 | 8.8 | 58 | 0 | 2.24 | 1.51 | 66th percentile |
| v3.2.3 | 95 | 55.3 | 157 | 0 | 6.05 | 3.52 | 77th percentile |
| v3.2.4 | 20 | 14.3 | 213 | 0 | 0.94 | 0.67 | 40th percentile |
| v3.2.5 | 9 | 5.5 | 53 | 0 | 1.70 | 1.04 | 57th percentile |
| v3.2.6 | 6 | 3.2 | 28 | 0 | 2.14 | 1.13 | 60th percentile |
| v3.2.7 | 88 | 52.4 | 60 | 0 | 14.67 | 8.73 | 91st percentile |
| v3.3.0 | 42 | 25.3 | 38 | 0 | 11.05 | 6.66 | 89th percentile |
| v3.4.0 | 6 | 4.0 | 60 | 0 | 1.00 | 0.66 | 37th percentile |
| v3.4.1 | 59 | 35.5 | 9 | 0 | 65.56 | 39.39 | 97th percentile |
| v3.4.2 | 0 | 0.0 | 50 | 9 | 0.00 | 0.00 | 0th percentile |
| v3.4.3 | 17 | 11.2 | 34 | 28 | 5.00 | 3.29 | 77th percentile |





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.