პროგრამირების სამყაროში ხელოვნური ინტელექტის როლის ზრდა მუდმივი დებატების საგანია. განსაკუთრებით მწვავედ დგას საკითხი, როდესაც საქმე ეხება ისეთ ფუნდამენტურ ინსტრუმენტებს, როგორიცაა rsync. ბოლო დროს გავრცელდა მოსაზრება, რომ Claude-ის გამოყენებამ rsync-ის განახლებებში შეცდომების რაოდენობა გაზარდა. თუმცა, სტატისტიკური ანალიზი ამ მითს საფუძველს უცლის.

შედეგების ანალიზი

პირველ რიგში, განვიხილოთ rsync-ის ორი კონკრეტული ვერსია, რომლებიც Claude-ის დახმარებით შეიქმნა: v3.4.2 და v3.4.3. ერთი შეხედვით, მათი მონაცემები საგანგაშოდ არ გამოიყურება. სტატისტიკური კვლევისთვის გამოყენებულმა „ზუსტი პერმუტაციის ტესტმა“ აჩვენა, რომ Claude-ის მიერ დაგენერირებული ვერსიები არაფრით განსხვავდება ისტორიული მონაცემებისგან.

≤ median> median
Non-Claude1817
Claude11

სინამდვილეში, თუკი თვალდახუჭული ავირჩევთ ორ ნებისმიერ ვერსიას rsync-ის ისტორიიდან, ალბათობა იმისა, რომ ისინი Claude-ის ვერსიებზე ცუდი იქნება, დაახლოებით 50%-ია. ეს ნიშნავს, რომ AI-ის გამოყენება არ ცვლის სისტემის სტაბილურობას.

Fisher-ის ზუსტი ტესტი და სტატისტიკა

კიდევ ერთი კითხვა, რომელიც მკვლევარებმა დასვეს, არის შემდეგი: უფრო სავარაუდოა თუ არა Claude-ის ვერსიები მოხვდნენ ისტორიულ მედიანაზე მაღლა? Fisher-ის ზუსტი ტესტის მიხედვით, ამ კითხვაზე პასუხი უარყოფითია. ეს ვერსიები არ არის გამორჩეული და არ არსებობს მტკიცებულება იმისა, რომ Claude-მა რაიმე გააუარესა.

ვიზუალური ანალიზი კიდევ უფრო ცხადს ხდის სურათს. v3.4.2 ვერსია, რომელსაც პრაქტიკულად არ ჰქონდა შეცდომები, მდებარეობს ინტერკვარტალური დიაპაზონის ქვემოთ, ხოლო v3.4.3 ოდნავ ზემოთ. ისინი ერთმანეთს აბალანსებენ და არცერთი მათგანი არ წარმოადგენს ნეგატიურ გამონაკლისს.

კოდის მოცულობა და ხარისხი

არსებობს არგუმენტი, რომ Claude-მა დააჩქარა კოდის წერა, რამაც შესაძლოა შეცდომების ზრდა გამოიწვია. თუმცა, მონაცემები აჩვენებს, რომ Claude-ის ვერსიებში ცვლილებების რაოდენობა გაცილებით მეტი იყო, ვიდრე ისტორიულად, მაგრამ შეცდომების აბსოლუტური რაოდენობა არ გაზრდილა. მეტი კოდი, იგივე რაოდენობის შეცდომებით — ეს არის შედეგი, რომელიც არ შეესაბამება მოსაზრებას AI-ის საზიანო გავლენაზე.

საინტერესოა ისიც, რომ rsync-ის ისტორიაში ყველაზე ცუდი ვერსია შეიქმნა Claude-ის გამოჩენამდე დიდი ხნით ადრე. მაშინ ამას არ მოჰყოლია საჯარო კრიტიკა, საფრთხეები ან პროექტის ჩანგლის (fork) შექმნის მოთხოვნები. როგორც ჩანს, ამჟამინდელი კრიტიკა უფრო მიმართულია არა თავად კოდის, არამედ AI-ის, როგორც „სამიზნეს“ მიმართ.

ReleaseBugsSevCommitsClaudeBugs/10cSev/10c ↕Percentile
v2.4.621.21301.540.9254th percentile
v2.5.041.37300.550.1811th percentile
v2.5.141.86900.580.2620th percentile
v2.5.262.911700.510.2514th percentile
v2.5.453.52102.381.6469th percentile
v2.5.52211.68802.501.3263rd percentile
v2.5.6146.623900.590.2823rd percentile
v2.6.084.726700.300.189th percentile
v2.6.153.344400.110.080th percentile
v2.6.22916.817017.069.8894th percentile
v2.6.34922.738101.290.5934th percentile
v2.6.4229.476000.290.126th percentile
v2.6.5167.114601.100.4931st percentile
v2.6.7155.864900.230.093rd percentile
v2.6.8125.47201.670.7449th percentile
v2.6.95318.826102.030.7243rd percentile
v3.0.06427.990900.700.3126th percentile
v3.0.164.010200.590.4029th percentile
v3.0.2104.19011.114.5680th percentile
v3.0.32210.85504.001.9671st percentile
v3.1.017052.457102.980.9251st percentile
v3.1.16832.166010.304.8683rd percentile
v3.1.25518.45709.653.2274th percentile
v3.1.38530.961013.935.0786th percentile
v3.2.0227.830400.720.2517th percentile
v3.2.174.56301.110.7246th percentile
v3.2.2138.85802.241.5166th percentile
v3.2.39555.315706.053.5277th percentile
v3.2.42014.321300.940.6740th percentile
v3.2.595.55301.701.0457th percentile
v3.2.663.22802.141.1360th percentile
v3.2.78852.460014.678.7391st percentile
v3.3.04225.338011.056.6689th percentile
v3.4.064.06001.000.6637th percentile
v3.4.15935.59065.5639.3997th percentile
v3.4.200.05090.000.000th percentile
v3.4.31711.234285.003.2977th percentile