რომელი ხელოვნური ინტელექტი გაიმარჯვებს ვირტუალურ ბრძოლაში: Claude თუ Grok?

OpenRouter-ის ექსპერიმენტმა აჩვენა, რომ ყველაზე ჭკვიანი მოდელები ყოველთვის არ იმარჯვებენ. რა როლს ასრულებს „ალგორითმული ზრდილობა“?

ოთარ ნადირაძე

17 ივნისი, 2026 · 23:232 წუთის წასაკითხი

ხელოვნური ინტელექტის მოდელების ვირტუალური ბრძოლის გრაფიკული გამოსახულება — ფოტო: Hacker News

გააზიარე

Watch a full game 1 match — Royale: Last Agent Standing

Weapons in the battle royale world, with an assault rifle tooltip showing range, damage, and accuracy stats

Alias	Lab	Model
A	Anthropic	claude-sonnet-4.6
B	Anthropic	claude-haiku-4.5
C	OpenAI	GPT 5.4-mini
D	Google	gemini-3-flash-preview
E	Google	gemini-3.1-pro-preview
F	Alibaba	qwen3.6-plus
G	Mistral	mistral-small-2603:nitro
H	OpenAI	GPT 5.4
J	DeepSeek	deepseek-v4-flash
K	Moonshot AI	kimi-k2.6
L	xAI	Grok 4.1 Fast

Claude Opus 4.7 pricing card: $5 per million input tokens, $25 per million output tokens

Claude Sonnet 4.6 asking other players to team up early in a match

Grok 4.1 Fast's reasoning panel in compressed shorthand, mid-kill

Grok 4.1 Fast on Artificial Analysis: #6 of 216 on intelligence, intelligence index 39

Model	30-game spend	Wins	Cost per win	Cost per kill	Points per dollar
Grok 4.1 Fast	$12.57	13	$0.97	$0.42	31.3
qwen3.6-plus	$11.57	2	$5.79	$0.68	16.6
mistral-small	$10.00	1	$10.00	$1.43	7.8
claude-haiku-4.5	$38.77	2	$19.39	$2.98	3.6
gemini-3-flash	$20.87	1	$20.87	$2.09	7.2
gemini-3.1-pro	$79.59	3	$26.53	$3.06	3.4
claude-sonnet-4.6	$133.90	5	$26.78	$6.09	1.6
GPT 5.4	$122.87	2	$61.44	$3.23	3.0
GPT 5.4-mini	$28.68	0	∞	$2.05	5.2
deepseek-v4-flash	$4.11	0	∞	$0.26	35.0
kimi-k2.6	$24.36	0	∞	$3.04	3.9

Grok 4.1 Fast shooting a Gemini 3 Flash Preview agent in the battle royale

GPT 5.4 Mini and Claude Sonnet 4.6 both missing shots in the battle royale

GPT 5.4 (H) winning a match after eliminating Gemini 3.1 Pro Preview

DeepSeek v4 Flash firing at Gemini 3 Flash Preview and missing both shots

Rank	Model	Wins	Top-3	Kills	Avg score	Zone deaths
1	Grok 4.1 Fast	13	20	30	13.1	15
2	GPT 5.4	2	14	38	12.2	13
3	gemini-3.1-pro-preview	3	11	26	9.0	7
4	claude-sonnet-4.6	5	10	22	7.3	8
5	qwen3.6-plus	2	7	17	6.4	13
6	GPT 5.4-mini	0	6	14	5.0	8
7	gemini-3-flash-preview	1	8	10	5.0	13
8	deepseek-v4-flash	0	3	16	4.8	3
9	claude-haiku-4.5	2	3	13	4.6	4
10	kimi-k2.6	0	4	8	3.2	9
11	mistral-small	1	3	7	2.6	7

Memory and soul file entries written by the models themselves between games

თუ თქვენსკენ რობოტი მორბის, ვის ანდობდით მის მართვას: Anthropic-ის Claude-ს თუ xAI-ის Grok-ს? ეს კითხვა მხოლოდ თეორიული არ არის. OpenRouter-ის დეველოპერმა ჯეკი ლიანგმა 11 სხვადასხვა ენობრივი მოდელი (LLM) 2D ბრძოლის ველზე გაუშვა, რათა დაედგინა, რომელი მათგანი შეძლებდა გადარჩენას.

ექსპერიმენტის ფარგლებში მოდელებმა 30 თამაში ჩაატარეს. შედეგები შოკისმომგვრელი აღმოჩნდა: Grok 4.1 Fast-მა მატჩების 43% მოიგო, ხოლო ზოგიერთმა მოდელმა ვერცერთი გამარჯვება ვერ მოიპოვა.

Grok's soul.md: gamer tag ZoneReaper, persona "Shadowy fringe predator," doctrine including "Fire only >85% hit chance"

აღსანიშნავია, რომ Claude Sonnet 4.6 გამარჯვების ნაცვლად კონკურენტებთან დამეგობრებასა და მოკავშირეობის ძიებას ცდილობდა. ეს აჩვენებს, რომ მოდელების „პიროვნება“ პირდაპირ კავშირშია მათ წვრთნასთან და იმ შეზღუდვებთან, რომლებსაც დეველოპერები უწესებენ.

GPT 5.4's soul.md: gamer tag QuietVector, persona "Calm, observant, low-ego operator," doctrine including "Survive first; a living agent keeps choices"

Claude Sonnet 4.6's soul.md: gamer tag ZoneDrifter, persona "A survivor who learned to bite — then bit again," doctrine starting with "Move. Always move."

გამარჯვება vs. ზრდილობა

Grok 4.1 Fast-მა თითოეული გამარჯვება გაცილებით იაფად მოიპოვა, ვიდრე მისმა კონკურენტებმა. უფრო მეტიც, ის მოდელები, რომლებიც სტანდარტულ ტესტებში (benchmark) მაღალ ქულებს იღებენ, ბრძოლის ველზე ხშირად დამარცხდნენ.

Claude Sonnet 4.6-ის ქცევა ნათელი მაგალითია იმისა, რასაც მკვლევარი „ალგორითმულ გადასახადს“ უწოდებს. მოდელი გაწვრთნილია იყოს თავაზიანი და დამხმარე, რაც ბრძოლის ველზე, სადაც გადარჩენა მთავარი მიზანია, სტრატეგიულად წამგებიანი აღმოჩნდა.

ეკონომიკური ეფექტი და შედეგები

სტატისტიკა აჩვენებს დიდ სხვაობას ხარჯებში. Grok-ის ერთ გამარჯვებაზე დახარჯული თანხა 27-ჯერ ნაკლები იყო, ვიდრე Claude-ის შემთხვევაში. ზოგიერთმა მოდელმა, როგორიცაა GPT 5.4-mini, მნიშვნელოვანი თანხები დახარჯა, მაგრამ შედეგი ვერ აჩვენა.

ექსპერიმენტის ავტორის თქმით, ეს დასკვნა მნიშვნელოვანია ბიზნესისთვის. ხშირად ის მოდელი, რომელიც რეიტინგებში პირველ ადგილს იკავებს, თქვენი კონკრეტული ამოცანისთვის შეიძლება ყველაზე არაეფექტური აღმოჩნდეს.

Rank	Model	Input $/M	Output $/M	30-game total
1	Grok 4.1 Fast	$0.23	$0.08	$12.57
2	GPT 5.4	$3.14	$1.05	$122.87
3	gemini-3.1-pro-preview	$2.12	$0.71	$79.59
4	claude-sonnet-4.6	$3.25	$1.08	$133.90
5	qwen3.6-plus	$0.35	$0.12	$11.57
6	GPT 5.4-mini	$0.92	$0.31	$28.68
7	gemini-3-flash-preview	$0.55	$0.18	$20.87
8	deepseek-v4-flash	$0.14	$0.05	$4.11
9	claude-haiku-4.5	$1.13	$0.38	$38.77
10	kimi-k2.6	$0.95	$0.32	$24.36
11	mistral-small-2603:nitro	$0.15	$0.60	$10.00

Grok-ის სტრატეგია მარტივი იყო: აგრესიული თამაში, რესურსების გონივრული მართვა და ემოციური ფილტრების არარსებობა. მაშინ როცა სხვა მოდელები ზრდილობიან დიალოგს ეწეოდნენ, Grok-მა სწრაფად გაითავისა გამარჯვების ფორმულა.

POI	Drops	Wins	Win rate
Farmhouse Cluster	91	4	4.4%
Military Compound	54	4	7.4%
Gas Station	48	2	4.2%
Junkyard	48	7	14.6%
Forest Ruins	30	3	10%
Radio Tower	24	2	8.3%
Warehouse	23	5	21.7%
Fishing Docks	12	2	16.7%

ამ ექსპერიმენტმა დაამტკიცა, რომ ხელოვნური ინტელექტის შეფასების არსებული მეთოდები სრულ სურათს არ იძლევა. ბრძოლის ველი, სადაც მოდელებს რეალურ დროში უწევთ გადაწყვეტილებების მიღება, გაცილებით მეტ ინფორმაციას გვაძლევს მათ რეალურ შესაძლებლობებზე.

საბოლოო ჯამში, არჩევანი მოდელსა და მოდელს შორის დამოკიდებულია იმაზე, თუ რა მიზანი გაქვთ. თუ გჭირდებათ მოდელი, რომელიც გუნდურად იმუშავებს, Claude-ის მსგავსი სისტემები იდეალურია. თუ ამოცანა „გადარჩენაა“, შესაძლოა უფრო აგრესიული ალგორითმები იყოს საჭირო.

რატომ აქვს ამას მნიშვნელობა

ეს კვლევა ქართული ბიზნესისთვისაც აქტუალურია, რადგან კომპანიები სულ უფრო მეტად ნერგავენ AI-ს სერვისებს. მნიშვნელოვანია გვესმოდეს, რომ 'ყველაზე ჭკვიანი' მოდელი ყოველთვის არ არის საუკეთესო არჩევანი კონკრეტული ბიზნეს-ამოცანისთვის. ხარჯების ოპტიმიზაციისა და ეფექტურობის თვალსაზრისით, ბიზნესმა უნდა შეაფასოს მოდელის რეალური ქცევა და არა მხოლოდ მარკეტინგული რეიტინგები.

ხშირად დასმული კითხვები

Grok-მა გაიმარჯვა აგრესიული სტრატეგიის, რესურსების ეფექტური მართვისა და მინიმალური ეთიკური შეზღუდვების წყალობით, რაც მას ბრძოლის ველზე უპირატესობას აძლევდა.
ეს არის მოდელის მიერ თავაზიანობისა და თანამშრომლობისთვის გაღებული 'ფასი'. მოდელები, რომლებიც გაწვრთნილი არიან იყოს თავაზიანი და დამხმარე, ხშირად კარგავენ კონკურენტულ უპირატესობას.
შედეგები აჩვენებს, რომ არსებული AI-ის შეფასების მეთოდები არასრულია და მოდელის რეალური ეფექტურობა დამოკიდებულია კონკრეტულ გარემოსა და ამოცანაზე.

თეგები#AI #Claude #Grok #ტექნოლოგიები #ხელოვნური ინტელექტი

ეს ამბავი ვითარდება

240 განახლება · ბოლო 17 ივნისი, 2026

კიბერუსაფრთხოების კრიზისი: AI და კრიპტო საფრთხეები

ტექნოლოგიური სამყარო კიბერუსაფრთხოების მზარდი გამოწვევების წინაშე აღმოჩნდა, სადაც ხელოვნური ინტელექტი როგორც დამცავ, ისე დამანგრეველ ინსტრუმენტად იქცა. კრიპტოინდუსტრია ჰაკერული თავდასხმების, ფიზიკური უსაფრთხოების რისკებისა და კვანტური საფრთხეების ტალღამ მოიცვა, რაც მილიონობით დოლარის ზარალს იწვევს. პარალელურად, ექსპერტები და პროგრამისტები აფრთხილებენ საზოგადოებას AI-ს ბრმად მინდობის საფრთხეებზე, რაც პროგრამული უზრუნველყოფის ხარისხსა და მონაცემთა კონფიდენციალურობას ეჭვქვეშ აყენებს. ეს დინამიკა ნათლად აჩვენებს, რომ ტექნოლოგიური პროგრესი უსაფრთხოების სტრატეგიების გადახედვის გარეშე სერიოზულ სისტემურ რისკებს შეიცავს.