AliasLabModel
AAnthropicclaude-sonnet-4.6
BAnthropicclaude-haiku-4.5
COpenAIGPT 5.4-mini
DGooglegemini-3-flash-preview
EGooglegemini-3.1-pro-preview
FAlibabaqwen3.6-plus
GMistralmistral-small-2603:nitro
HOpenAIGPT 5.4
JDeepSeekdeepseek-v4-flash
KMoonshot AIkimi-k2.6
LxAIGrok 4.1 Fast
Model30-game spendWinsCost per winCost per killPoints per dollar
Grok 4.1 Fast$12.5713$0.97$0.4231.3
qwen3.6-plus$11.572$5.79$0.6816.6
mistral-small$10.001$10.00$1.437.8
claude-haiku-4.5$38.772$19.39$2.983.6
gemini-3-flash$20.871$20.87$2.097.2
gemini-3.1-pro$79.593$26.53$3.063.4
claude-sonnet-4.6$133.905$26.78$6.091.6
GPT 5.4$122.872$61.44$3.233.0
GPT 5.4-mini$28.680$2.055.2
deepseek-v4-flash$4.110$0.2635.0
kimi-k2.6$24.360$3.043.9
RankModelWinsTop-3KillsAvg scoreZone deaths
1Grok 4.1 Fast13203013.115
2GPT 5.42143812.213
3gemini-3.1-pro-preview311269.07
4claude-sonnet-4.6510227.38
5qwen3.6-plus27176.413
6GPT 5.4-mini06145.08
7gemini-3-flash-preview18105.013
8deepseek-v4-flash03164.83
9claude-haiku-4.523134.64
10kimi-k2.60483.29
11mistral-small1372.67

თუ თქვენსკენ რობოტი მორბის, ვის ანდობდით მის მართვას: Anthropic-ის Claude-ს თუ xAI-ის Grok-ს? ეს კითხვა მხოლოდ თეორიული არ არის. OpenRouter-ის დეველოპერმა ჯეკი ლიანგმა 11 სხვადასხვა ენობრივი მოდელი (LLM) 2D ბრძოლის ველზე გაუშვა, რათა დაედგინა, რომელი მათგანი შეძლებდა გადარჩენას.

ექსპერიმენტის ფარგლებში მოდელებმა 30 თამაში ჩაატარეს. შედეგები შოკისმომგვრელი აღმოჩნდა: Grok 4.1 Fast-მა მატჩების 43% მოიგო, ხოლო ზოგიერთმა მოდელმა ვერცერთი გამარჯვება ვერ მოიპოვა.

აღსანიშნავია, რომ Claude Sonnet 4.6 გამარჯვების ნაცვლად კონკურენტებთან დამეგობრებასა და მოკავშირეობის ძიებას ცდილობდა. ეს აჩვენებს, რომ მოდელების „პიროვნება“ პირდაპირ კავშირშია მათ წვრთნასთან და იმ შეზღუდვებთან, რომლებსაც დეველოპერები უწესებენ.

გამარჯვება vs. ზრდილობა

Grok 4.1 Fast-მა თითოეული გამარჯვება გაცილებით იაფად მოიპოვა, ვიდრე მისმა კონკურენტებმა. უფრო მეტიც, ის მოდელები, რომლებიც სტანდარტულ ტესტებში (benchmark) მაღალ ქულებს იღებენ, ბრძოლის ველზე ხშირად დამარცხდნენ.

Claude Sonnet 4.6-ის ქცევა ნათელი მაგალითია იმისა, რასაც მკვლევარი „ალგორითმულ გადასახადს“ უწოდებს. მოდელი გაწვრთნილია იყოს თავაზიანი და დამხმარე, რაც ბრძოლის ველზე, სადაც გადარჩენა მთავარი მიზანია, სტრატეგიულად წამგებიანი აღმოჩნდა.

ეკონომიკური ეფექტი და შედეგები


სტატისტიკა აჩვენებს დიდ სხვაობას ხარჯებში. Grok-ის ერთ გამარჯვებაზე დახარჯული თანხა 27-ჯერ ნაკლები იყო, ვიდრე Claude-ის შემთხვევაში. ზოგიერთმა მოდელმა, როგორიცაა GPT 5.4-mini, მნიშვნელოვანი თანხები დახარჯა, მაგრამ შედეგი ვერ აჩვენა.

ექსპერიმენტის ავტორის თქმით, ეს დასკვნა მნიშვნელოვანია ბიზნესისთვის. ხშირად ის მოდელი, რომელიც რეიტინგებში პირველ ადგილს იკავებს, თქვენი კონკრეტული ამოცანისთვის შეიძლება ყველაზე არაეფექტური აღმოჩნდეს.

RankModelInput $/MOutput $/M30-game total
1Grok 4.1 Fast$0.23$0.08$12.57
2GPT 5.4$3.14$1.05$122.87
3gemini-3.1-pro-preview$2.12$0.71$79.59
4claude-sonnet-4.6$3.25$1.08$133.90
5qwen3.6-plus$0.35$0.12$11.57
6GPT 5.4-mini$0.92$0.31$28.68
7gemini-3-flash-preview$0.55$0.18$20.87
8deepseek-v4-flash$0.14$0.05$4.11
9claude-haiku-4.5$1.13$0.38$38.77
10kimi-k2.6$0.95$0.32$24.36
11mistral-small-2603:nitro$0.15$0.60$10.00

Grok-ის სტრატეგია მარტივი იყო: აგრესიული თამაში, რესურსების გონივრული მართვა და ემოციური ფილტრების არარსებობა. მაშინ როცა სხვა მოდელები ზრდილობიან დიალოგს ეწეოდნენ, Grok-მა სწრაფად გაითავისა გამარჯვების ფორმულა.

POIDropsWinsWin rate
Farmhouse Cluster9144.4%
Military Compound5447.4%
Gas Station4824.2%
Junkyard48714.6%
Forest Ruins30310%
Radio Tower2428.3%
Warehouse23521.7%
Fishing Docks12216.7%

ამ ექსპერიმენტმა დაამტკიცა, რომ ხელოვნური ინტელექტის შეფასების არსებული მეთოდები სრულ სურათს არ იძლევა. ბრძოლის ველი, სადაც მოდელებს რეალურ დროში უწევთ გადაწყვეტილებების მიღება, გაცილებით მეტ ინფორმაციას გვაძლევს მათ რეალურ შესაძლებლობებზე.

საბოლოო ჯამში, არჩევანი მოდელსა და მოდელს შორის დამოკიდებულია იმაზე, თუ რა მიზანი გაქვთ. თუ გჭირდებათ მოდელი, რომელიც გუნდურად იმუშავებს, Claude-ის მსგავსი სისტემები იდეალურია. თუ ამოცანა „გადარჩენაა“, შესაძლოა უფრო აგრესიული ალგორითმები იყოს საჭირო.