| Alias | Lab | Model |
|---|---|---|
| A | Anthropic | claude-sonnet-4.6 |
| B | Anthropic | claude-haiku-4.5 |
| C | OpenAI | GPT 5.4-mini |
| D | gemini-3-flash-preview | |
| E | gemini-3.1-pro-preview | |
| F | Alibaba | qwen3.6-plus |
| G | Mistral | mistral-small-2603:nitro |
| H | OpenAI | GPT 5.4 |
| J | DeepSeek | deepseek-v4-flash |
| K | Moonshot AI | kimi-k2.6 |
| L | xAI | Grok 4.1 Fast |
| Model | 30-game spend | Wins | Cost per win | Cost per kill | Points per dollar |
|---|---|---|---|---|---|
| Grok 4.1 Fast | $12.57 | 13 | $0.97 | $0.42 | 31.3 |
| qwen3.6-plus | $11.57 | 2 | $5.79 | $0.68 | 16.6 |
| mistral-small | $10.00 | 1 | $10.00 | $1.43 | 7.8 |
| claude-haiku-4.5 | $38.77 | 2 | $19.39 | $2.98 | 3.6 |
| gemini-3-flash | $20.87 | 1 | $20.87 | $2.09 | 7.2 |
| gemini-3.1-pro | $79.59 | 3 | $26.53 | $3.06 | 3.4 |
| claude-sonnet-4.6 | $133.90 | 5 | $26.78 | $6.09 | 1.6 |
| GPT 5.4 | $122.87 | 2 | $61.44 | $3.23 | 3.0 |
| GPT 5.4-mini | $28.68 | 0 | ∞ | $2.05 | 5.2 |
| deepseek-v4-flash | $4.11 | 0 | ∞ | $0.26 | 35.0 |
| kimi-k2.6 | $24.36 | 0 | ∞ | $3.04 | 3.9 |
| Rank | Model | Wins | Top-3 | Kills | Avg score | Zone deaths |
|---|---|---|---|---|---|---|
| 1 | Grok 4.1 Fast | 13 | 20 | 30 | 13.1 | 15 |
| 2 | GPT 5.4 | 2 | 14 | 38 | 12.2 | 13 |
| 3 | gemini-3.1-pro-preview | 3 | 11 | 26 | 9.0 | 7 |
| 4 | claude-sonnet-4.6 | 5 | 10 | 22 | 7.3 | 8 |
| 5 | qwen3.6-plus | 2 | 7 | 17 | 6.4 | 13 |
| 6 | GPT 5.4-mini | 0 | 6 | 14 | 5.0 | 8 |
| 7 | gemini-3-flash-preview | 1 | 8 | 10 | 5.0 | 13 |
| 8 | deepseek-v4-flash | 0 | 3 | 16 | 4.8 | 3 |
| 9 | claude-haiku-4.5 | 2 | 3 | 13 | 4.6 | 4 |
| 10 | kimi-k2.6 | 0 | 4 | 8 | 3.2 | 9 |
| 11 | mistral-small | 1 | 3 | 7 | 2.6 | 7 |
თუ თქვენსკენ რობოტი მორბის, ვის ანდობდით მის მართვას: Anthropic-ის Claude-ს თუ xAI-ის Grok-ს? ეს კითხვა მხოლოდ თეორიული არ არის. OpenRouter-ის დეველოპერმა ჯეკი ლიანგმა 11 სხვადასხვა ენობრივი მოდელი (LLM) 2D ბრძოლის ველზე გაუშვა, რათა დაედგინა, რომელი მათგანი შეძლებდა გადარჩენას.
ექსპერიმენტის ფარგლებში მოდელებმა 30 თამაში ჩაატარეს. შედეგები შოკისმომგვრელი აღმოჩნდა: Grok 4.1 Fast-მა მატჩების 43% მოიგო, ხოლო ზოგიერთმა მოდელმა ვერცერთი გამარჯვება ვერ მოიპოვა.
აღსანიშნავია, რომ Claude Sonnet 4.6 გამარჯვების ნაცვლად კონკურენტებთან დამეგობრებასა და მოკავშირეობის ძიებას ცდილობდა. ეს აჩვენებს, რომ მოდელების „პიროვნება“ პირდაპირ კავშირშია მათ წვრთნასთან და იმ შეზღუდვებთან, რომლებსაც დეველოპერები უწესებენ.
გამარჯვება vs. ზრდილობა
Grok 4.1 Fast-მა თითოეული გამარჯვება გაცილებით იაფად მოიპოვა, ვიდრე მისმა კონკურენტებმა. უფრო მეტიც, ის მოდელები, რომლებიც სტანდარტულ ტესტებში (benchmark) მაღალ ქულებს იღებენ, ბრძოლის ველზე ხშირად დამარცხდნენ.
Claude Sonnet 4.6-ის ქცევა ნათელი მაგალითია იმისა, რასაც მკვლევარი „ალგორითმულ გადასახადს“ უწოდებს. მოდელი გაწვრთნილია იყოს თავაზიანი და დამხმარე, რაც ბრძოლის ველზე, სადაც გადარჩენა მთავარი მიზანია, სტრატეგიულად წამგებიანი აღმოჩნდა.
ეკონომიკური ეფექტი და შედეგები
სტატისტიკა აჩვენებს დიდ სხვაობას ხარჯებში. Grok-ის ერთ გამარჯვებაზე დახარჯული თანხა 27-ჯერ ნაკლები იყო, ვიდრე Claude-ის შემთხვევაში. ზოგიერთმა მოდელმა, როგორიცაა GPT 5.4-mini, მნიშვნელოვანი თანხები დახარჯა, მაგრამ შედეგი ვერ აჩვენა.
ექსპერიმენტის ავტორის თქმით, ეს დასკვნა მნიშვნელოვანია ბიზნესისთვის. ხშირად ის მოდელი, რომელიც რეიტინგებში პირველ ადგილს იკავებს, თქვენი კონკრეტული ამოცანისთვის შეიძლება ყველაზე არაეფექტური აღმოჩნდეს.
| Rank | Model | Input $/M | Output $/M | 30-game total |
|---|---|---|---|---|
| 1 | Grok 4.1 Fast | $0.23 | $0.08 | $12.57 |
| 2 | GPT 5.4 | $3.14 | $1.05 | $122.87 |
| 3 | gemini-3.1-pro-preview | $2.12 | $0.71 | $79.59 |
| 4 | claude-sonnet-4.6 | $3.25 | $1.08 | $133.90 |
| 5 | qwen3.6-plus | $0.35 | $0.12 | $11.57 |
| 6 | GPT 5.4-mini | $0.92 | $0.31 | $28.68 |
| 7 | gemini-3-flash-preview | $0.55 | $0.18 | $20.87 |
| 8 | deepseek-v4-flash | $0.14 | $0.05 | $4.11 |
| 9 | claude-haiku-4.5 | $1.13 | $0.38 | $38.77 |
| 10 | kimi-k2.6 | $0.95 | $0.32 | $24.36 |
| 11 | mistral-small-2603:nitro | $0.15 | $0.60 | $10.00 |
Grok-ის სტრატეგია მარტივი იყო: აგრესიული თამაში, რესურსების გონივრული მართვა და ემოციური ფილტრების არარსებობა. მაშინ როცა სხვა მოდელები ზრდილობიან დიალოგს ეწეოდნენ, Grok-მა სწრაფად გაითავისა გამარჯვების ფორმულა.
| POI | Drops | Wins | Win rate |
|---|---|---|---|
| Farmhouse Cluster | 91 | 4 | 4.4% |
| Military Compound | 54 | 4 | 7.4% |
| Gas Station | 48 | 2 | 4.2% |
| Junkyard | 48 | 7 | 14.6% |
| Forest Ruins | 30 | 3 | 10% |
| Radio Tower | 24 | 2 | 8.3% |
| Warehouse | 23 | 5 | 21.7% |
| Fishing Docks | 12 | 2 | 16.7% |
ამ ექსპერიმენტმა დაამტკიცა, რომ ხელოვნური ინტელექტის შეფასების არსებული მეთოდები სრულ სურათს არ იძლევა. ბრძოლის ველი, სადაც მოდელებს რეალურ დროში უწევთ გადაწყვეტილებების მიღება, გაცილებით მეტ ინფორმაციას გვაძლევს მათ რეალურ შესაძლებლობებზე.
საბოლოო ჯამში, არჩევანი მოდელსა და მოდელს შორის დამოკიდებულია იმაზე, თუ რა მიზანი გაქვთ. თუ გჭირდებათ მოდელი, რომელიც გუნდურად იმუშავებს, Claude-ის მსგავსი სისტემები იდეალურია. თუ ამოცანა „გადარჩენაა“, შესაძლოა უფრო აგრესიული ალგორითმები იყოს საჭირო.





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.