ინტერნეტის არასტაბილურობამ შესაძლოა თქვენი სამუშაო პროცესი სრულად გააჩეროს, განსაკუთრებით მაშინ, როდესაც კოდირების აგენტზე ხართ დამოკიდებული. სწორედ ამ გამოწვევამ უბიძგა დეველოპერებს, შეექმნათ ადგილობრივი გადაწყვეტა, რომელიც ინტერნეტის გარეშე, Apple-ის მოწყობილობებზე სრულფასოვნად იმუშავებს.

Gemma 4-ის Multi-Token Prediction (MTP) განახლებამ შესაძლებელი გახადა მოდელის მუშაობის საგრძნობლად დაჩქარება. შედეგად, მივიღეთ სისტემა, რომელიც სწრაფია, იყენებს OpenAI-ის თავსებად API-ს და მხარს უჭერს ეკრანის ანაბეჭდების დამუშავებასაც კი.

SetupPrompt tok/sGeneration tok/s
Gemma 4 26B-A4B Q4, llama.cpp Metal298.058.2

ტექნიკური კონფიგურაცია

SetupPrompt tok/sGeneration tok/sSpeedup
Main model only298.058.21.00x
Main model + Q8 MTP draft295.672.21.24x
--spec-draft-n-maxPrompt tok/sGeneration tok/s
1295.568.4
2299.172.0
3295.672.2
4297.370.7
5297.963.7
6296.361.2
RuntimeModelGeneration tok/s
llama.cpp Metal + MTPUnsloth GGUF Q4 + Q8 MTP72.2
llama.cpp MetalUnsloth GGUF Q458.2
MLX-LMUnsloth UD MLX 4-bit45.8
MLX-LMmlx-community 4-bit43.9
MLX-LMmlx-community OptiQ 4-bit38.1

აღნიშნული სისტემის ასაწყობად საჭიროა llama.cpp-ის აწყობა Metal-ის მხარდაჭერით, Gemma 4 26B-A4B მოდელი GGUF ფორმატში და მულტიმოდალური პროექტორი. ტესტირება ჩატარდა Apple M1 Max-ზე, 64 GB ოპერატიული მეხსიერებით.

SetupProjectorPrompt tok/sGeneration tok/s
llama.cpp Metal + MTPnone120.371.4
llama.cpp Metal + MTPmmproj-BF16.gguf297.472.2

თავდაპირველმა ტესტებმა llama.cpp-ის გამოყენებით აჩვენა 58 ტოკენი წამში, რაც მისაღებია, თუმცა კოდირების აგენტისთვის მეტი სისწრაფეა საჭირო. MTP (Multi-Token Prediction) დრაფტ-მოდელის დამატებამ ეს მაჩვენებელი 72.2 ტოკენამდე გაზარდა.

სისტემის ოპტიმიზაცია

MTP პარამეტრების რეგულირებისას აღმოჩნდა, რომ --spec-draft-n-max 3-ზე დაყენება საუკეთესო შედეგს იძლევა. 3-ზე მეტი მნიშვნელობის დაყენება მუშაობას პირიქით, ანელებს.

საინტერესოა, რომ შედარებისას llama.cpp-მ აჯობა MLX-ს. მიუხედავად იმისა, რომ MLX სპეციალურად Apple-ის ჩიპებისთვისაა ოპტიმიზებული, llama.cpp-ის მრავალწლიანმა განვითარებამ ის უფრო ეფექტური გახადა ამ კონკრეტული დავალებისთვის.

ვიზუალური მონაცემების მხარდაჭერა

იმისთვის, რომ აგენტმა შეძლოს ეკრანის ანაბეჭდების გაანალიზება, საჭიროა --mmproj პარამეტრის დამატება. ტესტებმა აჩვენა, რომ პროექტორის დამატება ტექსტის გენერირების სიჩქარეზე უარყოფითად არ აისახება.

ინსტალაციის პროცესი მოიცავს llama.cpp-ის კლონირებას, Python გარემოს შექმნას და სერვერის გაშვებას tmux-ის მეშვეობით, რაც უზრუნველყოფს სტაბილურ მუშაობას ფონურ რეჟიმში.

LayerChoice
Inference runtimellama.cpp
macOS accelerationMetal + Accelerate
Main modelgemma-4-26B-A4B-it-UD-Q4_K_XL.gguf
Draft modelgemma-4-26B-A4B-it-Q8_0-MTP.gguf
MTP setting--spec-draft-n-max 3
Multimodal projectormmproj-BF16.gguf
Serverllama-server on 127.0.0.1:8080
APIOpenAI-compatible /v1
Coding agentPi
Pi model input["text", "image"]

საბოლოო ჯამში, MTP-ის გამოყენება კოდირების აგენტისთვის ნამდვილად ღირებული ინვესტიციაა, რადგან ის ზრდის მუშაობის სისწრაფეს ისე, რომ არ ართულებს სისტემის არქიტექტურას.

მიუხედავად იმისა, რომ Qwen3.6 35B-A3B მოდელი კოდირების მხრივ უფრო ძლიერად ითვლება, მისი სისწრაფე (55 ტოკენი წამში) ჩამორჩება Gemma 4-ს, რაც ყოველდღიურ სამუშაო პროცესში შესამჩნევი დამაყოვნებაა.