უსაფრთხოება და ლოკალური მუშაობა
თანამედროვე ტექნოლოგიურ გარემოში, განსაკუთრებით რეგულირებად სექტორებში, მონაცემთა უსაფრთხოება პრიორიტეტულია. Claude Code-ის სრულად ლოკალურ რეჟიმში გაშვება ნიშნავს, რომ თქვენს მიერ დამუშავებული ინფორმაცია firewall-ს არ სცდება. ეს არ არის უბრალო არჩევანი, არამედ აუცილებლობა კორპორატიული ქსელებისთვის.
| Variable | Value | Why |
|---|---|---|
| OLLAMA_MLX | 1 | Use the Apple Silicon MLX runner, not the llama.cpp/Metal backend |
| OLLAMA_CONTEXT_LENGTH | 32768 | What 36 GiB allows — more memory raises this; see below |
| OLLAMA_FLASH_ATTENTION | 1 | Lower attention memory |
| OLLAMA_MULTIUSER_CACHE | 1 | Reuse the prefix cache across requests |
| OLLAMA_KEEP_ALIVE | 24h | Keep the 20 GiB model resident; reloads are slow |
პროცესი მოითხოვს Apple Silicon-ის ჩიპს, კონკრეტულად კი M3 Pro-ს, 36 GB ოპერატიული მეხსიერებით. მოდელად გამოყენებულია Qwen3.6 (35B), რომელიც ოპტიმიზებულია ლოკალური გაშვებისთვის Ollama-სა და MLX-ის მეშვეობით.
ოთხი გადამწყვეტი ნაბიჯი წარმატებისთვის
მხოლოდ ინსტალაცია საკმარისი არ არის. სისტემის გამართულად მუშაობისთვის საჭიროა ოთხი ტექნიკური შესწორება, რომელიც თავიდან აგაცილებთ შეფერხებებს:
- აზროვნების პროცესის შეზღუდვა: დააყენეთ MAX_THINKING_TOKENS=0. წინააღმდეგ შემთხვევაში, მოდელი მთელ რესურსს „ფიქრზე“ ხარჯავს, რაც იწვევს ტაიმაუტს.
- Ollama 0.24-ის გამოყენება: ძველი ვერსიები ვერ უმკლავდებიან MLX-ზე დაფუძნებულ მოდელებს. განახლება აუცილებელია პარამეტრების სწორი მართვისთვის.
- MLX-ის სპეციფიკა: ნუ ეცდებით პარამეტრების მართვას Modelfile-ის საშუალებით, რადგან MLX-ის ძრავა მათ ხშირად უგულებელყოფს. გამოიყენეთ API-ის პარამეტრები.
- სისტემური შეცდომების იგნორირება: 404 შეცდომები Ollama-ს ლოგებში არის ნორმალური მოვლენა, როდესაც Claude Code ცდილობს დაუკავშირდეს Anthropic-ის სერვერებს, რომლებიც თქვენს შემთხვევაში გამორთულია.
| Metric | Observed (M3 Pro, 36 GiB) |
|---|---|
| Model resident | ~20 GiB (35B MoE, ~3B active, NVFP4) |
| Prefill rate | ~300–400 tok/s, falling toward ~270 as context fills |
| Prefill time at 25K input | 60–70s per turn |
| Per-turn time | dominated by prefill (90%+); generation is the small remainder |
| Peak memory, tuned and in-window | ~24.5 GiB |
აპარატურის როლი სიჩქარეში
| Unified memory | Default window | Experience |
|---|---|---|
| 36 GiB | 32K | Works; manage the window on long sessions |
| 48 GiB | 32K | Comfortable — clean 32K sessions, real headroom, no memory pressure |
| 64 GiB+ | 256K | The window stops being something you think about |
ლოკალური მოდელის მუშაობა დამოკიდებულია მეხსიერების გამტარუნარიანობაზე (Memory Bandwidth). Apple M3 Pro-ს 150 GB/s არის მინიმალური ზღვარი, რომლითაც შესაძლებელია სტაბილური მუშაობა. პროცესის ყველაზე დიდ ნაწილს „prefill“ ეტაპი იკავებს, სადაც მოდელი კითხულობს კონტექსტს.
თუ თქვენი სისტემა იყენებს 36 GB მეხსიერებას, კონტექსტური ფანჯარა შეზღუდულია 32,000 ტოკენით. ამ ზღვრის გადაჭარბება იწვევს მეხსიერების გადატვირთვას და პროცესის მკვეთრ შენელებას. 64 GB და მეტი მეხსიერების მქონე მოწყობილობები ამ პრობლემას პრაქტიკულად აქრობენ.
ეს მიდგომა იდეალურია მათთვის, ვისაც სჭირდება მაღალი დონის ინტელექტუალური ასისტენტი ისე, რომ მონაცემები არ ტოვებდეს ლოკალურ სერვერს ან ლეპტოპს. მიუხედავად იმისა, რომ სიჩქარე ჩამორჩება ღრუბლოვან სერვისებს, კონფიდენციალურობის გარანტია სრულფასოვანია.



დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.