უსაფრთხოება და ლოკალური მუშაობა

თანამედროვე ტექნოლოგიურ გარემოში, განსაკუთრებით რეგულირებად სექტორებში, მონაცემთა უსაფრთხოება პრიორიტეტულია. Claude Code-ის სრულად ლოკალურ რეჟიმში გაშვება ნიშნავს, რომ თქვენს მიერ დამუშავებული ინფორმაცია firewall-ს არ სცდება. ეს არ არის უბრალო არჩევანი, არამედ აუცილებლობა კორპორატიული ქსელებისთვის.

VariableValueWhy
OLLAMA_MLX1Use the Apple Silicon MLX runner, not the llama.cpp/Metal backend
OLLAMA_CONTEXT_LENGTH32768What 36 GiB allows — more memory raises this; see below
OLLAMA_FLASH_ATTENTION1Lower attention memory
OLLAMA_MULTIUSER_CACHE1Reuse the prefix cache across requests
OLLAMA_KEEP_ALIVE24hKeep the 20 GiB model resident; reloads are slow

პროცესი მოითხოვს Apple Silicon-ის ჩიპს, კონკრეტულად კი M3 Pro-ს, 36 GB ოპერატიული მეხსიერებით. მოდელად გამოყენებულია Qwen3.6 (35B), რომელიც ოპტიმიზებულია ლოკალური გაშვებისთვის Ollama-სა და MLX-ის მეშვეობით.

ოთხი გადამწყვეტი ნაბიჯი წარმატებისთვის

მხოლოდ ინსტალაცია საკმარისი არ არის. სისტემის გამართულად მუშაობისთვის საჭიროა ოთხი ტექნიკური შესწორება, რომელიც თავიდან აგაცილებთ შეფერხებებს:

  • აზროვნების პროცესის შეზღუდვა: დააყენეთ MAX_THINKING_TOKENS=0. წინააღმდეგ შემთხვევაში, მოდელი მთელ რესურსს „ფიქრზე“ ხარჯავს, რაც იწვევს ტაიმაუტს.
  • Ollama 0.24-ის გამოყენება: ძველი ვერსიები ვერ უმკლავდებიან MLX-ზე დაფუძნებულ მოდელებს. განახლება აუცილებელია პარამეტრების სწორი მართვისთვის.
  • MLX-ის სპეციფიკა: ნუ ეცდებით პარამეტრების მართვას Modelfile-ის საშუალებით, რადგან MLX-ის ძრავა მათ ხშირად უგულებელყოფს. გამოიყენეთ API-ის პარამეტრები.
  • სისტემური შეცდომების იგნორირება: 404 შეცდომები Ollama-ს ლოგებში არის ნორმალური მოვლენა, როდესაც Claude Code ცდილობს დაუკავშირდეს Anthropic-ის სერვერებს, რომლებიც თქვენს შემთხვევაში გამორთულია.
MetricObserved (M3 Pro, 36 GiB)
Model resident~20 GiB (35B MoE, ~3B active, NVFP4)
Prefill rate~300–400 tok/s, falling toward ~270 as context fills
Prefill time at 25K input60–70s per turn
Per-turn timedominated by prefill (90%+); generation is the small remainder
Peak memory, tuned and in-window~24.5 GiB

აპარატურის როლი სიჩქარეში

Unified memoryDefault windowExperience
36 GiB32KWorks; manage the window on long sessions
48 GiB32KComfortable — clean 32K sessions, real headroom, no memory pressure
64 GiB+256KThe window stops being something you think about

ლოკალური მოდელის მუშაობა დამოკიდებულია მეხსიერების გამტარუნარიანობაზე (Memory Bandwidth). Apple M3 Pro-ს 150 GB/s არის მინიმალური ზღვარი, რომლითაც შესაძლებელია სტაბილური მუშაობა. პროცესის ყველაზე დიდ ნაწილს „prefill“ ეტაპი იკავებს, სადაც მოდელი კითხულობს კონტექსტს.

თუ თქვენი სისტემა იყენებს 36 GB მეხსიერებას, კონტექსტური ფანჯარა შეზღუდულია 32,000 ტოკენით. ამ ზღვრის გადაჭარბება იწვევს მეხსიერების გადატვირთვას და პროცესის მკვეთრ შენელებას. 64 GB და მეტი მეხსიერების მქონე მოწყობილობები ამ პრობლემას პრაქტიკულად აქრობენ.

ეს მიდგომა იდეალურია მათთვის, ვისაც სჭირდება მაღალი დონის ინტელექტუალური ასისტენტი ისე, რომ მონაცემები არ ტოვებდეს ლოკალურ სერვერს ან ლეპტოპს. მიუხედავად იმისა, რომ სიჩქარე ჩამორჩება ღრუბლოვან სერვისებს, კონფიდენციალურობის გარანტია სრულფასოვანია.