როგორ გავუშვათ Claude Code ოფლაინ რეჟიმში: სრული ინსტრუქცია

Apple M3 Pro-ს სიმძლავრის გამოყენება და ლოკალური მოდელების ოპტიმიზაცია კონფიდენციალურობის დასაცავად.

გელა ჩიქოვანი

11 ივნისი, 2026 · 16:472 წუთის წასაკითხი

გააზიარე

რა ვიცით ჯერჯერობით

Claude Code-ის ლოკალურად გაშვება შესაძლებელია Apple M3 Pro ჩიპზე.
გამოიყენება Qwen3.6 35B მოდელი, რომელიც ოპტიმიზებულია Ollama-ს მეშვეობით.
სისტემის სტაბილურობისთვის აუცილებელია აზროვნების ფუნქციის (thinking) გამორთვა.
მუშაობის სიჩქარე პირდაპირ დამოკიდებულია მოწყობილობის ოპერატიულ მეხსიერებასა და გამტარუნარიანობაზე.

უსაფრთხოება და ლოკალური მუშაობა

თანამედროვე ტექნოლოგიურ გარემოში, განსაკუთრებით რეგულირებად სექტორებში, მონაცემთა უსაფრთხოება პრიორიტეტულია. Claude Code-ის სრულად ლოკალურ რეჟიმში გაშვება ნიშნავს, რომ თქვენს მიერ დამუშავებული ინფორმაცია firewall-ს არ სცდება. ეს არ არის უბრალო არჩევანი, არამედ აუცილებლობა კორპორატიული ქსელებისთვის.

Variable	Value	Why
OLLAMA_MLX	1	Use the Apple Silicon MLX runner, not the llama.cpp/Metal backend
OLLAMA_CONTEXT_LENGTH	32768	What 36 GiB allows — more memory raises this; see below
OLLAMA_FLASH_ATTENTION	1	Lower attention memory
OLLAMA_MULTIUSER_CACHE	1	Reuse the prefix cache across requests
OLLAMA_KEEP_ALIVE	24h	Keep the 20 GiB model resident; reloads are slow

პროცესი მოითხოვს Apple Silicon-ის ჩიპს, კონკრეტულად კი M3 Pro-ს, 36 GB ოპერატიული მეხსიერებით. მოდელად გამოყენებულია Qwen3.6 (35B), რომელიც ოპტიმიზებულია ლოკალური გაშვებისთვის Ollama-სა და MLX-ის მეშვეობით.

ოთხი გადამწყვეტი ნაბიჯი წარმატებისთვის

მხოლოდ ინსტალაცია საკმარისი არ არის. სისტემის გამართულად მუშაობისთვის საჭიროა ოთხი ტექნიკური შესწორება, რომელიც თავიდან აგაცილებთ შეფერხებებს:

აზროვნების პროცესის შეზღუდვა: დააყენეთ MAX_THINKING_TOKENS=0. წინააღმდეგ შემთხვევაში, მოდელი მთელ რესურსს „ფიქრზე“ ხარჯავს, რაც იწვევს ტაიმაუტს.
Ollama 0.24-ის გამოყენება: ძველი ვერსიები ვერ უმკლავდებიან MLX-ზე დაფუძნებულ მოდელებს. განახლება აუცილებელია პარამეტრების სწორი მართვისთვის.
MLX-ის სპეციფიკა: ნუ ეცდებით პარამეტრების მართვას Modelfile-ის საშუალებით, რადგან MLX-ის ძრავა მათ ხშირად უგულებელყოფს. გამოიყენეთ API-ის პარამეტრები.
სისტემური შეცდომების იგნორირება: 404 შეცდომები Ollama-ს ლოგებში არის ნორმალური მოვლენა, როდესაც Claude Code ცდილობს დაუკავშირდეს Anthropic-ის სერვერებს, რომლებიც თქვენს შემთხვევაში გამორთულია.

Metric	Observed (M3 Pro, 36 GiB)
Model resident	~20 GiB (35B MoE, ~3B active, NVFP4)
Prefill rate	~300–400 tok/s, falling toward ~270 as context fills
Prefill time at 25K input	60–70s per turn
Per-turn time	dominated by prefill (90%+); generation is the small remainder
Peak memory, tuned and in-window	~24.5 GiB

აპარატურის როლი სიჩქარეში

Unified memory	Default window	Experience
36 GiB	32K	Works; manage the window on long sessions
48 GiB	32K	Comfortable — clean 32K sessions, real headroom, no memory pressure
64 GiB+	256K	The window stops being something you think about

ლოკალური მოდელის მუშაობა დამოკიდებულია მეხსიერების გამტარუნარიანობაზე (Memory Bandwidth). Apple M3 Pro-ს 150 GB/s არის მინიმალური ზღვარი, რომლითაც შესაძლებელია სტაბილური მუშაობა. პროცესის ყველაზე დიდ ნაწილს „prefill“ ეტაპი იკავებს, სადაც მოდელი კითხულობს კონტექსტს.

თუ თქვენი სისტემა იყენებს 36 GB მეხსიერებას, კონტექსტური ფანჯარა შეზღუდულია 32,000 ტოკენით. ამ ზღვრის გადაჭარბება იწვევს მეხსიერების გადატვირთვას და პროცესის მკვეთრ შენელებას. 64 GB და მეტი მეხსიერების მქონე მოწყობილობები ამ პრობლემას პრაქტიკულად აქრობენ.

ეს მიდგომა იდეალურია მათთვის, ვისაც სჭირდება მაღალი დონის ინტელექტუალური ასისტენტი ისე, რომ მონაცემები არ ტოვებდეს ლოკალურ სერვერს ან ლეპტოპს. მიუხედავად იმისა, რომ სიჩქარე ჩამორჩება ღრუბლოვან სერვისებს, კონფიდენციალურობის გარანტია სრულფასოვანია.

რატომ აქვს ამას მნიშვნელობა

საქართველოში, სადაც საბანკო და სახელმწიფო სექტორი სულ უფრო მეტად ნერგავს ხელოვნურ ინტელექტს, მონაცემთა უსაფრთხოება კრიტიკულად მნიშვნელოვანია. მსგავსი ტექნოლოგიური გადაწყვეტილებები ადგილობრივ IT გუნდებს საშუალებას აძლევს, გამოიყენონ თანამედროვე LLM მოდელები ისე, რომ არ დაარღვიონ მონაცემთა დაცვის მკაცრი რეგულაციები.

ხშირად დასმული კითხვები

არა, ამ მეთოდით მოდელი მუშაობს სრულად ოფლაინ რეჟიმში, რაც უზრუნველყოფს მონაცემთა სრულ კონფიდენციალურობას.
რეკომენდებულია Apple Silicon (M3 Pro და ზემოთ) მინიმუმ 36 GB-48 GB გაერთიანებული მეხსიერებით.
ლოკალურ აპარატურაზე unbounded thinking პროცესი იწვევს ტაიმაუტს და მოდელი ვერ ასრულებს დასახულ ამოცანას.

თეგები#AI #ClaudeCode #AppleSilicon #CyberSecurity #Ollama

ეს ამბავი ვითარდება

107 განახლება · ბოლო 11 ივნისი, 2026

ტექნოლოგიური ინოვაციები და ხელოვნური ინტელექტის ბუმი

ტექნოლოგიური სამყარო ხელოვნური ინტელექტის ინტენსიური ინტეგრაციით ხასიათდება, რაც ყოველდღიურ აპლიკაციებს რადიკალურად ცვლის. Meta-მ და Salesforce-მა საკუთარი პლატფორმები ახალი AI ინსტრუმენტებით გაამდიდრეს, ხოლო Spotify-მ მუსიკალური და აუდიოკონტენტის შექმნის პროცესი მთლიანად ავტომატიზებულ რეჟიმში გადაიყვანა. პარალელურად, Anthropic-ისა და Microsoft-ის კონკურენციამ და სტარტაპების ბაზრიდან გასვლამ აჩვენა, რომ ინდუსტრიაში დომინირებისთვის ბრძოლა უკიდურესად გამწვავდა. ეს ტენდენცია აერთიანებს როგორც მომხმარებელთა გამოცდილების გაუმჯობესებას, ისე სტრატეგიულ კორპორატიულ გადაწყვეტილებებს.