Google-მა Gemma 4-ის ოჯახი ახალი, Quantization-Aware Training (QAT) მეთოდით ოპტიმიზებული მოდელებით გააფართოვა. ეს სიახლე მიზნად ისახავს AI-ის შესაძლებლობების რიგითი მომხმარებლის მოწყობილობებზე, მათ შორის სმარტფონებსა და ლეპტოპებზე, მაქსიმალურად ეფექტურად გადმოტანას.

Gemma 4-ის გამოსვლიდან ორი თვის შემდეგ, კომპანია აქტიურად მუშაობს მოდელების ადაპტირებაზე. ახალი ჩეკპოინტები მკვეთრად ამცირებს მეხსიერების მოთხოვნებს და აუმჯობესებს მუშაობის სიჩქარეს.

ტრადიციული მეთოდებისგან განსხვავებით, სადაც კვანტიზაცია ტრენინგის დასრულების შემდეგ ხდება, QAT ტექნოლოგია ამ პროცესს უშუალოდ სწავლების ეტაპზე ნერგავს. ეს მიდგომა ამცირებს ხარისხის დანაკარგს და უზრუნველყოფს უკეთეს შედეგებს, ვიდრე სტანდარტული Post-Training Quantization (PTQ).

Google-მა შეიმუშავა სპეციალური მობილური კვანტიზაციის სქემა, რამაც Gemma 4 E2B მოდელის მეხსიერების მოთხოვნა 1 გიგაბაიტამდე შეამცირა. ეს მიღწევა მნიშვნელოვანია მობილური პროცესორების შეზღუდული რესურსების გათვალისწინებით.

ტექნიკური ინოვაციები მობილურისთვის

მობილურ მოწყობილობებზე მუშაობის გასამარტივებლად, Google-მა რამდენიმე საკვანძო ტექნოლოგიური გადაწყვეტილება მიიღო:

  • სტატიკური აქტივაციები: მონაცემების მასშტაბირების წინასწარი გამოთვლა ტრენინგის დროს, რაც ამცირებს პროცესორის დატვირთვას.
  • არხებზე დაფუძნებული კვანტიზაცია: შეკუმშული მონაცემების სტრუქტურა მორგებულია მობილური ამაჩქარებლების არქიტექტურას.
  • მიზნობრივი 2-ბიტიანი კვანტიზაცია: ტოკენების გენერირებაზე პასუხისმგებელი ფენების ინტენსიური შეკუმშვა, მაშინ როცა ძირითადი ლოგიკური ფენები მაღალი სიზუსტით ინარჩუნებს მუშაობას.
  • KV ქეშის ოპტიმიზაცია: მოდელის ლექსიკონისა და მეხსიერების შეკუმშვა, რაც მომხმარებელს გრძელი დიალოგების წარმოების საშუალებას აძლევს.

ხელმისაწვდომობა და ინტეგრაცია

ახალი QAT მოდელები უკვე ხელმისაწვდომია Hugging Face-ზე. დეველოპერებს შეუძლიათ გამოიყენონ GGUF ფორმატები llama.cpp-სთვის ან შეკუმშული ტენზორები vLLM-ისთვის. Google-მა ასევე უზრუნველყო მხარდაჭერა ისეთი პოპულარული ხელსაწყოებისთვის, როგორიცაა Ollama, LM Studio და Apple Silicon-ისთვის განკუთვნილი MLX.

ეს სიახლე საშუალებას აძლევს პროგრამისტებს, შექმნან უფრო სწრაფი და ნაკლებად რესურსტევადი აპლიკაციები, რომლებიც პირდაპირ მომხმარებლის მოწყობილობაზე, ინტერნეტის გარეშე იმუშავებს.