ხელოვნური ინტელექტის სფეროში speculative decoding-ის ტექნოლოგია მნიშვნელოვან ეტაპზე გადავიდა. EAGLE-ის, vLLM-ისა და TorchSpec-ის გუნდებმა ოფიციალურად წარადგინეს EAGLE 3.1 — განახლებული ალგორითმი, რომელიც მიზნად ისახავს დიდი ენობრივი მოდელების (LLM) მუშაობის სიჩქარისა და სტაბილურობის გაუმჯობესებას.
EAGLE-ის წინა ვერსიები ინდუსტრიაში უკვე ფართოდ გამოიყენებოდა, თუმცა მკვლევარებმა აღმოაჩინეს, რომ რთულ კონტექსტებსა და სხვადასხვა სისტემურ მოთხოვნებთან მუშაობისას მოდელების ეფექტურობა მცირდებოდა. პრობლემის მიზეზი ე.წ. „ყურადღების დრეიფი“ (attention drift) აღმოჩნდა.
რა შეიცვალა EAGLE 3.1-ში?
მკვლევარებმა დაადგინეს, რომ გენერაციის სიღრმის ზრდასთან ერთად, მოდელი ყურადღებას აშორებს საწყის მონაცემებს და საკუთარ გენერირებულ ტოკენებზე კონცენტრირდება. ამან გამოიწვია არასტაბილურობა, რისი გამოსწორებაც ორმა მთავარმა არქიტექტურულმა ცვლილებამ მოახერხა:
- ინფუთ-წარმოდგენების ბალანსის აღდგენა.
- ფარული მდგომარეობების (hidden states) ნორმალიზაცია, რაც ხელს უშლის მათ უკონტროლო ზრდას.
შედეგად, EAGLE 3.1-მა აჩვენა 2-ჯერ უკეთესი შედეგი გრძელ კონტექსტებთან მუშაობისას, EAGLE 3-თან შედარებით. ეს სიახლე უკვე ინტეგრირებულია vLLM-ის მთავარ ფილიალში და ხელმისაწვდომია v0.22.0 ვერსიიდან.
პრაქტიკული შედეგები
Kimi K2.6-ის მოდელზე ჩატარებულმა ტესტირებამ აჩვენა, რომ ახალი ალგორითმი, GB200 სერვერებზე, ერთ მომხმარებელზე გამომავალ სიჩქარეს 2.03-ჯერ ზრდის. მნიშვნელოვანია ისიც, რომ სისტემა სრულად თავსებადია EAGLE 3-ის ძველ ჩეკპოინტებთან, რაც კომპანიებს საშუალებას აძლევს, მარტივად განაახლონ თავიანთი სერვერული ინფრასტრუქტურა.
TorchSpec-ის ჩართულობა ამ პროცესში კიდევ უფრო ამარტივებს სამომავლო კვლევებსა და ტრენინგს. ეს თანამშრომლობა არის ნათელი მაგალითი იმისა, თუ როგორ შეუძლია ღია კოდის საზოგადოებას სისტემური ოპტიმიზაციისა და ალგორითმული კვლევების გაერთიანებით ინდუსტრიული სტანდარტების შეცვლა.





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.