ადგილობრივი დიდი ენობრივი მოდელების (LLM) გაშვება საკუთარ კომპიუტერზე სულ უფრო პოპულარული ხდება, თუმცა რესურსების ოპტიმიზაცია ხშირად რთულ გამოწვევად რჩება. ერთ-ერთმა ტექნოლოგიურმა ენთუზიასტმა წარმატებით დააკავშირა RTX 5080 და RTX 3090, რათა Qwen 3.6 27B Q8 მოდელის გაშვებისას წამში 80-ზე მეტი ტოკენი მიეღო.
ტექნიკური კონფიგურაცია
თავდაპირველად ავტორმა RTX 5080 გამოიყენა, თუმცა 16GB მეხსიერება თანამედროვე მოდელებისთვის საკმარისი არ აღმოჩნდა. გამოსავალი მეორადი RTX 3090-ის (24GB) დამატება გახდა. სისტემის სტაბილური მუშაობისთვის საჭირო იყო დედაპლატა, რომელიც PCIe 16x არხს ორ 8x-ად გაყოფდა. არჩევანი Asus Prime X570-Pro-ზე შეჩერდა.
BIOS და დრაივერების სირთულეები
პროცესი მოითხოვდა BIOS-ის სპეციფიკურ პარამეტრებს. აუცილებელი იყო OS-ის არა MBR, არამედ UEFI რეჟიმში გაშვება. სხვადასხვა თაობის ბარათების გამოყენების გამო, ავტორმა უარი თქვა ექსპერიმენტულ პატჩებზე და გამოიყენა სტანდარტული nvidia-open დრაივერი.
პროგრამული უზრუნველყოფა და ოპტიმიზაცია
მოდელის გაშვებისთვის საჭირო გახდა კომპილაციისას სწორი დროშების მითითება. კრიტიკულად მნიშვნელოვანი აღმოჩნდა CMAKE_CUDA_ARCHITECTURES="86;120" პარამეტრი, რომელიც ერთდროულად Ampere და Blackwell არქიტექტურებს ააქტიურებს. საინტერესოა, რომ NCCL-ის გამოყენება ამ კონფიგურაციაში კონტრპროდუქტიული აღმოჩნდა.
- მოდელი: Qwen 3.6 27B (Q8 quantization)
- შედეგი: 80-90 ტოკენი წამში
- კავშირი: PCIe 4.0 8x/8x კონფიგურაცია
დასკვნის სახით, ორი განსხვავებული თაობის ბარათის გაერთიანება სავსებით შესაძლებელია, თუ სწორად მოხდება აპარატურული და პროგრამული რესურსების სინქრონიზაცია. ეს მეთოდი იძლევა საშუალებას, ძველი და ახალი თაობის რესურსები მაქსიმალურად ეფექტურად დაიხარჯოს AI ამოცანების შესასრულებლად.






დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.