სათამაშო კომპიუტერების უმეტესობა, თუნდაც RTX 4080-ის მსგავსი მძლავრი ბარათებით, ხშირად შეზღუდულია ვიდეო მეხსიერების (VRAM) მოცულობით, რაც ხელოვნური ინტელექტის თანამედროვე მოდელებთან მუშაობისას მთავარი ბარიერია. ერთ-ერთმა ენთუზიასტმა ეს პრობლემა უჩვეულო გზით გადაჭრა: მან სერვერული კლასის Tesla V100 SXM2 16GB შეიძინა და ადაპტერის მეშვეობით საკუთარ სისტემას დაუმატა.
Tesla V100 SXM2 თავდაპირველად განკუთვნილი იყო NVIDIA-ს DGX სერვერებისთვის. მას არ აქვს PCIe კონექტორი, მონიტორის პორტები ან სტანდარტული გაგრილების სისტემა. მიუხედავად ამისა, 16GB HBM2 მეხსიერება და 5120 CUDA ბირთვი მას დღესაც კონკურენტუნარიანს ხდის.
მისი მეხსიერების გამტარუნარიანობა 900 GB/s-ს შეადგენს, რაც აღემატება არა მხოლოდ RTX 4080-ის, არამედ Apple-ის M5 Max ჩიპების მონაცემებსაც კი. 200 ფუნტის ფარგლებში შეძენილი ეს გადაწყვეტა მომხმარებელს 32GB-მდე ჯამურ VRAM-ს აძლევს, რაც RTX 5090-ის ფასის მხოლოდ მცირე ნაწილია.
ტექნიკური გამოწვევები და ადაპტაცია
მთავარი სირთულე SXM2-to-PCIe ადაპტერის გამოყენება და გაგრილების სისტემის მორგება იყო. სერვერული GPU-ს ქარხნული ვენტილატორი 82 დეციბელზე მუშაობს, რაც საყოფაცხოვრებო პირობებისთვის აუტანელია.
ექსპერიმენტატორმა ვენტილატორის მართვისთვის დედაპლატის PWM კონექტორი გამოიყენა. სპეციალური გადამყვანი კაბელის მეშვეობით შესაძლებელი გახდა ვენტილატორის ბრუნვის სიჩქარის კონტროლი, რამაც ხმაურის დონე საგრძნობლად შეამცირა, ხოლო ტემპერატურა 50°C-ის ფარგლებში შეინარჩუნა.
ვენტილატორის პინიზაციის გარკვევა და მისი დედაპლატთან თავსებადობა გადამწყვეტი აღმოჩნდა.
საბოლოოდ, ფიზიკური კავშირის დასამყარებლად გამოყენებული იქნა JST PH2.0-დან 2.54mm-იან კონექტორზე გადამყვანი კაბელი.
პროგრამული უზრუნველყოფა და შესრულება
NixOS-ის გამოყენებამ გაამარტივა დრაივერების კონფიგურაცია, რადგან NVIDIA-ს ახალი დრაივერები Volta არქიტექტურის მხარდაჭერას აღარ მოიცავს. 550.x სერიის დრაივერით შესაძლებელი გახდა როგორც RTX 4080-ის, ისე V100-ის ერთდროული მუშაობა.
Qwen3.6-27B მოდელის გაშვებისას სისტემამ 32 ტოკენი წამში აჩვენა, რაც სრულიად საკმარისია ინტერაქტიული გამოყენებისთვის. Multi-Token Prediction (MTP) ტექნოლოგიის გამოყენებით კი წარმადობა 50-60 ტოკენამდე იზრდება.
| Setting | Value |
|---|---|
| Model | Qwen3.6-27B-MTP Q5_K_M (19GB) |
| Context size | 128k tokens |
| GPU layers | 99 (all offloaded) |
| Tensor split | -ts 1.0,1.0 (even across both GPUs) |
ეს მიდგომა ადასტურებს, რომ ადგილობრივი აპარატურული მოდიფიკაციებით შესაძლებელია ისეთივე შედეგების მიღება, როგორსაც ძვირადღირებული ღრუბლოვანი სერვისები გვთავაზობენ.
| Metric | Value |
|---|---|
| Inference speed | ~32 tok/s |
| Prompt processing | ~133-160 tok/s |






დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.