ნორვეგიის ეროვნული ბიბლიოთეკა (Nasjonalbiblioteket) საკუთარი ენის მქონე დიდი ენობრივი მოდელის (LLM) შექმნაზე მუშაობს. პროექტის მიზანია, ქვეყანამ თავიდან აიცილოს დამოკიდებულება საერთაშორისო, ძირითადად ინგლისურენოვან AI მოდელებზე, რომლებიც ნორვეგიულ კულტურულ კონტექსტს, ისტორიასა და ნიუანსებს ვერ ფარავენ.
ტექნოლოგიური გამოწვევა და Huawei-ს როლი
პროექტის ხელმძღვანელი მარიუს ჰუსნესი აღნიშნავს, რომ მთავარი შემაფერხებელი ფაქტორი არა გამოთვლითი სიმძლავრე, არამედ მონაცემთა ხარისხი და მათი დამუშავების პროცესია. ამ მიზნით, ბიბლიოთეკამ Huawei-ს OceanStor Dorado ფლეშ-მეხსიერების სისტემები შეარჩია, რომელთა საერთო მოცულობა 2 პეტაბაიტს შეადგენს.
ეს სისტემა უზრუნველყოფს მონაცემთა მილსადენის (pipeline) მაღალ გამტარობასა და დაბალ ლატენტურობას, რაც აუცილებელია მონაცემთა გასაწმენდად, დუბლიკატების მოსაშორებლად და ფორმატის ნორმალიზებისთვის.
მონაცემთა მასშტაბები და არქივირება
ბიბლიოთეკა 2005 წლიდან ახორციელებს კოლექციების ციფრულ ფორმატში გადატანას. დღეისთვის დაგროვილია 20 პეტაბაიტი უნიკალური მონაცემი, რაც სარეზერვო ასლების გათვალისწინებით 60 პეტაბაიტამდე აღწევს. ეს მონაცემები მოიცავს წიგნებს, გაზეთებს, ვებგვერდებს, აუდიო და ვიდეო მასალებს.
მონაცემთა მომზადების შემდეგ, პროცესი ნორვეგიის ეროვნულ სუპერკომპიუტერზე, Sigma2 Olivia-ზე გადადის. ეს სისტემა აღჭურვილია 448 გრაფიკული პროცესორით (GPU) და 64,512 CPU ბირთვით.
AI-ს სჭირდება პატრონები და არა მხოლოდ შემქმნელები, - აცხადებს მარიუს ჰუსნესი.
რატომ არის ეს პროექტი უნიკალური?
ნორვეგიული მოდელის უპირატესობა საავტორო უფლებებით დაცულ კონტენტზე წვდომაშია. ბიბლიოთეკამ მიაღწია შეთანხმებას ადგილობრივ მედიასთან, რაც მათ საშუალებას აძლევს, მოდელი გაწვრთნან ისეთ მასალებზე, რომლებზეც კერძო კომპანიებს ხელი არ მიუწვდებათ.
ჰუსნესის განცხადებით, ნორვეგია პატარა ქვეყანაა, რომელიც იმ გამოწვევას პასუხობს, რომლის წინაშეც ყველა არასაენგლისურენოვანი ერი დგას: როგორ შევქმნათ AI, რომელიც რეალურად ასახავს ჩვენს ენას, ისტორიასა და ღირებულებებს.





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.