ხელოვნური ინტელექტის მოდელების მათემატიკური შესაძლებლობები ახალ ეტაპზე გადავიდა. ლაიფციგის მაქს პლანკის მათემატიკურ მეცნიერებათა ინსტიტუტში გამართულ სამდღიან სემინარზე, 49-მა მეცნიერმა შექმნა 100 კითხვასგან შემდგარი უნიკალური სატესტო ბაზა. პროექტი, სახელწოდებით „Benchmarks in Leipzig“, მიზნად ისახავდა კვლევითი დონის მათემატიკური ამოცანების გადაჭრაში AI-ის უნარების შეფასებას.
კვლევის ფარგლებში, 2026 წლის აპრილიდან მაისის ჩათვლით, მეცნიერებმა ჩაატარეს ტესტირების სამი ეტაპი. თავდაპირველად, ხუთმა წამყვანმა დიდმა ენობრივმა მოდელმა (LLM) სცადა 100-ვე ამოცანის ამოხსნა. შედეგები შთამბეჭდავი აღმოჩნდა, თუმცა 41 ამოცანა პირველივე ცდაზე გადაუჭრელი დარჩა.
მეორე ეტაპზე, სამმა მოდელმა თითოეულ ამოცანაზე 20-ჯერ სცადა ბედი, რის შემდეგაც გადაუჭრელი ამოცანების რაოდენობა 16-მდე შემცირდა. საბოლოო, მესამე ეტაპზე, პროცესში ჩაერთვნენ ე.წ. „მძიმე მოაზროვნე“ მოდელები. მათ მხოლოდ 3 ცდა დასჭირდათ იმისთვის, რომ 100-დან 98 ამოცანა წარმატებით დაეძლიათ.
რა გვიჩვენებს ეს შედეგები?
ექსპერტების შეფასებით, მსგავსი ტესტები აჩვენებს, რომ AI აღარ არის მხოლოდ ტექსტის გენერატორი და ის სულ უფრო მეტად ეუფლება კომპლექსურ ლოგიკურ მსჯელობას. მათემატიკური სიზუსტე, რომელიც ადრე ხელოვნური ინტელექტისთვის ერთ-ერთ მთავარ გამოწვევას წარმოადგენდა, დღეს სწრაფი ტემპით უმჯობესდება.
| Comments: | 8 pages including 8 benchmark statistics tables + 20 pages appendix containing the 100 Leipzig Benchmark questions |
| Subjects: | History and Overview (math.HO); Artificial Intelligence (cs.AI); Algebraic Geometry (math.AG); Combinatorics (math.CO); Representation Theory (math.RT) |
| Cite as: | arXiv:2606.05818 [math.HO] |
| (or arXiv:2606.05818v1 [math.HO] for this version) | |
| https://doi.org/10.48550/arXiv.2606.05818 arXiv-issued DOI via DataCite (pending registration) |
კვლევის ავტორები აღნიშნავენ, რომ ეს 100 ამოცანა არ იყო მარტივი მათემატიკური მოქმედებები. ესენი იყო კვლევითი დონის კითხვები, სადაც პასუხები მეცნიერებისთვის წინასწარ იყო ცნობილი, რათა შედეგების ობიექტურობა დაცული ყოფილიყო.





დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.