წლიდან წლამდე გესმით ფრაზა, რომ „ეს Linux-ის დესკტოპის წელიწადია“. თუმცა, რეალობა უცვლელია: დესკტოპის ბაზარს კვლავ Apple-ი და Microsoft-ი ინარჩუნებენ. მიზეზები ნაცნობია: დრაივერები, თამაშები, Adobe-ს პროგრამები თუ ოფისის პაკეტი. მაგრამ დღეს ამას გაცილებით უფრო ფუნდამენტური და საგანგაშო ახსნა აქვს.

მომავლის მომხმარებელი ადამიანი არ არის

მომავლის კომპიუტერს არა მხოლოდ ადამიანი, არამედ ხელოვნური ინტელექტის „აგენტები“ მართავენ. ამ პროცესისთვის კი საჭიროა არა მხოლოდ ეკრანზე გამოსახული პიქსელების დანახვა, არამედ სისტემის შიდა სტრუქტურის გაგება. ამისთვის კი „ხელმისაწვდომობის API-ები“ (Accessibility APIs) გამოიყენება.

თუ macOS-ზე Accessibility Inspector-ს გახსნით, დაინახავთ კომპიუტერის მეორე ვერსიას — ობიექტების იერარქიულ ხეს. ფანჯრები, ღილაკები, ტექსტური ველები — ეს ყველაფერი სისტემისთვის აღწერილობითია. ეს API თავდაპირველად შეზღუდული შესაძლებლობის მქონე პირებისთვის შეიქმნა, თუმცა დღეს ის აგენტების „თვალები“ და „ხელები“ გახდა.

რატომ იმარჯვებს Apple?

Apple-ის უპირატესობა დეფოლტებშია. 90-იანი წლებიდან მოყოლებული, Apple-მა შექმნა სისტემა, სადაც სტანდარტული ხელსაწყოების (NSButton, NSTextField) გამოყენებისას, აპლიკაცია ავტომატურად ხდება „ხელმისაწვდომი“. დეველოპერს დამატებითი ძალისხმევა არ სჭირდება.

OpenAI-ს „Codex Computer Use“ ტექნოლოგია სწორედ ამ სტრუქტურას ეყრდნობა. ის მუშაობს ფონურ რეჟიმში, არ აწყვეტინებს მომხმარებელს მუშაობას და ზუსტად კითხულობს აპლიკაციის კონტენტს. ეს აღარ არის მხოლოდ კეთილი ნება — ეს უკვე აგენტებთან თავსებადობის აუცილებელი ინფრასტრუქტურაა.

Windows-ის არქეოლოგიური პრობლემა

Microsoft-ს აქვს საკმაოდ ძლიერი UIA (UI Automation) სისტემა. თუმცა, Windows-ის პრობლემა მისი მრავალფეროვნებაა. Win32, WPF, WinForms, Electron — Windows-ი აპლიკაციების ნამდვილი მუზეუმია. აგენტს სჭირდება სისტემა, სადაც ღილაკი ყოველთვის ღილაკია და არა გაუგებარი გეომეტრიული ფიგურა. Windows-ზე აპლიკაციების დიდი ნაწილი ამ სტანდარტს ვერ აკმაყოფილებს.

Linux-ის გამოწვევა

Linux-ს აქვს AT-SPI, რომელიც თეორიულად კარგად მუშაობს. თუმცა, აგენტებს სჭირდებათ მეტი: ფანჯრების მართვა, ეკრანის კადრირება, შეყვანის სინთეზი და უსაფრთხოების ერთიანი მოდელი. Linux-ზე ეს პროცესი ხშირად მოწყვეტილია მომხმარებლის გამოცდილებას, რაც აგენტების მუშაობას არასტაბილურს ხდის.