წარმოიდგინეთ, რომ თქვენი ცხოვრების ბოლო 20 წელი ციფრულ არქივშია დაცული. სწორედ ასე მოიქცა ერთ-ერთი დეველოპერი, რომელმაც 1.2 მილიონი შეტყობინება გააანალიზა. პროექტი მიზნად ისახავდა ადამიანური ურთიერთობების გაუმჯობესებას, თუმცა შედეგად ავტორმა საკუთარ ემოციურ ქცევებსა და მეგობრობის ციკლებზე ბევრი ახალი რამ ისწავლა.

რატომ არის საჭირო ციფრული არქივი?

ყველაფერი 2014 წელს, ტიმ ურბანის პოპულარული სტატიით „შენი ცხოვრება კვირეებში“ დაიწყო. ვიზუალი, სადაც თითოეული კვირა ცარიელი უჯრაა, ავტორისთვის გამაღიზიანებელი აღმოჩნდა. მან გადაწყვიტა, რომ მის ცხოვრებას მხოლოდ სტანდარტული მოვლენები – სამსახური ან ქორწინება – არ უნდა განსაზღვრავდეს.

თავდაპირველად მან დღიურების წერა სცადა, თუმცა ქაღალდმა თუ ციფრულმა ჩანაწერებმა ვერ აღბეჭდა ის ნელი, შეუმჩნეველი პროცესები, რაც მეგობრობაში ხდება. სწორედ ამიტომ, მან გადაწყვიტა, შეექმნა „პირადი CRM“ სისტემა, რომელიც დაფუძნებული იქნებოდა არა მეხსიერებაზე, არამედ წლების განმავლობაში დაგროვილ რეალურ მიმოწერებზე.

მონაცემთა გაწმენდის სირთულე

მონაცემების შეგროვება ყველაზე მარტივი ნაწილი იყო. GDPR-ის დახმარებით მან მოიპოვა არქივები Facebook-იდან, Telegram-იდან, Instagram-იდან და VK-დან. თუმცა, მონაცემები სავსე იყო „ხმაურით“.

აღმოჩნდა, რომ შეტყობინებების 41% არ შეიცავდა რაიმე არსებით ინფორმაციას – ეს იყო მხოლოდ მისალმებები, ემოჯები და საუბრის შემავსებელი სიტყვები. ავტორმა შეიმუშავა სპეციალური ფილტრები, რათა მხოლოდ მნიშვნელოვანი ინფორმაცია გამოეყო. საინტერესოა, რომ მისი ლექსიკური მარაგი ბოლო ექვსი წელია სტაბილურია და ახალი სიტყვების წილი მხოლოდ 6%-ს შეადგენს.

LLM-ის როლი ანალიზში

ყველაზე რთული ამოცანა სახელების იდენტიფიცირება იყო. ერთი და იმავე ადამიანს სხვადასხვა პლატფორმაზე სხვადასხვა სახელით იხსენიებდნენ. ამ პრობლემის გადასაჭრელად მან გამოიყენა დიდი ენობრივი მოდელები (LLM). სისტემა კითხულობდა შეტყობინებებს და ქმნიდა სტრუქტურირებულ JSON ფაილებს, სადაც აღწერილი იყო ემოციური ტემპერატურა და ცხოვრებისეული მოვლენები.

მთელი პროცესი მართვადი და დეტერმინისტული დარჩა. ავტორმა შექმნა სისტემა, სადაც ნებისმიერი არასწორი დასკვნის შემთხვევაში შესაძლებელია პირველწყარომდე დაბრუნება. საბოლოოდ, ეს არ არის მხოლოდ მონაცემთა ბაზა, არამედ პირადი ისტორიის გააზრების ახალი მეთოდი.