როგორ მოვაშოროთ საუბარს „უმ“ და „უჰ“? ახალი AI ინსტრუმენტი

პოდკასტებისა და აუდიოჩანაწერების რედაქტირება ახლა უფრო მარტივია. გაიცანით erm — ინსტრუმენტი, რომელიც ავტომატურად ასუფთავებს მეტყველებას ზედმეტი ბგერებისგან.

მაია ვარდოსანიძე

12 ივნისი, 2026 · 01:402 წუთის წასაკითხი

გააზიარე

რა ვიცით ჯერჯერობით

erm არის ლოკალური CLI ინსტრუმენტი აუდიოდან „უმ“, „უჰ“ და „ერ“ ბგერების ავტომატურად მოსაშორებლად.
ინსტრუმენტი იყენებს faster-whisper-ს მეტყველების ამოსაცნობად და ffmpeg-ს აუდიოს დასამუშავებლად.
პროგრამა ახორციელებს ოთხეტაპიან ანალიზს, რათა დაადგინოს და გამოყოს ზედმეტი ბგერები მეტყველებისგან.
ინსტრუმენტი არ ასწორებს მეტყველების შინაარსს და არ ეხება ფრაზებს, რომლებიც საუბრის ნაწილია.

საუბრისას გაკეთებული პაუზები და ისეთი ბგერები, როგორიცაა „უმ“, „უჰ“ თუ „ერ“, ლინგვისტიკაში „დისფლუენციებად“ მოიხსენიება. პოდკასტერებისა და აუდიო-კონტენტის შემქმნელებისთვის მათი ხელით ამოჭრა ერთ-ერთი ყველაზე შრომატევადი პროცესია. ამ პრობლემის გადასაჭრელად დეველოპერმა შექმნა erm — ლოკალური ინსტრუმენტი, რომელიც ავტომატურად ასუფთავებს აუდიოფაილებს.

რატომ არ მუშაობს სტანდარტული მიდგომა?

ერთი შეხედვით, მარტივი ჩანს: გამოიყენო ტრანსკრიპცია დროის აღნიშვნებით, იპოვო „უმ“ და „უჰ“ და ამოჭრა ისინი. თუმცა, ეს მეთოდი ხშირად აუარესებს შედეგს. სამი მთავარი მიზეზი არსებობს: Whisper ხშირად საერთოდ არ აფიქსირებს ამ ბგერებს ტრანსკრიპტში, აუდიოს თვითნებური ამოჭრა იწვევს ხმოვან „დაწკაპუნებას“, ხოლო ფონის ხმაურის წყვეტა შემაწუხებელ ცვლილებებს ქმნის.

erm-ის ძირითადი ფუნქცია სწორედ ამ ხარვეზების გამოსწორებაა. ინსტრუმენტი იყენებს faster-whisper-ს, რომელიც არის OpenAI-ის მოდელის უფრო სწრაფი და ნაკლებად რესურსტევადი ვერსია. ის მუშაობს ლოკალურად, რაც ნიშნავს, რომ თქვენი ჩანაწერები არსად იგზავნება.

როგორ მუშაობს ამოცნობის პროცესი?

ინსტრუმენტი იყენებს ოთხეტაპიან შემოწმებას. პირველი ეტაპი Whisper-ის მიერ დაფიქსირებული ბგერების ამოცნობაა. დანარჩენი სამი ეტაპი კი პირდაპირ აუდიოზე მუშაობს:

პაუზების ანალიზი: თუ ორ სიტყვას შორის უჩვეულოდ დიდი პაუზაა, erm ამოწმებს, არის თუ არა იქ ხმოვანი ბგერა, რომელიც მოდელმა გამოტოვა.
სიტყვებში ჩამალული ბგერები: ხანდახან „უმ“ მიწებებულია მეზობელ სიტყვაზე. ინსტრუმენტი ყოფს ასეთ მონაკვეთებს და აცალკევებს ზედმეტ ბგერებს.
ზედმეტად გრძელი სიტყვები: თუ სიტყვის ხანგრძლივობა არაბუნებრივია, სისტემა აანალიზებს მის დასასრულს, რათა დაადგინოს, არის თუ არა ეს გაწელილი ხმოვანი.

ხარისხის შენარჩუნება

იმისათვის, რომ თავიდან ავიცილოთ „დაწკაპუნების“ ეფექტი, erm ამოჭრის წერტილებს ოდნავ აცურებს უახლოეს „მშვიდ“ წერტილამდე. ასევე, ffmpeg-ის გამოყენებით ხდება ე.წ. crossfade (გადაფარვა), რაც აუდიოს სეგმენტებს ბუნებრივად აერთიანებს.

საინტერესოა, რომ ინსტრუმენტი არ ეხება ისეთ სიტყვებს, როგორიცაა „როგორც“, „იცით“ ან „ვგულისხმობ“. ისინი სტრუქტურულად მნიშვნელოვანია წინადადებისთვის, erm-ის მიზანი კი მხოლოდ არალინგვისტური ხმაურის მოშორებაა. ასევე, ინსტრუმენტი არ ასწორებს მეტყველების სტილს, პაუზებს ფიქრისთვის ან არასწორად ნათქვამ სიტყვებს.

Mode	Detection looks at	The output is cut from
none	the original	the original
pre	a denoised copy	the denoised copy
post	the original	the original; denoised at the end
hybrid	the original	a denoised copy

რატომ აქვს ამას მნიშვნელობა

საქართველოში პოდკასტინგის კულტურა სწრაფად ვითარდება და მაღალი ხარისხის აუდიო-კონტენტზე მოთხოვნა იზრდება. ქართველი კონტენტის შემქმნელებისთვის, რომლებიც ხშირად დამოუკიდებლად მუშაობენ, მსგავსი უფასო და ლოკალური ინსტრუმენტები მნიშვნელოვნად ამცირებს რედაქტირებისთვის საჭირო დროს. ეს ავტომატიზაცია საშუალებას აძლევს ავტორებს, მეტი დრო დაუთმონ შინაარსს და ნაკლები — ტექნიკურ დეტალებს.

ხშირად დასმული კითხვები

erm მუშაობს ლოკალურად, თქვენს კომპიუტერში. მონაცემები არ იგზავნება გარე სერვერებზე.
არა, ის ორიენტირებულია მხოლოდ არალინგვისტურ ხმაურზე და არ ეხება წინადადების სტრუქტურულ სიტყვებს.
საჭიროა ffmpeg-ის დაყენება სისტემაში და erm-ის გაშვება ბრძანების სტრიქონიდან.

თეგები#ტექნოლოგიები #ხელოვნური ინტელექტი #აუდიო #პოდკასტი #პროგრამირება

ეს ამბავი ვითარდება

186 განახლება · ბოლო 12 ივნისი, 2026

კიბერუსაფრთხოების კრიზისი: AI და კრიპტო საფრთხეები

ტექნოლოგიური სამყარო კიბერუსაფრთხოების მზარდი გამოწვევების წინაშე აღმოჩნდა, სადაც ხელოვნური ინტელექტი როგორც დამცავ, ისე დამანგრეველ ინსტრუმენტად იქცა. კრიპტოინდუსტრია ჰაკერული თავდასხმების, ფიზიკური უსაფრთხოების რისკებისა და კვანტური საფრთხეების ტალღამ მოიცვა, რაც მილიონობით დოლარის ზარალს იწვევს. პარალელურად, ექსპერტები და პროგრამისტები აფრთხილებენ საზოგადოებას AI-ს ბრმად მინდობის საფრთხეებზე, რაც პროგრამული უზრუნველყოფის ხარისხსა და მონაცემთა კონფიდენციალურობას ეჭვქვეშ აყენებს. ეს დინამიკა ნათლად აჩვენებს, რომ ტექნოლოგიური პროგრესი უსაფრთხოების სტრატეგიების გადახედვის გარეშე სერიოზულ სისტემურ რისკებს შეიცავს.