საუბრისას გაკეთებული პაუზები და ისეთი ბგერები, როგორიცაა „უმ“, „უჰ“ თუ „ერ“, ლინგვისტიკაში „დისფლუენციებად“ მოიხსენიება. პოდკასტერებისა და აუდიო-კონტენტის შემქმნელებისთვის მათი ხელით ამოჭრა ერთ-ერთი ყველაზე შრომატევადი პროცესია. ამ პრობლემის გადასაჭრელად დეველოპერმა შექმნა erm — ლოკალური ინსტრუმენტი, რომელიც ავტომატურად ასუფთავებს აუდიოფაილებს.
რატომ არ მუშაობს სტანდარტული მიდგომა?
ერთი შეხედვით, მარტივი ჩანს: გამოიყენო ტრანსკრიპცია დროის აღნიშვნებით, იპოვო „უმ“ და „უჰ“ და ამოჭრა ისინი. თუმცა, ეს მეთოდი ხშირად აუარესებს შედეგს. სამი მთავარი მიზეზი არსებობს: Whisper ხშირად საერთოდ არ აფიქსირებს ამ ბგერებს ტრანსკრიპტში, აუდიოს თვითნებური ამოჭრა იწვევს ხმოვან „დაწკაპუნებას“, ხოლო ფონის ხმაურის წყვეტა შემაწუხებელ ცვლილებებს ქმნის.
erm-ის ძირითადი ფუნქცია სწორედ ამ ხარვეზების გამოსწორებაა. ინსტრუმენტი იყენებს faster-whisper-ს, რომელიც არის OpenAI-ის მოდელის უფრო სწრაფი და ნაკლებად რესურსტევადი ვერსია. ის მუშაობს ლოკალურად, რაც ნიშნავს, რომ თქვენი ჩანაწერები არსად იგზავნება.
როგორ მუშაობს ამოცნობის პროცესი?
ინსტრუმენტი იყენებს ოთხეტაპიან შემოწმებას. პირველი ეტაპი Whisper-ის მიერ დაფიქსირებული ბგერების ამოცნობაა. დანარჩენი სამი ეტაპი კი პირდაპირ აუდიოზე მუშაობს:
- პაუზების ანალიზი: თუ ორ სიტყვას შორის უჩვეულოდ დიდი პაუზაა, erm ამოწმებს, არის თუ არა იქ ხმოვანი ბგერა, რომელიც მოდელმა გამოტოვა.
- სიტყვებში ჩამალული ბგერები: ხანდახან „უმ“ მიწებებულია მეზობელ სიტყვაზე. ინსტრუმენტი ყოფს ასეთ მონაკვეთებს და აცალკევებს ზედმეტ ბგერებს.
- ზედმეტად გრძელი სიტყვები: თუ სიტყვის ხანგრძლივობა არაბუნებრივია, სისტემა აანალიზებს მის დასასრულს, რათა დაადგინოს, არის თუ არა ეს გაწელილი ხმოვანი.
ხარისხის შენარჩუნება
იმისათვის, რომ თავიდან ავიცილოთ „დაწკაპუნების“ ეფექტი, erm ამოჭრის წერტილებს ოდნავ აცურებს უახლოეს „მშვიდ“ წერტილამდე. ასევე, ffmpeg-ის გამოყენებით ხდება ე.წ. crossfade (გადაფარვა), რაც აუდიოს სეგმენტებს ბუნებრივად აერთიანებს.
საინტერესოა, რომ ინსტრუმენტი არ ეხება ისეთ სიტყვებს, როგორიცაა „როგორც“, „იცით“ ან „ვგულისხმობ“. ისინი სტრუქტურულად მნიშვნელოვანია წინადადებისთვის, erm-ის მიზანი კი მხოლოდ არალინგვისტური ხმაურის მოშორებაა. ასევე, ინსტრუმენტი არ ასწორებს მეტყველების სტილს, პაუზებს ფიქრისთვის ან არასწორად ნათქვამ სიტყვებს.
| Mode | Detection looks at | The output is cut from |
|---|---|---|
| none | the original | the original |
| pre | a denoised copy | the denoised copy |
| post | the original | the original; denoised at the end |
| hybrid | the original | a denoised copy |



დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.