როგორ ალაპარაკდა AI ქართულად: პირველი ღია TTS მოდელი და ახალი შესაძლებლობები ბიზნესისთვის

Gigi Giorgadze
Mar 24
4 min read

- ჰეი, სირი!

პასუხი არ არის

რამდენჯერაც არ უნდა მიმართოთ Apple-ის AI ასისტენტს, არ გიპასუხებთ, რადგან მას ქართული არ ესმის. მიუხედავად იმისა, რომ ინგლისურენოვანი ხმოვანი ასისტენტები თუ ავტომატიზებული ქოლ-ცენტრები უკვე ყოველდღიურობად იქცა, ქართული ენა ციფრული ბარიერის წინაშეა. ქართულ ენაზე არსებული აუდიო მონაცემების სიმცირის გამო, ბიზნესებს უჭირდათ ქართულენოვანი ხმოვანი სერვისების დანერგვა.

მართალია, Google-მა ბოლო პერიოდში საგრძნობლად გააუმჯობესა ქართულ ენაზე მეტყველება (Text-to-Speech - ტექსტის მეტყველებად გადაქცევა) და ასევე ქართულის გატექსტება (Speech-to-Text), ჯერ შორს ვართ ინგლისურის მსგავსი სრულყოფილებისგან.

თუმცა, სურათი შეიძლება Open Source ძალისხმევით შეიცვალოს. საქართველოს ხელოვნური ინტელექტის ასოციაციის წევრმა, ML/AI ინჟინერმა ნიკა მიქაბერიძემ, შექმნა პირველი ღია (Open-source) ქართული Text-to-Speech ბენჩმარკი. მან Mozilla Common Voice-ის 71,000 ნედლი აუდიოჩანაწერი მკაცრი 6-ეტაპიანი ფილტრაციით 35-საათიან იდეალურ ბაზამდე დაიყვანა და ამ მონაცემებზე 3 უახლესი არქიტექტურის მოდელი დაატრენინგა.

ჩვენ ნიკას ამ პროექტის მოტივაციასა და ბიზნესში მის პრაქტიკულ გამოყენებაზე ვესაუბრეთ. ეს სტატია საინტერესოა მათთვის, ვისაც ტექნიკური დეტალები აინტერესებს და მათთვისაც, ვისაც ბიზნეს ღირებულებაზე უნდა მეტის გაგება.

ნიკა მიქაბერიძე, AI/ML ინჟინერი ლიბერთი ბანკში | ეროვნული AI ოლიმპიადის სამეცნიერო კომიტეტის წევრი

ვისაც ტექნიკური დეტალები აინტერესებს

— ნიკა, რატომ გადაწყვიტე ასეთი მასშტაბის პროექტის დამოუკიდებლად წამოწყება? რა იყო მთავარი მოტივაცია?

დიდი ხანია მინდოდა ამაზე მუშაობა, რადგან Audio/NLP მიმართულება ყველაზე მეტად მაინტერესებს. ორი მოტივაცია მქონდა: პერსონალური — მინდოდა რეალური, ხელშესახები პროდუქტის შექმნა, რასაც საერთაშორისო ტექ-გიგანტებიც (Nvidia, Meta, ElevenLabs) განსაკუთრებულად აფასებენ. მეორე და უფრო ფართო მოტივაცია კი ინდუსტრიის გამოცოცხლება იყო.

დღეს ყველა LLM-ებსა და აგენტებზეა გადართული, მაგრამ ავიწყდებათ საბაზისო კვლევები. მინდოდა შემექმნა ისეთი რამ, რაც ახალი ექსპერიმენტების დასაწყისი გახდებოდა. როცა HuggingFace-ზე უკვე დევს კონკრეტული მონაცემი და მოდელი, თემაც უფრო ხელშესახები ხდება. მთავარი მიზანი იყო მეჩვენებინა, რომ შედარებით მცირე რესურსითაც შეიძლება ქართულ ენაზე სოლიდური შედეგის მიღწევა.

პროექტის კიდევ ერთი მოტივაცია ის იყო, რომ გამეგო, თანასწორ პირობებში რომელი არქიტექტურა მუშაობს ყველაზე კარგად ქართულზე, შემდეგ კი ეს არქიტექტურის მასშტაბირება უფრო დიდ მონაცემებზე გამეკეთებინა.

— ვისზეა გათვლილი ეს პროექტი? უფრო ტექნოლოგიური კომუნისთვის შეიქმნა, თუ ბიზნესებმაც შეიძლება მიიღონ სარგებელი?

თავიდან კომერციალიზაციაზე არ მიფიქრია. პროექტი „Community-first“ მიდგომით დავიწყე — სტუდენტებისთვის, მკვლევრებისთვის და იმ ინჟინრებისთვის, რომლებსაც უნდათ გამოიყენონ Open-source რესურსები. MagPIE, F5-TTS და CSM-1B მოდელები, რომელიც გამოვიყენე, TTS Arena-ზეა ღიად ხელმისაწვდომი.

თუმცა, ასეთი ღია წვდომის მოდელი ბიზნესებისთვისაც ძალიან სასარგებლოა. ნებისმიერ კომპანიას შეუძლია აიღოს არსებული ბაზა და საკუთარ კომერციულ ამოცანას მოარგოს.

— მონაცემების გასუფთავებისას 71,000 ჩანაწერიდან მხოლოდ მაღალი ხარისხის ბაზა დატოვე. რა არის ქართული ენის AI-ის მთავარი გამოწვევა და რა იყო მთავარი გაკვეთილი ამ პროცესში?

მთავარი გაკვეთილი მარტივია: მონაცემის ხარისხი ბევრად მნიშვნელოვანია, ვიდრე რაოდენობა. Common Voice-ში ყველას სხვადასხვა მიკროფონი აქვს, ზოგ ჩანაწერს ფონური ხმაური ახლავს, ზოგჯერ “ტროლი” ჩანაწერებიც ერევა. მე გავტესტე მოდელები უფრო დიდ, მაგრამ ნაკლებად გაწმენდილ სიმრავლეზეც და ბევრად უკეთესი შედეგი მივიღე მკაცრად გაფილტრულ, პატარა ქვესიმრავლეზე. გაკვეთილი ისაა, რომ თუ ხარისხს არ დაიცავ, საბოლოო შედეგი მაინც სუსტდება.

Common Voice Georgia მოხალისეობრივი ინიციატივაა, რომელიც ქართულ ენაზე ხმოვანი მონაცემების შეგროვებას ემსახურება. GAIA ამ ინიციატივას უჭერს მხარს კამპანიით "ილაპარაკე საქართველოსთვის"

ვისაც ბიზნეს ღირებულება აინტერესებს

— მოდელები ახლა ყველასთვის ხელმისაწვდომია. რა არის საჭირო იმისათვის, რომ ეს რეალურ პროდუქტად იქცეს?

სამივე მოდელი HuggingFace-ზე დევს, ხოლო კოდი და გაიდლაინები — GitHub-ზე. ახლა მთავარი ბარიერი უკვე გამოთვლითი რესურსები და გაფართოებული მონაცემებია. პარალელურად, უკვე შევაგროვე 1000 საათის ფარგლებში დალეიბლებული (ხმას ახლავს შესაბამისი ტექსტიც) ქართული აუდიო მონაცემები სხვადასხვა წყაროდან და შემდეგი ნაბიჯი მოდელების კიდევ უფრო გაუმჯობესებაა.

რაც შეეხება რეალურ პროდუქტში ინტეგრაციას, ამას მაგია არ სჭირდება — მთავარი სირთულე გამოთვლითი ინფრასტრუქტურა და ბიუჯეტია. უშუალოდ იდეაზე და მოდელებზე Open Source ქომუნითის შეუძლია მუშაობა, პროდუქტზე კი ბიზნესმა უნდა იფიქროს.

— კონკრეტულად რა ტიპის პროდუქტების შექმნაა დღეს უკვე შესაძლებელი ამ ბაზით?

გამოყენების არეალი საკმაოდ ფართოა. მაგალითად:

ქართული აუდიოწიგნების ავტომატური გენერაცია.
ხმის კლონირება სულ რაღაც რამდენიმე წამიანი ჩანაწერიდან.
ბანკების, ტელეკომების და რითეილ კომპანიების ხმოვანი ბოტები და ჭკვიანი ავტომოპასუხეები (IVR).
კონტენტის სწრაფი გახმოვანება მედიისთვის და საგანმანათლებლო პლატფორმებისთვის.

ყველაზე რთული, საბაზისო სამუშაო უკვე შესრულებულია. კომპანიას შეუძლია უბრალოდ აიღოს ეს მოდელი, სურვილის შემთხვევაში დამატებით დაატრენინგოს (Fine-tune) საკუთარ მონაცემებზე და მიიღოს ფუნქციური პროდუქტი.

— რა არის შემდეგი ნაბიჯი?

პროექტის განვითარების შემდეგ ეტაპებს ორ ნაწილად დავყოფდი: ბიზნესებისთვის რეალური პროდუქტების შექმნა და თავად მოდელის განვითარება.

იმ ბიზნესებს, რომლებსაც ჰყავთ მონაცემთა მეცნიერები და AI ინჟინრები, შეუძლიათ მოდელი და მონაცემები გამოიყენონ, დამატებით საკუთარ მონაცემებზე გაწვრთნან და ხმაზე დაფუძნებული პროდუქტები შექმნან. იმ ბიზნესებს კი, რომელთაც ასეთი გუნდები არ ჰყავთ, შეუძლიათ ფრილანსერებთან ითანამშრომლონ და პროექტულად შექმნან საჭირო პროდუქტები.

მოდელის განვითარებისთვის დამატებითი რესურსები - გამოთვლითი რესურსი და შესაბამისი ბიუჯეტია საჭირო. ეს ყველაზე საინტერესო სწორედ იმ ბიზნესებისთვისაა, რომლებიც ამ მონაცემებისა და მოდელების გამოყენებით რეალურ კომერციულ პროდუქტებს შექმნიან. ამ გზით კი ხარჯებს დაზოგავენ და შემოსავლებს გაზრდიან.

თუ რომელიმე კომპანიას სურს, რომ ქართული ენის მოდელი კიდევ უფრო დაიხვეწოს, მათ შეუძლიათ გახდნენ ამ პროექტის პარტნიორები, რაც მათვე მისცემს ტექნოლოგიაზე წვდომის უპირატესობას.

როგორ ვაქციოთ ინოვაცია ბიზნეს ღირებულებად?

ღია კოდის (Open-source) მოდელების არსებობა ნიშნავს, რომ ქართულ ბიზნესს აღარ მოუწევს ხმოვანი ტექნოლოგიების ნულიდან შენება. თუმცა, ამ ტექნოლოგიის შიდა სისტემებში უსაფრთხოდ ინტეგრირება, მონაცემების დამუშავება და მოდელის კონკრეტულ ბრენდზე (მაგალითად, ბრენდის უნიკალურ ხმაზე) მორგება ტექნიკურ ექსპერტიზას მოითხოვს.

ნიკას მიერ შექმნილი ბაზა და მოდელები უნიკალური საწყისი წერტილია. თუმცა, იმისათვის, რომ ეს Open-source კოდი კომპანიის ქოლ-ცენტრის ჭკვიან ავტომოპასუხედ ან ბრენდის უნიკალურ ხმად იქცეს, სწორი ტექნიკური დანერგვაა საჭირო.

ორგანიზაციებს, რომლებსაც მსგავსი AI გადაწყვეტილებები სჭირდებათ, საქართველოს ხელოვნური ინტელექტის ასოციაცია (GAIA) და წევრი კომპანიები კომპანიებს AI-ის სწორად დანერგვაში ეხმარებიან. ბიზნეს კონსალტინგისა და AI სტრატეგიის შექმნის სერვისები კომპანიებს სწორი გამოყენების შემთხვევების (Use cases) იდენტიფიცირებაში დაეხმარება, ხოლო ჩვენი გამოცდილი წევრი კომპანიები და პროფესიონალები კი უზრუნველყოფენ როგორც პროდუქტების შექმნას, ისე გუნდების მომზადებას.