ქართული ტექსტის ხმოვანი წამკითხველები

ტექსტის ხმოვანი წამკითხველი, ნაწერის გამხმოვანებელი ანუ მეტყველების სინთეზატორი (ინგლ. Text-to-Speech, შემოკლ. TTS) ეწოდება პროგრამულ უზრუნველყოფას, რომელიც კომპიუტერში აკრეფილ სიტყვებს გარდაქმნის ხმოვან სიგნალებად ადამიანისთვის გასაგებ ენაზე. ხმის შექმნა ელექტრონულადაც შეიძლება მათემატიკური მოდელების მეშვეობით და გამომავალი სიგნალის მახასიათებლების სურვილსამებრ გარდაქმნის საშუალებასაც იძლევა (სქესის შესაცვლელად, ჩურჩულის მისამსგავსებლად), მაგრამ ასე მეტად რობოტისებრი ხმა მიიღება და ბუნებრიობის მისაღწევად უფრო ხშირად ადამიანთა ხმების ჩანაწერებისგან შემდგარი მონაცემთა ბაზები გამოიყენება. ბოლო წლებში კი მანქანური შესწავლის (Machine Learning) საშუალებებით, აგრეთვე ნეირონული ქსელებისა (Neural Network) და ხელოვნური ინტელექტის (Artificial Intelligence, შემოკლ. AI) დახმარებით უკვე შესაძლებელი გახდა ბუნებრივთან კიდევ უფრო მიახლოებული ხმების მიღება.

წინა ათეული წლების განმავლობაში ქართული ენისთვის ხმის სინთეზატორის შემუშავების არაერთი მცდელობა ყოფილა ერთმანეთისგან დამოუკიდებელად.

თავდაპირველად, ამგვარ სისტემაზე მუშაობა გააქტიურდა სახელმწიფო უნივერსიტეტში 2003-2007 წლებში „ლოგიკისა და ენის გაერთიანებულ ქართულ ჯგუფისა“ და მასთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ახალგაზრდული ჯგუფის“ მიერ, ხოლო 2008 წელს დაფუძნდა „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტი“, რომელიც წლების განმავლობაში აქვეყნებდა მუშაობის შედეგებს, მათ შორის სინთეზატორ GeoTextReader-ის საჩვენებელი ვერსია და მასზე დაფუძნებული აპლიკაციები მოცემულია საიტებზე GLLC და GEOANBANI.

იმავე პერიოდში ქართული ენა აგრეთვე გამოჩნდა საერთაშორისო მრავალპლატფორმულ და ღია წყაროს მქონე სინთეზატორში სახელწოდებით eSpeak.

2010-2011 წლებში კი შემუშავდა კიდევ ერთი ქართული ხმოვანი წამკითხველი დასახელებით „ბუ“. ამ პროექტზე მუშაობდა ეროვნული სამეცნიერო ბიბლიოთეკა და ასოციაცია „უსინათლოები საზღვრებს გარეშე“.

2014 წელს შემოსავლების სამსახურის ორმა თანამშრომელმა სამწლიანი ძალისხმევის შედეგად წარმოადგინა ქართულისთვის დამუშავებული ახალი ძრავა Geotts, რომლის მეშვეობითაც გახმოვანდა და მცირე მხედველთათვის ხელმისაწვდომი გახდა შემოსავლების სამსახურის, სახელმწიფო სერვისებისა და სხვა სამთავრობო მომსახურების ვებგვერდები, აგრეთვე, გამოიყენებოდა თბილისის ავტობუსებში, გაჩერებების გამოსაცხადებლად.

2016-2018 წლებში დაარსდა ხელოვნურ ინტელექტზე ორიენტირებული კერძო კომპანიებიც, რომლებიც მუშაობდნენ ქართული ხმოვანი ტექნოლოგიების დახვეწაზე ადგილობრივ თუ საერთაშორისო კომერციულ ორგანიზაციებთან თანამშრომლობისთვის. ერთ-ერთი იყო Pulsar AI, მისმა გუნდმა ქართული ბუნებრივი ენის კომპიუტერული დამუშავებით შექმნა ქართულ ენაზე მოსაუბრე „ბოტები“ და ხმოვანი ასისტენტი, რომელთაც იყენებდა სხვადასხვა კერძო ბანკები და საკომუნიკაციო კომპანიები მომხმარებელთა თვითმომსახურებისთვის.

იმავე პერიოდში ხელოვნურ ინტელექტზე მომუშავე კიდევ ერთმა ქართულმა კომპანიამ SYSTEMcorp (შემდგომში WAVETECH) წარმოადგინა ქართული ტექსტის წამკითხველი ძრავა, რომლითაც დიდი მოცულობის ტექსტების ხმოვან ფაილად ქცევა რამდენიმე წუთში იყო შესაძლებელი.

WAVETECH.AI

საიტზე WAVETECH.AI მომხმარებლებს, მათ შორის ფიზიკურ და იურიდიულ პირებს, შესაძლებლობა აქვთ, მოსინჯონ ხმის ამომცნობი სისტემა და შეიძინონ მომსახურება ბრაუზერის გაფართოებების, საიტის ძრავის ან სხვადასხვა პროგრამათა დანამატების სახით.

2016 წლიდან კომპანია Google-მა თავისი ღრუბლოვანი მომსახურებების პლატფორმაზე Google Cloud (აგრეთვე Amazon-მა AWS-ში და შემდგომ Microsoft-მაც საკუთარ Azure-ზე) დაიწყო ნეირონული ქსელებისა და ხელოვნური ინტელექტის მეშვეობით ბუნებრივთან მეტად მიმსგავსებული ხმის მოდელების შემუშავება. მათი გამოყენება ფასიანია, თუმცა წინასწარ შესაძლებელია მოსინჯვა და ჩაშენებულია კომპანიის სხვადასხვა მომსახურებასა თუ აპლიკაციაში.

2022 წლის ივნისში კი Microsoft-მა გააფართოვა საკუთარი ღრუბლოვანი მომსახურების საერთაშორისო მხარდაჭერა და საკუთარი ხმოვანი წამკითხველი (Text-to-Speech), აგრეთვე, წარმოთქმულის ტექსტად ჩამწერი (Speech-to-Text) საშუალებები ხელმისაწვდომი გახადა 140 ენისთვის, მათ შორის ქართულისთვისაც. ნაწერის გახმოვანების მოსინჯვა უკვე Azure-ს საიტზევეა შესაძლებელი ორი განსხვავებული ხმით — ქალისა (ეკა) და კაცის (გიორგი)

Azure-საიტზე ქართული ხმოვანი წამკითხველის მოსინჯვა

ამასთანავე, აღნიშნული ხმოვანი წამკითხველის გამოყენება შესაძლებელია Microsoft-ის ბრაუზერ EDGE-ის დახმარებით Windows-სისტემაზე ქართული საიტებისა თუ PDF-ის ან Word-ის დოკუმენტებიდან ტექსტის ამოსაკითხად.

საჩვენებელი ვიდეო

ქვემოთ კი მოცემულია ქართულისთვის ღიად ხელმისაწვდომი სისტემები:

eSpeak

ღია წყაროს მქონეა და მისი გამოყენება ნებისმიერი დანიშნულებით ნებადართულია შეზღუდვების გარეშე. გადმოწერა შესაძლებელია ოფიციალური საიტიდან ყველა სისტემაზე, როგორც დამოუკიდებელი პროგრამის სახით, ასევე ბრძანებათა სტრიქონით გასაშვებად. იგი აგრეთვე ჩაშენებულია ღია წყაროს მქონე ეკრანის წამკითხველ ცნობილ პროგრამაში NVDA და არაერთი ენისთვის გამოიყენება Google Tranlate სისტემაშიც. ამჟამად მასზე მუშაობა შეწყვეტილია, თუმცა განახლებული ვერსია წარმოდგენილია eSpeak-NG-პროექტში Github-ზე.

ვინაიდან ნებისმიერ მსურველს შეუძლია გადაამუშაოს, მოიპოვება როგორც ვებვერსიის, ასევე ბრაუზერის გაფართოების სახითაც, მათ შორის ქართულისთვის. გამომდინარე იქიდან, რომ ხმა ელექტრონულად იწარმოება, მეტად რობოტიზებულად ისმის, სამაგიეროდ ადვილი ზემოქმედებით მიიღება სხვადასხვა სქესის, ტონის, გამოთქმისა და ჩურჩულისთვის დამახასიათებელი ეფექტები.

GeoTextReader

ტექნიკურ უნივერსიტეტთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტში“ შექმნილი, რომელიც გამოიყენება მათ მიერვე შემუშავებულ არაერთ პროექტში, ხმით მართვის, გრამატიკული მართლწერისა და სხვადასხვა ენებზე თარგმნის სისტემებში. მისი მოსინჯვა შესაძლებელია სინტაქსის ანალიზატორში, რომელიც წარმოდგენილია ვებგვერდზე

GLANGUAGE.GEOANBANI.COM.

BU2

ეროვნული სამეცნიერო ბიბლიოთეკისა და ასოციაციის „უსინათლოები საზღვრებს გარეშე“ საერთო პროექტით შექმნილ პროგრამებში „ბუ“ და „ინტერბუ“ ჩაშენებული მეტყველების სინთეზატორი. ხელმისაწვდომია რამდენიმე ხმით, მათ შორის კაცისა და ქალის.

პროგრამების ჩამოტვირთვა შესაძლებელია ასოციაციის ვებგვერდიდანვე.

Geotts

შემოსავლების სამსახურის თანამშრომლების შემუშავებული, რომელიც გამოიყენება სამთავრობო საიტებზე. იგი ღია ფორმით წარმოდგენილია პროექტში სახელწოდებით RHVoice, Github-ზე. პირადი დანიშნულებით გამოყენება ნებადართულია, მაგრამ კომერციული მიზნებისთვის აუცილებელია ავტორებთან პირობების შეთანხმება.

RHVoice-ის ინტეგრაცია შესაძლებელია Windows და GNU/Linux სისტემებში ჩაშენებულ ხმის ამომცნობ საშუალებებთან. აგრეთვე არსებობს გაფართოების სახით პროგრამისთვის NVDA და აღნიშნული წამკითხველის გადამუშავებული 2014 წლის ვერსია, რომელსაც Geotts თანდართული აქვს, შეიძლება ჩამოიტვირთოს GBU-საიტიდან.

მოიპოვება Android-აპლიკაციის სახითაც Play Store-ში და მისი დაყენებით ქართული ენის ასარჩევი დაემატება ტელეფონის მენიუს „მარტივი წვდომის“ (Accessibility) განყოფილებაში. შედეგად, ეკრანზე მოცემული ქართული ტექსტის ამოკითხვა შესაძლებელი გახდება სხვადასხვა აპლიკაციით, როგორიცაა, მაგალითად Talkback, რომელიც ჩაშენებულად მოჰყვება Android-ს.

ქვემოთ მოცემულ ვიდეოში ნაჩვენებია eSpeak-ისა და Geotts/RHVoice-ის ჩამოტვირთვის, დაყენებისა და მოსინჯვის მაგალითები Windows-ის სისტემაზე Firefox-ის ბრაუზერით, რომელსაც ჩაშენებული აქვს ხმის ამომცნობი ძრავების გამოყენების შესაძლებლობა. იმუშავებს ამგვარი ძრავების მხარდაჭერის მქონე ნებისმიერ სხვა პროგრამაშიც.

წყარო https://georgianization.blogspot.com/

ქართული ტექსტის ხმოვანი წამკითხველები

Like this:

Leave a Reply Cancel reply

Share this:

Like this:

Leave a Reply Cancel reply