ტექსტის ხმოვანი წამკითხველი, ნაწერის გამხმოვანებელი ანუ მეტყველების სინთეზატორი (ინგლ. Text-to-Speech, შემოკლ. TTS) ეწოდება პროგრამულ უზრუნველყოფას, რომელიც კომპიუტერში აკრეფილ სიტყვებს გარდაქმნის ხმოვან სიგნალებად ადამიანისთვის გასაგებ ენაზე. ხმის შექმნა ელექტრონულადაც შეიძლება მათემატიკური მოდელების მეშვეობით და გამომავალი სიგნალის მახასიათებლების სურვილსამებრ გარდაქმნის საშუალებასაც იძლევა (სქესის შესაცვლელად, ჩურჩულის მისამსგავსებლად), მაგრამ ასე მეტად რობოტისებრი ხმა მიიღება და ბუნებრიობის მისაღწევად უფრო ხშირად ადამიანთა ხმების ჩანაწერებისგან შემდგარი მონაცემთა ბაზები გამოიყენება. ბოლო წლებში კი მანქანური შესწავლის (Machine Learning) საშუალებებით, აგრეთვე ნეირონული ქსელებისა (Neural Network) და ხელოვნური ინტელექტის (Artificial Intelligence, შემოკლ. AI) დახმარებით უკვე შესაძლებელი გახდა ბუნებრივთან კიდევ უფრო მიახლოებული ხმების მიღება.
წინა ათეული წლების განმავლობაში ქართული ენისთვის ხმის სინთეზატორის შემუშავების არაერთი მცდელობა ყოფილა ერთმანეთისგან დამოუკიდებელად.
იმავე პერიოდში ქართული ენა აგრეთვე გამოჩნდა საერთაშორისო მრავალპლატფორმულ და ღია წყაროს მქონე სინთეზატორში სახელწოდებით eSpeak.
2010-2011 წლებში კი შემუშავდა კიდევ ერთი ქართული ხმოვანი წამკითხველი დასახელებით „ბუ“. ამ პროექტზე მუშაობდა ეროვნული სამეცნიერო ბიბლიოთეკა და ასოციაცია „უსინათლოები საზღვრებს გარეშე“.
2014 წელს შემოსავლების სამსახურის ორმა თანამშრომელმა სამწლიანი ძალისხმევის შედეგად წარმოადგინა ქართულისთვის დამუშავებული ახალი ძრავა Geotts, რომლის მეშვეობითაც გახმოვანდა და მცირე მხედველთათვის ხელმისაწვდომი გახდა შემოსავლების სამსახურის, სახელმწიფო სერვისებისა და სხვა სამთავრობო მომსახურების ვებგვერდები, აგრეთვე, გამოიყენებოდა თბილისის ავტობუსებში, გაჩერებების გამოსაცხადებლად.
2016-2018 წლებში დაარსდა ხელოვნურ ინტელექტზე ორიენტირებული კერძო კომპანიებიც, რომლებიც მუშაობდნენ ქართული ხმოვანი ტექნოლოგიების დახვეწაზე ადგილობრივ თუ საერთაშორისო კომერციულ ორგანიზაციებთან თანამშრომლობისთვის. ერთ-ერთი იყო Pulsar AI, მისმა გუნდმა ქართული ბუნებრივი ენის კომპიუტერული დამუშავებით შექმნა ქართულ ენაზე მოსაუბრე „ბოტები“ და ხმოვანი ასისტენტი, რომელთაც იყენებდა სხვადასხვა კერძო ბანკები და საკომუნიკაციო კომპანიები მომხმარებელთა თვითმომსახურებისთვის.
საიტზე WAVETECH.AI მომხმარებლებს, მათ შორის ფიზიკურ და იურიდიულ პირებს, შესაძლებლობა აქვთ, მოსინჯონ ხმის ამომცნობი სისტემა და შეიძინონ მომსახურება ბრაუზერის გაფართოებების, საიტის ძრავის ან სხვადასხვა პროგრამათა დანამატების სახით.
2016 წლიდან კომპანია Google-მა თავისი ღრუბლოვანი მომსახურებების პლატფორმაზე Google Cloud (აგრეთვე Amazon-მა AWS-ში და შემდგომ Microsoft-მაც საკუთარ Azure-ზე) დაიწყო ნეირონული ქსელებისა და ხელოვნური ინტელექტის მეშვეობით ბუნებრივთან მეტად მიმსგავსებული ხმის მოდელების შემუშავება. მათი გამოყენება ფასიანია, თუმცა წინასწარ შესაძლებელია მოსინჯვა და ჩაშენებულია კომპანიის სხვადასხვა მომსახურებასა თუ აპლიკაციაში.
2022 წლის ივნისში კი Microsoft-მა გააფართოვა საკუთარი ღრუბლოვანი მომსახურების საერთაშორისო მხარდაჭერა და საკუთარი ხმოვანი წამკითხველი (Text-to-Speech), აგრეთვე, წარმოთქმულის ტექსტად ჩამწერი (Speech-to-Text) საშუალებები ხელმისაწვდომი გახადა 140 ენისთვის, მათ შორის ქართულისთვისაც. ნაწერის გახმოვანების მოსინჯვა უკვე Azure-ს საიტზევეა შესაძლებელი ორი განსხვავებული ხმით — ქალისა (ეკა) და კაცის (გიორგი)
ამასთანავე, აღნიშნული ხმოვანი წამკითხველის გამოყენება შესაძლებელია Microsoft-ის ბრაუზერ EDGE-ის დახმარებით Windows-სისტემაზე ქართული საიტებისა თუ PDF-ის ან Word-ის დოკუმენტებიდან ტექსტის ამოსაკითხად.
ქვემოთ კი მოცემულია ქართულისთვის ღიად ხელმისაწვდომი სისტემები:
ღია წყაროს მქონეა და მისი გამოყენება ნებისმიერი დანიშნულებით ნებადართულია შეზღუდვების გარეშე. გადმოწერა შესაძლებელია ოფიციალური საიტიდან ყველა სისტემაზე, როგორც დამოუკიდებელი პროგრამის სახით, ასევე ბრძანებათა სტრიქონით გასაშვებად. იგი აგრეთვე ჩაშენებულია ღია წყაროს მქონე ეკრანის წამკითხველ ცნობილ პროგრამაში NVDA და არაერთი ენისთვის გამოიყენება Google Tranlate სისტემაშიც. ამჟამად მასზე მუშაობა შეწყვეტილია, თუმცა განახლებული ვერსია წარმოდგენილია eSpeak-NG-პროექტში Github-ზე.
ვინაიდან ნებისმიერ მსურველს შეუძლია გადაამუშაოს, მოიპოვება როგორც ვებვერსიის, ასევე ბრაუზერის გაფართოების სახითაც, მათ შორის ქართულისთვის. გამომდინარე იქიდან, რომ ხმა ელექტრონულად იწარმოება, მეტად რობოტიზებულად ისმის, სამაგიეროდ ადვილი ზემოქმედებით მიიღება სხვადასხვა სქესის, ტონის, გამოთქმისა და ჩურჩულისთვის დამახასიათებელი ეფექტები.
ტექნიკურ უნივერსიტეტთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტში“ შექმნილი, რომელიც გამოიყენება მათ მიერვე შემუშავებულ არაერთ პროექტში, ხმით მართვის, გრამატიკული მართლწერისა და სხვადასხვა ენებზე თარგმნის სისტემებში. მისი მოსინჯვა შესაძლებელია სინტაქსის ანალიზატორში, რომელიც წარმოდგენილია ვებგვერდზე
ეროვნული სამეცნიერო ბიბლიოთეკისა და ასოციაციის „უსინათლოები საზღვრებს გარეშე“ საერთო პროექტით შექმნილ პროგრამებში „ბუ“ და „ინტერბუ“ ჩაშენებული მეტყველების სინთეზატორი. ხელმისაწვდომია რამდენიმე ხმით, მათ შორის კაცისა და ქალის.
შემოსავლების სამსახურის თანამშრომლების შემუშავებული, რომელიც გამოიყენება სამთავრობო საიტებზე. იგი ღია ფორმით წარმოდგენილია პროექტში სახელწოდებით RHVoice, Github-ზე. პირადი დანიშნულებით გამოყენება ნებადართულია, მაგრამ კომერციული მიზნებისთვის აუცილებელია ავტორებთან პირობების შეთანხმება.
RHVoice-ის ინტეგრაცია შესაძლებელია Windows და GNU/Linux სისტემებში ჩაშენებულ ხმის ამომცნობ საშუალებებთან. აგრეთვე არსებობს გაფართოების სახით პროგრამისთვის NVDA და აღნიშნული წამკითხველის გადამუშავებული 2014 წლის ვერსია, რომელსაც Geotts თანდართული აქვს, შეიძლება ჩამოიტვირთოს GBU-საიტიდან.
მოიპოვება Android-აპლიკაციის სახითაც Play Store-ში და მისი დაყენებით ქართული ენის ასარჩევი დაემატება ტელეფონის მენიუს „მარტივი წვდომის“ (Accessibility) განყოფილებაში. შედეგად, ეკრანზე მოცემული ქართული ტექსტის ამოკითხვა შესაძლებელი გახდება სხვადასხვა აპლიკაციით, როგორიცაა, მაგალითად Talkback, რომელიც ჩაშენებულად მოჰყვება Android-ს.
ქვემოთ მოცემულ ვიდეოში ნაჩვენებია eSpeak-ისა და Geotts/RHVoice-ის ჩამოტვირთვის, დაყენებისა და მოსინჯვის მაგალითები Windows-ის სისტემაზე Firefox-ის ბრაუზერით, რომელსაც ჩაშენებული აქვს ხმის ამომცნობი ძრავების გამოყენების შესაძლებლობა. იმუშავებს ამგვარი ძრავების მხარდაჭერის მქონე ნებისმიერ სხვა პროგრამაშიც.
Leave a Reply