ქართული ტექსტის ხმოვანი წამკითხველები

ტექსტის ხმოვანი წამკითხველი, ნაწერის გამხმოვანებელი ანუ მეტყველების სინთეზატორი (ინგლText-to-Speech, შემოკლTTS) ეწოდება პროგრამულ უზ­რუნ­ველ­ყო­ფას, რო­მე­ლიც კომ­პიუ­ტერ­ში აკ­რე­ფილ სიტ­ყვებს გარ­დაქ­მნის ხმო­ვან სიგ­ნა­ლე­ბად ადა­მია­ნის­თვის გა­სა­გებ ენა­ზე. ხმის შექ­მნა ელექ­ტრო­ნუ­ლა­დაც შე­იძ­ლე­ბა მა­თე­მა­ტი­კუ­რი მო­დე­ლე­ბის მეშ­ვეო­ბით და გა­მო­მა­ვა­ლი სიგ­ნა­ლის მა­ხა­სია­თებ­ლე­ბის სურ­ვილ­სა­მებრ გარ­დაქ­მნის სა­შუა­ლე­ბა­საც იძ­ლე­ვა (სქე­სის შე­საც­ვლე­ლად, ჩურ­ჩუ­ლის მი­სამ­სგავ­სებ­ლად), მაგრამ ასე მე­ტად რო­ბო­ტი­სებ­რი ხმა მი­იღე­ბა და ბუ­ნებ­რიო­ბის მი­საღ­წე­ვად უფ­რო ხში­რად ადა­მი­ან­თა ხმე­ბის ჩა­ნა­წე­რე­ბის­გან შემ­დგა­რი მო­ნა­ცემ­თა ბა­ზე­ბი გა­მოი­ყე­ნე­ბა. ბო­ლო წლებ­ში კი მან­ქა­ნუ­რი შეს­წავ­ლის (Machine Learning) სა­შუა­ლე­ბებ­ით, აგრეთვე ნე­ირო­ნუ­ლი ქსე­ლე­ბი­სა (Neural Network) და ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის (Artificial Intelligence, შე­მოკლ. AI) დახ­მა­რე­ბით უკ­ვე შე­საძ­ლე­ბე­ლი გახ­და ბუ­ნებ­რივ­თან კი­დევ უფ­რო მი­ახ­ლოე­ბუ­ლი ხმე­ბის მი­ღე­ბა.

წი­ნა ათეუ­ლი წლე­ბის გან­მავ­ლო­ბა­ში ქარ­თუ­ლი ენის­თვის ხმის სინ­თე­ზა­ტო­რის შე­მუ­შა­ვე­ბის არა­ერ­თი მცდე­ლო­ბა ყო­ფი­ლა ერ­თმა­ნე­თის­გან და­მოუ­კი­დე­ბე­ლად.

თავ­და­პირ­ვე­ლად, ამ­გვარ სის­ტე­მა­ზე მუ­შაო­ბა გა­აქ­ტი­ურ­და სა­ხელ­მწი­ფო უნი­ვერ­სი­ტეტ­ში 2003-2007 წლებ­ში „ლო­გი­კი­სა და ენის გა­ერ­თია­ნე­ბუ­ლ ქარ­თუ­ლ ჯგუ­ფ­ისა“ და მას­თან არ­სე­ბუ­ლი „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ახალ­გაზ­რდუ­ლი ჯგუ­ფის“ მი­ერ, ხო­ლო 2008 წელს და­ფუძ­ნდა „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ღია ინ­სტი­ტუ­ტი“, რო­მე­ლიც წლე­ბის გან­მავ­ლო­ბა­ში აქ­ვეყ­ნებ­და მუ­შაო­ბის შე­დე­გებს, მათ შო­რის სინ­თე­ზა­ტორ GeoTextReader-ის სა­ჩვე­ნე­ბელი ვერსია და მას­ზე და­ფუძ­ნე­ბული აპ­ლი­კა­ცი­ები მოცემულია სა­იტებ­ზე GLLC და GEOANBANI.

იმა­ვე პე­რი­ოდ­ში ქარ­თუ­ლი ენა აგ­რეთ­ვე გა­მოჩ­ნდა სა­ერ­თა­შო­რი­სო მრა­ვალ­პლატ­ფორ­მულ და ღია წყა­როს მქო­ნე სინ­თე­ზა­ტორ­ში სა­ხელ­წო­დე­ბით eSpeak.

2010-2011 წლებ­ში კი შე­მუ­შავ­და კი­დევ ერ­თი ქარ­თუ­ლი ხმო­ვა­ნი წამ­კით­ხვე­ლი და­სა­ხე­ლე­ბით „ბუ“. ამ პრო­ექ­ტზე მუ­შა­ობ­და ეროვ­ნუ­ლი სა­მეც­ნიე­რო ბიბ­ლიო­თე­კა და ასო­ცი­აცია „უსი­ნათ­ლოე­ბი საზ­ღვრებს გა­რე­შე“.

2014 წელს შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის ორ­მა თა­ნამ­შრო­მელ­მა სამ­წლია­ნი ძა­ლის­ხმე­ვის შე­დე­გად წარ­მო­ად­გი­ნა ქარ­თუ­ლის­თვის და­მუ­შა­ვე­ბუ­ლი ახა­ლი ძრა­ვა Geotts, რომ­ლის მეშ­ვეო­ბი­თაც გახ­მო­ვან­და და მცი­რე მხედ­ველ­თათ­ვის ხელ­მი­საწ­ვდო­მი გახ­და შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის, სა­ხელ­მწი­ფო სერ­ვი­სე­ბი­სა და სხვა სამ­თავ­რო­ბო მომ­სა­ხუ­რე­ბის ვებ­გვერ­დე­ბი, აგ­რე­თვე, გა­მოი­ყე­ნე­ბო­და თბი­ლი­სის ავ­ტო­ბუ­სებ­ში, გა­ჩე­რე­ბე­ბის გა­მო­საც­ხა­დებ­ლად. 

2016-2018 წლებ­ში და­არ­სდა ხე­ლოვ­ნურ ინ­ტე­ლექ­ტზე ორი­ენ­ტი­რე­ბუ­ლი კერ­ძო კომ­პა­ნი­ებ­იც, რომ­ლე­ბიც მუ­შაო­ბდნენ ქარ­თუ­ლი ხმო­ვა­ნი ტექ­ნო­ლო­გიე­ბის დახ­ვე­წა­ზე ად­გი­ლობ­რივ თუ სა­ერ­თა­შო­რი­სო კო­მერ­ცი­ულ ორ­გა­ნი­ზა­ცი­ებ­თან თა­ნამ­შრომ­ლო­ბის­თვის. ერთ-ერ­თი იყო Pulsar AIმის­მა გუნდ­მა ქარ­თუ­ლი ბუ­ნებ­რი­ვი ენ­ის კომ­პიუ­ტე­რუ­ლი და­მუ­შა­ვე­ბით შექმ­ნა ქარ­თულ ენა­ზე მო­საუბ­რე „ბო­ტე­ბი“ და ხმო­ვა­ნი ასის­ტენ­ტი, რო­მელ­თაც იყე­ნებ­და სხვა­და­სხვა კერ­ძო ბან­კე­ბი და სა­კო­მუ­ნი­კა­ციო კომ­პა­ნი­ები მომ­ხმა­რე­ბელ­თა თვით­მომ­სა­ხუ­რე­ბის­თვის.

იმა­ვე პე­რი­ოდ­ში ხე­ლოვ­ნუ­რ ინ­ტე­ლექ­ტზე მო­მუ­შა­ვე კი­დევ ერ­თმა ქარ­თუ­ლმა კომ­პა­ნი­ამ SYSTEMcorp (შემ­დგომ­ში WAVETECH წარ­მო­ად­გი­ნა ქარ­თუ­ლი ტექს­ტის წამ­კით­ხვე­ლი ძრა­ვა, რომ­ლი­თაც დი­დი მო­ცუ­ლო­ბის ტექს­ტე­ბის ხმო­ვან ფაი­ლად ქცე­ვა რამ­დე­ნი­მე წუთ­ში იყო შე­საძ­ლე­ბე­ლი.

საიტ­ზე WAVETECH.AI მომხ­მა­რებ­ლებს, მათ შო­რის ფი­ზი­კურ და იუ­რი­დი­ულ პი­რებს, შე­საძ­ლებ­ლო­ბა აქვთ, მო­სინ­ჯონ ხმის ამომ­ცნო­ბი სის­ტე­მა და შეი­ძი­ნონ მომ­სა­ხუ­რე­ბა ბრაუ­ზე­რის გა­ფარ­თოე­ბე­ბის, საი­ტის ძრა­ვის ან სხვა­დას­ხვა პროგ­რა­მა­თა და­ნა­მა­ტე­ბის სა­ხით.

 2016 წლი­დან კომ­პა­ნია Google-მა თა­ვი­სი ღრუბ­ლო­ვა­ნი მომ­სა­ხუ­რე­ბე­ბის პლატ­ფორ­მა­ზე Google Cloud (აგ­რეთ­ვე Amazon-მა AWS-ში და შემ­დგომ­ Microsoft-მაც სა­კუ­თარ Azure-ზე) და­იწ­ყო ნე­ირო­ნუ­ლი ქსე­ლე­ბი­სა და ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის მეშ­ვეო­ბით ბუ­ნებ­რივ­თან მე­ტად მიმ­სგავ­სე­ბუ­ლი ხმის მო­დე­ლე­ბის შე­მუ­შა­ვე­ბა. მა­თი გა­მო­ყე­ნე­ბა ფა­სი­ანია, თუმ­ცა წი­ნას­წარ შე­საძ­ლე­ბე­ლია მო­სინ­ჯვა და ჩა­შე­ნე­ბუ­ლია კომ­პა­ნი­ის სხვა­დას­ხვა მომ­სა­ხუ­რე­ბა­სა თუ აპ­ლი­კა­ცი­აში.

2022 წლის ივ­ნის­ში კი Microsoft-მა გა­აფარ­თო­ვა სა­კუ­თა­რი ღრუბ­ლო­ვა­ნი მომ­სა­ხუ­რე­ბის სა­ერ­თა­შო­რი­სო მხარ­და­ჭე­რა და სა­კუ­თა­რი ხმო­ვა­ნი წამ­კით­ხვე­ლი (Text-to-Speech), აგ­რეთ­ვე, წარ­მოთ­ქმუ­ლის ტექ­სტად ჩამ­წე­რი (Speech-to-Text) სა­შუა­ლე­ბე­ბი ხელ­მი­საწ­ვდო­მი გა­ხა­და 140 ენის­თვის, მათ შო­რის ქარ­თუ­ლის­თვი­საც. ნა­წე­რის გახ­მო­ვა­ნე­ბის მო­სინ­ჯვა უკ­ვე Azure-ს სა­იტ­ზე­ვეა შე­საძ­ლე­ბე­ლი ორი გან­სხვა­ვე­ბუ­ლი ხმით — ქა­ლი­სა (ეკა) და კა­ცის (გი­ორ­გი)

 

Azure-სა­იტ­ზე ქარ­თუ­ლი ხმო­ვა­ნი წამ­კით­ხვე­ლის მო­სინ­ჯვა

 

 ამას­თა­ნა­ვე, აღ­ნიშ­ნუ­ლი ხმო­ვა­ნი წამ­კით­ხვე­ლის გა­მო­ყე­ნე­ბა შე­საძ­ლე­ბე­ლია Microsoft-ის ბრა­უზერ EDGE-ის დახ­მა­რე­ბით Windows-სის­ტე­მა­ზე ქარ­თუ­ლი სა­იტე­ბი­სა თუ PDF-ის ან Word-ის დო­კუ­მენ­ტე­ბი­დან ტექ­სტის ამო­სა­კით­ხად.

ქვე­მოთ კი მო­ცე­მუ­ლია ქარ­თუ­ლის­თვის ღი­ად ხელ­მი­საწ­ვდო­მი სის­ტე­მე­ბი:

ღია წყა­როს მქო­ნეა და მი­სი გა­მო­ყე­ნე­ბა ნე­ბის­მიე­რი და­ნიშ­ნუ­ლე­ბით ნე­ბა­დარ­თუ­ლია შეზ­ღუდ­ვე­ბის გა­რე­შე. გად­მო­წე­რა შე­საძ­ლე­ბე­ლია ოფი­ცია­ლუ­რი სა­იტი­დან ყვე­ლა სის­ტე­მა­ზე, რო­გორც და­მოუ­კი­დე­ბე­ლი პროგ­რა­მის სა­ხით, ასე­ვე ბრძა­ნე­ბა­თა სტრი­ქო­ნით გა­საშ­ვე­ბად. იგი აგ­რეთ­ვე ჩა­შე­ნე­ბუ­ლია ღია წყა­როს მქო­ნე ეკ­რა­ნის წამ­კით­ხველ ცნო­ბილ პროგ­რა­მა­ში NVDA და არა­ერ­თი ენის­თვის გა­მოი­ყე­ნე­ბა Google Tranlate სის­ტე­მა­შიც. ამ­ჟა­მად მას­ზე მუ­შაო­ბა შეწ­ყვე­ტი­ლია, თუმ­ცა გა­ნახ­ლე­ბუ­ლი ვერ­სია წარ­მოდ­გე­ნი­ლია eSpeak-NG-პრო­ექ­ტში Github-ზე.

ვი­ნაი­დან ნე­ბის­მი­ერ მსურ­ველს შე­უძ­ლია გა­დაა­მუ­შა­ოს, მო­იპო­ვე­ბა რო­გორც ვებ­ვერ­სი­ის, ასე­ვე ბრაუ­ზე­რის გა­ფარ­თო­ების სა­ხი­თაც, მათ შო­რის ქარ­თუ­ლის­თვი­ს. გა­მომ­დი­ნა­რე იქი­დან, რომ ხმა ელექ­ტრო­ნუ­ლად იწარ­მო­ება, მე­ტად რო­ბო­ტი­ზე­ბუ­ლად ის­მის, სა­მა­გიე­როდ ად­ვი­ლი ზე­მოქ­მე­დე­ბით მი­იღე­ბა სხვა­დას­ხვა სქე­სის, ტო­ნის, გა­მოთ­ქმი­სა და ჩურ­ჩუ­ლი­სთვის და­მა­ხა­სია­თე­ბე­ლი ეფექ­ტე­ბი.

ტექ­ნი­კურ უნი­ვერ­სი­ტეტ­თან არ­სე­ბუ­ლი „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ღია ინ­სტი­ტუტ­ში შექ­მნი­ლირო­მე­ლიც გა­მოი­ყე­ნე­ბა მათ მი­ერ­ვე შე­მუ­შა­ვე­ბულ არა­ერთ პრო­ექ­ტში, ხმით მარ­თვის, გრა­მა­ტი­კუ­ლი მარ­თლწე­რი­სა და სხვა­დას­ხვა ენებ­ზე თარ­გმნის სის­ტე­მებ­ში. მი­სი მო­სინ­ჯვა შე­საძ­ლე­ბე­ლია სინ­ტაქ­სის ანა­ლი­ზა­ტორ­ში, რო­მე­ლიც წარ­მოდ­გე­ნი­ლია ვებ­გვერ­დზე

ეროვ­ნუ­ლი სა­მეც­ნიე­რო ბიბ­ლიო­თე­კი­სა და ასო­ცი­აცი­ის „უსი­ნათ­ლოე­ბი საზ­ღვრებს გა­რე­შე“ სა­ერ­თო პრო­ექ­ტით შექ­მნილ პროგ­რა­მებ­ში „ბუ“ და „ინ­ტერ­ბუ“ ჩა­შე­ნე­ბუ­ლი მეტ­ყვე­ლე­ბის სინ­თე­ზა­ტო­რი. ხელ­მი­საწ­ვდო­მია რამ­დე­ნი­მე ხმით, მათ შო­რის კა­ცი­სა და ქა­ლის.

პროგ­რა­მე­ბის ჩა­მოტ­ვირ­თვა შე­საძ­ლე­ბე­ლია ასო­ციაცი­ის ვებ­გვერ­დი­დან­ვე.

შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის თა­ნამ­შრომ­ლე­ბის შე­მუ­შა­ვე­ბუ­ლი, რო­მე­ლიც გა­მოი­ყე­ნე­ბა სამ­თავ­რო­ბო სა­იტებ­ზე. იგი ღია ფორ­მით წარ­მოდ­გე­ნი­ლია პრო­ექ­ტში სა­ხელ­წო­დე­ბით RHVoice, Github-ზე. პი­რა­დი და­ნიშ­ნუ­ლე­ბით გა­მო­ყე­ნე­ბა ნე­ბა­დარ­თუ­ლია, მაგ­რამ კო­მერ­ციუ­ლი მიზ­ნე­ბის­თვის აუ­ცი­ლე­ბე­ლია ავ­ტო­რებ­თან პი­რო­ბე­ბის შე­თან­ხმე­ბა.

RHVoice-ის ინ­ტეგ­რა­ცია შე­საძ­ლე­ბე­ლია Windows და GNU/Linux სის­ტე­მებ­ში ჩა­შე­ნე­ბულ ხმის ამომ­ცნობ სა­შუა­ლე­ბებ­თან. აგ­რეთ­ვე არ­სე­ბობს გა­ფარ­თოე­ბის სა­ხით პროგ­რა­მის­თვის NVDA და აღ­ნიშ­ნუ­ლი წამ­კით­ხვე­ლის გა­და­მუ­შა­ვე­ბუ­ლი 2014 წლის ვერ­სია, რო­მელ­საც Geotts თან­დარ­თუ­ლი აქვს, შე­იძ­ლე­ბა ჩა­მო­იტ­ვირ­თოს GBU-საი­ტი­დან. 

მოი­პო­ვე­ბა Android-აპ­ლი­კა­ცი­ის სა­ხი­თაც Play Store-ში და მი­სი და­ყე­ნე­ბით ქარ­თუ­ლი ენის ასარ­ჩე­ვი და­ემა­ტე­ბა ტე­ლე­ფო­ნის მე­ნი­უს „მარ­ტი­ვი წვდო­მის“ (Accessibility) გან­ყო­ფი­ლე­ბა­ში. შე­დე­გად, ეკ­რან­ზე მო­ცე­მუ­ლი ქარ­თუ­ლი ტექს­ტის ამო­კით­ხვა შე­საძ­ლე­ბე­ლი გახ­დე­ბა სხვა­და­სხვა აპ­ლი­კა­ცი­ით, რო­გო­რი­ცაა, მა­გა­ლი­თად Talkback, რო­მე­ლიც ჩა­შე­ნე­ბუ­ლად მოჰ­ყვე­ბა Android-ს.


ქვე­მოთ მო­ცე­მულ ვი­დეო­ში ნაჩ­ვე­ნე­ბია eSpeak-ისა და Geotts/­RHVoice-ის ჩა­მოტ­ვირ­თ­ვის, და­ყე­ნე­ბი­სა და მო­სინ­ჯ­ვის მა­გა­ლი­თე­ბი Windows-ის სის­ტე­მა­ზე Firefox-ის ბრა­უზე­რით, რო­მელ­საც ჩა­შე­ნე­ბუ­ლი აქვს ხმის ამომ­ცნო­ბი ძრა­ვე­ბის გა­მო­ყე­ნე­ბის შე­საძ­ლებ­ლო­ბა. იმუ­შა­ვებს ამ­გვა­რი ძრა­ვე­ბის მხარ­და­ჭე­რის მქო­ნე ნე­ბის­მი­ერ სხვა პროგ­რა­მა­შიც.

წყარო https://georgianization.blogspot.com/

Leave a Reply

Your email address will not be published. Required fields are marked *