В Казахстане разработаны технологии синтеза и распознавания речи на казахском языке

Фотография - В Казахстане разработаны технологии синтеза и распознавания речи на казахском языке

В Казахстане разработаны технологии синтеза и распознавания речи на казахском языке

819 0

В рамках проекта «Коммерциализации технологий» при поддержке Всемирного банка в Казахстане ведутся исследования в области технологий синтеза и распознавания казахской речи, а также систем автоматической обработки текстов на казахском языке. Компания «Uniline Group» уже опубликовала свои промежуточные программные разработки на корпоративном сайте, где ими бесплатно может воспользоваться любой желающий. На данный момент на сайте доступны технология синтеза речи, а также морфологический анализатор казахского языка. Ожидается, что эти программы будут доступны в виде приложения для основных мобильных платформ. Мусабаев добавил, что финальная версия продукта появится на рынке до конца 2013 года.


По своей сути система синтеза казахской речи по тексту является электронным казахскоязычным диктором. В систему синтеза речи загружается произвольный текст на казахском языке. После завершения процесса синтеза можно услышать, как компьютер читает данный текст естественным человеческим голосом, соблюдая все знаки препинания, правильно расставляя ударения, делая паузы в нужных местах и акцентируя интонацией значимые фрагменты текста. Синтезированная речь может быть воспроизведена через звуковые динамики компьютера. Имеется возможность настройки множества различных параметров синтеза. Синтез может быть осуществлен различными голосами (мужским, женским, детским), с различным тембром и интонацией.

Данная технология может быть основой при разработке большого множества других программных продуктов и высокотехнологичных устройств:


• Робототехника;

• Говорящие интеллектуальные устройства;

• «Умный дом»;

• Языковые обучающие системы;

• "Голосовые переводчики";

• Аудио-книги;

• Системы телефонии (Call-центры);

• Информационные киоски;

• Системы помощи немым и незрячим людям.


Следующим важным направлением, над которым ведётся работа в компании, является "Автоматическая обработка текстов на казахском языке". В рамках данного направления осуществлена разработка лексического и морфологического анализаторов казахских текстов, доступных на сайте компании. Также осуществлено формирование и классификация лексической базы данных казахского языка, которая на данный момент насчитывает порядка 150 тысяч лексических единиц литературного казахского текста. Сформирован полный словарь казахских аффиксов и осуществлена формализация правил словообразования на основе аффиксальных соединений. Данный процесс алгоритмизирован в рамках морфологического анализатора. В последствии на основе разработанных лексического и морфологического анализаторов реализована система автоматической проверки орфографии для казахских текстов, которая может быть встроена в текстовые офисные пакеты.


В настоящее время ведётся интенсивная работа по созданию синтаксического и семантического анализаторов. Данные анализаторы будут использованы при создании систем интеллектуального поиска текстовой информации на казахском языке по её смысловому содержанию. Также на их основе будет осуществлена реализация системы автоматической проверки грамматических и синтаксических ошибок в казахских текстах.

Основные области применения технологий автоматической обработки текстов:


• Системы извлечения знаний из текстов;

• Автоматическое реферирование текстов;

• Автоматическая классификация текстов;

• Машинный перевод (Каз-Англ. ; Каз-Рус);

• Интеллектуально-поисковая система.


В целях реализации поручения Президента РК о переводе казахской письменности осуществлена реализация системы автоматического перевода казахских текстов с кириллицы на латиницу.


Данные разработки будут способствовать расширению сферы применения казахского языка на основе современных информационных технологий. Они могут использоваться в делопроизводстве, web и мобильных приложениях, а также в облачных технологиях, что будет способствовать повышению престижа государственного языка и повышению его востребованности.


Загрузка...

Комментарии (0)

Input is not a number!
Input is not a email!
Input is not a number!