Розвиток і діджиталізація: створили кримськотатарський лінгвістичний корпус

Анастасія Большакова - 29 листопада 2023, 16:44

Мінреінтеграції разом з громадською організацією QIRI’M Young запустило електронну базу текстів кримськотатарською — Національний корпус кримськотатарської мови (НККМ). В колекції зібрані тексти різних жанрів та історичних епох, які використовуватимуть для навчальних проєктів, наукових досліджень і розробки програм.

Про це повідомила пресслужба Мінреінтеграції.

Корпус використовуватимуть для дослідження мови, а також для впровадження кримськотатарської в операційних системах, онлайн-перекладачах, словниках і програмах перевірки правопису.

УП. Культура поспілкувалася з безпосереднім учасником НККМ, асистентом кафедри тюркології КНУ, філологом Абібуллою Сеїт-Джелілем. Він розповів, що в науковому середовищі виникло питання матеріального забезпечення.

"Ідея створення Національного корпусу кримськотатарської мови пов'язана з тим, що з моменту відкриття спеціальності [прим. – кримськотатарської мови та літератури] в Київському національному університеті імені Тараса Шевченка, студенти й викладачі безпосередньо стикаються з проблемою нестачі будь-яких джерел кримськотатарської мови і про кримських татар. Бібліотеки, на жаль, не мають такої бази джерел, яка є в Криму, а з Криму щось отримати або знайти ці дані в інтернеті було майже неможливим", – розповів філолог.

Фото: НБУВ

Також він додав, що усі доступні тексти, які писали кирилицею, перекладають на латинську графіку. Адже з вересня 2021 року відбувся офіційний перехід кримськотатарської мови на латинку.

Електронна база направлена насамперед на допомогу дослідникам, які займаються розробкою друкованих та електронних словників. Тому в НККМ можна прослідкувати граматичну структуру, етимологію та історичні зміни у словах. Крім того, лінгвістичний корпус буде корисним й літературознавцям, адже в базі збирають і матеріали про кримськотатарських письменників.

Як зазначають у Національному корпусі кримськотатарської мови, базу даних можна використовувати:

Для пошуку найбільш ілюстративних прикладів вживання слів при створенні тлумачних словників.
Для аналізу вживаності слів у різні епохи при створенні історичних словників.
Для автоматичного визначення і опрацювання мови системами машинного перекладу та перевірки правопису (наприклад, Google Translate, LanguageTools тощо) за допомогою інструментів N-грами, Ключові слова.

За час роботи над проєктом 30 експертів проаналізували понад 900 матеріалів, серед яких художня та наукова література, періодичні видання та інші тексти. Також у НККМ зберігали оригінальні тексти з помилками, зокрема, особливості мови автора.

Творці також наголошують, що проєкт стане важливим кроком для збереження і популяризації кримськотатарської мови.

"За допомогою бази даних НККМ можуть створюватися нові електронні словники, а також програми для виправлення та машинного перекладу текстів кримськотатарською мовою. Такі напрацювання сприятимуть популяризації мови як у повсякденному житті, так і у науковій, літературній сферах. Крім того, лінгвістична база НККМ розширить можливості кримськотатарської мови на міжнародних технічних та освітніх майданчиках", – написали у лінгвістичному центрі.

Проєкт реалізували у межах реалізації Стратегії розвитку кримськотатарської мови на 2022–2032 роки. Він створений за підтримки Фонду Східна Європа, Представництва Президента України в Автономній Республіці Крим, Посольство Швейцарії в Україні, Мінреінтеграції та Київського національного університету імені Тараса Шевченка.

Читайте також: Географічним об'єктам у Криму повернуть назви кримськотатарською мовою – Мінреінтеграції