Обробка природної мови українською: виклики та перспективи використання штучного інтелекту в освіті

Пацай Богдан; Patsai Bohdan; Нечипорук Іван; Nechyporuk Ivan; Ковтун Анна; Kovtun Anna

Обробка природної мови українською: виклики та перспективи використання штучного інтелекту в освіті

Файли

Patsai Bohdan.pdf (561.38 KB)

Дата

2025

Автори

Анотація

Стаття присвячена дослідженню проблем, пов’язаних із використанням технологій обробки природної мови (NLP) для аналізу та генерації навчальних матеріалів українською мовою. Автори акцентують увагу на труднощах, які виникають через обмежені ресурси української мови, зокрема недостатню кількість корпусів текстів для тренування моделей штучного інтелекту. У статті розглядаються основні причини низької якості результатів, отриманих від NLP-моделей, зокрема нерелевантні навчальні дані, неправильна токенізація, відсутність аналізу контексту та логічних зв’язків у тексті. Дослідження включає порівняння роботи мовних моделей OpenAI та BERT, зокрема їх точність, контекстуальність та адаптивність до української мови. Автори пропонують використання двонаправленого аналізу контексту, який застосовується в моделі BERT, для покращення розуміння тексту та генерації тестів. Експериментальна частина роботи демонструє, що налаштування токенізації, фільтрація стоп-слів та використання алгоритмів self-attention значно підвищують якість роботи моделей. Стаття підкреслює необхідність розробки спеціалізованих моделей, адаптованих до особливостей української мови, а також збільшення обсягів навчальних даних для професійних сфер. Висновки дослідження вказують на перспективність використання NLP у освіті, але за умови подальшого вдосконалення технологій та їх адаптації до мовних реалій. Дане дослідження може бути використано для подальшої адаптації мовних моделей для розробки тестових завдань.
The article is devoted to the study of problems associated with the use of natural language processing (NLP) technologies for analyzing and generating educational materials in the Ukrainian language. The purpose of the study is to analyze the results of test generation based on the proposed content and to identify possible causes of incorrect behavior in NLP models that process educational materials in the Ukrainian language. The study employs token filtering methods using self-attention algorithms. The BLEU score was used to evaluate the results obtained with BERT. The authors focus on the challenges arising from the limited resources available for the Ukrainian language, particularly the insufficient number of text corpora for training artificial intelligence models. The article examines the main reasons for the low quality of results produced by NLP models, including irrelevant training data, incorrect tokenization, a lack of contextual analysis, and weak logical connections in the text. The study includes a comparison of the performance of the OpenAI and BERT language models, focusing on their accuracy, contextual understanding, and adaptability to the Ukrainian language. The authors propose using bidirectional context analysis, as implemented in the BERT model, to improve text comprehension and test generation. The experimental part of the study demonstrates that adjusting tokenization settings, applying stop-word filtering, and using self-attention algorithms significantly improve model quality. The article emphasizes the need to develop specialized models adapted to the peculiarities of the Ukrainian language and to increase the volume of training data for professional domains. Based on the analysis of different token filtering methods, the study concludes that tokenization processes should be configured individually for each task, as this significantly affects model performance. The conclusions highlight the potential of NLP in education, provided there is further technological improvement and adaptation to linguistic realities. This study may serve as a foundation for the further adaptation of language models for developing test tasks.

Ключові слова

обробка природньої мови, self-attention, векторні представлення, токенізація, BERT, штучний інтелект, natural language processing, vector representations, tokenization, artificial intelligence

Бібліографічний опис

Пацай Б. Обробка природної мови українською: виклики та перспективи використання штучного інтелекту в освіті [Текст] / Б. Пацай, І, Нечипорук, А. Ковтун // Цифрова економіка та економічна безпека : науково-практичний журнал / Причорноморський науково-дослідний інститут економіки та інновацій, Сумський державний педагогічний університет імені А. С. Макаренка ; [гол. ред. О. Ю. Кудріна, редкол.: В. В. Божкова, В. І. Борщ, Н. М. Вдовенко та ін.]. – 2025. – № 1 (16). – С. 172–179. – DOI: https://doi.org/10.32782/dees.16-26

URI

https://repository.sspu.edu.ua/handle/123456789/17298

Зібрання

Цифрова економіка та економічна безпека

Повна інформація про документ Google Scholar