Обробка природної мови українською: виклики та перспективи використання штучного інтелекту в освіті
Ескіз недоступний
Дата
2025
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
Стаття присвячена дослідженню проблем, пов’язаних із використанням технологій обробки природної мови (NLP) для аналізу та генерації навчальних матеріалів українською мовою. Автори акцентують увагу на труднощах, які виникають через обмежені ресурси української мови, зокрема недостатню кількість корпусів текстів для тренування моделей штучного інтелекту. У статті розглядаються основні причини низької якості результатів, отриманих від NLP-моделей, зокрема нерелевантні навчальні дані, неправильна токенізація, відсутність аналізу контексту та логічних зв’язків у тексті. Дослідження включає порівняння роботи мовних моделей OpenAI та BERT, зокрема їх точність, контекстуальність та адаптивність до української мови. Автори пропонують використання двонаправленого аналізу контексту, який застосовується в моделі BERT, для покращення розуміння тексту та генерації тестів. Експериментальна частина роботи демонструє, що налаштування токенізації, фільтрація стоп-слів та використання алгоритмів self-attention значно підвищують якість роботи моделей. Стаття підкреслює необхідність розробки спеціалізованих моделей, адаптованих до особливостей української мови, а також збільшення обсягів навчальних даних для професійних сфер. Висновки дослідження вказують на перспективність використання NLP у освіті, але за умови подальшого вдосконалення технологій та їх адаптації до мовних реалій. Дане дослідження може бути використано для подальшої адаптації мовних моделей для розробки тестових завдань.
The article is devoted to the study of problems associated with the use of natural language processing (NLP) technologies for analyzing and generating educational materials in the Ukrainian language. The purpose of the study is to analyze the results of test generation based on the proposed content and to identify possible causes of incorrect behavior in NLP models that process educational materials in the Ukrainian language. The study employs token filtering methods using self-attention algorithms. The BLEU score was used to evaluate the results obtained with BERT. The authors focus on the challenges arising from the limited resources available for the Ukrainian language, particularly the insufficient number of text corpora for training artificial intelligence models. The article examines the main reasons for the low quality of results produced by NLP models, including irrelevant training data, incorrect tokenization, a lack of contextual analysis, and weak logical connections in the text. The study includes a comparison of the performance of the OpenAI and BERT language models, focusing on their accuracy, contextual understanding, and adaptability to the Ukrainian language. The authors propose using bidirectional context analysis, as implemented in the BERT model, to improve text comprehension and test generation. The experimental part of the study demonstrates that adjusting tokenization settings, applying stop-word filtering, and using self-attention algorithms significantly improve model quality. The article emphasizes the need to develop specialized models adapted to the peculiarities of the Ukrainian language and to increase the volume of training data for professional domains. Based on the analysis of different token filtering methods, the study concludes that tokenization processes should be configured individually for each task, as this significantly affects model performance. The conclusions highlight the potential of NLP in education, provided there is further technological improvement and adaptation to linguistic realities. This study may serve as a foundation for the further adaptation of language models for developing test tasks.
The article is devoted to the study of problems associated with the use of natural language processing (NLP) technologies for analyzing and generating educational materials in the Ukrainian language. The purpose of the study is to analyze the results of test generation based on the proposed content and to identify possible causes of incorrect behavior in NLP models that process educational materials in the Ukrainian language. The study employs token filtering methods using self-attention algorithms. The BLEU score was used to evaluate the results obtained with BERT. The authors focus on the challenges arising from the limited resources available for the Ukrainian language, particularly the insufficient number of text corpora for training artificial intelligence models. The article examines the main reasons for the low quality of results produced by NLP models, including irrelevant training data, incorrect tokenization, a lack of contextual analysis, and weak logical connections in the text. The study includes a comparison of the performance of the OpenAI and BERT language models, focusing on their accuracy, contextual understanding, and adaptability to the Ukrainian language. The authors propose using bidirectional context analysis, as implemented in the BERT model, to improve text comprehension and test generation. The experimental part of the study demonstrates that adjusting tokenization settings, applying stop-word filtering, and using self-attention algorithms significantly improve model quality. The article emphasizes the need to develop specialized models adapted to the peculiarities of the Ukrainian language and to increase the volume of training data for professional domains. Based on the analysis of different token filtering methods, the study concludes that tokenization processes should be configured individually for each task, as this significantly affects model performance. The conclusions highlight the potential of NLP in education, provided there is further technological improvement and adaptation to linguistic realities. This study may serve as a foundation for the further adaptation of language models for developing test tasks.
Опис
Ключові слова
обробка природньої мови, self-attention, векторні представлення, токенізація, BERT, штучний інтелект, natural language processing, vector representations, tokenization, artificial intelligence
Бібліографічний опис
Пацай Б. Обробка природної мови українською: виклики та перспективи використання штучного інтелекту в освіті [Текст] / Б. Пацай, І, Нечипорук, А. Ковтун // Цифрова економіка та економічна безпека : науково-практичний журнал / Причорноморський науково-дослідний інститут економіки та інновацій, Сумський державний педагогічний університет імені А. С. Макаренка ; [гол. ред. О. Ю. Кудріна, редкол.: В. В. Божкова, В. І. Борщ, Н. М. Вдовенко та ін.]. – 2025. – № 1 (16). – С. 172–179. – DOI: https://doi.org/10.32782/dees.16-26