Please use this identifier to cite or link to this item:
http://elar.khnu.km.ua/jspui/handle/123456789/8714

Можете відсканувати цей QR-код телефоном( програмою "Сканер QR-кодів" ) для збереження.

Title: Інформаційна технологія тематичної класифікації текстових повідомлень
Other Titles: Information technology for thematic classification of text messages
Authors: Мазурець, О.В.
Тимуш, О.Ю.
Федорко, А.П.
Mazurets, O.
Tymush, O.
Fedorko, A.
Keywords: текстові повідомлення;класифікація;ключові слова;text messages;classification;keywords
Issue Date: 2019
Publisher: Хмельницький національний університет
Citation: Мазурець, О.В. Інформаційна технологія тематичної класифікації текстових повідомлень [Текст] / О. В. Мазурець, О. Ю. Тимуш, О. П. Федорко // Вісник Хмельницького національного університету. Технічні науки. – 2019. – №5. – С. 203-210.
Abstract: У статті розглянуто інформаційну технологію сортування текстових повідомлень за тематикою. При цьому використовуються розроблений підхід до визначення множин ключових слів для рубрик новин на основі методу оцінки TFIDF та розроблені математико-алгоритмічні моделі для визначення приналежності тестової новини до актуальних рубрик новин. На основі розробленої інформаційної технології тематичного сортування текстової інформації було створено два програмних продукти: систему визначення множин ключових слів для рубрик новин та систему тематичного сортування новин. Система визначення множин ключових слів для рубрик новин дозволяє за введеною множиною новин, що мають приналежність до певної конкретної рубрики, визначити множину ключових слів, які розглядаються як еквівалент узагальненого семантичного вмісту для новин цієї рубрики. В результаті використання програмної системи для аналізу вхідних даних у вигляді множин новин для всіх актуальних рубрик, одержуються вихідні дані у вигляді відповідної кількості множин ключових слів, які розглядаються в подальшому як портрети новин цих рубрик. Система тематичного сортування новин дозволяє за вхідними даними у вигляді текстового контенту тестової новини одержати вихідні дані у вигляді цифрових показників, що відображають оцінку приналежності тестової новини до кожної з рубрик. Для цього проводиться автоматизоване порівняння множини слів із контенту новини та множин ключових слів рубрик новин. Розроблені тестові програмні системи були використані для дослідження ефективності інформаційної технології тематичного сортування текстової інформації. Для цього проводилось автоматизоване визначення рубрик для тестових зразків новин за допомогою розроблених програмних продуктів. Одержані результати дослідження ефективності інформаційної технології показали, що в переважній більшості випадків програмна система, виконана відповідно до запропонованої інформаційної технології тематичного сортування текстової інформації, успішно виконала сортування новин за рубриками, й середня успішність сортування за рубриками склала 94,4%.
The article considers the information technology for thematic classification of text messages. Developed approach is used to define the sets of keywords for news headings based on the TFIDF evaluation method and developed mathematical and algorithmic models to determine the affiliation of test news to current news headings. Based on the developed information technology of thematic sorting of textual information, two software products were created: a system of definition the keywords sets for news headings and a system of thematic sorting of news. The news keywords sets definition system allows you to define a set of keywords from the provided data that is considered to be equivalent to generalized semantic content for news items. As a result of using the software system for analysing the input data in the sets of news for all relevant thematic, the output is received in the form of an appropriate number of sets of keywords, which are subsequently considered as news portraits of these sections. The system of news thematic sorting allows the input data in the form of textual content of the test news to get the output data in the form of digital metrics that reflect the assessment of the test news belonging to each heading. For this, an automated comparison of the plurality of news content words and the plurality of news headline keywords is performed. The developed test software systems were used to investigate the effectiveness of information technology themed textual sorting. For this purpose, automated thematic definition for test news samples was carried out using developed software products. The results of the information technology efficiency investigation showed that in most cases the software system, which was made in accordance with the proposed information technology of thematic sorting of text information, successfully completed news sorting by headings, and the average success of sorting by headings was 94.4%.
URI: http://elar.khnu.km.ua/jspui/handle/123456789/8714
UDC: 004.9
metadata.dc.type: Стаття
Appears in Collections:Вісник ХНУ. Технічні науки - 2019 рік

Files in This Item:
File Description SizeFormat 
21.pdf2,26 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.