Drawing Up Researcher Terminological Profiles Based on Publications in the Digital Library eLIBRARY.Ru

  • Павел [Pavel] Андреевич [A.] Козлов [Kozlov]
  • Андрей [Andrey] Сергеевич [S.] Мохов [Mokhov]
  • Владимир [Vladimir] Олегович [O.] Толчеев [Tolcheev]
Keywords: text data mining, terminological profile, personalized scientific activity support system, term weighting, cosine measure, Gephi graph

Abstract

The terminological profiles of specialists are drawn up based on publications from the digital library eLIBRARY. By averaging the individual terminological profiles, it is possible to draw up a generalized profile (“portrait”) of a small research team (a department, laboratory, or sector). Comparison of individual profiles with the use of proximity measures (for example, a cosine measure) makes it possible to group similar profiles and identify groups of employees who conduct research in the same subject area. This helps determine the research team specialization by means of Text Mining tools without using subjective expert assessments. The results obtained using the profile approach are confirmed by constructing graphs of co-authorship and a graph of terms in the Gephi computer program.

The compilation of terminological profiles was also used in the development of personalized scientific activity support systems. This system is intended for helping the user (a specialist in a subject area) in choosing relevant scientific conferences and searching for useful (pertinent as far as possible) publications. For describing text documents, a vector model is used, and the weights of terms are determined by calculating the term occurrence frequency (or the tfc-weighting formula). At the preprocessing stage, the stop-words and rarely encountered words are removed, and lemmatization is carried out. The developed profile approach has been approbated on the example of a small research team specializing in computer science. The terminological profiles were constructed and analyzed, based on which the areas in which the team members specialize have been identified, and a personalized scientific activity support system has been developed, that tracks, in an automated mode, publications in the eLIBRARY in one of the relevant areas (Data Mining).

Information about authors

Павел [Pavel] Андреевич [A.] Козлов [Kozlov]

Student of Control and Intelligent Technologies Dept., NRU MPEI, e-mail: kozlov.pavel.andreevih@yandex.ru

Андрей [Andrey] Сергеевич [S.] Мохов [Mokhov]

Ph.D. (Techn.), Assistant Professor of Control and Intelligent Technologies Dept., NRU MPEI, e-mail: asmokhov@mail.ru

Владимир [Vladimir] Олегович [O.] Толчеев [Tolcheev]

Dr.Sci. (Techn.), Professor of Control and Intelligent Technologies Dept., NRU MPEI, e-mail: tolcheevvo@mail.ru

References

1. Aggarwal C.C. Content-based Recommender Systems. N.-Y.: Springer, 2016. Pp. 139—166.
2. Андреев А.М., Березкин Д.В., Козлов И.А. Подход к автоматизированному мониторингу тем на основе обнаружения событий в потоке текстовых документов // Информационно-измерительные и управляющие системы. 2017. № 3. С. 49—60.
3. Barakhnin V.B., Kozhemyakina O.Yu., Mukhamediev R.I., Borzilova Yu.S., Yakunin K.O. The Design of Structure of the Software System for Processing Text Document Corpus // Business Informatics. 2019. No. 4. Pp. 60—72.
4. Васенин В.А., Афонин С.А., Голомазов Д.Д. К созданию системы управления научной информацией на основе семантических технологий // Знания — Онтологии — Теории: Материалы Всеросс. конф. с международным участием. Новосибирск, 2011. С. 78—87.
5. Валько Д.В. Рекомендательная система на основе интеллектуального анализа наукометрического профиля исследователя // Программные продукты и системы. 2018. № 2. С. 275—283.
6. Shvets A., Devyatkin D., Sochenkov I., Tikhomirov I., Popov K., Yarygin K. Detection of Current Research Directions Based on Full-text Clustering // Proc. Sci. and Information Conf. London, 2015. Pp. 483—488.
7. Голицына О.Л., Куприянов В.М., Максимов Н.В. Информационные и технологические решения в задачах управления знаниями // Научно-техническая информация. 2015. Сер. 1. № 8. С. 1—12.
8. Slater S., Joksimovic S., Kovanovic V., Baker R.S., Gasevic D. Tools for Educational Data Mining: a Review // J. Educational and Behavioral Statistics. 2017. V. 42(1). Pp. 85—106.
9. Мохов А.С., Сафин Ш.И., Толчеев В.О. Анализ соответствия между научной и учебной деятельностью кафедры с использованием информационных технологий // Дистанционные образовательные технологии: Сб. статей IV Всерос. науч.-практ. конф. 2019. С. 232—236.
10. Маслихов С.Р., Мохов А.С., Толчеев В.О. Применение технологий интеллектуального анализа для оценки соответствия научного профиля кафедры и тематик лекционных курсов // «ИНФОТЕХ — 2019»: Сб. статей Всерос. науч.-техн. конф. 2019. С. 129—133.
11. Бершадский А.М., Бурукина И.П., Акимов А.А. Информационная система мониторинга деятельности кафедры // Информатизация образования и науки. 2011. № 3(11). С. 12—23.
12. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2014.
13. Chen K., Zhang Z., Long J., Zhang H. Turning from TF-IDF to TF-IGM for Term Weighting in Text Classification // Expert Syst. Appl. 2016. V. 66. Pp. 245—260.
14. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification // Proc. 15 Conf. European Chapter Association for Computational Linguistics, 2017. V. 2. Pp. 427—431.
15. Rani N., Sharma A., Pathak S. Text Classification Using Machine Learning Techniques: Comparative study // Intern. J. Future Revolution in Computer Sci. & Communication Eng. 2018. Iss. 3. Pp. 551—555.
16. Aggarwal C.C. Machine Learning for Text. N.Y.: Springer, 2018.
17. Специализированный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных [Электрон. ресурс] www.machinelearning.ru (дата обращения 22.02.2021).
18. Айсина Р.М. Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение и анализ данных. 2015. T. 1. № 11. C. 1584—1618.
19. Козлов П.А., Мохов А.С., Толчеев В.О. Кластеризация научных публикаций кафедры (на основе данных из библиотеки elibrary.ru) // Нечеткие системы, мягкие вычисления и интеллектуальные технологии: Сб. трудов VIII Междунар. науч.-практ. конф. 2020. Т. 2. С. 189—199.
20. Флах П. Машинное обучение – наука и искусство построения алгоритмов. М.: ДМК-пресс, 2015.
---
Для цитирования: Козлов П.А., Мохов А.С., Толчеев В.О. Построение терминологических профилей научных сотрудников на основе публикаций в цифровой библиотеке eLIBRARY.RU // Вестник МЭИ. 2022. № 1. С. 111—119. DOI: 10.24160/1993-6982-2022-1-111-119.
#
1. Aggarwal C.C. Content-based Recommender Systems. N.-Y.: Springer, 2016:139—166.
2. Andreev A.M., Berezkin D.V., Kozlov I.A. Podkhod k avtomatizirovannomu Monitoringu Tem na Osnove Obnaruzheniya Sobytiy v Potoke Tekstovykh Dokumentov. Informatsionno-izmeritel'nye i Upravlyayushchie Sistemy. 2017;3:49—60. (in Russian).
3. Barakhnin V.B., Kozhemyakina O.Yu., Mukhamediev R.I., Borzilova Yu.S., Yakunin K.O. The Design of Structure of the Software System for Processing Text Document Corpus. Business Informatics. 2019;4:60—72.
4. Vasenin V.A., Afonin S.A., Golomazov D.D. K Sozdaniyu Sistemy Upravleniya Nauchnoy Informatsiey na Osnove Semanticheskikh Tekhnologiy. Znaniya — Ontologii — Teorii: Materialy Vseross. Konf. s Mezhdunarodnym Uchastiem. Novosibirsk, 2011:78—87. (in Russian).
5. Val'ko D.V. Rekomendatel'naya Sistema na Osnove Intellektual'nogo Analiza Naukometricheskogo Profilya Issledovatelya. Programmnye Produkty i Sistemy. 2018;2:275—283. (in Russian).
6. Shvets A., Devyatkin D., Sochenkov I., Tikhomirov I., Popov K., Yarygin K. Detection of Current Research Directions Based on Full-text Clustering. Proc. Sci. and Information Conf. London, 2015:483—488.
7. Golitsyna O.L., Kupriyanov V.M., Maksimov N.V. Informatsionnye i Tekhnologicheskie Resheniya v Zadachakh Upravleniya Znaniyami. Nauchno-tekhnicheskaya Informatsiya. 2015;1;8:1—12. (in Russian).
8. Slater S., Joksimovic S., Kovanovic V., Baker R.S., Gasevic D. Tools for Educational Data Mining: a Review. J. Educational and Behavioral Statistics. 2017;42(1):85—106.
9. Mokhov A.S., Safin Sh.I., Tolcheev V.O. Analiz Sootvetstviya Mezhdu Nauchnoy i Uchebnoy Deyatel'nost'yu Kafedry s Ispol'zovaniem Informatsionnykh Tekhnologiy. Distantsionnye Obrazovatel'nye Tekhnologii: Sb. Statey IV Vseros. Nauch.-prakt. Konf. 2019:232—236. (in Russian).
10. Maslikhov S.R., Mokhov A.S., Tolcheev V.O. Primenenie Tekhnologiy Intellektual'nogo Analiza dlya Otsenki Sootvetstviya Nauchnogo Profilya Kafedry i Tematik Lektsionnykh Kursov. «INFOTEKH — 2019»: Sb. Statey Vseros. Nauch.-tekhn. Konf. 2019:129—133. (in Russian).
11. Bershadskiy A.M., Burukina I.P., Akimov A.A. Informatsionnaya Sistema Monitoringa Deyatel'nosti Kafedry. Informatizatsiya Obrazovaniya i Nauki. 2011;3(11):12—23. (in Russian).
12. Manning K., Ragkhavan P., Shyuttse Kh. Vvedenie v Informatsionnyy Poisk. M.: Vil'yams, 2014. (in Russian).
13. Chen K., Zhang Z., Long J., Zhang H. Turning from TF-IDF to TF-IGM for Term Weighting in Text Classification. Expert Syst. Appl. 2016;66:245—260.
14. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification. Proc. 15 Conf. European Chapter Association for Computational Linguistics, 2017;2:427—431.
15. Rani N., Sharma A., Pathak S. Text Classification Using Machine Learning Techniques: Comparative study. Intern. J. Future Revolution in Computer Sci. & Communication Eng. 2018;3:551—555.
16. Aggarwal C.C. Machine Learning for Text. N.Y.: Springer, 2018.
17. Spetsializirovannyy Informatsionno-analiticheskiy Resurs, Posvyashchennyy Mashinnomu Obucheniyu, Raspoznavaniyu Obrazov i Intellektual'nomu Analizu Dannykh [Elektron. Resurs] www.machinelearning.ru (Data Obrashcheniya 22.02.2021). (in Russian).
18. Aysina R.M. Obzor Sredstv Vizualizatsii Tematicheskikh Modeley Kollektsiy Tekstovykh Dokumentov. Mashinnoe Obuchenie i Analiz Dannykh. 2015;1;11:1584—1618. (in Russian).
19. Kozlov P.A., Mokhov A.S., Tolcheev V.O. Klasterizatsiya Nauchnykh Publikatsiy Kafedry (na Osnove Dannykh iz Biblioteki elibrary.ru). Nechetkie Sistemy, Myagkie Vychisleniya i Intellektual'nye Tekhnologii: Sb. Trudov VIII Mezhdunar. Nauch.-prakt. Konf. 2020;2:189—199. (in Russian).
20. Flakh P. Mashinnoe Obuchenie – Nauka i Iskusstvo Postroeniya Algoritmov. M.: DMK-press, 2015. (in Russian).
---
For citation: Kozlov P.A., Mokhov A.S., Tolcheev V.O. Drawing Up Researcher Terminological Profiles Based on Publications in the Digital Library eLIBRARY.Ru. Bulletin of MPEI. 2022;1:111—119. (in Russian). DOI: 10.24160/1993-6982-2022-1-111-119.
Published
2021-03-23
Section
System Analysis, Control and Data Processing (05.13.01)