Evaluating the Results of Applying Dimensionality Reduction Algorithms for Predicting the Clustering Performance

  • Александр [Aleksandr] Сергеевич [S.] Филатов [Filatov]
  • Светлана [Svetlana] Владимировна [V.] Николаева [Nikolaeva]
Keywords: dimensionality reduction algorithms, clustering, multidimensional data, PCA, Isomap, Locally Linear Embedding, MDS, Spectral Embedding, T-SNE, UMAP, adjusted Rand index, silhouette coefficient, Davies-Bouldin index, DBSCAN, HDBSCAN, K-Means, Spectral Clustering

Abstract

The possibility of evaluating the effectiveness of different dimensionality reduction methods before the high-dimensional data clustering stage is studied. The main attention is paid to analyzing how well the data passed through different dimensionality reduction algorithms are suitable for subsequent clustering. Different dimensionality reduction algorithms (PCA, Isomap, Locally Linear Embedding, MDS, Spectral Embedding, T-SNE, and UMAP) are applied to four sets of high-dimensional gasoline spectra. The dimensionality reduction results are evaluated using the silhouette coefficient (SC) and the Davies-Bouldin index (DBI). After that, the evaluated data are clustered using different algorithms (DBSCAN, HDB-SCAN, K-Means, Spectral Clustering), and the clustering is estimated using the adjusted Rand index (ARS). Then, the correspondence between the clustering and dimensionality reduction estimates is assessed. Attempts to reliably evaluate most of the dimensionality reduction algorithms using the cluster silhouette coefficient and the Davies-Bouldin index have been met with success. The Chebyshev, Euclidean, Manhattan, and square Euclidean metrics have yielded the most accurate results. Also, the two most effective algorithms T-SNE and UMAP were the only ones that could be evaluated using the DBI assessment. The obtained data can be used to select the optimal dimensionality reduction algorithm prior to perform clustering of multidimensional data, as well as to evaluate the data preprocessing quality. The correlation between the evaluations of dimensionality reduction methods and the efficiency of subsequent clustering has been successfully demonstrated. The T-SNE and UMAP algorithms have shown the best results in evaluation, and the Chebyshev, Euclidean, Manhattan, and square Euclidean metrics have given the most accurate results for these algorithms.

Information about authors

Александр [Aleksandr] Сергеевич [S.] Филатов [Filatov]

Ph.D.-student, Senior Lecturer at the Mathematical Support and Standardization of Information Technologies Dept., RTU MIREA, e-mail: nelolpp@gmail.com

Светлана [Svetlana] Владимировна [V.] Николаева [Nikolaeva]

Dr.Sci. (Techn.), Professor of Higher Mathematics Dept., RTU MIREA; Professor of Physics named after Valentin Fabrikant, NRU MPEI, e-mail: snikolaeva@yandex.ru

References

1. Ерохин С.Д., Борисенко Б.Б., Мартишин И.Д., Фадеев А.С. Анализ существующих методов снижения размерности входных данных // T-Comm: Телекоммуникации и транспорт. 2022. Т. 16. № 1. С. 30—37.
2. Филатов А.С. и др. Кластеризация многомерных спектральных данных с применением алгоритма уменьшения размерности // Научно-технический вестник Поволжья. 2023. № 10. С. 273—277.
3. Красников С.А., Овчинникова М.А., Гусев К.В. Визуализация больших данных в виде многомерных векторов на плоскость // Научно-технический вестник Поволжья. 2024. № 1. С. 155—158.
4. Вагин В.А., Краснов А.Е., Никольский Д.Н. Быстрые методы снижения размерности спектральных данных для их образной визуализации // Журнал прикладной спектроскопии. 2019. Т. 86. № 1. С. 116—121.
5. Вагин В.А., Краснов А.Е., Никольский Д.Н. Снижение размерности спектральных данных в Фурье-спектроскопии // Акустооптические и радиолокационные методы измерений и обработки информации: Материалы XII Междунар. науч.-техн. конф. М.: Научно-технологический центр уникального приборостроения РАН, 2019. С. 76—80.
6. Краснов А.Е., Вагин В.А., Никольский Д.Н. Нейросетевой метод снижения размерности спектральных данных // Современные технологии обработки сигналов: Доклады II Всерос. конф. М.: Московское НТО радиотехники, электроники и связи им. А.С. Попова, 2019. С. 136—141.
7. Chacón J.E., Rastrojo A.I. Minimum Adjusted Rand Index for Two Clusterings of a Given Size // Adv. Data Anal. Classif. 2023. V. 17. Pp. 125—133.
8. Журавлёва В.В., Маничева А.С. Упрощённый показатель силуэта для определения качества кластерных структур // Известия Алтайского гос. ун-та. 2022. № 4(126). С. 110—114.
9. Яблонцева А.Д. Индекс Дэвиса-Болдина для оценки кластеризации методом k-средних в Python // Modern Sci. 2021. № 7. С. 388—392.
10. Sculley D. Web-scale k-means Clustering // Proc. 19th Intern. Conf. World Wide Web. 2010. Pp. 1177—1178.
---
Для цитирования: Филатов А.С., Николаева С.В. Оценка результатов применения алгоритмов снижения размерности для предсказания эффективности кластеризациих // Вестник МЭИ. 2025. № 5. С. 114—119. DOI: 10.24160/1993-6982-2025-5-114-119
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Erokhin S.D., Borisenko B.B., Martishin I.D., Fadeev A.S. Analiz Sushchestvuyushchikh Metodov Snizheniya Razmernosti Vkhodnykh Dannykh. T-Comm: Telekommunikatsii i Transport. 2022;16;1:30—37. (in Russian).
2. Filatov A.S. i dr. Klasterizatsiya Mnogomernykh Spektral'nykh Dannykh s Primeneniem Algoritma Umen'sheniya Razmernosti. Nauchno-tekhnicheskiy Vestnik Povolzh'ya. 2023;10:273—277. (in Russian).
3. Krasnikov S.A., Ovchinnikova M.A., Gusev K.V. Vizualizatsiya Bol'shikh Dannykh v Vide Mnogomernykh Vektorov na Ploskost'. Nauchno-tekhnicheskiy Vestnik Povolzh'ya. 2024;1:155—158. (in Russian).
4. Vagin V.A., Krasnov A.E., Nikol'skiy D.N. Bystrye Metody Snizheniya Razmernosti Spektral'nykh Dannykh dlya Ikh Obraznoy Vizualizatsii. Zhurnal Prikladnoy Spektroskopii. 2019;86;1:116—121. (in Russian).
5. Vagin V.A., Krasnov A.E., Nikol'skiy D.N. Snizhenie Razmernosti Spektral'nykh Dannykh v Fur'e-spektroskopii. Akustoopticheskie i Radiolokatsionnye Metody Izmereniy i Obrabotki Informatsii: Materialy XII Mezhdunar. Nauch.-tekhn. konf. M.: Nauchno-tekhnologicheskiy Tsentr Unikal'nogo Priborostroeniya RAN, 2019:76—80. (in Russian).
6. Krasnov A.E., Vagin V.A., Nikol'skiy D.N. Neyrosetevoy Metod Snizheniya Razmernosti Spektral'nykh Dannykh. Sovremennye Tekhnologii Obrabotki Signalov: Doklady II Vseros. Konf. M.: Moskovskoe NTO Radiotekhniki, Elektroniki i Svyazi im. A.S. Popova, 2019:136—141. (in Russian).
7. Chacón J.E., Rastrojo A.I. Minimum Adjusted Rand Index for Two Clusterings of a Given Size. Adv. Data Anal. Classif. 2023;17:125—133.
8. Zhuravleva V.V., Manicheva A.S. Uproshchennyy Pokazatel' Silueta dlya Opredeleniya Kachestva Klasternykh Struktur. Izvestiya Altayskogo Gos. Un-ta. 2022;4(126):110—114. (in Russian).
9. Yablontseva A.D. Indeks Devisa-Boldina dlya Otsenki Klasterizatsii Metodom k-srednikh v Python. Modern Sci. 2021;7:388—392.
10. Sculley D. Web-scale k-means Clustering. Proc. 19th Intern. Conf. World Wide Web. 2010:1177—1178
---
For citation: Filatov A.S., Nikolaeva S.V. Evaluating the Results of Applying Dimensionality Reduction Algorithms for Predicting the Clustering Performance. Bulletin of MPEI. 2025;5:114—119. (in Russian). DOI: 10.24160/1993-6982-2025-5-114-119
---
Conflict of interests: the authors declare no conflict of interest
Published
2025-06-24
Section
system analisSystem Analysis, Management and Information Processing (2.3.1)