Снижение размерности

В статистике, машинном обучении и теории информации снижение размерности — это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных^[1]. Преобразование может быть разделено на отбор признаков и выделение признаков^[2].

Отбор признаков[править | править код]

Метод отбора признаков пытается найти подмножество исходных переменных (которые называются признаками или атрибутами). Есть три стратегии — стратегия фильтра (например, накопление признаков^[en]), стратегия обёртывания (например, поиск согласно точности) и стратегия вложения (выбираются признаки для добавления или удаления по мере построения модели, основанной на ошибках прогнозирования). См. также задачи комбинаторной оптимизации.

В некоторых случаях анализ данных, такой как регрессия или классификация, может быть осуществлён в редуцированном пространстве более точно, чем в исходном пространстве^[3].

Проекция признаков[править | править код]

Проекция признаков преобразует данные из пространства высокой размерности к пространству малой размерности. Преобразование данных может быть линейным, как в методе главных компонент (МГК), но существует большое число техник нелинейного понижения размерности^[en]^[4]^[5]. Для многомерных данных может быть использовано тензорное представление для снижения размерности через полилинейное обучение подпространств^[en]^[6].

Метод главных компонент (МГК)[править | править код]

Основная линейная техника для снижения размерности, метод главных компонент, осуществляет линейное отображение данных в пространство меньшей размерности таким образом, что дисперсия данных в малоразмерном представлении максимизируется. На практике строится матрица ковариации (а иногда корреляции) данных и вычисляются собственные вектора этой матрицы. Собственные вектора, соответствующие наибольшим собственным значениям (главные компоненты) теперь можно использовать для восстановления большей части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать в терминах крупномасштабного физического поведения системы. Исходное пространство (с размерностью, равной числу точек) редуцируется (с потерей данных, но с надеждой, что остаётся наиболее важная дисперсия) до пространства, натянутого на несколько собственных векторов.

Неотрицательное матричное разложение (НМР)[править | править код]

Неотрицательное матричное разложение раскладывает неотрицательную матрицу на произведение двух неотрицательных матриц, которые имеют многообещающие средства в областях, где существуют только неотрицательные сигналы^[7]^[8], таких как астрономия^[9]^[10]. Неотрицательное матричное разложение хорошо известно ввиду правила мультипликативных корректировок (англ. multiplicative update rule) Ли и Сына^[7], которое непрерывно разрабатывалось: включение неопределённости (англ. the inclusion of uncertainties)^[9], учёт отсутствующих данных (англ. the consideration of missing data) и параллельные вычисления^[11], последовательное построение (англ. sequential construction)^[11], которое ведёт к стабильности и линейности НМР^[10], а также другие корректировки.

Со стабильным компонентным базисом во время построения и линейным процессом моделирования последовательное неотрицательное матричное разложение (англ. sequential NMF)^[11] способно сохранить поток околозвёздных структур прямого наблюдения (то есть наблюдаемых непосредственно, а не по косвенным признакам) в астрономии^[10], как один из методов обнаружения экзопланет, особенно для околозвёздных дисков прямого наблюдения. По сравнению с МГК неотрицательное матричное разложение не удаляет среднее матриц, удаление которых приводит к нефизическим неотрицательным потокам, потому НМР способно сохранить больше информации, чем метод главных компонент, что продемонстрировал Рен с соавторами^[10].

Ядерный метод главных компонент (ЯМГК)[править | править код]

Метод главных компонент может применяться другим способом при использовании ядерного трюка. Получающаяся техника способна построить нелинейные отображения, которые максимизируют дисперсию данных. Эта техника называется ядерным методом главных компонент^[en].

Основанный на графах ядерный МГК[править | править код]

Другие многообещающие нелинейные техники — это техники обучения на базе многообразий^[en], такие как Isomap^[en], локально-линейное вложение^[en] (ЛЛВ), локально-линейное вложение с использованием гессиана (англ. Hessian LLE), метод карт собственных значений лапласиана (англ. Laplacian Eigenmaps) и метод выравнивания локальных касательных пространств^[en] (англ. local tangent space alignment, LTSA). Эти техники строят низкоразмерное представление данных, используя функцию цены, которая сохраняет локальные свойства данных и которую можно рассматривать как определение основанного на графах ядра для ядерного МГК.

Недавно были предложены техники, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределённого программирования. Наиболее значительным примером такой техники является развертка по максимуму невязки (РМН). Центральная идея РМН состоит в точности в сохранении всех попарных расстояний между ближайшими соседями (в пространстве со скалярным произведением), максимизируя при этом расстояния между точками, не являющимися ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции цены, которая измеряет расстояния во входном и выходном пространствах. Важные примеры таких техник: классическое многомерное шкалирование, которое идентично МГК; Isomap^[en], которая использует геодезические расстояния в пространстве данных; метод диффузионных карт^[en], который использует диффузионные расстояния в пространстве данных; стохастическое вложение соседей с t-распределением (англ. t-distributed stochastic neighbor embedding, t-SNE), который минимизирует разницу между парами точек, UMAP (Uniform Approximation and Projection), который минимизирует дивергенцию Кульбака-Лейблера между множествами в высоко- и низкоразмерном пространствах^[12], и нелинейный анализ компонент (англ. Curvilinear Component Analysis, CCA).

Другой подход к нелинейному снижению размерности — через использование автокодировщиков, специального вида нейронных сетей прямого распространения (англ. feed-forward networks) с бутылочным (в виде бутылочного горлышка) скрытым слоем^[13]. Обучение глубоких кодировщиков обычно осуществляется с использованием жадного послойного предобучения (например, используя каскад ограниченных машин Больцмана), за которым следует этап тонкой настройки, основанный на методе обратного распространения ошибки.

Линейный дискриминантный анализ (ЛДА)[править | править код]

Линейный дискриминантный анализ (ЛДА) является обобщением линейного дискриминанта Фишера, метода, применяемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которые описывают или разделяют два и более класса объектов или событий.

Обобщённый дискриминантный анализ (ОДА)[править | править код]

Обобщённый дискриминантный анализ имеет дело с нелинейным дискриминантным анализом с помощью оператора ядра функции (англ. kernel function operator). Лежащая в основе теория близка к методу опорных векторов (МОВ), поскольку метод ОДА даёт отображение входных векторов в пространство признаков высокой размерности ^[14]^[15]. Аналогично ЛДА, целью ОДА является поиск проекции признаков в пространство меньшей размерности с максимизацией отношения межклассовой инвариантности (англ. between-class scatter) к внутриклассовой инвариантности (англ. within-class scatter).

Автокодировщик[править | править код]

Автокодировщик может быть использован для изучения функций нелинейного снижения размерности и кодирования вместе с обратной функцией из кодированного к исходному представлению.

Снижение размерности[править | править код]

Для наборов данных высокой размерности (то есть с числом размерностей больше 10) снижение размерности обычно осуществляется перед применением метода k-ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) с целью избежать эффект проклятия размерности^[16].

Выделение признаков и снижение размерности может быть скомбинировано в один шаг с помощью метода главных компонент (МГК), линейного дискриминантного анализа(ЛДА), канонического корреляционного анализа (ККА) или неотрицательного разложения матрицы (НМР) как предварительный шаг с последующей группировкой с помощью K-NN на векторе признаков в пространстве редуцированной размерности. В машинном обучении этот процесс называется также малоразмерным вложением^[17].

Для любых наборов данных высокой размерности (например, когда осуществляется поиск подобия в видеопотоке, ДНК данных или временном ряде высокой размерности) использование быстрого приближённого K-NN поиска с помощью методов «locality sensitive hashing», случайной проекции^[en]^[18], «выжимок (sketches)»^[19] (например, тензорный скетч) или других высокоразмерных техник поиска похожести из арсенала сверхбольших баз данных^{[уточнить]} может оказаться единственно возможным вариантом.

Преимущества снижения размерности[править | править код]

Оно уменьшает требуемое время и память.
Удаление мультиколлинеарности улучшает скорость модели машинного обучения.
Проще представить данные визуально, если свести к очень низким размерностям, таким как 2D или 3D.

Приложения[править | править код]

Техника снижения размерности, которая иногда используется в нейронауках,— это максимальные информативные размерности^[en]. Техника находит представления низкой размерности набора данных, сохраняющие как можно больше информации об исходных данных.

См. также[править | править код]

Примечания[править | править код]

↑ Roweis, Saul, 2000.
↑ Pudil, Novovičová, 1998, с. 101.
↑ Rico-Sulayes, 2017, с. 26—35.
↑ Samet, 2006.
↑ Ding, He, Zha, Simon, 2002.
↑ Lu, Plataniotis, Venetsanopoulos, 2011, с. 1540–1551.
↑ ¹ ² Lee, Seung, 1999, с. 788—791.
↑ Lee, Seung, 2001, с. 556-562.
↑ ¹ ² Blanton, Roweis, 2007, с. 134.
↑ ¹ ² ³ ⁴ Ren, Pueyo, Zhu, Duchêne, 2018, с. 104.
↑ ¹ ² ³ Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM].
↑ UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction (англ.) (7 декабря 2018). Дата обращения: 26 августа 2019. Архивировано 3 ноября 2019 года.
↑ Hu, Zahorian, 2010.
↑ Baudat, Anouar, 2000, с. 2385–2404.
↑ Haghighat, Zonouz, Abdel-Mottaleb, 2015, с. 7905–7916.
↑ Beyer, Goldstein, Ramakrishnan, Shaft, 1999, с. 217–235.
↑ Shaw, Jebara, 2009, с. 1.
↑ Bingham, Mannila, 2001, с. 245.
↑ Shasha, 2004.

Литература[править | править код]

Baudat G., Anouar F. Generalized discriminant analysis using a kernel approach // Neural computation. — 2000. — Т. 12, вып. 10.
Haghighat M., Zonouz S., Abdel-Mottaleb M. CloudID: Trustworthy Cloud-based and Cross-Enterprise Biometric Identification // Expert Systems with Applications. — 2015. — Т. 42, вып. 21.
Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft. When is “nearest neighbor” meaningful? // Proceedings of the 7th International Conference on Database Theory (ICDT). — Jerusalem, Israel,, 1999.
Hongbing Hu, Stephen A. Zahorian. Dimensionality Reduction Methods for HMM Phonetic Recognition // ICASSP 2010. — Dallas, TX, 2010.
Bingham E., Mannila H. Random projection in dimensionality reduction // Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. — 2001. — ISBN 158113391X. — doi:10.1145/502512.502546.
D High Shasha. Performance Discovery in Time Series. — Berlin: Springer, 2004. — ISBN 0-387-00857-8.
Shaw B., Jebara T. Structure preserving embedding // Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09. — 2009. — С. 1. — ISBN 9781605585161. — doi:10.1145/1553374.1553494.
Roweis S. T., Saul L. K. Nonlinear Dimensionality Reduction by Locally Linear Embedding // Science. — 2000. — Т. 290, вып. 5500. — С. 2323–2326. — doi:10.1126/science.290.5500.2323. — Bibcode: 2000Sci...290.2323R. — PMID 11125150.
Pudil P., Novovičová J. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge // Feature Extraction, Construction and Selection / Huan Liu, Hiroshi Motoda. — 1998. — ISBN 978-1-4613-7622-4. — doi:10.1007/978-1-4615-5725-8_7.
Antonio Rico-Sulayes. Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution // Revista Ingeniería Electrónica, Automática y Comunicaciones. — 2017. — Т. 38, № 3.
Samet H. Foundations of Multidimensional and Metric Data Structures. — Morgan Kaufmann, 2006. — ISBN 0-12-369446-9.
Ding C., He X., Zha H., Simon H.D. Adaptive Dimension Reduction for Clustering High Dimensional Data // Proceedings of International Conference on Data Mining. — 2002.
Haiping Lu, K.N. Plataniotis, A.N. Venetsanopoulos. A Survey of Multilinear Subspace Learning for Tensor Data // Pattern Recognition. — 2011. — Т. 44, № 7. — С. 1540–1551. — doi:10.1016/j.patcog.2011.01.004.
Daniel D. Lee, H. Sebastian Seung. Learning the parts of objects by non-negative matrix factorization // Nature. — 1999. — Т. 401, вып. 6755. — С. 788–791. — doi:10.1038/44565. — Bibcode: 1999Natur.401..788L. — PMID 10548103.
Daniel D. Lee, H. Sebastian Seung. Algorithms for Non-negative Matrix Factorization // Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. — MIT Press, 2001. — С. 556–562.
Michael R. Blanton, Sam Roweis. K-corrections and filter transformations in the ultraviolet, optical, and near infrared // The Astronomical Journal. — 2007. — Т. 133. — doi:10.1086/510127. — Bibcode: 2007AJ....133..734B. — arXiv:astro-ph/0606170.
Bin Ren, Laurent Pueyo, Guangtun B. Zhu, Gaspard Duchêne. Non-negative Matrix Factorization: Robust Extraction of Extended Structures // The Astrophysical Journal. — 2018. — Т. 852. — doi:10.3847/1538-4357/aaa1f2. — Bibcode: 2018ApJ...852..104R. — arXiv:1712.10317.
Fodor I. A survey of dimension reduction techniques. National Technical Report UCRL-ID-148494. — Lawrence Livermore: Center for Applied Scientific Computing,, 2002.
Cunningham P. Dimension Reduction. Technical Report UCD-CSI-2007-7. — University College Dublin, 2007.
Stephen A. Zahorian, Hongbing Hu. Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition // Speech Technologies. — 2011. — ISBN 978-953-307-996-7. — doi:10.5772/16863.
Dhyaram Lakshmi Padmaja, B Vishnuvardhan. Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data. — 2016. — Август. — С. 31–34. — doi:10.1109/IACC.2016.16.

Ссылки[править | править код]

[_52e25d507f28fd21-1] Roweis, Saul, 2000.

[_6f3d94098cb89bb7-2] Pudil, Novovičová, 1998, с. 101.

[_d9843dd245e8512b-3] Rico-Sulayes, 2017, с. 26—35.

[_155c40e4f449ee2d-4] Samet, 2006.

[_ffd7d1f698730bf3-5] Ding, He, Zha, Simon, 2002.

[_6ceb534cf400beb0-6] Lu, Plataniotis, Venetsanopoulos, 2011, с. 1540–1551.

[_b1b3476be03b9719-7] ¹ ² Lee, Seung, 1999, с. 788—791.

[_1ca83b3d4e5b0662-8] Lee, Seung, 2001, с. 556-562.

[_1039bc6cf5d8e969-9] ¹ ² Blanton, Roweis, 2007, с. 134.

[_f76e71f3c6c55685-10] ¹ ² ³ ⁴ Ren, Pueyo, Zhu, Duchêne, 2018, с. 104.

[zhu16-11] ¹ ² ³ Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM].

[12] UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction (англ.) (7 декабря 2018). Дата обращения: 26 августа 2019. Архивировано 3 ноября 2019 года.

[_6ae0bf9bd29014ed-13] Hu, Zahorian, 2010.

[_f05102801b86b625-14] Baudat, Anouar, 2000, с. 2385–2404.

[_52fc857abb23f80f-15] Haghighat, Zonouz, Abdel-Mottaleb, 2015, с. 7905–7916.

[_ce72e7f261f2644b-16] Beyer, Goldstein, Ramakrishnan, Shaft, 1999, с. 217–235.

[_0ccaa9875a7984d9-17] Shaw, Jebara, 2009, с. 1.

[_53210fa4927aaf97-18] Bingham, Mannila, 2001, с. 245.

[_858a73e4e5e8bd47-19] Shasha, 2004.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Рекомендательные системы
Концепции	Коллективный интеллект Релевантность Оценка в звёздочках Длинный хвост
Методы и вопросы	Холодный старт Коллаборативная фильтрация Снижение размерности Сбор косвенных данных Коллаборативная фильтрация посредством анализа взаимосвязей между объектами Разложение матрицы Сбор информации о предпочтениях Поиск по сходству Социальная леность
Имплементации	Коллаборативная информационно-поисковая система Платформа обнаружения контента Система поддержки принятия решений Проект "Music Genome" Поиск продукта
Исследования	GroupLens Research MovieLens Netflix Prize