Линейный дискриминантный анализ

Линейный дискриминантный анализ (ЛДА, англ. Linear Discriminant Analysis, LDA), нормальный дискриминантный анализ (англ. Normal Discriminant Analysis, NDA) или анализ дискриминантных функций (англ. Discriminant Function Analysis) является обобщением линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которая описывает или разделяет два или более классов или событий. Получившаяся комбинация может быть использована как линейный классификатор, или, более часто, для снижения размерности перед классификацией.

ЛДА тесно связан с дисперсионным анализом (англ. ANalyse Of Variance=ANOVA) и регрессионным анализом, которые также пытаются выразить одну зависимую переменную в виде линейной комбинации других признаков или измерений^[1]^[2]. Однако дисперсионный анализ использует качественные независимые переменные и непрерывную^[англ.] зависимую переменную, в то время как дискриминантный анализ имеет непрерывные независимые переменные и качественную зависимую переменную (то есть метку класса)^[3]. Логистическая регрессия и пробит-регрессия больше похожи на ЛДА, чем дисперсионный анализ, так как они так же объясняют качественную переменную через непрерывные независимые переменные. Эти другие методы более предпочтительны в приложениях, в которых нет резона предполагать, что независимые переменные нормально распределены, что является фундаментальным предположением метода ЛДА.

ЛДА тесно связан также c методом главных компонент (МГК, англ. Principal Component Analysis, PCA) и факторным анализом тем, что они ищут линейные комбинации переменных, которые лучшим образом объясняют данные^[4]. ЛДА явным образом пытается моделировать разницу между классами данных. МГК, с другой стороны, не принимает во внимание какую-либо разницу в классах, а факторный анализ строит комбинации признаков, опираясь скорее на различия, а не на сходства. Дискриминантный анализ отличается также от факторного анализа тем, что не является независимой техникой — для его работы должно быть определено различие между независимыми переменными и зависимыми переменными (последние называются также критериальными переменными).

ЛДА работает, когда измерения, сделанные на независимых переменных для каждого наблюдения, являются непрерывными величинами. Когда имеем дело с качественными независимыми переменными, эквивалентной техникой является дискриминантный анализ соответствий^[5]^[6].

Дискриминантный анализ используется, когда группы известны априори (в отличие от кластерного анализа). Каждый случай должен иметь значение в одной или нескольких мерах количественного предсказания и значение на групповой мере^[7]. Выражаясь простыми терминами, анализ дискриминантных функций является классификацией, разбивающей объекты на группы, классы или категории некоторого типа.

История

Оригинальный дихотомический дискриминантный анализ разработал сэр Роналд Фишер в 1936^[8]. Он отличается от дисперсионного анализа или многофакторного дисперсионного анализа^[англ.], которые используются для предсказания одной (дисперсионный анализ) или нескольких (многофакторный дисперсионный анализ) непрерывных зависимых переменных по одной или более независимой качественной переменной. Анализ дискриминантных функций полезен для определения, является ли множество переменных эффективным в предсказании принадлежности категории^[9].

ЛДА для двух классов

Рассмотрим множество наблюдений ${\vec {x}}$ (называемых также признаками, атрибутами, переменными или измерениями) для каждого образца объекта или события с известным классом $y$ . Это множество образцов называется тренировочным набором^[англ.]. Задача классификации тогда заключается в поиске хорошего предсказателя для класса $y$ любого представителя того же распределения (не обязательно из тренировочного множества), заданного только наблюдением ${\vec {x}}$ ^[10].

ЛДА подходит к задаче с предположением, что условные плотности распределения вероятности $p({\vec {x}}|y=0)$ и $p({\vec {x}}|y=1)$ распределены нормально со средним и параметрами ковариации $\left({\vec {\mu }}_{0},\Sigma _{0}\right)$ и $\left({\vec {\mu }}_{1},\Sigma _{1}\right)$ соответственно. При таких предположениях байесово оптимальное решение предсказывает, что точка принадлежит второму классу, если отношение правдоподобия превосходит некоторое (пороговое) значение T, так что:

({\vec {x}}-{\vec {\mu }}_{0})^{T}\Sigma _{0}^{-1}({\vec {x}}-{\vec {\mu }}_{0})+\ln |\Sigma _{0}|-({\vec {x}}-{\vec {\mu }}_{1})^{T}\Sigma _{1}^{-1}({\vec {x}}-{\vec {\mu }}_{1})-\ln |\Sigma _{1}|\ >\ T

Без каких-либо дальнейших предположений получающийся классификатор называют КДА (квадратичный дискриминантный анализ^[англ.], англ. Quadratic Discriminant Analysis, QDA).

Вместо этого ЛДА делает дополнительное упрощающее предположение гомоскедастичности (то есть что классы ковариации идентичны, так что $\Sigma _{0}=\Sigma _{1}=\Sigma$ ) и что ковариации имеют полный ранг. В этом случае несколько членов исключаются:

{\vec {x}}^{T}\Sigma _{0}^{-1}{\vec {x}}={\vec {x}}^{T}\Sigma _{1}^{-1}{\vec {x}}

{\vec {x}}^{T}{\Sigma _{i}}^{-1}{\vec {\mu }}_{i}={{\vec {\mu }}_{i}}^{T}{\Sigma _{i}}^{-1}{\vec {x}}

, поскольку

\Sigma _{i}

является эрмитовой и описанный выше критерий решения становится пороговым значением для скалярного произведения

{\vec {w}}\cdot {\vec {x}}>c

для некоторой пороговой константы c, где

{\vec {w}}=\Sigma ^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

c={\frac {1}{2}}(T-{{\vec {\mu }}_{0}}^{T}\Sigma _{0}^{-1}{{\vec {\mu }}_{0}}+{{\vec {\mu }}_{1}}^{T}\Sigma _{1}^{-1}{{\vec {\mu }}_{1}})

Это означает, что критерий для входного ${\vec {x}}$ вхождения в класс $y$ является функцией только от этой линейной комбинации известных наблюдений.

Часто полезно видеть это заключение в терминах геометрии: критерий входного ${\vec {x}}$ содержаться в классе $y$ является функцией от проекции точки многомерного пространства ${\vec {x}}$ на вектор ${\vec {w}}$ (мы рассматриваем только направление вектора). Другими словами, наблюдение принадлежит $y$ , если соответствующий ${\vec {x}}$ расположен на определённое стороне от гиперплоскости, перпендикулярной ${\vec {w}}$ . Положение плоскости определяется пороговым значением c.

Предположения

Предположения дискриминантного анализа являются теми же, что и для многофакторного дисперсионного анализа. Анализ весьма чувствителен к выбросам и размер наименьшей группы должен быть больше, чем число предикторных (независимых) переменных^[7].

Многомерная нормальность: Независимые переменные нормальны для любого уровня группирующей переменной ^[9]^[7].
Однородность дисперсии/ковариации (гомоскедастичность): Дисперсии среди групповых переменных те же самые по всем уровням предикторов. Это может быть проверено с помощью М-статистики Бокса^[9]. Предлагается, однако, чтобы линейный дискриминантный анализ применялся, когда ковариации равны, а когда ковариации не равны, может быть использован квадратичный дискриминантный анализ^[англ.]^[7].
Мультиколлинеарность: Сила предсказания может уменьшаться с увеличением корреляции между предикторными (независимыми) переменными ^[7].
Независимость: Объекты предполагаются случайно распределёнными и оценка по одной переменной для объекта независима от оценки по другой переменной^[9]^[7].

Предполагается, что дискриминантный анализ относительно устойчив относительно небольших нарушений этих предположений^[11]. Было показано, что дискриминантный анализ может оставаться правдоподобным при применении дихотомических случайных величин (когда многомерная нормальность часто нарушается)^[12].

Дискриминантные функции

Дискриминантный анализ работает путём создания одной или более линейной комбинаций предикторов, получая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями. Число возможных функций равно либо Ng-1, где Ng=числу групп, либо p (числу предикторов), в зависимости от того, какое из чисел меньше. Первая созданная функция максимизирует разницу между группами по этой функции. Вторая функция максимизирует разницу по этой функции, но не должна коррелировать с предыдущей функцией. Процесс продолжается созданием последовательности функций с требованием, чтобы новая функция не коррелировала со всеми предыдущими.

Если дана группа $j$ с множествами $\mathbb {R} _{j}$ выборочного пространства, есть дискриминантное правило, такое, что, если $x\in \mathbb {R} _{j}$ , то $x\in j$ . Дискриминантный анализ тогда находит «хорошие» области множеств $\mathbb {R} _{j}$ для минимизации ошибки классификации, потому приводит к высокому проценту классификации^[13].

Каждая функция сопровождается дискриминантной оценкой для определения, насколько хорошо она предсказывает принадлежность группе.

Коэффициенты структурной корреляции: Корреляция между каждым предиктором и дискриминантной оценкой для каждой функции. Это полная корреляция^[14].
Нормированные коэффициенты: Вклад каждого предиктора в каждую функцию, так что это является частной корреляцией^[англ.]. Показывает относительную важность каждого предиктора как вклад в принадлежность группе для каждой функции.
Функции от центроидов группы: Средние дискриминантные оценки для каждой переменной для каждой функции. Чем дальше друг от друга находятся средние, тем меньше будет ошибка при классификации.

Правила дискриминанта

Метод максимального правдоподобия: Назначает x группе, максимизирующей (групповую) плотность популяции^[15].
Правило дискриминанта Байеса: Назначает x группе, максимизирующей $\pi _{i}f_{i}(x)$ , где $\pi _{i}$ представляет априорную вероятность классификации и $f_{i}(x)$ представляет плотность популяции^[15].
Правило линейного дискриминанта Фишера: Максимизирует отношение между SS_между и SS_внутри, и находит линейную комбинацию предикторов для предсказания группы^[15].

Собственные значения

Собственное значение в дискриминантном анализе — это собственное значение для каждой функции^{[Что такое собственное значение для функции?]}. Оно показывает, насколько функция разделяет группы. Чем больше собственное значение, тем лучше функция разделяет^[7]. Здесь, однако, нужно быть осторожным, поскольку собственные значения не имеют верхнего предела ^[9]^[7]. Собственное значение можно рассматривать как отношение SS_между и SS_внутри как в дисперсионном анализе, когда зависимая переменная является дискриминантной функцией, а группы являются уровнями IV^[9]. Это означает, что наибольшее собственное значение ассоциировано с первой функцией, второе по величине ассоциировано со второй и т. д..

Величина эффекта

Некоторые предлагают использовать собственные значения как меру величины эффекта^[англ.], однако в общем случае это не поддерживается^[9]. Вместо этого предпочтительнее в качестве меры эффекта использовать каноническую корреляцию. Она подобна собственному значению, но является квадратным корнем отношения SS_между и SS_полное. Она равна корреляции между группами и функцией^[9].

Другая популярная мера размера эффекта — процент дисперсии^{[прояснить]} для каждой функции. Её можно вычислить по формуле: $(\lambda _{x}/\mathrm {\Sigma } \lambda _{i}'')\times 100$ , где $\lambda _{x}$ является собственным значением для функции, а $\mathrm {\Sigma } \lambda _{i}$ является суммой всех собственных значений. Величина указывает нам, насколько точно предсказание, даваемое конкретной функцией по сравнению с другими функциями^[9].

Процент правильной классификации может быть проанализирован как размер эффекта^[9].

Канонический дискриминантный анализ для k классов

Канонический дискриминантный анализ (англ. Canonical discriminant analysis, CDA) находит оси (k − 1 канонических координат, где k — число классов), которые лучшим образом разделяют категории. Эти линейные функции не коррелируют и определяют, в результате, оптимальное k − 1 мерное пространство через n-мерное облако данных, которые лучшим образом разделяют k групп. См. «ЛДА с несколькими классами» ниже.

Линейный дискриминант Фишера

Термины линейный дискриминант Фишера и ЛДА часто используют как равнозначные, хотя исходная статья Фишера^[1] в действительности описывает немного другой дискриминант, который не делает таких предположений, какие делает ЛДА, например, нормальное распределение классов или одинаковость ковариации классов.

Предположим, что два класса наблюдений имеют средние ${\vec {\mu }}_{0},{\vec {\mu }}_{1}$ и ковариации $\Sigma _{0},\Sigma _{1}$ . Тогда линейная комбинация признаков ${\vec {w}}\cdot {\vec {x}}$ будет иметь средние ${\vec {w}}\cdot {\vec {\mu }}_{i}$ и дисперсии ${\vec {w}}^{T}\Sigma _{i}{\vec {w}}$ для $i=0,1$ . Фишер определял разделение между этими двумя распределениями как отношение дисперсии между классами и дисперсии внутри классов:

S={\frac {\sigma _{\text{between}}^{2}}{\sigma _{\text{within}}^{2}}}={\frac {({\vec {w}}\cdot {\vec {\mu }}_{1}-{\vec {w}}\cdot {\vec {\mu }}_{0})^{2}}{{\vec {w}}^{T}\Sigma _{1}{\vec {w}}+{\vec {w}}^{T}\Sigma _{0}{\vec {w}}}}={\frac {({\vec {w}}\cdot ({\vec {\mu }}_{1}-{\vec {\mu }}_{0}))^{2}}{{\vec {w}}^{T}(\Sigma _{0}+\Sigma _{1}){\vec {w}}}}

Эта мера является, в некотором смысле, мерой отношения сигнал/шум для разметки класса. Можно показать, что максимальное разделение будет, когда

{\vec {w}}\propto (\Sigma _{0}+\Sigma _{1})^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

Если предположения ЛДА выполняются, вышеприведённое равенство эквивалентно ЛДА.

Заметьте, что вектор ${\vec {w}}$ является нормалью дискриминантной гиперплоскости. В качестве примера, в двумерной задаче прямая, наилучшим образом разделяющая две группы, является перпендикуляром к ${\vec {w}}$ .

В общем случае точки данных, которые разделяют, проектируются на ${\vec {w}}$ . Затем выбирается пороговое значение, которое наилучшим образом разделяет данные, исходя из одномерного распределения. Не существует общего правила для выбора порога. Однако, если проекции точек из обоих классов проявляют примерно то же самое распределение, хорошим выбором будет гиперплоскость между проекциями двух средних, ${\vec {w}}\cdot {\vec {\mu }}_{0}$ и ${\vec {w}}\cdot {\vec {\mu }}_{1}$ . В этом случае параметр c в пороговом условии ${\vec {w}}\cdot {\vec {x}}>c$ может быть найден явно:

c={\vec {w}}\cdot {\frac {1}{2}}({\vec {\mu }}_{0}+{\vec {\mu }}_{1})={\frac {1}{2}}{\vec {\mu }}_{1}^{T}\Sigma _{1}^{-1}{\vec {\mu }}_{1}-{\frac {1}{2}}{\vec {\mu }}_{0}^{T}\Sigma _{0}^{-1}{\vec {\mu }}_{0}

.

Метод Оцу связан с линейным дискриминантом Фишера и был создан для бинаризации гистограммы пикселей в монохромном изображении путём оптимального выбора порога чёрное/белое, который минимизирует дисперсии внутри классов и максимизирует дисперсии между классами.

ЛДА с несколькими классами

В случае, когда имеется более двух классов, анализ, используемый в получении дискриминанта Фишера, может быть расширен до получения подпространства, которое содержит все вариации классов^[14]^[16]. Это обобщение принадлежит К. Р. Рао^[17]. Предположим, что каждый из C классов имеет среднее $\mu _{i}$ и ту же ковариацию $\Sigma$ . Тогда разброс вариации классов можно определить как выборочную ковариацию средних класса

\Sigma _{b}={\frac {1}{C}}\sum _{i=1}^{C}(\mu _{i}-\mu )(\mu _{i}-\mu )^{T}

,

где $\mu$ является средним средних для классов. Отделитель класса в направлении ${\vec {w}}$ в этом случае будет задаваться величиной

S={\frac {{\vec {w}}^{T}\Sigma _{b}{\vec {w}}}{{\vec {w}}^{T}\Sigma {\vec {w}}}}

Это означает, что когда ${\vec {w}}$ является собственным вектором $\Sigma ^{-1}\Sigma _{b}$ , величина для отделения будет равна соответствующему собственному значению.

Если $\Sigma ^{-1}\Sigma _{b}$ диагонализируема, вариативность между признаками будет содержаться в подпространстве, натянутом на собственные вектора, соответствующие C − 1 наибольшим собственным значениям (поскольку ранг $\Sigma _{b}$ не превосходит C − 1). Эти собственные вектора главным образом используются в отборе признаков, как в МГК. Собственные вектора, соответствующие меньшим собственным значениям, очень чувствительны к точному выбору тренировочных данных и часто необходимо применение регуляризации, как описано в следующей секции.

Если требуется классификация, имеется много альтернативных подходов, которые можно использовать вместо снижения размерности. Например, классы могут быть разбиты и может быть использован стандартный дискриминант Фишера или ЛДА для классификации каждой части. Общим примером такого подхода является «один против остальных», когда точки одного класса укладываются в одну группу, а всё остальное укладывается в другую группу, затем применяется ЛДА. Это даёт C классификаторов, результаты которых комбинируются. Другой общий метод — попарная классификация, когда создаётся новый классификатор для каждой пары классов (что даёт в общей сложности C(C − 1)/2 классификаторов), и индивидуальные классификаторы комбинируются для получения конечной классификации.

Инкрементальный алгоритм ЛДА

Типичная имплементация техники ЛДА требует, чтобы все пробы были доступны сразу. Однако существуют ситуации, когда весь набор данных недоступен и входные данные получаются в виде потока. В этом случае желательно для выделения признаков ЛДА иметь возможность обновлять вычисленные признаки ЛДА путём просмотра новых проб без прогона всего алгоритма на полном наборе данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или распознавание лиц, важно обновлять выделенные признаки ЛДА, как только новое наблюдение становится доступным. Техника ЛДА выделения признаков, которая может обновлять признаки ЛДА просто путём обработки новых образцов, называется инкрементальным алгоритммом ЛДА, и эта идея интенсивно изучается последние два десятилетия^[18]. Каттерджи и Ройчаудхари предложили инкрементальный самоорганизующийся алгоритм ЛДА для обновления признаков ЛДА^[19]. В другом труде Демир и Озмехмет предложили алгоритмы онлайнового локального обучения для обновления признаков ЛДА инкрементально, используя коррекцию ошибок и правила обучения Хебба^[20]. Позднее Алияри, Руджич и Могаддам разработали быстрый инкрементальный алгоритм для обновления признаков ЛДА путём наблюдения новых образцов^[18].

Практическое применение

На практике средние и ковариации классов неизвестны. Они могут, однако, быть оценены по тренировочному набору. Может быть использован либо метод максимального правдоподобия, либо метод оценки апостериорного максимума вместо точного значения в обоих равенствах. Хотя оценки ковариации могут в некотором смысле считаться оптимальными, это не значит, что дискриминант, полученный подстановкой этих значений, оптимален в любом смысле, даже если предположение о нормальном распределении классов верно.

Другая трудность в применении ЛДА и дискриминантного метода Фишера к вещественным данным появляется, когда число измерений на каждой выборке (то есть размерность каждого вектора данных) достигает числа проб в каждом классе^[4]. В этом случае оценки ковариации не имеют полного ранга и не могут быть обращены. Есть несколько путей обойти это. Один из путей — использование псевдообратной матрицы вместо обычной обратной в вышеприведённых формулах. Однако лучшая числовая устойчивость может быть достигнута путём проекции задачи в подпространство, натянутое на $\Sigma _{b}$ ^[21]. Другая стратегия работы с малыми размерами выборки заключается в использовании сжимающей оценки^[англ.] матрицы ковариации, которая может быть математически представлена как

\Sigma =(1-\lambda )\Sigma +\lambda E\,

где $E$ является единичной матрицей, а $\lambda$ является интенсивностью сжатия или параметром регуляризации. Это приводит к понятию регулярного дискриминантного анализа^[22] или дискриминантного анализа со сжатием^[23].

Также во многих практических случаях линейные дискриминанты не подходят. ЛДА и дискриминант Фишера можно расширить для применения в нелинейной классификации c помощью ядерного трюка. Здесь исходные наблюдения эффективно отображаются в нелинейное пространство большей размерности. Линейная классификация в этом нелинейном пространстве тогда эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто применяемым примером такого подхода является ядерный дискриминант Фишера^[англ.].

ЛДА можно обобщить до мультидискриминантного анализа^[англ.], в котором c становится качественной переменной с N возможными состояниями, а не двумя. Аналогично, если плотности распределения для классов $p({\vec {x}}\mid c=i)$ нормальны и имеют одинаковые ковариации, достаточные статистики для $P(c\mid {\vec {x}})$ являются значениями N проекций, которые являются подпространством, натянутым на N средних, аффинно спроецированных с помощью обратной ковариационной матрицы. Эти проекции можно найти путём решения обобщённой задачи собственных значений, где числитель является ковариационной матрицей, образованной трактовкой средних как выборки, а знаменатель является общей ковариационной матрицей. См. «ЛДА с несколькими классами» выше.

Приложения

Вдобавок к примерам, данным ниже, ЛДА применяется в позиционировании и управлении продуктом.

Прогноз банкротства

В прогнозе банкротства^[англ.], основанном на учётных показателях и других финансовых переменных, линейный дискриминантный анализ был первым статистическим методом, применённым для систематического объяснения, какие фирмы обанкротятся или выживут. Несмотря на ограничения, включая известное неверность для учётных показателей предположения о нормальном распределении для ЛДА, модель 1968 года Эдварда Альтмана остаётся лидирующей моделью в практических приложениях.

Распознавание лиц

В компьютеризированной системе распознавания лиц каждое лицо представлено большим числом значений пикселов. Линейный дискриминантный анализ применяется здесь главным образом для сокращения числа признаков к более управляемому числу перед попыткой классификации. Каждая из новых размерностей является линейной комбинацией значений пикселов, образуя шаблон. Линейные комбинации, полученные использованием линейного дискриминанта Фишера, называются лицами Фишера, в то время как комбинации, полученные с помощью метода главных компонент, называются собственными лицами^[англ.]^[24].

Маркетинг

В маркетинге дискриминантный анализ часто использовался для определения факторов, которые отличают различные типы пользователей и/или продуктов на основе опросов или других форм сбора данных. Ныне для этих целей обычно применяется логистическая регрессия или другие методы. Использование дискриминантного анализа в маркетинге можно описать в виде следующих шагов:

Формулируем задачу и собираем данные. Определяем черты^[англ.] потребительских свойств, которые потребители используют для оценки в этой категории. Используем технику количественного маркетингового исследования (такую как соцопросы) для сбора данных из выборки потенциальных потребителей относительно их оценки всех атрибутов продукта. Этап сбора данных обычно осуществляется профессионалами маркетингового исследования. Вопросы социального опроса просят респондентов оценить продукт значением от 1 до 5 (или от 1 до 7, или от 1 до 10) на ряде показателей, выбранных исследователями. Выбирается от пяти до двадцати показателей. Они могут включать такие свойства как простота использования, вес, точность, долговечность, цветовая гамма, цена или размер. Выбранные показатели будут меняться в зависимости от изучаемого продукта. Те же самые вопросы спрашиваются обо всех продуктах, подвергающихся изучению. Данные для продуктов кодируются и вводятся в статистические программы, такие как R, SPSS или SAS^[англ.]. (Этот шаг совпадает с шагом при факторном анализе).
Оцениваем коэффициенты дискриминантной функции и определяем статистическую значимость и обоснованность. Выбираем подходящий метод дискриминантного анализа. Прямой метод использует оценку дискриминантной функции, так что все предикторы оценивается одновременно. Пошаговый метод вводит предикторы последовательно. Следует использовать двухгрупповой метод, когда зависимая переменная имеет две категории или состояния. Многофакторный дискриминантный метод используется, когда зависимая переменная имеет три или больше категорийных состояний. Для проверки значимости можно использовать лямбда Уилкса^[англ.] в SPSS или «F stat» в SAS. Наиболее распространённый метод для проверки обоснованности — разбить выборку на оценочную или аналитическую выборку и проверочную или отложенную выборку. Оценочная выборка используется для построения дискриминантной функции. Проверочная выборка используется для построения классификационной матрицы, которая содержит число правильно классифицированных и неправильно классифицированных случаев. Процент правильно классифицированных случаев называется коэффициентом попадания.
Наносим результат на двумерный график, определяем размеры и интерпретируем результат. Статистическая программа помогает отобразить результаты. График будет отображать каждый продукт (обычно в двухмерном пространстве). Расстояние между продуктами показывает, насколько они различаются. Размеры должны быть помечены исследователем. Это требует субъективного решения и они часто очень спорны. См. Построение карты восприятия^[англ.].

Биомедицинские исследования

Основным приложением дискриминантного анализа в медицине является оценка тяжести состояния пациента и прогноз течения болезни. Например, в течение ретроспективного анализа пациенты делятся на группы согласно тяжести болезни — лёгкая, средняя и тяжёлая формы. Затем изучаются результаты клинического и лабораторного анализов, чтобы обнаружить переменные, которые достаточно отличаются в изучаемых группах. На основе этих переменных строятся дискриминантные функции, которые помогают объективно классифицировать течение болезни у пациентов в будущем, будет ли она протекать в лёгкой, средней или тяжёлой форме.

В биологии используются похожие принципы с целью классифицировать и определить группы различных биологических объектов, например, определить фаготип сальмонеллёзного энтерита, основываясь на преобразовании Фурье инфракрасного спектра^[25], определить источник кишечной палочки изучая её вирулентные факторы^[26] и т. д..

Науки о земле

Этот метод можно использовать для разделения зон гидротермальных изменений. Например, когда доступны различные данные из различных зон, дискриминантный анализ может найти структуры в данных и эффективно их классифицировать^[27].

Сравнение с логистической регрессией

Дискриминационный функциональный анализ очень похож на логистическую регрессию, и оба метода могут быть использованы для ответа на некоторые вопросы исследователей^[9]. Логистическая регрессия не имеет столько допущений, как дискриминантный анализ. Однако, если допущения дискриминантного анализа выполняются, он является более мощным средством по сравнению с логистической регрессией^[28]. В отличие от логистической регрессии, дискриминантный анализ может быть использован для малых размеров выборок. Было показано, что когда размеры выборок одинаковы и имеет место гомогенность дисперсии/ковариации, дискриминантный анализ более точен^[7]. Учитывая всё это, логистическая регрессия выбирается чаще, поскольку предположения дискриминантного анализа выполняются редко^[8]^[7].

См. также

Примечания

↑ ¹ ² Fisher, 1936, с. 179–188.
↑ McLachlan, 2004.
↑ Wetcher-Hendricks, 2011, с. 288.
↑ ¹ ² Martinez, Kak, 2001, с. 228–233.
↑ Abdi, 2007, с. 270–275.
↑ Perriere, Thioulouse, 2003, с. 99–105.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ÇOKLUK, BÜYÜKÖZTÜRK, 2008, с. 73—92.
↑ ¹ ² Cohen, Cohen, West, Aiken, 2003.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Green, Salkind, Akey, 2008.
↑ Venables, Ripley, 2002, с. 338.
↑ Lachenbruch, 1975.
↑ Klecka, 1980.
↑ Hardle, Simar, 2007, с. 289–303.
↑ ¹ ² Garson, 2012.
↑ ¹ ² ³ Hardle, Simar, 2007, с. 289—303.
↑ Archived copy (неопр.). Дата обращения: 4 марта 2008. Архивировано из оригинала 12 марта 2008 года. .
↑ Rao, 1948, с. 159–203.
↑ ¹ ² Ghassabeh, Rudzicz, Moghaddam, 2015, с. 1999–2012.
↑ Chatterjee, Roychowdhury, 1997, с. 663–678.
↑ Demir, Ozmehmet, 2005, с. 421–431.
↑ Yu, Yang, 2001, с. 2067–2069.
↑ Friedman, 1989, с. 165–17.
↑ Ahdesmäki, Strimmer, 2010, с. 503–519.
↑ Термин Собственные лица применяется как указание на собственные вектора и собственные значения, которые используются при распознавании лиц методом главных компонент.
↑ Preisner, Guiomar, Machado, Menezes, Lopes, 2010, с. 3538–3544.
↑ David, Lynne, Han, Foley, 2010, с. 7509–7513.
↑ Tahmasebi, Hezarkhani, Mortazavi, 2010, с. 564–576.
↑ Hastie, Tibshirani, Friedman, 2009, с. 128.

Литература

Hardle W., Simar L. Applied Multivariate Statistical Analysis. — Berlin Heidelberg: Springer, 2007. — ISBN 3-540-03079-4.
Lachenbruch P. A. Discriminant analysis. — Macmillan Pub. Co., 1975. — ISBN 978-0-02-848250-7.
William R. Klecka. Discriminant analysis. — Thousand Oaks, CA: Sage Publications, 1980. — (Quantitative Applications in the Social Sciences Series).
- Перевод в сборнике Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка, М.С. Олдендерфер, Р.К. Блэшфилд. Факторный, дискриминантный и кластерный анализ / Под ред. И.С. Енюкова. — М.: «Финансы и статистика», 1989. — С. 78—137. — ISBN 5-279-00247-X.
Jacob Cohen, Patricia Cohen, Stephen G. West, Leona S. Aiken. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences. — 3rd ed.. — Mahwah, New Jersey, London: Lawrence Erlbaum Associates, Publishers, 2003. — ISBN 0-8058-2223.
Hardle W., Simar L. Applied Multivariate Statistical Analysis. — 2nd. — Berlin Heidelberg: Springer, 2007. — ISBN 9783540722434.
Abdi H. Discriminant correspondence analysis // Encyclopedia of Measurement and Statistic / N.J. Salkind. — Thousand Oaks (CA): Sage, 2007.
Perriere G., Thioulouse J. Use of Correspondence Discriminant Analysis to predict the subcellular location of bacterial proteins // Computer Methods and Programs in Biomedicine. — 2003. — Т. 70. — doi:10.1016/s0169-2607(02)00011-1.
Fisher R. A. The Use of Multiple Measurements in Taxonomic Problems // Annals of Eugenics. — 1936. — Т. 7, вып. 2. — doi:10.1111/j.1469-1809.1936.tb02137.x.
McLachlan G. J. Discriminant Analysis and Statistical Pattern Recognition. — Wiley Interscience, 2004. — ISBN 0-471-69115-1.
Debra Wetcher-Hendricks. Analyzing Quantitative Data: An Introduction for Social Researchers. — Hoboken, N.J.: Wiley, 2011. — ISBN 978-0-470-52683-5.
Garson G. D. Discriminant function analysis. — Asheboro, USA: Statistical Publishing Associates, 2012. — (Blue Book Series).
Tahmasebi P., Hezarkhani A., Mortazavi M. Application of discriminant analysis for alteration separation; sungun copper deposit, East Azerbaijan, Iran. Australian // Journal of Basic and Applied Sciences. — 2010. — Т. 6, вып. 4.
Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. — second. — Springer, 2009. — ISBN 0387848576.
BÖKEOĞLU ÇOKLUK Ö, BÜYÜKÖZTÜRK Ş. Discriminant function analysis: Concept and application // Eğitim araştırmaları dergisi. — 2008. — Вып. 33.
Green S.B., Salkind N. J., Akey T. M. Using SPSS for Windows and Macintosh: Analyzing and understanding data. — New Jersey: Prentice Hall, 2008.
Martinez A. M., Kak A. C. PCA versus LDA // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2001. — Т. 23, вып. 2. — С. 228–233. — doi:10.1109/34.908974.
Yu H., Yang J. A direct LDA algorithm for high-dimensional data — with application to face recognition // Pattern Recognition. — 2001. — Т. 34, вып. 10. — doi:10.1016/s0031-3203(00)00162-x.
Friedman J. H. Regularized Discriminant Analysis // Journal of the American Statistical Association. — American Statistical Association, 1989. — Т. 84, вып. 405. — doi:10.2307/2289860. — JSTOR 2289860.
Ahdesmäki M., Strimmer K. Feature selection in omics prediction problems using cat scores and false nondiscovery rate control // Annals of Applied Statistics. — 2010. — Т. 4, вып. 1. — С. 503–519. — doi:10.1214/09-aoas277. — arXiv:0903.2003.
Preisner O., Guiomar R., Machado J., Menezes J.C., Lopes J.A. Application of Fourier transform infrared spectroscopy and chemometrics for differentiation of Salmonella enterica serovar Enteritidis phage types // Appl Environ Microbiol. — 2010. — Т. 76, вып. 11. — doi:10.1128/aem.01589-09.
David D.E., Lynne A.M., Han J., Foley S.L. Evaluation of virulence factor profiling in the characterization of veterinary Escherichia coli isolates // Appl Environ Microbiol. — 2010. — Т. 76, вып. 22. — doi:10.1128/aem.00726-10. — PMC 2976202.
Youness Aliyari Ghassabeh, Frank Rudzicz, Hamid Abrishami Moghaddam. Fast incremental LDA feature extraction // Pattern Recognition. — 2015. — Июнь (т. 48, вып. 6). — doi:10.1016/j.patcog.2014.12.012.
Chatterjee C., Roychowdhury V.P. On self-organizing algorithms and networks for class-separability features // IEEE Transactions on Neural Networks. — 1997. — Май (т. 8, вып. 3). — ISSN 1045-9227. — doi:10.1109/72.572105.
Demir G. K., Ozmehmet K. Online Local Learning Algorithms for Linear Discriminant Analysis // Pattern Recogn. Lett.. — 2005. — Март (т. 26, вып. 4). — ISSN 0167-8655. — doi:10.1016/j.patrec.2004.08.005.
Rao R. C.,. The utilization of multiple measurements in problems of biological classification // Journal of the Royal Statistical Society, Series B. — 1948. — Т. 10, вып. 2. — JSTOR 2983775.
Venables W. N., Ripley B. D. Modern Applied Statistics with S. — 4th. — Springer Verlag, 2002. — ISBN 0-387-95457-0.

Литература для дальнейшего чтения

Duda R. O., Hart P. E., Stork D. H. Pattern Classification. — 2nd. — Wiley Interscience, 2000. — ISBN 0-471-05669-3.
Hilbe J. M. Logistic Regression Models. — Chapman & Hall/CRC Press, 2009. — ISBN 978-1-4200-7575-5.
Mika S. Fisher Discriminant Analysis with Kernels // IEEE Conference on Neural Networks for Signal Processing IX. — 1999. — С. 41–48. — doi:10.1109/NNSP.1999.788121.
H. Richard McFarland, St. P. Richards Donald. Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions. I. The Equal-Means Case // Journal of Multivariate Analysis. — 2001. — Т. 77, вып. 1. — С. 21–53. — doi:10.1006/jmva.2000.1924.
H. Richard McFarland, St. P. Richards Donald. Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions. II. The Heterogeneous Case // Journal of Multivariate Analysis. — 2002. — Т. 82, вып. 2. — С. 299–330. — doi:10.1006/jmva.2001.2034.

Ссылки

Haghighat M., Abdel-Mottaleb M., Alhalabi W. Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition // IEEE Transactions on Information Forensics and Security. — 2016. — Т. 11, вып. 9. — С. 1984–1996. — doi:10.1109/TIFS.2016.2569061.
ALGLIB contains open-source LDA implementation in C# / C++ / Pascal / VBA.
Psychometrica.de (недоступная ссылка) open-source LDA implementation in Java
LDA tutorial using MS Excel
Biomedical statistics. Discriminant analysis
StatQuest: Linear Discriminant Analysis (LDA) clearly explained на YouTube
Course notes, Discriminant function analysis by G. David Garson, NC State University
Discriminant analysis tutorial in Microsoft Excel by Kardi Teknomo
Course notes, Discriminant function analysis by David W. Stockburger, Missouri State University Архивная копия от 3 марта 2016 на Wayback Machine
Discriminant function analysis (DA) by John Poulsen and Aaron French, San Francisco State University

[_160b727d6950ce84-1] ¹ ² Fisher, 1936, с. 179–188.

[_e38925598252dd46-2] McLachlan, 2004.

[_0f6148bd38b43f65-3] Wetcher-Hendricks, 2011, с. 288.

[_cb33135df8fd76e4-4] ¹ ² Martinez, Kak, 2001, с. 228–233.

[_1904481af02bd27e-5] Abdi, 2007, с. 270–275.

[_fdee03bc6fbae374-6] Perriere, Thioulouse, 2003, с. 99–105.

[_04ac5a3b7e73c66d-7] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ÇOKLUK, BÜYÜKÖZTÜRK, 2008, с. 73—92.

[_0e3d339998479381-8] ¹ ² Cohen, Cohen, West, Aiken, 2003.

[_9adbe231f22f8f12-9] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Green, Salkind, Akey, 2008.

[_7362b12f289c8056-10] Venables, Ripley, 2002, с. 338.

[_c8b7f4843293e9b8-11] Lachenbruch, 1975.

[_946ea8e46469aa98-12] Klecka, 1980.

[_c19212452b920bc4-13] Hardle, Simar, 2007, с. 289–303.

[_a4acf7bb25a04964-14] ¹ ² Garson, 2012.

[_b874eb452647ab49-15] ¹ ² ³ Hardle, Simar, 2007, с. 289—303.

[16] Archived copy (неопр.). Дата обращения: 4 марта 2008. Архивировано из оригинала 12 марта 2008 года. .

[_30c1eb95680efc58-17] Rao, 1948, с. 159–203.

[_afc7145069a1999e-18] ¹ ² Ghassabeh, Rudzicz, Moghaddam, 2015, с. 1999–2012.

[_be23ac9a80040d3e-19] Chatterjee, Roychowdhury, 1997, с. 663–678.

[_4fe422d7292b7888-20] Demir, Ozmehmet, 2005, с. 421–431.

[_568be62e6ec56a9a-21] Yu, Yang, 2001, с. 2067–2069.

[_82cc2b3f582a5903-22] Friedman, 1989, с. 165–17.

[_8fc33be3a58900b4-23] Ahdesmäki, Strimmer, 2010, с. 503–519.

[24] Термин Собственные лица применяется как указание на собственные вектора и собственные значения, которые используются при распознавании лиц методом главных компонент.

[_245383c747687df1-25] Preisner, Guiomar, Machado, Menezes, Lopes, 2010, с. 3538–3544.

[_c91b2d15d9e5b6f8-26] David, Lynne, Han, Foley, 2010, с. 7509–7513.

[_11106a8937c4d998-27] Tahmasebi, Hezarkhani, Mortazavi, 2010, с. 564–576.

[_0ce345b7c8cf5024-28] Hastie, Tibshirani, Friedman, 2009, с. 128.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG