Сигмоида

Логистическая кривая (сигмоида)

Сигмо́ида (также сигмо́ид) — это гладкая монотонная возрастающая нелинейная функция, имеющая форму буквы «S», которая часто применяется для «сглаживания» значений некоторой величины.

Часто под сигмоидой понимают логистическую функцию

.

Сигмоида ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к . В зависимости от соглашения, этими асимптотами могут быть y = ±1) либо y = 0 в и y = +1 в .

Производная сигмоиды представляет собой колоколообразную кривую с максимумом в нуле, асимптотически стремящуюся к нулю в .

Семейство функций класса сигмоид

[править | править код]
Сравнение некоторых сигмоидных функций, нормализованных таким образом, чтобы производная в начале координат была равна 1

В семейство функций класса сигмоид входят такие функции, как арктангенс, гиперболический тангенс и другие функции подобного вида.

.
  • Рациональная сигмоида:
.
.
.
  • Гладкая ступенька N-го порядка:
.
  • Корневая сигмоида:
.
.
.
.
.

Применение

[править | править код]

Нейронные сети

[править | править код]

Сигмоиды применяются в нейронных сетях в качестве функций активации. Они позволяют нейронам как усиливать слабые сигналы, так и не насыщаться от сильных сигналов[1].

В нейронных сетях часто используются сигмоиды, производные которых могут быть выражены через саму функцию. Это позволяет существенно сократить вычислительную сложность метода обратного распространения ошибки, сделав его применимым на практике:

 — для гиперболического тангенса;
 — для логистической функции.

Логистическая регрессия

[править | править код]

Логистическая функция используется в решении задач классификации с использованием логистической регрессии. Пусть решается задача классификации с двумя классами ( и , где  — переменная, указывающая класс объекта). Делается предположение о том, что вероятность принадлежности объекта к одному из классов выражается через значения признаков этого объекта (действительные числа):

,

где  — некоторые коэффициенты, требующие подбора, обычно, методом наибольшего правдоподобия.

Именно такая функция получается при использовании обобщённой линейной модели и предположения, что зависимая переменная распределена по закону Бернулли.

Литература

[править | править код]
  • Mitchell, Tom M. Machine Learning. — WCB–McGraw–Hill, 1997. — ISBN 0-07-042807-7.

Примечания

[править | править код]
  1. Функции активации в нейронных сетях. Дата обращения: 11 сентября 2014. Архивировано из оригинала 24 июля 2014 года.