Контент-фильтр

Из Википедии, бесплатной энциклопедии

сообщение веб-фильтра о блокировке доступа
Сообщение веб-фильтра о блокировке доступа

Контент-фильтр, или програ́мма ограниче́ния веб-контента (англ. Content-control software или web filtering software) — устройство или программное обеспечение для фильтрации сайтов по их содержимому, не позволяющее получить доступ к определённым сайтам или услугам сети Интернет. Система позволяет блокировать веб-сайты с содержимым, не предназначенным для просмотра.

Контент-фильтр работает по статистическому принципу, то есть подсчитывает заранее определённые слова текста и определяет категорию, к которой относится содержимое сайта. Целью таких устройств или программ является ограничение доступа в Интернет для школ, предприятий, религиозных организаций и т. д. Чаще всего контент-фильтры используются для ограничения доступа для детей и подростков, в учебных заведениях, библиотеках и на рабочих местах в различных учреждениях, а также игровых клубах и интернет-кафе.

Принцип работы

[править | править код]

Часто фильтрация проходит на уровне запросов по протоколу HTTP. Для этого URL запрошенного сайта сверяется с чёрным списком с помощью регулярных выражений. Такие списки необходимо регулярно обновлять, защита с их помощью считается малоэффективной. Более продвинутыми являются методы распознавания образов и обработки естественного языка. Для классификации сайтов по разным признакам (например, «порнография / не порнография», «варез / каталог freeware» и т. д.) текст запрашиваемой страницы анализируется на количество разных ключевых слов (например, «бесплатно», «скачать» и т. д.). Эти и другие свойства текста используются для вычисления вероятности попадания в опасную категорию. Если эта вероятность превышает заданный уровень (например, 95 %), доступ к странице блокируется.

Самые простые программы позволяют ввести слова, поиск которых будет вести система вручную. Самые сложные устройства уже имеют большой словарь и предполагают уже готовую базу ссылок, которые уже классифицированы. Как правило, к сложным устройствам производители обеспечивают периодическое обновление базы ссылок. Те веб-сайты, которые не были распознаны автоматически, просматривает человек и присваивает категорию сайта вручную.

Очевидное требование к программам ограничения доступа — быстродействие классификации.

Иногда ошибка в оценке опасности сайта приводит к ограничению доступа к безобидной информации.