Контент-фильтр
Из Википедии, бесплатной энциклопедии
Контент-фильтр, или програ́мма ограниче́ния веб-контента (англ. Content-control software или web filtering software) — устройство или программное обеспечение для фильтрации сайтов по их содержимому, не позволяющее получить доступ к определённым сайтам или услугам сети Интернет. Система позволяет блокировать веб-сайты с содержимым, не предназначенным для просмотра.
Контент-фильтр работает по статистическому принципу, то есть подсчитывает заранее определённые слова текста и определяет категорию, к которой относится содержимое сайта. Целью таких устройств или программ является ограничение доступа в Интернет для школ, предприятий, религиозных организаций и т. д. Чаще всего контент-фильтры используются для ограничения доступа для детей и подростков, в учебных заведениях, библиотеках и на рабочих местах в различных учреждениях, а также игровых клубах и интернет-кафе.
Принцип работы
[править | править код]Часто фильтрация проходит на уровне запросов по протоколу HTTP. Для этого URL запрошенного сайта сверяется с чёрным списком с помощью регулярных выражений. Такие списки необходимо регулярно обновлять, защита с их помощью считается малоэффективной. Более продвинутыми являются методы распознавания образов и обработки естественного языка. Для классификации сайтов по разным признакам (например, «порнография / не порнография», «варез / каталог freeware» и т. д.) текст запрашиваемой страницы анализируется на количество разных ключевых слов (например, «бесплатно», «скачать» и т. д.). Эти и другие свойства текста используются для вычисления вероятности попадания в опасную категорию. Если эта вероятность превышает заданный уровень (например, 95 %), доступ к странице блокируется.
Самые простые программы позволяют ввести слова, поиск которых будет вести система вручную. Самые сложные устройства уже имеют большой словарь и предполагают уже готовую базу ссылок, которые уже классифицированы. Как правило, к сложным устройствам производители обеспечивают периодическое обновление базы ссылок. Те веб-сайты, которые не были распознаны автоматически, просматривает человек и присваивает категорию сайта вручную.
Очевидное требование к программам ограничения доступа — быстродействие классификации.
Критика
[править | править код]Иногда ошибка в оценке опасности сайта приводит к ограничению доступа к безобидной информации.
См. также
[править | править код]В статье не хватает ссылок на источники (см. рекомендации по поиску). |