Back to Question Center
0

Semalt предоставляет советы о том, как бороться с ботами, пауками и сканерами

1 answers:

Помимо создания поисковых систем дружественных URL-адресов, файл .htaccess позволяет веб-мастерам блокировать определенные боты от доступа к их веб-сайту. Одним из способов блокировки этих роботов является файл robots.txt. Однако Росс Барбер, менеджер по успеху клиентов Semalt , заявляет, что видел некоторые искатели, игнорирующие этот запрос - comodo ssl csr iis. Один из лучших способов - использовать файл .htaccess, чтобы они не индексировали ваш контент.

Что это за боты?

Они являются типом программного обеспечения, используемого поисковыми системами для удаления нового контента из Интернета для целей индексирования.

Они выполняют следующие задачи:

  • Посетите веб-страницы, на которые вы ссылались
  • Проверьте код ошибки HTML
  • Они сохраняют веб-страницы, на которые вы ссылаетесь, и видите, какие веб-страницы ссылаются на ваш контент
  • Они индексируют ваш контент

Однако некоторые боты являются злонамеренными и ищут ваш сайт для адресов электронной почты и форм, которые обычно используются для отправки нежелательных сообщений или спама. Другие даже ищут лазейки безопасности в вашем коде.

Что необходимо для блокировки веб-сканеров?

Перед использованием файла .htaccess вам необходимо проверить следующие вещи:

1. Ваш сайт должен работать на сервере Apache. В настоящее время даже те веб-хостинговые компании, которые довольны своей работой, предоставляют вам доступ к требуемому файлу.

2. У вас должен быть доступ к вам, это необработанные серверные журналы вашего сайта, чтобы вы могли найти, какие боты посещали ваши веб-страницы.

Обратите внимание, что вы не сможете заблокировать всех вредоносных ботов, если вы не заблокируете их все, даже те, которые вы считаете полезными. Новые боты появляются каждый день, а более старые - модифицированы. Самый эффективный способ - защитить свой код и затруднить для вас спам.

Идентификация ботов

Боты могут быть идентифицированы по IP-адресу или из их «Строка агента пользователя», которые они отправляют в заголовках HTTP. Например, Google использует «Googlebot».

Возможно, вам понадобится этот список с 302 ботами, если у вас уже есть имя бота, которого вы хотели бы избежать, используя .htaccess

Другой способ - загрузить все файлы журнала с сервера и открыть их с помощью текстового редактора. Их местоположение на сервере может измениться в зависимости от конфигурации вашего сервера. Если вы не можете найти их, найдите помощь от вашего веб-хостинга.

Если вы знаете, какая страница была посещена, или время посещения, легче приходить с нежелательным ботом. Вы можете искать файл журнала с этими параметрами.

Однажды вы заметили, какие боты вам нужно блокировать; вы можете включить их в файл .htaccess. Обратите внимание, что блокировки бота недостаточно, чтобы остановить его. Он может возвращаться с новым IP или именем.

Как заблокировать их

Загрузите копию файла .htaccess. При необходимости создайте резервные копии.

Способ 1: блокирование по IP

Этот фрагмент кода блокирует бота, используя IP-адрес 197.0.0.1

Запретить заказ, Разрешить

Отказ от 197.0.0.1

Первая строка означает, что сервер будет блокировать все запросы, соответствующие указанным шаблонам, и разрешить всем другим.

Вторая строка сообщает серверу о выпуске 403: запрещенной страницы

Способ 2: Блокировка агентами пользователя

Самый простой способ - использовать механизм перезаписи Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Первая строка гарантирует, что модуль перезаписи включен. Строка 2 - это условие, к которому применяется правило. «F» в строке 4 сообщает серверу о возврате 403: Запрещено, а «L» означает, что это последнее правило.

Затем вы загрузите файл .htaccess на свой сервер и перезапишите существующий. Со временем вам нужно будет обновить IP-адрес бота. Если вы сделали ошибку, просто загрузите резервную копию, которую вы сделали.

November 24, 2017