Yandex рассказал почему поисковые роботы находят отправленные SMS

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Вокруг этой темы возникла даже легкая паника. Чтобы в дальнейшем не происходило подобных вещей, хочу рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Вокруг этой темы возникла даже легкая паника. Чтобы в дальнейшем не происходило подобных вещей, хочу рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Прежде всего личную информацию посетителей сайта необходимо защитить, например, закрыть паролем. Если же такая информация никак не защищена, она запросто может стать доступна всем пользователям сети. Для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя — хоть на страницу заказа, хоть на страницу регистрации.

Вторая важная вещь — необходимо запретить поисковым роботам индексировать страницы сайтов с информацией, которая не должна стать публичной. Для этого существует файл robots.txt. Это текстовый файл, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. То есть владелец сайта или вебмастер всегда может позаботиться о том, чтобы поисковые роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Проверить, какие страницы сайта проиндексированы Яндексом, можно с помощью сервиса Яндекс.Вебмастер.
 
Чтобы все понимали, как данные попадают в поисковики, давайте проследим, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска.

Итак, страница появилась на сайте. Не важно, статический ли это html или динамически созданная серверным приложением страница. Важно, что у нее есть текстовое содержимое, которое могут читать пользователи и индексировать поисковые системы.
Разместив в интернете свою страницу, вебмастер ждет посетителей. Как он может рассказать людям о ней?  Конечно, он отправит запрос на индексирование страницы поисковым системам. Возможно, отправит ссылку друзьям и знакомым, сократит ее и выложит в Твиттер, другие блоги и соцсети. Он может поставить ссылку на эту страницу и в других местах, уже известных поисковым системам, чтобы роботы быстрее ее нашли. 

Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету:
•    поисковые системы, куда вебмастер отправил ссылку вручную;
•    блог-платформы и сокращатели ссылок;
•    поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро);
•    всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее;
•    компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов.
Если у странички стандартное имя, например, /admin или /login, ее быстро найдут всевозможные сканеры уязвимостей, которые постоянно обходят интернет. Про нее могут знать интернет-провайдеры всех тех систем, которые мы перечислили выше, провайдер самого сайта и все провайдеры по пути. Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ. Иначе говоря, к этому моменту про новую страницу знает уже половина «роботной» части мирового интернета.

 

Продолжение статьи на Yandex