Иногда, зайдя на (ранее существовавшую) страницу, мы получаем 404
ошибку — страница не найдена. Эта страница удалена, сайт не доступен и т. д., но
как просмотреть удалённую страницу
? Попробую дать ответ на этот вопрос и предложить четыре готовых варианта решения этой задачи.
Поиск Google
Просмотр сохранённых в кэше Google страниц начинается так же, как и любой другой поиск Google. Когда вы ввели поисковый запрос и видите результаты, нажмите на стрелку рядом с URL-адресом и выберите опцию «Сохранённая копия» для просмотра последних сохранённых в Google версий страниц.
Когда сайт загрузился, Google уведомляет, что это устаревшая версия, и указывает дату её создания. Также есть опция просмотра только текстового варианта страница и исходного кода. Вы не сможете переходить на другие страницы и при этом оставаться в кэш-версии. Если вы попытаетесь перейти по ссылке, откроется действующая версия сайта.
Как найти удаленные страницы, на которые ссылаются другие сайты
Всем привет! Недавно на почту прислали один достаточно нетривиальный вопрос — «Как найти удаленные страницы сайта, на которые ссылаются другие ресурсы?». То есть когда-то был документ, на который сослался другой проект. Потом страницу удалили (случайно или специально) либо изменили URL, и ссылка стала вести на документ с 404-ошибкой. Что делать в такой ситуации?
Прежде чем продолжить пост, хочу выразить всем огромное спасибо за поздравления с днем рождения и комментарии к этому посту! Приятные и жизненные пожелания — очень приятно
! Результаты мини-конкурса будут подведены в конце статьи.
Молодые сайты, как правило, не страдают проблемой пропавших страниц. Это больше относится к уже старым проектам, на которых спустя долгий период что-то было удалено.
Итак, найти удаленные страницы с обратными ссылками будет полезно по нескольким причинам (тем более это бесплатно, либо с небольшими затратами). Во-первых, вы узнаете, какие документы были удалены. Впредь подобные страницы лучше не удалять (ведь они собирают линки). Во-вторых, скорее всего, на эти документы были поставлены естественные ссылки (раз вы о них не знали; если бы знали — ничего не удаляли
). В-третьих, вы найдете некорректные линки, которые были поставлены на ваш ресурс (сможете исправить ситуацию). В-четвертых, можно будет узнать, не ставит ли никто специально обратки на разные несуществующие страницы проекта.
Поиск страниц с обратной ссылочной массой
Сначала я задался вопрос — «Как это все сделать?». Очевидно, что нужно анализировать ссылочную массу, а точнее страницы, на которые ведет хотя бы 1 линк. Для этого есть несколько инструментов. Не в ручную же все делать!?
1. Яндекс.Вебмастер. Заходим в «Индексирование» -> «Входящие ссылки» и скачиваем архив с данными по входящей ссылочной массе.
Там будут как документы доноров, так и ваши. Единственное, файл в формате txt, поэтому для удобства работы необходимо все из него скопировать и вставить в таблицу, например, excel.
2. Google Webmaster. Практически все тоже самое проделываем и с инструментарием, который предоставляет Гугл. Заходим в «Поисковый трафик» -> «Ссылки на ваш сайт». Далее жмем «Дополнительно» в блоке «Ваши страницы, на которые чаще всего ссылаются».
Выводим показ по 500 штук. Выделяем все строки, копируем и вставляем в тот же excel, после, удалив все ненужное. Тут будет неудобный момент с подстановкой имени домена к кускам страниц (в Google Webmaster показываются только уникальные части линков). Вероятно, как-то можно удобно сделать подстановку основного домена через макрос в том же excel. Если кто-то знает расскажите, пожалуйста, в комментариях
. Спасибо Profitcore за простое решение!
В итоге получаем excel-файл с 2-мя базами. Большинство вебмастеров может остановиться на этом моменте. Перфекционисты могут пойти дальше, немного заплатив за дополнительную информацию.
3. Ahrefs.com. Я думаю, что с этим сервисом многие знакомы. В отличие от первых 2-х он платный. Ahrefs также может предоставить подобную информацию. Вероятно, база ахрефс будет содержать страницы, которые не показал ни Яндекс, ни Google.
4. Backlink от Page Weight. Это ссылка на пост в блоге, который описывает работу сервиса. В 2-х словах — бюджетный аналог ahrefs для тех, у кого нет там платного аккаунта. База используется одна и та же, но стандартная подписка стоит 500 рублей.
В итоге получаем базу со страницами, на которые ведут ссылки с разных источников. Скорее всего, она будет содержать дубли. Чтобы не нагружать себя, свой и чужие компьютеры лишними данными, нужно их удалить. В excel 2007 года это делается очень легко. Сначала выделяем все строки (можно Ctrl+A). Затем идем в раздел «Данные» и нажимаем на «Удалить дубликаты».
В появившемся окне кликаем «Ок». Все — дубли удалены. Очень полезная функция
.
Массовая проверка ответа сервера
Теперь необходимо узнать, все ли страницы нашего сайта, имеющие обратную ссылочную массу, работают как надо, либо есть те, которые отдают 404-ошибку (документ не найден). Для этого добавим наш список в один из следующих сервисов (спасибо создателям за их разработку):
- https://4seo.biz/tools/31/ — бесплатно, быстро и понятно.
- https://coolakov.ru/tools/ping/ — подольше.
- https://seolium.com/seo/tools/http-status-checker/ — также не особо быстро.
С помощью первого сервиса я получил 1 страницу со статусом 404.
Перехожу на нее. Действительно — «Ничего не найдено». По URL понимаю, что это относится к данному посту. Вот только ссылка неправильная. Не 10.000, а 1.000. По файлу из Яндекс.Вебмастера смотрю, откуда ведет этот линк.
Получаю 4 обратки с grabr.ru. Вероятно, когда-то я неправильно указал URL, когда давал анонс в этой социальной сети для вебмастеров
.
Дальнейшие действия
Существует несколько сценариев действий, которые зависят от разных ситуаций:
- В моем случае будет уместен 301-редирект (ссылаться на уже существующий документ по другому URL). Так и сделал.
- Если ошибку совершил владелец площадки, то можно написать ему и попросить сменить адрес на корректный.
- Восстановить (если это уместно) или создать (если, например, линк с качественной площадки, а владелец не отвечает на письма) страницу по URL, который отдает 404-ошибку.
Вот таким нехитрым образом можно восстановить некоторые ссылки, которые могут быть полезны при продвижении сайта. Отличный пункт для todo-листа проекта с возрастом более 2-х лет. Не правда ли
? Это мероприятие можно проводить раз в 1-2 года, как для своих ресурсов, так и для клиентских сайтов.
Если вы знаете вариант, как проще найти подобные страницы, то напишите, пожалуйста, в комментариях. Буду рад ознакомиться. А то, может быть, изобрел велосипед
.
Итоги деньрожденского мини-конкурса
Еще раз большое спасибо за ваши комментарии и поздравления! Подвожу итоги мини-конкурса. Как многие знают, в блоге стоит премодерация на комментаторов, у которых нет хотя бы одного одобренного комментария (защита от спамеров). В связи с этим та картина, которая была вчера, отличается от той, которая показывается сейчас: сегодня доодобрил все отзывы к посту.
Во-первых, это держало некоторую интригу. Во-вторых, не показывало пример очень настойчивых комментаторов
. Итак, вот победители конкурса (номер комментария и имя):
13 — Бульбаш 26 — Сергей 39 — Александр 52 — Алексей 65 — fktrc 78 — albedo
Жду ваши R-кошельки, направленные с той же почты, с которой оставлялся отзыв
. На сегодня все — до новых встреч! 28 мне уже
Wayback Machine
Существуют организации, которые пытаются сохранить историю интернета. Самой известной такой организацией является некоммерческая Internet Archive, где хранятся веб-сайты, текст, видео, аудиозаписи, программное обеспечение и изображения, которые трудно найти где-то ещё. Старые версии веб-сайта вы можете посмотреть также на Wayback Machine.
Введите URL-адрес и движок архивного поиска покажет календарь, где отображается, когда Wayback Machine сохранила эту страницу. Нажмите на дату в календаре для просмотра того, как сайт выглядел в этот день. Wayback Machine и является отличным способом изучения истории интернета.
Down Or Not
Если вам необходим кэш сайтов в Интернете в связи с недоступностью того или иного ресурса, но поиски ни к чему не приводят, стоит проверить, не рядом ли с вами проблема. Например, провайдер Интернета выполняет технические работы или заменяет устаревшее оборудование. Для проверки, кто виноват, есть смысл воспользоваться сервисом Down Or Not (Жив или нет).
Введите адрес необходимого вам портала в строку поиска и нажмите на кнопку ENTER. После недолгого анализа сервис выдаст результат. Слово DOWN указывает на недоступность ресурса (временную или постоянную), если же на экране появится слово UP — значит, с порталом всё в порядке.
Down Ot Not выступает в роли стороннего и непредвзятого эксперта, чтобы определить, что именно является источником проблемы.
Расширения для браузеров
Существуют расширения для браузеров на все случаи жизни, в том числе и для доступа к кэшированной версии сайта.
Добавьте в Chrome расширение Web Cache Viewer и нажмите правой кнопкой мыши на любой странице для просмотра версии из Google или Wayback Machine. Расширение под названием View Page Archive & Cache для Chrome или Firefox идёт ещё дальше и позволяет смотреть кэшированные версии веб-страниц из многочисленных поисковых движков, таких как Bing, Baidu, Yandex.
Dead URL
«Мертвый адрес» предоставляет для пользователей похожие возможности. Скопируйте из адресной строки нерабочий URL и вставьте его в поле ввода на сайте. Сервис немного подумает и выдаст несколько результатов. Некоторые из них будут ссылаться на ресурс компании Google. Другая часть приведет пользователя на страницы Архива. Что немаловажно, сортируется кэш сайтов по дате, а это очень удобно.
Кэш браузера, когда ничего не помогает
Страницу целиком таким образом не посмотришь, но картинки и скрипты с некоторых сайтов определенное время хранятся на вашем компьютере. Их можно использовать для поиска информации. К примеру, по картинке из инструкции можно найти аналогичную на другом сайте. Кратко о подходе к просмотру файлов кэша в разных браузерах:
Safari
Ищем файлы в папке ~/Library/Caches/Safari.
Google Chrome
В адресной строке набираем chrome://cache
Opera
В адресной строке набираем opera://cache
Mozilla Firefox
Набираем в адресной строке about: cache и находим на ней путь к каталогу с файлами кеша.