Описание  и настройка Xenu 1.2 e

В Интернете все происходит стремительно, ежедневно рождаются, умирают и переводятся на новые технологии отдельные страницы, целые сайты и даже огромные порталы. Соответственно, множество гиперссылок ежедневно становятся неактуальными. Это доставляет серьезное неудобство сайтостроителям: создал неделю назад страничку, а уже сегодня половина ссылок с нее ведет "в никуда". Естественно, посетители такой странички раздражены и начинают поминать недобрым словом ее создателя, который, в общем-то, не сильно виноват. Ведь не проверять же ему вручную работоспособность сотен ссылок на всех страницах своего сайта!

Впрочем, некоторая доля его вины есть: владелец сайта не озаботился установкой одной из множества программ, которая бы автоматически проверяла гиперссылки на живучесть. В качестве примера такой программы я приведу бесплатную утилиту Xenu’s Link Sleuth. Работать с Xenu на удивление просто, а в результате получается очень подробный и обстоятельный отчет обо всех имеющихся на сайте ссылках. Делается это так.

Первым делом укажем страницу, с которой Xenu начнет исследование гиперссылок.
Это может быть адрес (URL) стартовой страницы нашего сайта, например, https://bazila.net

Точно так же можно указать отдельную страницу сайта, например,
https://bazila.net/saytostroenie/deshevyj-platnyj-khosting-dlya-sajta-na-joomla.html


Наконец, это может быть HTML-документ, сохраненный на жестком диске домашнего компьютера, например, file:///D:\probe. html.
Обратите внимание: адрес в Интернете (URL) должен заканчиваться символом "слеша" /.

Теперь зададим область исследования. Должен ли Xenu проверять работоспособность ссылок, которые уводят за пределы нашего сайта? Если должен, то поставим отметку в поле Check External Links. Затем перечислим адреса, которые имеют прямое отношение к нашему сайту, хотя и не соответствуют URL главной страницы. Например, к "внутренним" страницам отнесем все те, адреса которых начинаются с https://bazila.net
Кроме того, перечислим начала адресов, которые совсем не нужно проверять, например, адреса счетчиков (http:// top100.rambler. ru) или баннерных сетей (http:// www. linkexchange. ru).

Все готово, можно начинать анализ гиперссылок. Скорость выполнения этой операции сильно зависит от заданных условий: по Сети исследование проводится гораздо медленнее, чем на локальном диске, и так далее. Но рано или поздно мы получим в главном окне программы список всех встреченных в указанной области поиска гиперссылок, подробную информацию о каждой из них и результирующий отчет в виде отдельного HTML-документа.

В главном окне программы по каждой гиперссылке будет представлена следующая информация:

  • Адрес ссылки (URL). Кстати, можно настроить программу таким образом, что она будет показывать только неработающие ссылки из числа проверенных.
  • Статус, то есть, результат проверки. Статусов несколько:
    • ok – обозначает, что все в порядке, такие строчки окрашены в зеленый цвет.
    • no such host – по указанному адресу больше ничего нет, ссылка не работает, строчка окрашена в красный цвет.
    • skip type – так отмечаются ссылки, не подлежащие проверке, например, адреса электронной почты. Такие строчки окрашены в коричневый цвет.
    • user skip – Xenu обнаружил данную ссылку, но она исключена пользователем из области поиска. Цвет – коричневый.
    • Тип страницы, ее размер (в байтах), заголовок (содержимое тега <TITLE> или отметка о переадресации, redir) и некоторую другую служебную информацию.

xenu1 p01 

На иллюстрации к этой программе приведен результат анализа. Выделенная строчка как раз содержит адрес, не ответивший на запрос Xenu. Вообще говоря, это не означает, что адрес "умер" навсегда. Вполне вероятно, что во время анализа произошел какой-то технический сбой в Сети. Однако звоночек прозвенел – адрес нужно проверить более тщательно, уже вручную. Может быть, имеет смысл связаться с владельцами данного сайта и узнать у них подробности происходящего.

Кстати, Xenu предоставляет еще одну полезную возможность: отправки отчета об обнаруженных неработающих ссылках по электронной почте. Так что можно исследовать сайт своего друга и сообщить ему результаты исследования.

Кроме того, есть функция обнаружения файлов-сирот (orphan). Прежде чем запускать ее, Xenu спросит разрешения, затем зайдет на сервер и проверит, нет ли на нем файлов, на которые не ссылается ни одна страница вашего сайта. Такое часто бывает: владелец сайта удалил веб-страницу, а относящиеся к ней файлы – нет. Беда не слишком большая, но лишний мусор на сервере еще никому на пользу не пошел.

Отдельно отмечу, что с помощью программы можно проверять даже страницы, доступ к которым осуществляется по безопасному протоколу SSL (адреса таких страниц начинаются с префикса https://).

В заключение скажем об HTML-отчете, который выдает Xenu по результатам исследования. Он очень подробный и состоит из нескольких разделов:

  • Неработающие ссылки, отсортированные по адресам (URL).
  • Неработающие ссылки, отсортированные по страницам, на которых они встречаются.
  • Ссылки, которые работают, но с помощью функции редиректа перенаправляют посетителей на другие страницы. Редирект замедляет загрузку страниц, поэтому в некоторых случаях имеет смысл поставить ссылку сразу на прямой адрес.
  • Ссылки протоколов FTP и Gopher. Xenu, к сожалению, не проверяет такие ссылки на работоспособность. Однако, имея их полный список под рукой, пользователь может проверить их самостоятельно, вручную.
  • Список страниц, которые можно сообщить поисковым интернет-системам для индексации.
  • Карта (оглавление) сайта, в которой указаны не URL страниц, а их заголовки, то есть, содержимое тега <TITLE>.
  • Неработающие внутренние ссылки, то есть ссылки, которые должны вести на какие-то страницы нашего же сайта, а ведут "в никуда".
  • Список файлы-сирот (orphan).
  • Обобщенная статистика исследования: сколько ссылок получили тот или иной статус в результате проверки.

В настройках программы пользователь указывает, какие данные должны быть включены в результирующий отчет. Кроме того, есть возможность указать, сколько ссылок одновременно Xenu будет испытывать "на прочность" (от одной до ста) и на какую "глубину" он будет заглядывать (вплоть до уровня 999).

Таким образом, после того как Xenu прошерстит указанную область поиска, в руках пользователя окажется вся информация, с помощью которой неработающие ссылки можно исправить или удалить с сайта. Эту операцию, конечно, придется выполнять вручную. Но так даже лучше, не правда ли?

Интуитивно понятно, что несуществующие ссылки выделены красным цветом, а существующие — зелёным.

В колонку “Address” заносятся адреса ссылок. Колонка “Status” показывается статус ссылок; в отчёте для сайта htmlbiz.ru мне попалось три варианта:
404 ошибка — такой страницы не существует,
500 ошибка — неправильно настроенный сервер,
“no such host” — домен не существует, или не делегирован.

В колонке “Type” показан тип содержимого таргетной страницы: это может быть html-документ, приложение, картинка, или ещё что-нибудь. Колонка “Size” в комментариях не нуждается. А колонка “Title” представляет собой список анкоров — достаточно полезная штука.

“Level” — уровень вложенности страницы-акцептора (относительно главной страницы сайта). “in Links” и “Out Links” — количество входящих и исходящих ссылок соответственно.

Колонка “Server” и все последующие колонки содержат техническую информацию.

У программы  Xenu есть отдельная кнопка «проверить все битые ссылки» — специально для случаев, когда отдельные сайты временно недоступны.

Кстати говоря, этим её возможности не ограничиваются: Xenu позволяет экспортировать результаты в текстовый файл (к сожалению, кириллица обрабатывается некорректно), а также — что гораздо приятнее — составить карту сайта в xml-формате. Создание карты сайта будет полезно для небольших статических сайтов, которые, тем не менее, хотят, чтобы все их страницы были проиндексированы Гуглом и Яндексом.

Системные требования:
OS Microsoft Windows 95/98/ME/NT/2000/XP/Vista/7