Страница проиндексирована но ее нет в файле sitemap что делать
Страница проиндексирована, но ее нет в файле Sitemap
Заголовок публикации отображает ответ системы в панели управления нового вебмастера Гугл.
Если ваш взгляд «спотыкался» на этом месте, то, скорее всего, вы начинали проверять свои:
После всех проверок получалось, что все вроде бы работает, а вебмастер, после добавления
новых страниц, упорно пишет:
Страница проиндексирована, но ее нет в файле Sitemap
Впервые обратил внимание на это предупреждение при отправке в индекс новых публикаций сайта на Битрикс.
Там плагина нет, но в модулях проверил, перепроверил, запустил создание нового файла карты, подождал некоторое время – в Google вебмастере по-прежнему: «…но ее нет в файле Sitemap».
Еще думал – возможно, только Битрикс не «отсвечивает» свои страницы в Sitemap, но оказалось и карты сайтов на WordPress не видит вебмастер.
Решил, что это сбой у Гугла (и там сбои бывают), не буду обращать внимания. Тем более что в поиске Google все эти страницы присутствуют.
Решил – забыл. Но ненадолго…
Практически каждый день приходится что-то добавлять в вебмастера, и это предупреждение постоянно смущает!
Нужно поинтересоваться у всезнающего Интернета – зашел, спросил.
А там уже давно это обсуждают и очень многие не могут понять «…а в чем же дело?». Все так же перепроверяют, поломок не находят, спрашивают на форумах, строят догадки.
Из ответа следует, что все страницы в Sitemap на самом деле есть.
Но Гугл и Яндекс, не гарантируют индексацию их всех (страниц) именно с карты xml сайта.
То есть – страница и без карты проиндексируется и попадет (если она качественная) в поиск, а вот индексировать ее в файле Sitemap совсем и не обязательно. В первую очередь это касается страниц с малозначительным контентом. Я так понимаю – это не плохие страницы, а просто не несущие новой полезной информации.
Например, карточки товаров в интернет-магазине – в одном разделе может быть с десяток совершенно одинаковых вещей с разницей в 1 пункте характеристик.
На информационном сайте или блоге – короткие новости, уже размещенные в Интернете, копированные или неуникальные обзоры.
И так – я не могу утверждать, что представленный ответ является 100% ответом специалистов Google – информация взята с просторов Интернета. Но я успокоился и больше не «спотыкаюсь» на этом сообщении системы «Страница проиндексирована, но ее нет в файле Sitemap».
У вас есть свое мнение, информация? – пишите в комментариях
А вы вообще пользуетесь вебмастером Google и новой версией Яндекс вебмастера?
Знаю, что некоторые владельцы сайтов только слышали о них…
Кстати, давно обещал, пора бы уж и написать:
о новой версии Search Console (панель управления Google Webmaster Tools), а то старую скоро совсем отключат.
Если статья была интересна для вас — ей можно поделиться
Страница проиндексирована но ее нет в файле sitemap что делать
После того, как Google перешел на новую ПУ, стал замечать массу странностей. Одна из них связана с тем, что если открыть подробности любой страницы, то в ней указано: «Страница проиндексирована, но ее нет в файле Sitemap». Выглядит это таким образом:
Открываю файл sitemap.xml и нахожу там все страницы, которые указаны как отсутствующие в сайтмапе.
Более того, открываю подробности о сайтмапе в ПУ, и вижу, что «Файл Sitemap успешно обработан» и отсутствие каких-либо ошибок. Число записей в sitemap.xml точно соответствует числу статей на сайте. Причем дата последней обработки файла всегда свежая:
Так что это за ерунда такая? Почему в подробностях всех страниц указано, что в файле sitemap.xml они отсутствуют, хотя они там есть и сам файл успешно гуглом обрабатывается?
Так спрашивается нафига такая консоль, если в ней не отражается реально положение вещей?
Да тоже заметил, что консоль глючит. Гугл что то чудит вообще.
Надеюсь это риторический вопрос
Brat_Sergij:
После того, как Google перешел на новую ПУ, стал замечать массу странностей. Одна из них связана с тем, что если открыть подробности любой страницы, то в ней указано: «Страница проиндексирована, но ее нет в файле Sitemap». Выглядит это таким образом:
Открываю файл sitemap.xml и нахожу там все страницы, которые указаны как отсутствующие в сайтмапе.
Более того, открываю подробности о сайтмапе в ПУ, и вижу, что «Файл Sitemap успешно обработан» и отсутствие каких-либо ошибок. Число записей в sitemap.xml точно соответствует числу статей на сайте. Причем дата последней обработки файла всегда свежая:
Так что это за ерунда такая? Почему в подробностях всех страниц указано, что в файле sitemap.xml они отсутствуют, хотя они там есть и сам файл успешно гуглом обрабатывается?
Оптимизируем карту сайта: исправляем ошибки, удаляем мусорные страницы и раскрываем инсайты
Вы создали карту сайта, загрузили ее в Google Search Console и Яндекс.Вебмастер, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковики игнорируют ваш файл Sitemap и не собираются индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.
В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console и Яндекс.Вебмастере. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.
Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковики проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.
Исправление ошибок в отчете Sitemap
После загрузки карты сайта в Google или Яндекс в столбце «Статус» можно увидеть, удалось ли поисковикам обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно» в Google Search Console или «Ок» в Яндекс.Вебмастере. В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы» в Google, а также аналогичные «Не проиндексирован» и «Ошибка» — в Яндексе.
Проблемы со сканированием вашего файла Sitemap
Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено».
В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.
Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.
Теперь давайте разберемся, что делать, если проблема возникла в Яндекс.Вебмастере. Если Яндекс не сможет обработать ваш файл Sitemap, его статус будет «Не проиндексирован».
Обычно этот статус означает, что вы неправильно указали URL-адрес карты сайта. Также стоит убедиться, что файл Sitemap доступен и возвращает HTTP-статус с кодом 200 OK с помощью инструмента «Проверка ответа сервера».
Если сервер отвечает больше 10 секунд, файл не загрузится с помощью инструмента и не будет учитываться роботом при обходе.
Кроме того, как и в случае с Google Search Console, обратите внимание на файл robots.txt и плагины CMS.
Ошибка «Не получено» или «Не проиндексирован» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console и Яндекс.Вебмастер файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.
Ошибки в файле индекса Sitemap
Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.
Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.
Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console и «Файл Sitemap index не может содержать ссылки на файлы Sitemap index» в Яндексе.
И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса», а в Яндексе — «Число файлов Sitemap превышает заданный предел». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.
Недопустимый размер файла Sitemap и ошибки сжатия
Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google и «Размер файла превышает заданный предел» в Яндексе. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap.
Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в Google. В Яндексе она звучит так — «Ответ не содержит данных».
Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.
Проблемы со сканированием URL-адресов в карте сайта
По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.
«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» в Google и аналогичная «URL запрещен в файле robots.txt» в Яндексе — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.
Еще одна довольно очевидная проблема, которая не позволяет Google и Яндекс сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Анализ сайта» от SE Ranking.
Всю необходимую информацию ищите в разделе «Код ответа сервера».
Google и Яндекс также выделяют другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.
Ошибка в Google «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.
Ошибка в Google «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.
Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Анализ сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.
Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.
Ошибка «Нельзя использовать URL» в Google и аналогичная «Некорректный URL» в Яндексе означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.
Что касается разных доменов, помните, что для Google и Яндекс версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным.
Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Анализ сайта» SE Ranking напомнит вам об этом.
Яндекс.Вебмастер отдельно выделяет ошибку «Много некорректных URL в начале файла». Эта ошибка сообщает, что стоящие подряд URL-ы расположены за пределами каталога, в котором находится файл Sitemap. Скорее всего весь файл имеет неправильный формат, поэтому Яндекс не будет продолжать сканировать такую карту.
Наконец не забывайте, что длина каждого URL в файле не должна превышать установленный предел в 1024 символа. Иначе Яндекс.Вебмастер выдаст ошибку «Слишком длинный URL».
Google считает, что вы указали неправильные URL
Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www.example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.
В Яндекс.Вебмастере вы не увидите аналогичных ошибок, но, если вы хотите чтобы поисковик просканировал нужную вам версию URL-ов, стоит придерживаться описанных выше правил.
Синтаксические ошибки в карте сайта
В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок.
Также напомню, что Яндекс распознает не все теги, с которыми работает Google. Из-за этого часто возникают проблемы в отчете Яндекс.Вебмастера.
Давайте рассмотрим все подобные ошибки детально.
Здесь «alternate», «gb» и «fr» являются значениями атрибутов, но «gb» используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, «en-gb».
Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”
Файлы Sitemap для новостей — xmlns:news=»http://www.google.com/schemas/sitemap-news/0.9″
Файлы Sitemap для видео — xmlns:video=»http://www.google.com/schemas/sitemap-video/1.1″
Файлы Sitemap для изображений — xmlns:image:=»http://www.google.com/schemas/sitemap-image/1.1″
Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.
Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8. В последнем случае Яндекс.Вебмастер выдаст ошибку «Неверная кодировка».
Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.
Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.
После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.
Робот Яндекса регулярно проверяет файл Sitemap на обновления и ошибки, поэтому загружать карту повторно не нужно. Но ее можно отправить на переобход, чтобы ускорить процесс проверки. Для этого нажмите на стрелочки слева от раздела «Статус».
Такие действия заставят Google и Яндекс повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.
Загруженные vs проиндексированные URL-адреса
Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.
Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.
Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.
Чтобы посмотреть данные об индексировании страниц в Яндекс.Вебмастере, перейдите в раздел «Индексирование», а затем выберите «Страницы в поиске». Вы увидите 3 вкладки. Обратите внимание на последнюю — «Исключенные страницы». Здесь можно посмотреть и проанализировать страницы, которые Яндекс не стал индексировать по той или иной причине.
Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта.
Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console и в разделе «Страницы в поиске» Яндекс.Вебмастера. Но их удобнее проверять с помощью инструмента «Анализ сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».
Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.
Оптимизируйте карту сайта с подсказками от Google
Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.
На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.
Варианты оптимизации карты сайта для Яндекса
В отличие от Google, Яндекс обычно учитывает пожелания вебмастеров. Поэтому если страница помечена как noindex — поисковик не будет ее индексировать. Также Яндекс, как правило, индексирует канонические страницы. Но бывают и исключения. Чтобы увидеть проиндексированные неканонические страницы, выберите на вкладке «Последние изменения» статус «Добавлено: Неканоническая».
Если Яндекс посчитал, что неканоническая страница лучше той, которую выбрали вы, надо разобраться, что не так с канонической. Для начала проверьте, проиндексирована ли она — если да, вам придется столкнуться с каннибализацией ключевых слов. Если же каноническая страница выпала из индекса, то она по той или иной причине не понравилась поисковику. Доработайте каноническую страницу или послушайтесь Яндекса — поменяйте теги canonical и добавьте необходимую страницу в карту сайта.
В отличие от Google, у Яндекса нет возможности быстро проверить, каких проиндексированных страниц нет в вашей карте сайта. Но их можно легко найти с помощью SE Ranking. Ниже я описала, как это сделать.
Перейдите в инструмент «Анализ сайта» и кликните на зеленую линию в графике «Индексация страниц».
Вы увидите список страниц, открытых к индексации. Добавьте колонку «В карте сайта» и отфильтруйте страницы так, чтобы видеть только те, которых нет в файле Sitemap. Выгрузите список страниц, нажав на кнопку «Экспорт» и скопируйте из таблицы URL-aдреса.
Затем перейдите в инструмент «Проверка индексации», вставьте необходимые ссылки и нажмите «Начать проверку». Через пару минут вы увидите, какие страницы в индексе, а какие нет.
Теперь вы знаете, каких проиндексированных страниц не хватает в карте сайта. Добавьте их в файл Sitemap.
Теперь давайте вернемся в Яндекс.Вебмастер. Советую уделить внимание еще одной категории во вкладке «Последние изменения» — «Малоценные или маловостребованные страницы». Это страницы, которые были исключены из поиска по очевидной причине. Они не содержат контента, дублируют уже известные роботу страницы, или их контент не отвечает интересам пользователей. Так же как и в случае с Google, подумайте, что можно сделать, чтобы повысить ценность таких страниц.
Заключение
Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.
Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.