Natalia Wardzyńska, SEO Specialist
Dzięki mapom strony w formacie XML Google może sprawnie sprawdzić każdą stronę istotną dla Twojego biznesu i pokazać ją użytkownikom w wynikach wyszukiwania. Dowiedz się czym jest plik sitemap.xml oraz jak go stworzyć.
Co to jest plik sitemap.xml?
„Sitemap” jest to lista adresów URL dostępna dla robotów sieciowych, natomiast „XML” (Extensible Markup Language) jest to język znaczników, który definiuje zestaw reguł kodowania dokumentów w formacie czytelnym dla człowieka i maszyny.
Mapa strony może zawierać:
Adresy URL
nie więcej niż 50 000.
Datę ostatniej aktualizacji adresów,
jeśli chcesz zwiększyć widoczność treści typu eBook, raport itp., zachęć swoich odbiorców do ich pobrania.
Priorytet
który określa, jak bardzo dla portalu jest istotna dana podstrona.
Przykładowa mapa strony wygenerowana przy pomocy wtyczki do CMS
Oczywiście nie jest problemem, jeśli Twój serwis posiada ponad 50 000 adresów. W takiej sytuacji możesz stworzyć kilka oddzielnych map strony np. po jednej dla produktów na stronie, artykułów blogowych i zdjęć z portalu. Dostęp do nich będzie możliwy dzięki mapie zbiorczej, która odsyła do poszczególnych standardowych map.
Mapa zbiorcza na stronie Artegence.com odsyła do oddzielnych map – osobna dla działu blogu, stron ofertowych, case studies itd.
Jakie są rodzaje map witryny?
W zależności od tego, z jakim serwisem mamy do czynienia mogą występować różne rodzaje sitemap. Oto najpopularniejsze przykłady.
Standardowa mapa
Standardowa wersja pliku sitemap.xml zawiera wszystkie adresu URL danego serwisu. Ten rodzaj mapy jest zalecany dla sklepów internetowych oraz dużych portali.
Mapa strony z plikami graficznymi lub materiałami wideo
Ten rodzaj map jest przeznaczony dla serwisów operujących na grafice i filmie np. w sklepach z fototapetami. Przydatna jest również, w przypadku, gdy optymalizujesz stronę pod Google Grafika. Jest to wówczas istotne dla biznesów, które posiadają produkty, których wygląd ma znaczenie, czyli sklepów z butami, ubraniami, meblami itp.
Mapa XML dla Google News
Portale, które dostarczają wiadomości do systemu newsów Google, mogą skorzystać z tego rodzaju map. Dzięki temu podawane newsy szybko pojawią się jako wyróżnione newsy. Jest to istotne, gdy nasz serwis specjalizuje się w wiadomościach o newsowym charakterze. Wówczas pojawienie się w wynikach Google choćby godzinę wcześniej może przynieść o wiele większy ruch.
Site Map XML (mapa zbiorcza)
Ten rodzaj mapy zawiera linki do innych map i jest wykorzystywany w przypadku bardzo dużych witryn. Serwisy, których potencjalna mapa przekraczałaby 50 MB lub liczyłaby ponad 50 000 adresów URL, muszą podzielić ten plik na kilka mniejszych. Odnośniki do nich należy zamieścić właśnie w takiej mapie zbiorczej.
Kiedy mapa witryny xml może być potrzebna?
Warto stworzyć mapę witryny, jeśli:
Witryna posiada wiele adresów.
W dużych witrynach trudno uwzględnić linkowanie wewnętrzne we wszystkich stronach. To zwiększa prawdopodobieństwo, że roboty sieciowe nie wykryją niektórych nowych stron.
Witryna jest nowa i prowadzi do niej niewiele linków zewnętrznych.
Roboty sieciowe skanują internet, podążając za linkami od strony do strony. Istnieje ryzyko, że robot sieciowy nie wykryje Twojej witryny, jeśli nie prowadzą do niej żadne linki zewnętrze.
Witryna zawiera wiele obrazów i filmów lub jest wyświetlana w Wiadomościach Google.
Google może uwzględniać w wyszukiwarce dodatkowe informacje z sitemap np. obrazy, filmy.
Mapa witryny nie jest konieczna, jeśli:
Witryna zawiera niewiele podstron.
Podstrony są dobrze ze sobą połączone za pomocą linków wewnętrznych.
Witryna nie zawiera wiele obrazów i filmów oraz nie jest wyświetlana w Wiadomościach Google.
W większości przypadków stron warto jednak dla pewności skorzystać z pliku sitemap. Zwłaszcza że jego konfiguracja nie należy do najtrudniejszych zadań optymalizacyjnych.
Mapa witryny – jak zrobić?
Stworzenie sitemapy jest dość proste, jednak jej ręczne uzupełnienie może być dość czasochłonne. Na szczęście za pomocą większości CMS-ów lub dedykowanej wtyczki można wygenerować mapę witryny automatycznie. W przypadku WordPressa możliwość wygenerowania mapy witryny zapewniają miedzy innymi wtyczki Yoast i All-in-One SEO. W przypadku witryny, która nie korzysta z CMS-a, mapę witryny najprościej stworzyć przy pomocy specjalistycznych narzędzi – generatorów sitemap XML.
Rozwiązania oparte na wtyczkach CMS lub generatorach mają taką przewagę, że wraz z tworzeniem nowych podstron (nowych produktów, tekstów blogowych) albo ich usuwaniem, taka sitamapa będzie w stanie się automatycznie aktualizować. Tym samym nie będziemy musieli notorycznie podmieniać ręcznie pliku z listą adresów, ilekroć coś zmienimy na stronie.
Warto jednak przed umieszczeniem na stronie przejrzeć mapę i upewnić się, że wygenerowana mapa zawiera wszystkie adresy. Jeżeli nie ma ich w pliku, należy dodać je ręcznie lub skonfigurować ustawienia narzędzia.
Jakich adresów URL nie powinno się umieszczać w sitemap.xml?
Istotne są dwa zagadnienia. Po pierwsze w naszej sitemapie powinny znaleźć się wszystkie adresy, co do których chcemy, aby były dostępne w wynikach Google. Po drugie nie możemy w tym pliku odsyłać do adresów, których widoczności nie potrzebujemy. W przeciwnym wypadku podsuwamy robotom Google pozycje, które nie zapewniają nam poprawy ruchu, a odciągają ich uwagę kosztem pozycji istotnych dla naszej widoczności.
W myśl powyższej zasady w pliku sitemap.xml należy unikać umieszczania adresów:
Generujących kod odpowiedzi
404, 301, 302.
Niekanonicznych
czyli z ustawionym znacznikiem canonical, który wskazuje inny adres.
Zablokowanych
przez plik robots.txt.
Zabezpieczonych hasłami
Stron
których nie pozycjonujemy (np. podstron regulaminów, RODO, itp.).
Szczególnie szkodliwe jest pozostawienie w sitemapie adresów, co do których zależy nam, aby Google o nich zapomniało. Są to na przykład strony już przekierowane lub zablokowane przed pozycjonowaniem. Jeżeli roboty Google znajdą ją w sitemap, to otrzymają wówczas od nas dwie sprzeczne informacje. Z jednej strony znacznik canonical/noindex czy kod 301 przekazują, aby ich nie pozycjonować. Z drugiej plik sitemap.xml wskazuje je jako integralną część naszego serwisu, która powinna pojawić się w Google.
Publikacja pliku sitemap.xml na stronie
Mapa strony musi koniecznie być opublikowana na serwerze. Zazwyczaj mapy witryny są umieszczane pod adresem twoja-witryna.pl/sitemap.xml. Nie jest to jednak obowiązkowy zapis sitemapy.
Samo opublikowanie pliku sitemap.xml jednak nie wystarczy, aby zaczął on spełniać swoją funkcję. Po jej stworzeniu należy zgłosić ją do wyszukiwarki Google. Istnieją na to dwa sposoby.
1. Zgłoszenie pliku sitemap.xml przez Google Search Console
Można to zrobić przy pomocy Google Search Console (GSC). Wystarczy w tym celu wejść w zakładkę „Mapy Stron”, a następnie dodać końcówkę adresu URL mapy witryny (bez adresu domeny) i kliknąć „prześlij”.
Zakładka Mapa Strony (Sitemaps) w Google Search Console
W ten sposób przekażemy do wyszukiwarki Google informacje o naszym pliku sitemap.xml. Po jakimś czasie dostaniemy w GSC także informację zwrotną na temat stanu jej przeanalizowania. Gdy wybierzemy jedną z pozycji z listy przesłanych sitemap pojawi się następujący panel:
Informacje zwrotne na temat indeksowania przez roboty Google adresów wskazanych w pliku sitemap
Możemy dowiedzieć się z niego, jak została przyjęta przygotowana mapa strony. Dzięki opcji „zobacz indeksowane strony” możemy zaś dowiedzieć się, jak przebiega proces indeksowania przez Google zaprezentowanych adresów URL. Co ciekawe wymienione są w nim także wszystkie przypadki, który Google nie zaindeksowało zaproponowanego adresu, wraz z przyczyną takiego stanu rzeczy.
Powyższe informacje to bardzo cenna informacja zwrotna na temat stanu indeksowania naszej witryny. Z tego też powodu dodanie sitemapy przez Google Search Console jest lepszym rozwiązaniem. Niemniej możemy skorzystać z alternatywy.
2. Zgłoszenie pliku sitemap.xml przez robots.txt
Innym rozwiązaniem jest zostawienie odnośnika do sitemap.xml w pliku robots.txt danej strony. Wystarczy na końcu tego pliku dodać następującą dyrektywę:
Sitemap: twoja-witryna.pl.com/sitemap.xml
Roboty Google zaczynają odwiedziny portalów od zapoznania się z ich plikami robots.txt. Bez problemu zatem trafią na naszą mapę strony. Co jednak z nią ostatecznie zrobią? Przy tym rozwiązaniu jesteśmy skazani na domysły.
Atrybuty pliku sitemap.xml
Jak wspomnieliśmy na poczatku, w sitemapie nie muszę się mieścić wyłącznie adresy URL, choć to one są w niej najważniejsze. Każdy z podanych adresów może być opatrzony „atrybutami”, czyli dodatkowymi informacjami o każdej wskazanej podstronie.
Pierwszym z możliwych atrybutów jest <lastmod>. Widnieje w nim data ostatniej modyfikacji tej strony. W dynamicznych mapach strony, jakie tworzą wtyczki do CMS lub porządne generatory sitemap XML podana data będzie aktualizowana, ilekroć zmienimy coś na tej podstronie. Jest to ważna informacja dla robotów Google. Wskazuje na przykład, że na podanej stronie zmieniło się coś 12 lipca tego roku. Jest to przesłanka dla robotów indeksujących, aby powróciły na ten adres i zbadały na czym polegały ostatenie modyfikacje.
Pliki sitemap mogą być opatrzone także znacznikiem <priority>. Domyślnie miał on przekazywać robotom informację o tym, które podstrony powinny zostać sprawdzone w pierwszej kolejności, ponieważ są dla nas szczególnie istotne. Problem z tym atrybutem był taki, że właściciele stron wskazywali wszystkie adresy jako te o najwyższym priorytecie. Liczyli przy tym, że przyśpieszy to w jakiś sposób dodanie wszystkich adresów URL do wyników Google. Ostatecznie zespół odpowiedzialny za tę wyszukiwarkę podjął decyzje o ignorowaniu tego atrybutu.
Podobne zjawsiko dotknęło także znacznik <changefreq>. Za jego pomocą można było określić częstotliwość zmian treści na danej podstronie. Google także ignoruje ten atrybut, więc nie ma większego sensu uwzględniać go w mapach strony.
Posumowanie
Podsumowując, poprawnie stworzona sitemapa może pomóc robotom sieciowym w lepszym poznaniu Twojej witryny oraz pozytywnie wpłynąć na Twoje pozycje w wyszukiwaniu organicznym Google. Jest istotnym narzędziem przy zarządzaniu naszym crawl budgetem, co jest szczególnie istotne przy pozycjonowaniu większych portali. Z tych wszystkich powodów nie należy jej ignorować.
Warto mięć jednak na uwadze, że sama optymalizacja pliku sitemap nie wystarczy, aby w pełni wykorzystać potencjał SEO naszego portalu. Skorzystaj z usług działu SEO Artegence, aby zapewnić holistyczne wsparcie dla widoczności Twojego serwisu.