Crawl Budget to nic innego jak budżet indeksowania witryny, czyli maksymalna liczba stron, które Google może zaindeksować pod Twoją domeną. To potencjał Twojego serwisu w wyszukiwarce – jeśli posiadasz duży sajt z wieloma podstronami, upewnij się że jest zoptymalizowany i wszystkie podstrony znajdują się w indeksie wyszukiwarki.
No, to tyle info pod Knowledge Grapgh, a teraz do rzeczy i będzie ciekawie ;)
W świecie SEO pojawiło się ostatnio wiele definicji pojęcia „crawl budget” (można je spróbować przetłumaczyć roboczo jako budżet indeksowania witryny). Jak przyznaje Google, nie ma jednak jednego uniwersalnego określenia, które w całości opisywałoby czym crawl budget jest w rzeczywistości. Big G na swoim oficjalnym blogu postanowił nieco doprecyzować termin i przedstawić to, co w jego zakresie posiada oraz co crawl budget znaczy dla Googlebota.
Co to jest ten Crawl Budget zatem?
Najsamprzód ważny komunikat: chill the f*ck out ;) – większość posiadaczy stron w ogóle nie musi przejmować się tym zjawiskiem. This is for PROs!!1
Jeśli witryna ma zostać zaindeksowana tego samego dnia, w którym została opublikowana, webmasterzy nie muszą w ogóle skupiać się na całym tym “budżecie indeksowania”. Podobnie, gdy strona posiada mniej niż kilka tysięcy adresów URL – będzie indeksowania sprawnie, pod warunkiem że została stworzona w sposób w ogóle umożliwiający indeksację (tu z pomocą przychodzi optymalizacja SEO). Ustalanie, co indeksować, kiedy i ile zasobów serwera przydzielić na indeksowanie jest istotne dla dużych witryn lub takich, które automatycznie generują strony w oparciu o parametry URL, czyli np. wyniki wyszukiwania, treść dynamiczna i inne, “ruchome” zasoby.
Crawl Budget posiada limit współczynnika indeksacji
Googlebot został zaprogramowany tak, aby być porządnym obywatelem sieci. Indeksowanie jest jego najważniejszym zadaniem, ale musi je wypełniać nie wpływając negatywnie na doświadczenia użytkowników odwiedzających witrynę. Tym dla Google jest właśnie crawl rate limit czyli limit współczynnika indeksacji, który ogranicza maksymalną liczbę pobrań dla danej strony. Innymi słowy, oznacza on liczbę jednoczesnych połączeń równoległych, które Googlebot może użyć do crawlowania witryny, jak również czas oczekiwania pomiędzy kolejnymi pobraniami.
Współczynnik indeksacji może wzrosnąć lub zmaleć w związku z kilkoma czynnikami:
- Crawl health – czyli tzw. poprawność/zdrowie indeksowania – jeśli witryna odpowiada szybko, limit się zwiększa, oznacza to, że Googlebot może nawiązać więcej połączeń, które posłużą do indeksowania. Jeśli strona spowalnia lub odpowiada błędami serwera, limit się zmniejsza – Googlebot indeksuje mniej. As simple as that :)
- Limit ustawiony w Google Search Console (opisany o tu, o) – właściciele witryn mogą ograniczyć indeksowanie swoich stron. Należy pamiętać, że zwiększenie limitów nie zwiększa automatycznie indeksowania (czyli nie działa to w druga stronę – możemy jeno zmniejszyć, ale nie podkręcić. Nie ma tak dobrze.)
Żądanie i wymuszanie indeksowania
Nawet gdy limit współczynnika indeksowania nie został osiągnięty, jeśli nie ma żądania indeksowania, nie będzie też żadnej aktywności ze strony Googlebota. Istnieją dwa główne czynniki, które determinują „crawl demand” – jak określa to Google:
- Popularność – URLe, które są bardziej popularne w sieci są crawlowane częściej, wszystko po to, aby dane zawarte na stronach były w indeksie Google jak najświeższe.
- Zastój – systemy Google starają się unikać sytuacji, w której w indeksie znajdują się zleżałe, nieaktualne URLe.
Dodatkowo, zdarzenia, które obejmują całą witrynę, jak np. przenoszenie strony, mogą wywołać wzrost żądania indeksowania w celu reindeksacji zawartości witryny pod nowymi adresami URL. To też dobra praktyka w takich sytuacjach. Wspólnie crawl rate i crawl demand, czyli współczynnik indeksowania i żądanie indeksowania określają crawl budget czyli budżet indeksowania witryny, co z kolei można zdefiniować jako liczbę URLi, które Googlebot może i chce indeksować.
Czynniki, które wpływają na budżet indeksowania
Zgodnie z analizami Google, dużo niskiej jakości URLi na stronie może wpłynąć na pogorszenie crawlowania i indeksowania witryny. Niskiej jakości URLe kwalifikują się do poniższych kategorii (zgodnie z ich wagą/rangą):
- Nawigacja fasetowa (a co to?) i identyfikatory sesyjne (no a to?)
- Duplikacja treści w obrębie witryny (spsute linkowanie)
- Miękkie błędy na stronach (say what?)
- Strony, które padły ofiarą ataków hakerskich
- Nieskończona liczba podstron (to infinity andbeyond!!1one)
- Niskiej jakości kontent i spam na stronach
Marnowanie zasobów serwera na strony z powyższych kategorii odciągnie aktywność Googlebota od stron, które faktycznie są wysokiej jakości. Może to spowodować poważne opóźnienie w dotarciu użytkowników do wartościowych treści na stronie. Czyli po raz kolejny widzimy jak ważne jest eliminowanie podstawowych błędów w procesie optymalizacji technicznej witryny.
Crawl budget FAQ
Crawlowanie jest punktem wyjścia dla stron w wyszukiwarce Google. Sprawne poruszanie się Googlebota po stronie pomaga w indeksowaniu witryny w Google. Ale że proces nie dla wszystkich jest zrozumiały i transparentny, oto kilka podstawowych pytań i odpowiedzi z tej dziedziny, które pojawiły się na oficjalnym blogasie Google:
Pytanie: Czy szybkość witryny (page speed) wpływa na budżet indeksowania mojej strony? Jaki wpływ mają błędy?
Odpowiedź: Szybsza strona oznacza lepsze doświadczenie użytkowników odwiedzających witrynę. Podnosi to również współczynnik indeksowania. Szybka strona to znak dla Googlebota, że serwery są na tyle zdrowe, że może on zdobyć więcej treści przy takiej samej liczbie połączeń. Z drugiej strony, duża liczba błędów typu 5xx lub przerwanych połączeń świadczą o czymś zupełnie innym – w takim przypadku Googlebot spowalnia indeksowanie. Google rekomenduje monitorowanie błędów indeksowania w Google Search Console i dbanie o dobre odpowiedzi serwera.
Pytanie:Czy poziom indeksacji jest czynnikiem rankingowym?
Odpowiedź: Wysoki współczynnik indeksowania jest ważny, ale niekoniecznie wpłynie na lepszą pozycję w wynikach wyszukiwania. Google wykorzystuje setki sygnałów rankingowych do ustalania pozycji strony, a skoro indeksacja jest konieczna do zaistnienia witryny w ogóle w SERPach – to nie jest to czynnik rankingowy a zwykły, standardowy proces.
Pytanie: Czy alternatywne adresy URL i różnego rodzaju kontent osadzony w witrynie wpływają na budżet indeksowania?
Odpowiedź: Generalnie każdy adres, przez który przechodzi Googlebot wlicza się w budżet indeksowania witryny. Alternatywne URLe, takie jak linki AMP, czy hreflang, podobnie jak osadzony kontent, ładowane pliki CSS czy JavaScript, są crawlowane przez Googlebota, a zatem konsumują w części budżet indeksowania witryny. Podobnie, długie łańcuchy przekierowań mogą mieć negatywny wpływ na indeksowanie.
Pytanie:Czy można kontrolować Googlebota przy pomocy dyrektywy „crawl-delay”?
Odpowiedź: Niestandardowe dyrektywy „crawl-delay” umieszczane w robots.txt nie są przetwarzane przez Googlebota.
Pytanie: Czy dyrektywa „nofollow” wpływa na budżet indeksowania witryny?
Odpowiedź: To zależy. Każdy link, który jest sprawdzany przez Googlebota wpływa na crawl budget, zatem nawet jeśli oznaczysz stronę jako nofollow, ona nadal może zostać sprawdzona przez Googlebota, gdy inna podstrona Twojej witryny do niej linkuje, lub Googlebot znajdzie w sieci link do niej, który nie został oznaczony jako nofollow.
Więcej informacji o optymalizacji indeksacji swojej strony możesz rzecz jasna wyszperać na naszym słitaśnym blogasie, ale w razie czego idzie też zaczerpnąć co nieco z artykułu na ten temat (co prawda z 2009 roku, ale wciąż na czasie), który Google umieścił na swoim blogu o tu właśnie.
Thesis
Dlatego za niezwykle ważne uznałbym 2 rzeczy. Po pierwsze optymalizacja kodu strony internetowej po to, by strona ładowała się szybciej, sprawniej i aby niepotrzebnie nie marnowała zasobów indeksacyjnych Google bota. Po drugie, cykliczny monitoring strony pod kątem broken linków i ich szybkie poprawianie. Dzięki temu unikamy zbędnej utraty zasobów przez Google bota i przyspieszamy indeksację naszej strony.
Adam
Zauważyłem, że Google często odpuszcza indeksowanie stron z krótka treścią a przecież krótka nie znaczy automatycznie spamerska lub mało istotna.