5 næsten ukendte facts om hvordan Google crawler dit website – og hvordan det påvirker din SEO
Det første – og vigtigste skridt med SEO er crawling. Det er her det hele starter.
Inden du kan gøre dig håb om at blive indekseret og stryge til tops i Google på dine keywords skal dit website crawles af Googles (og andre søgemaskiners) robotter. Det som også kaldes web crawlers – eller spiders.
Googles web crawler bevæger sig fra side til side – lidt ligesom en slags automatisk browser, og indsamler tekst, links og informationer om andre objekter på siderne.
De links de finder følger de videre rundt på nettet, hvor indsamlingen fortsætter. Side for site. Website for website.
Men der er mange ting der kan forhindre Googles web crawlere i at forstå dit website bedst muligt og finde frem til alle dine sider. Og det er et af de områder, som der hersker flest myter omkring.
Så i dette indlæg vil jeg slå nogle vigtige facts fast om, hvordan Google crawler dit website – og hvordan det påvirker din SEO.
Google følger links – men ikke al navigation
Google forsøger at finde frem til alle websider på nettet – og alle siderne på dit website. Det gør de primært ved at følge links, både links fra andre websites til dit, og links internt på dit website.
Så hvis dit website har helt almindelige links til alle dine sider, som Googles crawlere kan finde frem til ved at klikke på dem, og du også har nogle links fra eksterne websites, så burde du få alle dine sider crawlet.
Men det er bare ikke alle typer links og navigation som Google følger.
Som udgangspunkt skal du kun regne med, at Google følger almindelige tekstlinks, image links og image maps.
Hvis man f.eks. skal udfylde en formular for at finde frem til en bestemt side på dit website, eller man kun kan komme frem til den via en site-søgning, så skal du ikke regne med, at Google finder den. De udfylder ikke formularer.
Og hvis dine links er opbygget i JavaScript skal du heller ikke regne med, at Google følger dem. Der er dog nogle untagelser her.
Hvis dit link fremgår direkte i scriptet, så kan Google i princippet godt aflæse det. Det kunne f.eks. se således ud:
<a href=”javascript:void(0)” onclick=”window.location.href =’produkt-1.html’” >Link Tekst</a>
Det samme gælder, hvis dit script benytter en intern funktion, som f.eks. kunne se således ud:
<a href=”javascript:void(0)” class=”js-link” data-url=”produkt-1.html” >Link Tekst</a>
I begge ovenstående tilfælde er adressen på siden direkte læsbar i scriptet (produkt-1.html), så det er ikke så svært for Google at aflæse den.
Jeg anbefaler dog ikke at du kun bruger JavaScript – selv så simple scripts som disse, til navigation på dit website, for selvom Google i princippet godt kan læse sådanne links så er vores praktiske erfaring desværre, at de ikke altid gør det. Så sørg for, at Google kan nå frem til alle siderne på dit website via almindelige links. Det er den eneste sikre og stabile løsning.
Omvendt kan du dog heller ikke bruge JavaScript links til effektivt og sikkert at skjule links for Google. Det var ellers en teknik vi tidligere benyttede, når vi gerne ville have at Google så bort fra nogle links. Men det virker bare ikke mere. Du kan ikke være sikker på OM de ser dem eller OM DE IKKE ser dem.
Anderledes forholder det sig hvis dit JavaScript link er lidt mere kryptisk og f.eks. benytter en eller anden form for encoding, som i nedensående eksempel hvor vores side URL er base64 encoded.
<a href=”javascript:void(0)” class=”js-link” data-url=”cHJvZHVrdC0xLmh0bWw=” >Link Tekst</a >
I ingen af de tests vi har set har Google formået at decode et sådan link og følge det.
Jeg vil dog stadig ikke anbefale, at du bruger denne metode til at forhindre Google i at se links, for hvem ved, måske begynder de på et tidspunkt at decode denne form for encoding.
Så for at opsummere – hvis der ikke findes almindelige links på dit website til alle sider, så skal du ikke regne med at Google finder dem, crawler dem og indekserer dem.
Jeg vil anbefale, at du tester crawlingen af dit website med programmet Screaming Frog, der på mange måder fungerer ligesom Googles crawlere. Resultatet skulle gerne være at Screaming Frog finder alle dine sider.
Ahhh, men Mikkel – har du helt glemt XML sitemaps?
Godt du nævner det, og nej, det har jeg skam ikke glemt, men XML-sitemaps kan bare ikke helt det, som mange fejlagtigt tror de kan. Så lad mig forklare …
XML sitemaps er udelukkende en liste med FORSLAG til Google til URL’er som du mener de bør crawle. Hvis du er heldig kan du godt via XML sitemaps få Google til at crawle sider på dit website som man ellers ikke kan finde via links. Og i bedste fald bliver nogle af dem måske også indekseret.
Problemet er bare, at sider som absolut ingen interne eller eksterne links har i praksis aldrig kommer til at ranke på noget som helst af betydning. Og så er der ligesom ikke så meget fidus i at få dem crawlet.
Der kan være mange andre gode grunde til at bruge XML sitemaps, men den vigtigste pointe i denne omgang er, at du IKKE kan erstatte ordentlig, tekstbaseret link navigation på dit website med et XML sitemap!
Google Crawler nu med mobil agent
Som du sikkert allerede har hørt rygter om har Google i 2018 været igang med at omlægge deres crawling under navnet “Mobile First Indexing“.
Tidligere var Googles crawling baseret på en desktop agent – således at de så det som brugere af desktop computere ville se og brugte så det i deres indeksering.
Fremover bliver det meste crawling lavet med en smartphone agent og det er således det indhold mobile brugere får, som bruges til indeksering.
Der er kun ET index – ikke et for desktop og et andet for mobil!
Det betyder i praksis, at det nu er endnu vigtigere end nogensinde før, at dit website er godt mobiloptimeret. For det er det indhold Google ser med mobil-agenten, som danner grundlag for indekseringen.
Har du derfor valgt at vise mindre indhold til mobilbrugerne, så er der også mindre indhold at få indekseret – og mindre at ranke på.
Crawl Budget er ikke så vigtigt som mange tror
Du har måske allerede hørt om begrebet “Crawl Budget”, men hvis ikke, så lad mig kort forklare.
Google har ikke uendeligt mange resurser og forsøger derfor at økonomisere med deres crawling, så de ikke crawler mere end det der gavner dem og deres brugere.
Det betyder, at man ikke kan være helt sikker på om Google crawler alle siderne på ens website og hvor tit de kommer forbi og opdaterer dem.
I praksis har det dog meget lidt betydning for langt de fleste websites. Har dit website på under 1 million sider, så behøver du slet ikke at bekymre dig om det. Og selv hvis det er en smule større vil det meget sjældent give problemer.
Men er dit website ekstremt stort – med mange millioner sider, så kan der bestemt være grund til at forholde sig til Crawl Budget udfordringerne.
Men hvad gør du så, hvis du har et meget stort website?
På trods af Googles begrænsede resurser til crawling, så kan de faktisk godt håndtere crawling af selv meget store websites. Jeg har arbejdet med kunder, som har fået flere hundrede millioner sider indekseret. Og med enkelte kunder har vi oplevet crawl-hastigheder på op til 250 sider i sekundet!
Så hvis du har et website med “blot” 5-10.000 sider, så kan Google således klare en fuld crawling på under 1 minut!
Men som sagt, Google prioriterer deres crawling. Og hvordan gør de så det?
Der er to væsentlige faktorer:
- Hvor høj er dit websites autoritet
- Hvor ofte opdateres dine sider
Jo højere autoriteten dit website har – altså, hvor stærk en linkprofil du har, jo flere sider vil Google normalt crawle og indeksere.
Så hvis du skal lancere et helt nyt website med virkelig mange sider, så skal du ikke regne med, at de alle bliver crawlet og indekseret på en gang.
I det tilfælde vil jeg anbefale, at du prioritere crawlingen, så du starter med at blokere for crawling af alle de mindre vigtige sider, så Google kan koncentrere sig om de vigtigste. Når de så er blevet crawlet og indekseret, så kan du langsomt åbne op for flere og flere sider.
Samtidig med det skal du så arbejde på at få øget din autoritet. For uanset hvor langsomt du åbner op for indekseringen, så er det så godt som umuligt at få 100 millioner sider indekseret fra et website med ekstrem lille autoritet.
Når det så er på plads – og du har fået alle dine sider indekseret, så kommer næste udfordring: At holde dem opdateret i Googles indeks.
Når Google crawler et websit tjekker de for ændringer. Hvis den side de sidste gang besøgte er blevet opdateret med nyt indhold, så kommer de sandsynligvis forholdsvist hurtigt tilbage og tjekker den igen.
Omvendt, hvis der ikke er kommet nyt indhold på siden, så går der lidt længere tid. Og hvis der så, når de endeligt kigger på den igen stadig ikke findes noget nyt, så kan der gå endnu længere tid før de kommer igen.
At holde et website med over 1 million sider opdateret med nyt indhold kan måske godt lyde som noget nær en umulig opgave. Men det behøver det bestemt ikke at være. Det kommer helt an på, hvordan informationerne på siderne er sammensat.
Mange websites af den størrelse trækker blandt andet på dynamisk data og brugergenereret indhold. Hvis det flettes ind på siderne er det muligt, mere eller mindre automatisk, at få de fleste sider til at fremstå friske hver gang Google kommer forbi, og dermed stimulere til en højere crawl-hastighed.
Selv på mindre websites kan Crawl Budget blive et problem
Nu lyder det måske lidt som om jeg modsiger mig selv. Men der er faktisk mening med galskaben.
For selv mindre websites kan i praksis bestå af næsten uendeligt mange unikke URL’er. Det kan f.eks. være tilfældet med en webshop, hvor man kan sortere og filtrere produkt-kategorier, og hvor de enkelte produkter findes i mange forskellige varianter og kombinationer.
Det er naturligvis ikke meningen at alle disse varianter skal indekseres i Google. Det ville give anledning til en forbandet masse Duplicate Content og de problemer de fører med sig.
Mange løser det ved at indsætte CANONICAL-tag på alle produkt- og kategori-varianterne og det er bare ikke altid en god nok løsning. Hvis der er tilstrækkeligt mange varianter kan du alligevel risikere at løbe ind i Crawl Budget problemer, for Google bliver nødt til at crawle alle disse sider for at se dine CANONICAL-tags.
En anden mulighed er, at udelukke varianterne i din robots.txt fil. Så slipper Google for at crawle de varianter, du alligevel ikke ønsker indekseret.
Specifikt i forhold til Gogle er det dog ofte lidt lettere, og mere sikkert, at specificere de variant parametre du ikke ønsker crawlet via Google Search Console.
The First Link Counts Rule
På en side på et website kan der ofte optræde mere end et link til den samme undeside. Det kan f.eks. være du har links til dine kategorier, blog og andre vigtige sider i både top-menu og footeren. Det er også muligt, at links der optræder i din menu, også går igen på nogle af siderne.
I forhold til dine besøgende kan det nogle gange være helt fornuftigt, men i forhold til SEO – og særligt i forhold til hvordan Google crawler disse links, og hvordan de tilskriver værdi og relevans til dem, er der nogle udfordringer med det.
Det handler om “First Link Counts” -reglen.
Det er en udbredt og anerkendt teori, at Google i praksis kun ser på det første link til til en side, når der findes flere gentagelser af den på en side.
Der hvor jeg oplever at dette problem er størst er i webshops, hvor mange opbygger en top-menu, der består af direkte links til ikke bare hovedkategorierne, men også alle (eller de fleste) underkategorier.
Udover at det kan gøre sitet tungt og langsomt at loade (hvilket i sig selv er et kæmpe problem!), så har det også den negative effekt i forhold til “First Link Count” -reglen, at du risikerer at Google ser bort fra links i dit sideindhold til de samme sider, som optræder i menuen.
Og hvorfor er det så et problem?
Jo, det kan det f.eks. være hvis du i et indlæg på din blog linker til en af disse sider med en relevant link-tekst. Uden “First Link Count” -effekten ville Google se på det link og tilskrive siden en værdi på det keyword du linker med. Men hvis linket allerede er fundet i din bredt-dækkende top-menu, så tæller linket ikke med.
Så både for at øge hastigheden, brugervenligheden og værdien af kontekstuelle interne links vil jeg anbefale, at du begrænser din top-navigation til hovedkategorierne. Derfra kan du så linke videre til under-kategorierne.
Skjult indhold crawles (som regel), men indekseres ikke altid
Indhold der ligger “skjult” bag tabulatorer eller “vis mere” funktioner vil i reglen blive crawlet af Google – med mindre det kræver eksekvering af JavaScripts for at se det (se næste afsnit).
Men det er ikke altid at det faktisk indekseres så folk efterfølgende kan finde det, når de søger med de ord der findes i den “skjulte” tekst.
Når jeg skriver “skjult” i gåseøjne er det fordi teksten jo ikke som sådan er skjult. Men det kræver en handling fra de besøgende at se den – et klik. Og Googles erfaring er, at folk beslutter sig for om de er landet det rigtige sted – eller ej, stort set alene ud fra det de umiddelbart ser. Så hvis man skal klikke eller scrolle ned for at se noget, så bouncer mange tilbage til Google og klikker på et andet link.
Og det er derfor Google prioritere det “skjulte” indhold så lavt.
Så det indhold der er vigtigt for din optimering bør være umiddelbart synligt – uden at folk skal klikke på noget, hvis du vil være sikker på det bliver ordentligt indekseret.
Google er langt fra så god til JavaScript som de praler af
Hvis du er udvikler har du måske allerede glædet dig over Googles udmeldinger om, at de bliver bedre og bedre til at forstå JavaScript. Det kan jeg godt forstå, for jeg synes også der er mange fede ting ved JavaScript.
Desværre følger virkeligheden ikke helt med Googles påstande. I hvert fald ikke altid.
Det er rigtig nok, at Google har gjort mange fremskridt i de senere år i forhold til at kunne eksekvere JavaScripts, men du kan på ingen måde regne med, at de vil eksekvere alle dine.
Og selv hvis de gør, skal du være opmærksom på at det ikke sker i real time. Der kan gå flere uger eller måneder efter de har crawlet dit website før dine scripts bliver eksekveret og inkluderet i indekseringen.
Og som om det ikke var skidt nok, så skal du også regne med at dine JavaScript bliver cachet meget længere tid end HTML-indholdet. Så hvis der sker vigtige ændringer på sitet, som udskrives via JavaScript, så skal du ikke regne med at det bliver opdateret i indekset lige med det samme.
Så alt i alt – JavaScript er super fedt, men i forhold til SEO er det noget lort.
Dit vigtigste indhold og links bør derfor ikke (kun) udskrives via JavaScript. Og hvis hele dit website bygger på et JavaScript framework – som f.eks. Googles egen Angular, så bliver du nødt til at rendere det vigtigste indhold på serveren.
In summary …
Så, for at opsummere – de 5 næsten ukendte facts om hvordan Google crawler dit website – og hvordan det påvirker din SEO:
- Regn kun med at Google følger almindelige tekst og image links
- JavaScript er ikke en sikker måde at skjule links for Google på
- Med Mobile First Indexing er det dit mobile website Google crawler og indekserer
- Crawl budgets er kun vigtigt hvis dit website er stort eller komplekst
- First Link Count -reglen tæller – indret din navigation efter det
.
Og så et par bonus … - XML Sitemaps kan ikke kompensere for dårlig navigation
- Regn ikke med at Google kan eksekvere dine JavaScripts
- Skjult indhold indekseres ikke altid
Crawling FAQ
Hvad er crawling?
Crawling er i forhold til SEO et udtryk der bruges om den proces, hvor søgemaskiner som Google indsamler data på nettet. Med deres web-crawler software (også kaldet en ”spider”) følger de links fra side til side og downloader tekster, billeder og andre objekter, som herefter kan indekseres.
Kan Google crawle alle links?
Som udgangspunkt skal du kun regne med, at Google følger almindelige tekstlinks, image links og image maps. De forsøger også at følge JavaScript links, men gør det ikke altid.
Hvilken agent crawler Google med?
Google har siden 2018 været igang med at omlægge deres crawling under navnet “Mobile First Indexing“. Tidligere var Googles crawling baseret på en desktop agent – således at de så det som brugere af desktop computere ville se og brugte så det i deres indeksering. Nu crawles med en smartphone agent og det er således det indhold mobile brugere får, som bruges til indeksering.
Hvor vigtigt er crawl-budget?
Har dit website er på under 1 million sider, så behøver du slet ikke at bekymre dig om det. Og selv hvis det er en smule større vil det meget sjældent give problemer. Men er dit website ekstremt stort – med mange millioner sider, så kan der bestemt være grund til at forholde sig til Crawl Budget udfordringerne.
Skriv en kommentar