SEO: Duplicate Content (DC) – Konkrete og Teoretiske Problemer
En af de største tekniske SEO udfordringer er stadig Duplicate Content. Og en af de største udfordringer med Duplicate Content er, at forstå, forholde sig til og fikse både konkrete og teoretiske problemer.
De konkrete Duplicate Content problemer er ikke så svære at forstå. De er som regel forholdsvis lette at få øje på, og måske kan du allerede nu se den skade de gør på dit websites synlighed i Google.
Langt sværere forholder det sig med de teoretiske Duplicate Content problemer. Dem kan du ikke umiddelbart se og selv hvis du finder dem, er det ikke nødvendigvis så let at forstå, eller overbevise andre om, hvorfor der bør gøres noget ved dem (f.eks. din chef, der skal betale for det).
I dette indlæg vil jeg se lidt nærmere på de to typer Duplicate Content og hvorfor du absolut bør gøre noget for, at beskytte dig mod begge dele.
Hvad er Duplicate Content og hvad er problemet med det?
Duplicate Content er en betegnelse vi bruger om helt eller næsten identisk indhold, som Google (og andre søgemaskiner) kan få adgang til via mere en en enkelt unik URL.
Det giver ingen mening for Google, at indeksere det samme, eller så godt som det samme, indhold på mange forskellige URL’er. Så hvis de finder det, vil de som regel fjerne en, eller flere, af de identiske sider fra deres indeks.
Hvilken version de fjerner er desværre ikke altid til at forudse. Ofte vil de beholde den de først har fundet, eller den der har den største autoritet. Men ikke altid.
Udover at det naturligvis er ærgerligt, hvis godt og optimeret indhold du har lavet bliver fjernet fra Googles indeks, så har Duplicate Content filtrering også en langt mere omfattende negativ betydning.
For hvis Google finder Duplicate Content på dit website, og filtrere disse sider ud, så har det en negativ betydning for hele dit domæne og det vil derfor være sværere, at få selv de gode sider du har tilbage i indekset til at ranke godt.
Konkrete Duplicate Content problemer
Der findes mange konkrete Duplicate Content problemer. Fælles for dem alle er, at de er mulige at identificere, hvis du kigger godt efter.
Nogle af de mest udbredte er:
- Identiske page TITLEs på dit website
- Identiske META-descriptions på dit website
- Genbrug af indhold på tværs af sider på dit eget website eller på tværs af sites
- Publicering af dit websites på flere domæner (herunder også med og uden www.)
- Paginering af sider
- Produkter der ligger i flere kategorier i din webshop
- Filtrering og sortering af produkter i din webshop
- Produktbeskrivelser som du får af leverandøren og som bruges af mange webshops
Du vil ofte kunne finde mange af ovenstående problemer ved at søge efter unikke stykker tekst fra dine sider i Google. Men ikke altid. Hvis siderne allerede er blevet filtreret ud af Google finder du dem ikke.
Hvis du har mulighed for det kan det derfor være nødvendigt at søge direkte i det indhold du har på dit website.
Jeg vil også anbefale, at du crawler dit website med f.eks. Screaming Frog. Det kan hjælpe med at identificere identiske TITLEs, META-descriptions of URL’s der meget ligner hinanden.
Teoretiske Duplicate Content problemer
Det er lidt sværere at identificere teoretiske Duplicate Content problemer. Du kan nemlig ikke se dem og de giver dig muligvis ingen problemer lige nu.
Men hvorfor skal du så spilde tid på dem, hvis de ikke giver dig problemer?
Problemet med de teoretiske Duplicate Content problemer er, at de kan gemme sig som en landmine under dit website. Hvis du på et tidspunkt er så uheldig at de rammer dig, og Google træder på landminen, så kan du pludselig opleve, at store dele af dine sider ryger ud af indekset.
Blandt et par af de mest almindelige teoretiske Duplicate Content problemer kan nævnes:
- Hvis dine URL’er kan tilgås i flere formater med en anden blanding af store og små tegn, end dem du anvender i de interne links. Hvis du f.eks. har en side på /side-1.html og den også vises hvis man skriver SIDE-1.html, så kan de give Duplicate Content problemer
- Hvis man kan kalde dine sider med parametre der ikke bruges. Vi oplever nogle gange, at andre sites linker med et tracking parapeter, så et link til din side /side-1.html bliver til /side-1.html?tracking=1234. Det kan give Duplicate Content problemer
- Adgang til dine sider via flere sub-domains eller wild-card domains
- Forkerte Server Header Codes – f.eks. 200 OK (ofte før eller efter en, eller flere re directs) på ikke fundne sider, der burde returnere en 404 kode
Hvordan løser du Duplicate Content problemer?
Der findes desværre ikke en enkel løsning på alle Duplicate Content problemer, som kan implementeres på alle websites.
Google anbefaler, at du bruger CANONICAL-tags til at løse mange Duplicate Content problemer. Det er bare ikke en særlig solid løsning, og den kan ikke løse alt.
Problemet med CANONICAL-tags er, at det kræver at Google læser og fortolker dem korrekt. Det gør de desværre ikke altid, og når de fejler er det dig der står med problemet – ikke Google. Jeg har flere gange indenfor de sidste par år oplevet, at Google fejler i fortolkningen af ellers korrekt implementerede CANONICAL-tags.
En anden, og langt bedre måde at løse de fleste Duplicate Content problemer er, at løse det på server niveau. Så er der ikke noget der skal fortolkes af Google.
Kort fortalt går en server baseret løsning ud på at tjekke, når en side indlæses, om den kaldes i det rigtige format, og hvis den ikke gør, så svare med et 301 redirect til den rette URL.
Det løser ikke problemer med genbrug af tekster, identiske META-data osv, men det løser en stor del af de tekniske udfordringer.
Tak for endnu et godt indspark om SEO og Duplicate Content. WordPress kan også spille en et pus når ikke man er opmærksom på at opdele sit indlæg med MORE-tagget, så man ikke både har hele artiklen på den enkelte artikels side samtidig med på selve forsiden af bloggen.
Da en kammerat påpegede dette, som jeg erkender jeg først havde overset, lå det er kæmpe arbejde i at rette skidtet, så det er fornuftigt at være opmærksom på problemet allerede når man starter bloggen.
Fortsat god weekend til alle. 🙂
Tak – og ja, i WordPress findes der mange af den slags små udfordringer. En anden meget udbredt er indeksering af kategori og tags sider. Hvis man skriver en intro tekst til hver af dem (kan gøres i redigeringen) kan man godt lade dem indeksere, men uden er der stor risiko for, at mange af dem kommer til at fremstå som DC.