Opfattes PDF'ere eller andre formater af sider som duplicate content?
Ja, det kan de helt bestemt!
Det er derfor meget vigtigt, at du tager stilling til hvilke versioner, du gerne vil have indekseret, og herefter enten udelukker de andre versioner, redirecter søgemaskinerne eller bruger rel=CANONICAL standarden.
Normalt vil jeg anbefale, at du fokuserer din søgemaskineoptimering på HTML-versionerne af dine sider, hvis de findes i flere formater. Det er dem som normalt vil være lettest at få til at ranke, og dem som de fleste brugere uden problemer vil kunne klikke sig ind på og læse.
Det er kun hvis du har PDF, Office-filer eller dokumenter i andre formater, som kun findes i de formater, at jeg vil anbefale, at du lader søgemaskinerne indeksere disse.
PDF-filer, eller andre ikke HTML-formater, udelukkes typisk ved, at du placerer alle filerne i et fælles katalog. F.eks. www.ditdomaine.dk/pdffiler/ til PDF’erne og herefter udelukker dette katalog i din robots.txt-fil. Det ville i det konkrete tilfælde se således ud:
User-agent: *
Disallow: /pdffiler/
Printversioner af dine sider kan laves på flere måder. Hvis de laves på en måde, hvor der skabes en ny URL til printsiden, er det vigtigt, at du får udelukket disse sider fra indeksering enten med robots.txt, META-robots eller med rel=CANONICAL. Hvis printersiden derimod ikke fører til en ny URL, så er der ingen problemer.
Det sidste ses meget ofte i dag og klares som regel ved, at skifte det style sheet der anvendes dynamisk eller via en session cookie der gemmer brugerens indstillinger.