Din webbplats är användbar om den inte kan indexeras av sökmotorer. Om du vill att den ska visas i sökresultaten måste du se till att den kan nås av sökmotorer. Ibland vill du begränsa åtkomsten till vissa delar av din webbplats, kanske du vill dölja irrelevanta sidor eller privata dokument. I den här artikeln lär du dig hur du hanterar webbplatsens tillgänglighet för sökmotorer via en robots.txt fil eller robotar metatagg.
Innan vi gräver i detaljer om hur man skapar en robots.txt-fil eller robots metataggar, bör vi titta på deras fördelar. Det finns några scenarier där deras genomförande kan komma till nytta, till exempel:
Duplikat innehåll sparar din SEO-insats eftersom sökmotorer har svårt att bestämma vilken version som är mest relevant för användarnas sökfråga. Det här problemet kan förebyggas genom att blockera dubbla sidor via en robotarfil eller tagg. Det finns ett annat sätt att hantera dubblet innehåll, men vi diskuterar det senare.
Om du har nya men ofullständiga sidor på nätet, är det bäst att blockera dem från sökrobotar för att förhindra att de indexeras. Det här kan vara användbart för nya produktsidor, till exempel - om du vill hålla dem hemliga tills de startar, lägg till en robotarfil eller tagg.
Vissa webbplatser har konfidentiella sidor eller filer som inte blockeras av ett inloggningsformulär. Ett enkelt sätt att dölja dessa från sökmotorer är via robots.txt-filen eller metakoden.
Nu när vi vet Varför vi bör hantera tillgängligheten på vissa sidor, det är dags att lära oss på vilket sätt Vi kan göra det här.
Crawlers är workaholics. De vill indexera så mycket som möjligt, om inte du berätta för dem annars.
När en sökrobot besöker din webbplats söker den efter robots.txt-filen. Den här filen ger instruktioner om vilka sidor som ska indexeras och vilka bör ignoreras. Genom att skapa en robots.txt-fil kan du hindra sökrobotar från att komma åt vissa delar av din webbplats.
Robots.txt filen måste placeras i toppnivåkatalog av din webbplats - till exempel: www.domän.com/robots.txt. Detta filnamn är också skiftlägeskänsligt.
Varning: Om du lägger till en robots.txt-fil på din webbplats, vänligen dubbelkoll efter fel. Du vill inte oavsiktligt blockera sökrobotar från att indexera viktiga sidor.
robots.txt är en enkel textfil med flera poster. Varje post har två element: användaragent och inte godkänna.
Användaragentelementet berättar vilka sökrobotar som ska använda informationen som inte tillåts. Disallow berättar sökrobotar vilken del av webbplatsen som inte kan indexeras.
En skiva kommer att se ut så här:
Användaragent: * Tillåt:
Posten ovan ger sökmotorer tillgång till alla sidor. Vi använder asterisken (*) för att rikta alla sökrobotar och eftersom vi inte har angett en otillåtna sida kan de indexera alla sidor.
Men genom att lägga till ett snedstreck framåt i fältet, kan vi förhindra att alla sökrobotar indexeras något från vår hemsida:
Användaragent: * Tillåt: /
Vi kan också välja att rikta in en enskild sökrobot. Ta en titt på exemplet nedan:
Användaragent: Googlebot Disallow: / privat-katalog /
Den här posten berättar att Google inte indexerar den privata katalogen. Googlebot används av Google för webbsökningar. För en fullständig lista över alla sökrobotar, besök webrobots databasen.
Koppling som inte tillåter en användare-agent skulle vara ett tidskrävande jobb. Lyckligtvis kan vi lägga till flera disallows i samma post.
Användaragent: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Tillåt: /pictures/logo.jpg
Detta hindrar Bing från att indexera provkatalogen, den ointressanta sidan och logotypen.
Eftersom vi lutar på reguljära uttryck här kan vi också använda jokertecken i en robots.txt-fil.
Till exempel använder många människor Wordpress som ett CMS. Besökare kan använda den inbyggda sökfunktionen för att hitta inlägg om ett visst ämne och webbadressen för en sökfråga har följande struktur: http://domän.com/?s=searchquery.
Om jag vill blockera sökresultat från att bli indexerat kan jag använda ett jokertecken. Robots.txt-posten kommer att se ut så här:
Användaragent: * Tillåt: /? S =
Du kan också använda jokertecken för att förhindra att filtyper indexeras. Följande kod blockerar alla .png-bilder:
Användaragent: * Tillåt: /*.png$
Glöm inte att lägga till dollartecknet i slutet. Det berättar för sökmotorer att det är slutet på en URL-sträng.
Det är alltid en bra idé att testa din robots.txt-fil för att se om du har gjort några misstag. Du kan använda Googles verktyg för webbansvariga för detta.
Under "hälsa" hittar du sidan "blockerade webbadresser". Här hittar du all information om din fil. Du kan också testa ändringar innan du laddar upp dem.
Metataggen för robotar används för att hantera tillgängligheten av sökrobotar till en enda sida. Det berättar om sökmotorer om sidan kan krypas, arkiveras eller om länkarna på sidan kan följas.
Det här är vad metataggen för robotar ser ut som:
Denna metakod hindrar sökrobotar från att indexera webbsidan. Förutom "noindex" finns det flera andra attribut som kan vara användbara:
Flera attribut kan användas i en enda metataggar för robotar, till exempel:
Denna markering förhindrar att sökrobotar indexerar sidan och följer länkarna.
Om du brukar använda motstridiga taggar använder Google det mest begränsande alternativet. Låt oss säga att du använder "index" och "noindex" i samma tag, sidan blir inte indexerad (mest restriktiva alternativ, bara för att vara säker).
Som vi har diskuterat finns det två sätt att hantera tillgängligheten på webbsidor: en robots.txt-fil och metataggar.
Robots.txt-filen är utmärkt för att blockera kompletta kataloger eller vissa filtyper. Med en enda textrad kan du göra mycket arbete (och eventuellt mycket skada!) Men om du vill blockera en enskild sida är det bäst att använda robotarmetataggen.
Ibland kan webbadresser som blockeras via robots.txt-filen fortfarande visas i sökresultaten. När det finns många länkar som pekar på sidan och Google anser att det enda relevanta sökresultatet för sökfrågan kommer det fortfarande att dyka upp. Om du absolut inte vill att sidan ska visas ska du lägga till noindex-metakoden. Det här låter komplicerat men Matt Cutts förklarar allting i detalj i oskrapa webbadresser i sökresultat på YouTube.
Med robots.txt-filen och metataggarna för robotar kan du enkelt hantera webbplatsens tillgänglighet för sökmotorer.
Glöm inte att kolla och dubbelkontrollera dina metataggar och robots.txt-filer för att förhindra att oavsiktligt blockerar sökrobotar från att indexera viktiga sidor.