Il file robots.txt serve per indicare agli spider dei motori di ricerca se analizzare o saltare un determinato file o addirittura un'intera directory. Se ad esempio volessimo che non venissero indicizzate le immagini del nostro archivio presenti nella directory image non faremmo altro che dirgli di saltare tale directory. Ricordiamoci che, come per il meta tag ROBOTS, questa è una richiesta e non è detto che lo spider la consideri.

Ma come va realizzato il file robots.txt?
Basta aprire un qualsiasi editor di testo e creare un nuovo file chiamato 'robots.txt'.
Il file è composto dall'istruzione 'User-agent:' che indica il nome dello spider seguita dall'istruzione 'Disallow:' che dice allo spider dove non passare.
Se vogliamo evitare il passaggio solo allo spider di Google scriveremo 'User-agent: googlebot'; in questa maniera eviteremmo il passaggio solo dello spider di Google per la pagina o la directory che indicheremmo. Se volessimo evitare il passaggio a tutti gli spider di qualsiasi motore di ricerca scriveremmo 'User-agent: *'.
Per indicare allo spider o agli spider di non analizzare la pagina 'pippo.html' scriveremmo 'Disallow: pippo.html' mentre se volessimo che gli spider saltassero la directory image scriveremmo 'Disallow: /image/'.
Ecco alcuni esempi:

User-agent: Googlebot
Disallow: pippo.html
in questo caso viene chiesto solo allo spider di Google di saltare il file pippo.html

User-agent: *
Disallow: /image/
in questo caso viene chiesto a tutti gli spider di saltare la cartella image

Ma dove va posizionato il file robots.txt?
Il file robots.txt deve essere uno solo e deve essere messo nella cartella principale.

Guida realizzata da www.softwaremerelli.it
vietata la modifica e la distribuzione senza il consenso dell’autore

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • blinkbits
  • BlinkList
  • blogmarks
  • co.mments
  • del.icio.us
  • De.lirio.us
  • digg
  • Fark
  • feedmelinks
  • Furl
  • LinkaGoGo
  • Ma.gnolia
  • NewsVine
  • Reddit
  • scuttle
  • Smarking
  • Spurl
  • YahooMyWeb
  • DZone
  • Internetmedia
  • Snap2r
  • Technorati

Letto:451 volte

Correlati

    No related posts

Leave a Reply

web tracker