
Commento al post di Mutt Cutts in merito al GoogleBot.
Con questo post Mutt Cutts fa trapelare il metodo ufficiale di identificazione del crawler di Google. Nel 99% dei casi basterebbe controllare che l’ User-Agent corrisponda a "GoogleBot/x.x" ma è facile modificare l’ header di qualunque spider o browser (per Firefox esiste User Agent Switcher al fine di spacciarsi per GoogleBot.
Le motivazioni possono essere tante e più o meno maliziose.
I webmaster più esperti non si limitano al cotrollo dell’ User Agent ma lo ampliano controllandone l’ IP, validandolo solo se esso appartenga ad un determinato range. Il problema per quest’ ultimo metodo è che tale range può cambiare (ed è successo) creando non pochi problemi. Ecco quindi il metodo ufficiale e definitivo così come descritto dal succitato Official Google Webmaster Central Blog:
1. Effettuare un reverse DNS lookup sull’ IP da controllare
2. Controllare che l’ hostname ottenuto faccia parte del dominio googlebot.com
3. Effettuare un forward DNS->IP lookup per ottenere nuovamente un IP che deve coincidere con quello di partenza
scritto da Diac
Pubblica sul tuo sito gratis