Search crawlers & cookies?

Vraag voor SEO- en andere search-software-specialisten: hoe gaan search engine crawlers om met cookies? Google beschouwt cookies alleszins als een “fancy feature”, maar het is niet helemaal duidelijk of ze dat nu wel of niet ondersteunen (“search engine spiders may have trouble crawling your site”). En wat doet Nutch bijvoorbeeld?

Ik heb een klein experimentje opgezet. Een stomme pagina zet 4 soorten cookies: een combinatie van session cookies en cookies die expiren na 1 uur met host-afhankelijke en domain-cookies. In de value van die cookies staat mijn naam en het type cookie dat gezet werd. Dat alles serverside, ik ga er immers van uit dat crawlers al helemaal niks kunnen doen met cookies die in javascript worden gezet (of gelezen). Op die setcookie-pagina staat er dan een gewone href-link naar de readcookie pagina, waar al die cookies serverside worden uitgelezen en in gewone html getoond. Crawlers die langskomen, krijgen dus potentieel 4 cookies te verteren en volgen dan mooi de link naar de readcookie-pagina. Als de zoekrobot mijn koekjes gegeten heeft, staat de tekst van die cookies op die 2de pagina en zit die dus ook in de searchindex. Spannend!

Om te besluiten waarmee we ook begonnen waren: heeft er iemand in tussentijd goeie tips of info over dit onderwerp?

2 thoughts on “Search crawlers & cookies?

  1. futtta

    google is langsgeweest:

    66.249.67.16 – – [23/Sep/2007:04:07:17 +0200] “GET /setcookie.php HTTP/1.1” 200 372 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
    66.249.67.16 – – [23/Sep/2007:04:19:40 +0200] “GET /readcookie.php HTTP/1.1” 200 250 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

    en op basis van wat ik in de zoekresultaten zie, worden cookies inderdaad helemaal niet ondersteund:

    “cookies in my jar: and that’s all folks!”

    wat betekent dat een website die niet toegankelijk is zonder cookies absoluut niet door google (of searchblox, maar U had misschien wel al begrepen dat dat de reden voor bovenstaande vraag was) ge├»ndexeerd kan worden. ik ga hier een paar mensen mee om de oren slaan, denk ik … ;-)

    Reply
  2. Pieter

    Ik denk dat de hoofdreden dat cookies niet gezet worden, is dat het onmogelijk is om een link naar die pagina’s te plaatsen. Typisch voorbeeld: probeer maar eens te linken naar een pagina op Vitrine bijvoorbeeld wanneer je nog geen cookies hebt gezet. Je komt altijd op de homepage uit!

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *