Hakurobotti
Hakurobotti (engl. web crawler) on bottiohjelma[1], joka hakee selaimen tapaan webin palvelimilla olevia verkkosivuja, ja indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja.[2]
Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne.) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin.
Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit.
Hakurobottien toimintaa voidaan rajoittaa robots.txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja.[2]
Jotkin tunnetut botit eivät noudata robots-sääntöjä vaan haravoivat (web scraping) verkkosivujen sisältöä säännöistä huolimatta. Tätä vastaan on kehitetty "tervahautoja", jotka jumiuttavat botin ja sille voidaan syöttää hölynpölyä, joka myrkyttää tekoälymallit. Bottien kehittäjät puolestaan pyrkivät keksimään vastakeinoja. Tekoälybotit ovat verkkopalveluiden tarjoajille ongelma, koska ne vievät paljon verkkokaistaa eivätkä ne huomioi tekijänoikeuksia.[3]
Tunnettuja hakurobotteja
muokkaa- Scooter
- Googlebot
- Slurp
- Teoma
- MSNbot
- Heritrix
Lähteet
muokkaa- ↑ What is a web crawler? | How web spiders work cloudflare.com. Viitattu 14.4.2024. (englanniksi)
- ↑ a b google.com: Googlen indeksointirobotit support.google.com. Viitattu 28.7.2017.
- ↑ Ashley Belanger: AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt arstechnica.com. 28.1.2025. Viitattu 29.1.2025. (englanniksi)