Määritelmä Spidering ja Web-indeksoijat

Hämähäkit ja Web-indeksoijat: Mitä sinun tarvitsee tietää sivuston tietojen suojelemiseksi

Hämähäkit ovat ohjelmia (tai automaattisia komentosarjoja), jotka "indeksoivat" internetin kautta tietojen etsimiseen. Hämähäkit matkustavat verkkosivuston URL-osoitteiden kautta ja voivat vetää tietoja verkkosivuilta, kuten sähköpostiosoitteilta. Hämähäkkejä käytetään myös hakemaan moottoreiden verkkosivuilla olevia tietoja.

Hämähäkit, joita kutsutaan myös "web-indeksoijiksi", etsivät Webiä, eivätkä kaikki ole ystävällisiä aikomuksestaan.

Roskapostittajat Spider-sivustot keräävät tietoja

Google, Yahoo!

ja muut hakukoneet eivät ole ainoita, jotka ovat kiinnostuneita verkkosivujen indeksoinnista - niin ovat huijareita ja roskapostittajia.

Hämähäkit ja muut automaattiset työkalut käyttävät roskapostittajia etsimään sähköpostiosoitteita (Internetissä tätä käytäntöä kutsutaan usein nimellä "korjuu") verkkosivustoilla ja sitten niitä käytetään roskapostilistojen luomiseen.

Hämähäkit ovat myös työkalu, jota hakukoneet käyttävät saadakseen lisätietoja sivustostasi, mutta jätetty tarkistamatta. Sivusto, jossa ei ole ohjeita (tai "käyttöoikeudet"), miten sivustosi indeksointi voi aiheuttaa merkittäviä tietoturvariskejä. Hämähäkit matkustavat seuraamalla linkkejä, ja he ovat hyvin taitavia löytämään linkkejä tietokantoihin, ohjelmatiedostoihin ja muihin tietoihin, joihin et halua heidän pääsevän.

Verkkovastaavat voivat katsella lokeja nähdä, mitä robotit ja robotit ovat käyneet sivustoissaan. Nämä tiedot auttavat ylläpitäjiä tietämään, kuka indeksoi sivustonsa ja kuinka usein.

Nämä tiedot ovat hyödyllisiä, koska se sallii verkkovastaavien hienosäätää niiden SEO ja päivittää robotti.txt-tiedostoja kieltääkseen tietyt robotit indeksoimasta sivustonsa tulevaisuudessa.

Vihjeitä sivustosi suojaamiselta epätoivottavilta Robot-indeksoijilta

On olemassa melko yksinkertainen tapa pitää ei-toivotut indeksoijat sivustostasi. Vaikka et ole huolestunut haittaohjelmista, jotka indeksoivat sivustosi (epämuodollinen sähköpostiosoite ei suojele sinua useimmilta indeksoijilta), sinun on silti tarvetta antaa hakukoneille tärkeitä ohjeita.

Kaikilla verkkosivustoilla pitäisi olla tiedosto root-hakemistossa nimeltä robots.txt-tiedosto. Tämän tiedoston avulla voit ohjeistaa indeksointirobotteja, joille haluat niiden näyttävän hakemistosivuille (ellei tietyssä sivussa ole metatietoja toisin ilmoiteta), jos ne ovat hakukone.

Aivan kuten voit kertoa halutuille indeksoijille, mihin haluat niiden selailua, voit myös kertoa heille, missä he eivät välttämättä mene ja jopa estävät indeksointirobotteja koko sivustostasi.

On tärkeää muistaa, että hyvin koottu robots.txt-tiedosto on valtava arvo hakukoneille, ja se voi olla jopa keskeinen tekijä sivustosi suorituskyvyn parantamisessa, mutta jotkut robotit indeksoivat silti huomiotta ohjeistasi. Tästä syystä on tärkeää, että kaikki ohjelmat, lisäosat ja sovellukset ovat aina ajan tasalla.

Aiheet ja tiedot

Varastetuille (roskasektorille) tarkoitetuille tiedonhakuaineille altistumisen vuoksi vuonna 2003 annettiin lainsäädäntöä tiettyjen käytäntöjen laittomaksi tekemiseksi. Nämä kuluttajansuojalaki kuuluvat CAN-SPAM-säädöksen 2003 piiriin.

On tärkeää, että otat aikaa lukea CAN-SPAM-lakiin, jos yrityksesi harjoittaa joukkopostitusta tai tietojen keräämistä.

Löydät lisätietoja roskapostilakeista ja siitä, miten voit käsitellä roskapostittajia, ja mitä yrityksesi omistaja ei ehkä voi tehdä lukemalla seuraavia artikkeleita: