Hämähäkit ja Web-indeksoijat: Mitä sinun tarvitsee tietää sivuston tietojen suojelemiseksi
Hämähäkit, joita kutsutaan myös "web-indeksoijiksi", etsivät Webiä, eivätkä kaikki ole ystävällisiä aikomuksestaan.
Roskapostittajat Spider-sivustot keräävät tietoja
Google, Yahoo!
ja muut hakukoneet eivät ole ainoita, jotka ovat kiinnostuneita verkkosivujen indeksoinnista - niin ovat huijareita ja roskapostittajia.
Hämähäkit ja muut automaattiset työkalut käyttävät roskapostittajia etsimään sähköpostiosoitteita (Internetissä tätä käytäntöä kutsutaan usein nimellä "korjuu") verkkosivustoilla ja sitten niitä käytetään roskapostilistojen luomiseen.
Hämähäkit ovat myös työkalu, jota hakukoneet käyttävät saadakseen lisätietoja sivustostasi, mutta jätetty tarkistamatta. Sivusto, jossa ei ole ohjeita (tai "käyttöoikeudet"), miten sivustosi indeksointi voi aiheuttaa merkittäviä tietoturvariskejä. Hämähäkit matkustavat seuraamalla linkkejä, ja he ovat hyvin taitavia löytämään linkkejä tietokantoihin, ohjelmatiedostoihin ja muihin tietoihin, joihin et halua heidän pääsevän.
Verkkovastaavat voivat katsella lokeja nähdä, mitä robotit ja robotit ovat käyneet sivustoissaan. Nämä tiedot auttavat ylläpitäjiä tietämään, kuka indeksoi sivustonsa ja kuinka usein.
Nämä tiedot ovat hyödyllisiä, koska se sallii verkkovastaavien hienosäätää niiden SEO ja päivittää robotti.txt-tiedostoja kieltääkseen tietyt robotit indeksoimasta sivustonsa tulevaisuudessa.
Vihjeitä sivustosi suojaamiselta epätoivottavilta Robot-indeksoijilta
On olemassa melko yksinkertainen tapa pitää ei-toivotut indeksoijat sivustostasi. Vaikka et ole huolestunut haittaohjelmista, jotka indeksoivat sivustosi (epämuodollinen sähköpostiosoite ei suojele sinua useimmilta indeksoijilta), sinun on silti tarvetta antaa hakukoneille tärkeitä ohjeita.
Kaikilla verkkosivustoilla pitäisi olla tiedosto root-hakemistossa nimeltä robots.txt-tiedosto. Tämän tiedoston avulla voit ohjeistaa indeksointirobotteja, joille haluat niiden näyttävän hakemistosivuille (ellei tietyssä sivussa ole metatietoja toisin ilmoiteta), jos ne ovat hakukone.
Aivan kuten voit kertoa halutuille indeksoijille, mihin haluat niiden selailua, voit myös kertoa heille, missä he eivät välttämättä mene ja jopa estävät indeksointirobotteja koko sivustostasi.
On tärkeää muistaa, että hyvin koottu robots.txt-tiedosto on valtava arvo hakukoneille, ja se voi olla jopa keskeinen tekijä sivustosi suorituskyvyn parantamisessa, mutta jotkut robotit indeksoivat silti huomiotta ohjeistasi. Tästä syystä on tärkeää, että kaikki ohjelmat, lisäosat ja sovellukset ovat aina ajan tasalla.
Aiheet ja tiedot
Varastetuille (roskasektorille) tarkoitetuille tiedonhakuaineille altistumisen vuoksi vuonna 2003 annettiin lainsäädäntöä tiettyjen käytäntöjen laittomaksi tekemiseksi. Nämä kuluttajansuojalaki kuuluvat CAN-SPAM-säädöksen 2003 piiriin.
On tärkeää, että otat aikaa lukea CAN-SPAM-lakiin, jos yrityksesi harjoittaa joukkopostitusta tai tietojen keräämistä.
Löydät lisätietoja roskapostilakeista ja siitä, miten voit käsitellä roskapostittajia, ja mitä yrityksesi omistaja ei ehkä voi tehdä lukemalla seuraavia artikkeleita:
- CAN-SPAM Act 2003
- CAN-SPAM-säädökset järjestöille
- 5 CAN-SPAM-sääntöjä Small Business Owners Need to Understand