YandexBot

« takaisin hakemistoon

Yandex on venäläinen erittäin suuri hakukoneyritys. Sen botit, aina Yandex-alkuisia, kunnioittavat periaatteessa robots.txt tiedostoa, mutta taatusti Yandexin oma botti on minulla yrittänyt ideksoida sisältöä vastoin robots.txt kieltoa, eikä urleihin ollut linkkejä ulkoa.

Yandex kannattaa sallia, jos olettaa mahdollisten käyttäjien löytyvän paikalle sen tarjoamien hakutulosten kautta. Jos ei, niin Yandex on täysin turhaa kuormaa. Yandexin crawler käy tyypillisesti 2 – 3 päivän välein, mutta välillä se näyttäisi tekevän urakkahommia ja olevan todella ahkera. Yandex on tiettävästi yksi hakukoneen DuckDuckGo käyttämistä lähteistä.

Koska Yandex pääsääntöisesti noudattaa robots.txt tiedoston sääntöjä, niin se on laskettavissa hyvin käyttäytyviin.

Ongelma on pahatahtoisessa liikenteessä, joka väittää user-agentissa olevansa YandexBot. Niiden karsiminen on mahdollista vain serverillä, .htaccess-tiedostolla tai reverse proxyllä. On mahdollista rakentaa systeemi, joka sallii Yandexin tiedossa olevista IP-osoitteista sivuston haravoinnin, mutta ohjaa kaikki muut Fail2bannin hellään huomaan estolistoille. Koska minulle ei Yandex tuo minkäänlaista lisäarvoa edes DuckDuckGon kautta, joka löytää sivuston muutakin kautta, niin otin yksinkertaisemman lähestymistavan: estän Yandexin joka paikassa.

  • Luokittelu: hakukone