Искать  
 
   
 
Была тема на форуме
Отправлено: 21 Февраль 2013 10:16 A.M.   [ Игнорировать ]
Member
Avatar
RankRankRank
Всего сообщений:  197
Зарегистрирован  2009-02-13

Не могу найти на форуме, вроде была тема по нагрузке ЕЕ спам роботами и поиск машинами (на их запрет). Сбросьте ссылку пжст.

Профиль
 
 
Отправлено: 21 Февраль 2013 01:06 P.M.   [ Игнорировать ]   [ # 1 ]
Member
Avatar
RankRankRank
Всего сообщений:  224
Зарегистрирован  2010-11-20

В robots.txt можно вписать перечень нежелательных юзерагентов, например:

User-AgentDISCo PumpWgetWebZIPTeleport ProWebSnakeOffline ExplorerWeb-By-MailTeleport Pro/1.29Scooter-W3-1.0
Disallow
: / 

Этот метод не закрывает доступ для них, а лишь регламентирует его.
Для полного закрытия доступа, к примеру, под Apache, можно использовать .htaccess

<IfModule mod_rewrite.c>
  
RewriteEngine On
  RewriteBase 
/
  
RewriteCond %{REQUEST_FILENAME} !-f
  RewriteCond 
%{REQUEST_FILENAME} !-d
  RewriteRule 
^(.*)$ /index.php/$1 [L]
  RewriteCond 
%{REQUEST_URI} !^/403.php$
  
RewriteCond %{HTTP_USER_AGENT} .*Ask\sJeeves.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*HP\sWeb\sPrintSmart.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*HTTrack.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*IDBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Indy\sLibrary.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ListChecker.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*MSIECrawler.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*NetCache.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Nutch.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*rulinki\.ru.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Twiceler.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Webster\sPro.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*www\.cys\.ru.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Wysigot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Yeti.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Accoona.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*CazoodleBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*CFNetwork.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ConveraCrawler.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*DISCo.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Download\sMaster.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*FAST\sMetaWeb\sCrawler.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Flexum\sspider[OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*HTMLParser.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ia_archiver.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ichiro.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*IRLbot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Java.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*km\.ru\sbot[OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*kmSearchBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*libwww-perl.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Lupa\.ru.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*LWP::Simple.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*lwp-trivial.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Missigua.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*MJ12bot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Offline\sExplorer.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*OmniExplorer_Bot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*PEAR.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*psbot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Python.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*rulinki\.ru.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*SMILE.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Speedy.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Teleport\sPro.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*TurtleScanner.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*voyager.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*WebCopier.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*WebData.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*WebZIP.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Wget.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Yanga.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*igdeSpyder.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*DotBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*larbin.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Exabot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ovalebot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*OOZBOT.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Baiduspider.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*AportWorm.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Dolphin/.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*www\.archive\.org.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ZangoToolbar.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*www\.sogou\.com.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*pango-text.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Snoopy.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*panscient\.com.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*www\.trueoffice\.ru.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*Tagoobot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*SiteBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*TurnitinBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*HTTPClient.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*ezooms\.bot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*SolomonoBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*YodaoBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*discobot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*AhrefsBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*magpie-crawler.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*sistrix\.net.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*KomodiaBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} .*AcoonBot.* [OR]
  RewriteCond 
%{HTTP_USER_AGENT} ^$
  
RewriteRule .* /index.php [F]
</IfModule

Регулярно проверяя логи или сводку статистики сайта - пополняем список нежелательных “индексаторов”...

Профиль
 
 
Отправлено: 21 Февраль 2013 01:29 P.M.   [ Игнорировать ]   [ # 2 ]
Member
Avatar
RankRankRank
Всего сообщений:  197
Зарегистрирован  2009-02-13

Да именно это. Спасибо.

Профиль
 
 
Отправлено: 26 Февраль 2013 11:14 A.M.   [ Игнорировать ]   [ # 3 ]
Member
Avatar
RankRankRank
Всего сообщений:  197
Зарегистрирован  2009-02-13

И ещё вопрос, может кто знает, на каком урле спамеры регистрируются ... и может сделать запрет допустим на регистрацию через форум - и можно ли это сделать? (при условии что есть форма регистрации на сайте), Вроде как сказали спам-боты на форуме проявляют активность.

Профиль