Riconoscimento dei robot

Antezeta Servizi di Statistiche per Siti Web

Scelta della soluzione, implementazione e formazione

Mettete un segnalibro a questa risorsa!

AWStats Logo

Il riconoscimento preciso di robot Internet è essenziale per distinguere traffico automatizzato da visite umane nella generazione dei report degli accessi a un sito web. AWStats utilizza un approccio modulare nel riconoscimento dei robot: Tutti i robot sono contenuti in un modulo perl distinto dal programma AWStats principale. Abbiamo aggiunto i robot che abbiamo trovato – più di 150 fino ad oggi. Dove possibile, forniamo anche un link alla pagina principale dei robot che si integra nei report AWStats.

Per aggiornare il riconoscimento dei robot da AWStats, basta sostituire il tuo file robots.pm con la nostra versione qui.

AvisoÈ da tenere presente che aggiungendo robot aggiuntivi al tuo report di statistiche siti aumenterà il tempo necessario ad elaborare i tuoi file log – questo è il prezzo che pagherei per precisione maggiore. Riconoscimento dei robot nuovi e/o cambiamenti non è retroattivo – è necessario che i log vengono rielaborati se vuoi aggiornare i report vecchi.

Scaricare ed estrai robots.pm aggiornato e salvarlo nella cartella lib di AWStats, dopo aver fatto una copia della tua versione attuale. Conviene fare anche una copia di tuoi file statistiche (intermediari) AWStats. Essi sono di solito nella cartella AWStats DirData. Funzionare almeno con AWStats 6.5.

NoteVedi anche il nostro base dati che aggiorna i motori di ricerca AWStats!

Ultimo aggiornamento: 2006-09-07.

Abbiamo aggiornato la base dati dei robot. Aggiunto:

  1. Argus www.simpy.com
  2. BecomeBot link http://www.become.com/site_owners.html
  3. bender focused_crawler
  4. BlogPulse (ISSpider-3.0) intelliseek.com
  5. Blogshares Spiders (Synchronized V1.5.1)
  6. Blogslive intelliseek.com
  7. BlogsSay :: RSS Search Crawler (http://www.blogssay.com/)
  8. ConveraCrawler/0.9d (http://www.authoritativeweb.com/crawl)
  9. dipsie (not tested with real data).
  10. DomainsDB.net http://domainsdb.net/
  11. EverbeeCrawler
  12. Feedfetcher-Google (http://www.google.com/feedfetcher.html)
  13. Gaisbot/3.0 (; )
  14. geniebot ()
  15. Girafabot http://www.girafa.com/
  16. ia_archiver-web.archive.org (was inadvertently grouped with Alexa traffic)
  17. MJ12bot http://majestic12.co.uk/bot.php
  18. NG/1.x & 2.x. Seen from http://www.exabot.com/
  19. Nutch (used by looksmart (furl?))
  20. OpenTaggerBot (http://www.opentagger.com/opentaggerbot.htm)
  21. OutfoxBot/0.3 (For internet experiments; )
  22. PluckFeedCrawler http://www.pluck.com/
  23. Powermarks; seen used by referrer spam
  24. rssImagesBot
  25. RufusBot Rufus Web Miner http://64.124.122.252.webaroo.com/feedback.html
  26. Seekbot (http://www.seekbot.net/bot.html)
  27. Sqworm
  28. t\-h\-u\-n\-d\-e\-r\-s\-t\-o\-n\-e
  29. topicblogs http://www.topicblogs.com/
  30. w3c-checklink
  31. w3c css-validator
  32. yacy
  33. Yahoo-Blogs http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html
  34. Yahoo-MMCrawler/3.x ()
  35. YahooSeeker
  36. YahooSeeker-Testing
  37. documentation link to bot home page for above and selected major bots.
    • Nel caso dei bots internazionali, scelga la pagina di .com.
    • Estremità attrezzo inclusa (HTML «titolo»).
    • Da fare: parametrizzi per abbinare sia la lingua di AWStats che le regolazioni dei tooltips.
    • Da fare: aggiunga i collegamenti del HTML per tutti i bots.
  38. «cambiato \ wbot [\/\ -]», «\ wbot [\/\ -]» (virgola rimossa)
  39. correzioni secondarie fatte di grammatica alle note

I cambiamenti notati sopra sono già comprese nella versione 2005-11-26 di AWStats 6.5.

I seguenti cambiamenti, in data 2005-12-15, non sono ancora presente in AWStats 6.5:

  1. FAST Enteprise Crawler
  2. findlinks
  3. IBM Almaden Research Center WebFountain™
  4. INFOMINE VLCrawler
  5. lmspider
  6. noxtrumbot
  7. SandCrawler (Microsoft)
  8. SBIder
  9. SeznamBot
  10. sohu-search
  11. the ruffle SemanticWeb crawler
  12. WebVulnCrawl libwww-perl
  13. Yahoo! Japan keyoshid
  14. Y!J
  15. link per GigaBot
  16. link per Magpie RSS
  17. link per MSIECrawler

2005-12-22: Ancora alcuni nuovi robot.

  1. aipbot
  2. EARTHCOM.info
  3. Everest-Vulcan Inc
  4. Fast-Search-Engine
  5. g2Crawler
  6. HTTrack off-line browser
  7. Jakarta commons-httpclient
  8. KummHttp
  9. OmniExplorer_Bot
  10. USTC-Semantic-Group

2006-01-13: Ancora alcuni nuovi robot.

  1. Dulance
  2. MojeekBot
  3. nicebot
  4. Snappy
  5. sohu agent
  6. TencentTraveler
  7. VORTEX
  8. zspider
  9. boitho.com-dc
  10. IRLbot
  11. virus_detector
  12. Wavefire
  13. WebFilter Robot

2006-01-24

  1. Shim-Crawler
  2. Exabot
  3. LetsCrawl.com
  4. ichiro

2006-01-27 22 robot addizionale da un elenco fornito da Moizes Gabor [ mojzi -a-t- free mail hu ]

  1. ALeadSoftbot
  2. CipinetBot
  3. Cuasarbot
  4. Dumbot
  5. Extreme_Picture_Finder
  6. Fooky.com/ScorpionBot/ScoutOut
  7. IlTrovatore-Setaccio
  8. InsurancoBot
  9. InternetArchive
  10. KazoomBot
  11. Kurzor
  12. NutchCVS
  13. NutchOSU-VLIB
  14. Orbiter
  15. PHP_version_tracker
  16. SuperBot
  17. SynooBot
  18. TestBot
  19. TutorGigBot
  20. UP.Browser
  21. WebMiner

2006-02-01: Robot addizionale - quasi tutti da un elenco fornito da Moizes Gabor [ mojzi -a-t- free mail hu ]

  1. heritrix
  2. Zeus Webster Pro
  3. Candlelight_Favorites_Inspector
  4. DomainChecker
  5. EasyDL
  6. FavOrg
  7. Favorites_Sweeper
  8. Html_Link_Validator
  9. Internet_Ninja
  10. JRTwine_Software_Check_Favorites_Utility
  11. Microsoft_URL_Control
  12. miniRank
  13. Missigua_Locator
  14. NPBot
  15. Ocelli
  16. Onet.pl_SA
  17. proodleBot
  18. SearchGuild_DMOZ_Experiment
  19. Susie
  20. Website_Monitoring_Bot
  21. Xenu_Link_Sleuth

2006-05-15: Aggiunto alcuni Robot addizionale e due cambiamenti:

  1. sistemato il riconoscimento di Missigua Locator (Missigua_Locator -> Missigua Locator)
  2. cambiato echo in echo! per evitare un conflitto con bonecho (Firefox 2.0). Questo cambiamento richiede che i log vecchi vengono riprocessati se vuoi che EchO! rimane riconosciuto nei report pregressi.
  1. ASPseek
  2. AdamM Bot
  3. archive.org_bot
  4. arianna.libero.it (Italian Portal/search engine)
  5. Biz360 spider
  6. BlogBridge Service
  7. BlogSearch
  8. Crawl libcrawl
  9. edgeio-relanshanbottriever
  10. FeedFlow
  11. Biblioteca Nazionale Centrale di Firenze (Italian National Archive)
  12. Java catchall - used by many spam bots
  13. lanshanbot
  14. msnbot-media
  15. msrabot
  16. MT::Telegraph::Agent
  17. Netluchs (German SE bot)
  18. oBot
  19. Onfolio (IE Toolbar plugin)
  20. ping.blo.gs
  21. sogou spider
  22. sogou test
  23. Sphere Scout
  24. sproose crawler
  25. SyndicAPI
  26. Vagabondo
  27. Vagabondo-WAP

2006-05-17:

  1. Alpha Search Agent (dal IP 62.152.125.60)
  2. Krugle
  3. Octora Beta Bot
  4. UbiCrawler
  5. . Nota: il riconoscimento di Yahoo! Slurp China per i report pregressi richiede la rielaborazione dei log vecchi.

2006-05-20 robot addizionale, la maggior parte da un elenco fornito da Moizes Gabor [ mojzi -a-t- free mail hu ]

  1. 1-More Scanner
  2. Accoona-AI-Agent
  3. ActiveBookmark
  4. BIGLOTRON
  5. Bookmark-Manager
  6. cbn00glebot
  7. Cerberian Drtrs
  8. CFNetwork
  9. CheckWeb link validator
  10. Computer and Automation Research Institute Crawler
  11. ConveraCrawler
  12. ConveraMultiMediaCrawler
  13. CSE HTML Validator Lite Online
  14. Cursor
  15. Custo
  16. DataFountains/DMOZ Downloader
  17. Deepindex
  18. DNSGroup
  19. DoCoMo
  20. dumm.de-Bot
  21. ETS v
  22. eventax
  23. FAST Enterprise Crawler
  24. FAST Enterprise Crawler *
  25. FAST Enterprise Crawler * T-Info_BI_cluster
  26. FeedValidator
  27. FilmkameraBot
  28. Findexa Crawler
  29. Global Fetch
  30. GoForIt.com
  31. GOFORITBOT
  32. GPU p2p crawler
  33. HooWWWer
  34. HPPrint
  35. HTMLParser
  36. Hundesuche.com-Bot
  37. InfoBot
  38. InfociousBot
  39. InternetSupervision
  40. IUPUI_Research_Bot
  41. KalamBot
  42. kamano.de NewsFeedVerzeichnis
  43. Kevin
  44. KnowItAll
  45. Knowledge.com
  46. Kouaa Krawler
  47. ksibot
  48. Link Valet Online
  49. lwp-request
  50. lwp-trivial
  51. MapoftheInternet.com
  52. Matrix S.p.A. - FAST Enterprise Crawler
  53. Megite
  54. Metaspinner
  55. Mini-reptile
  56. Misterbot
  57. Miva
  58. Mizzu Labs
  59. MS SharePoint Portal Server - MS Search 4.0 Robot
  60. MSRBOT
  61. Mydoyouhike
  62. NASA Search
  63. NetSprint
  64. NimbleCrawler
  65. OpenWebSpider
  66. Oracle Ultra Search
  67. OSSProxy
  68. passwordmaker.org
  69. PEAR HTTP Request class
  70. PEERbot
  71. PHP version tracker
  72. PictureOfInternet
  73. plinki
  74. Port Huron Labs
  75. PostFavorites
  76. ProjectWF-java-test-crawler
  77. PyQuery
  78. Schizozilla
  79. Scumbot
  80. Sensis Web Crawler
  81. snap.com beta crawler
  82. Steeler
  83. STEROID Download
  84. Suchfin-Bot
  85. Sunrise
  86. Tagyu Agent
  87. Tcl http client package
  88. TeragramCrawlerSURF
  89. Test Crawler
  90. UnChaos Bot Hybrid Web Search Engine
  91. unido-bot
  92. UniversalFeedParser
  93. updated
  94. Vermut
  95. versus crawler from
  96. Vespa Crawler
  97. VSE
  98. Web Downloader
  99. webcrawl.net
  100. Webdup
  101. Wells Search
  102. WordPress
  103. wume crawler
  104. xirq
  105. yoogliFetchAgent
  106. Z-Add Link Checker
  1. cambiato (fix) Xenu Link Sleuth; aggiunto Xenu's Link Sleuth (con ')
  2. cambiato (fix) favorites\ssweeper -> favorites\ssweeper
  3. cambiato (fix) microsoft\_url\_control -> microsoft\surl\scontrol
  4. aggiornato descrizione del bot AskJeeves -> Ask

2006-05-23 robot addizionale

  1. DataparkSearch
  2. FurlBot/Furl Search
  3. Kyluka crawl
  4. MonkeyCrawl
  5. page_verifier
  6. SeznamTestBot
  7. Szukacz
  8. UMBC-memeta-Bot
  9. WebAlta Crawler
  10. Zhuaxia

2006-05-27 robot addizionale

  1. HTTPFetcher
  2. MVAClient
  3. ISC Systems iRc Search

2006-06-13 14 robot addizionale

  1. BeijingCrawler
  2. Crawler Mozilla
  3. ISC Systems iRc Search
  4. LapozzBot
  5. NaverBot
  6. NextGenSearchBot
  7. Nusearch Spider
  8. psycheclone
  9. SnapBot
  10. Snoopy
  11. WebsiteWorth

2006-06-26 7 robot addizionale

  1. AvantGo
  2. EmeraldShield.com Web Spider
  3. Forex Trading Network
  4. Honda-Search
  5. kykapeky
  6. schibstedsokbot
  7. WIRE

2006-08-25: 17 robot

  1. AIrobot
  2. BecomeJPBot
  3. ccubee
  4. Charlotte
  5. DepSpid
  6. Evaal
  7. focused_crawler
  8. H.H.G. bot
  9. iaskspider
  10. KSE_Spider
  11. LocalcomBot
  12. MS SharePoint Portal Server - MS Search 5.0 Robot
  13. MyFamilyBot
  14. PediaSearch.com Crawler
  15. robots/1.0 (MSIE 6.0)
  16. SrevBot

2006-09-07: 6 robot

  1. TheSuBot
  2. TMCrawler
  3. gonzo1[P]
  4. BilgiBetaBot
  5. TurnitinBot
  6. SEO[.AG]

2006-10-15: 38 robot

  1. 8484 Boston Project
  2. AnswerBus
  3. China Local Browse
  4. csci b659
  5. ejupiter.com
  6. Extreme Picture Finder
  7. Factbot
  8. Favcollector
  9. gonzo2[P]
  10. HBZ-Digibib
  11. Html Link Validator
  12. HyperEstraier
  13. IEAutoDiscovery
  14. InterNetMedia.hu
  15. IntranetSearchEngine
  16. IUPUI Research Bot
  17. KakleBot
  18. LinkLint-checkonly
  19. LinkProver
  20. MFC Tear Sample
  21. moiNAG
  22. NG 3.x.
  23. NG-SearchBot
  24. RAMPyBot
  25. RPT-HTTPClient
  26. ShopWiki
  27. SquidClamAV Redirector
  28. Toutatis
  29. UnChaos
  30. Verzamelgids
  31. VIPr
  32. Watchfire WebXM
  33. WebarooBot
  34. WebCorp
  35. webGobbler
  36. West Wind Internet Protocols
  37. Wildsoft Surfer
  38. WorQmada
 

Vari Database di Robot

Numerosi siti documentano regolarmente informazioni note sui diversi robot, compreso suggerimenti su quali robot possono valere la pena di bloccare dal tuo sito poiché le loro intenzioni non sono buone.

Home · Contattaci · Mappa e Ricerca nel sito · Su ‹j›