########## Tous ceux qu'on veut interdire... ########## # Service payant, windows & IE seulement, affiliés à MSN. Buark. # Attention, contrairement à ce qu'on pourrait croire en regardant la chaîne # d'identification du robot, son nom est girafa tout court et pas girafabot. # En fait ils ne respectent pas la syntaxe du robots.txt! # User-agent: girafa User-agent: girafabot # Beurk, sales types. Respectent pas le robots.txt en plus. # User-agent: NPBot # Affiliés à AOL. Yeck. En plus leur site ne marche pas sans javascript, et # ils n'ont même pas de doc sur leur robot. # User-agent: NG User-agent: Exalead # Mouais bof, un truc pour rendre les entreprises plus efficaces. Ceci dit # ils ne viennent pas souvent. # Par contre, contrairement à ce qu'ils indiquent, ils ne respectent pas # cette ligne! # User-agent: http://www.almaden.ibm.com/cs/crawler # Seules release depuis décembre 2002 pour Windows, pas moyen d'activer # l'indexation locale sous Linux, d'autres continuent à venir malgré ma # demande d'indexation locale? Faut pas me prendre pour une imbécile. # User-agent: grub-client # Respectent pas le robots.txt, mais on les met quand même au cas où ils se # décideraient à corriger ça. # Leur robot aspire toutes les pages! En plus ils sont puants et ne se gênent # pas pour le "faites ce que je dis, pas ce que je fais". # User-agent: Art-Online # Ce site n'appartient pas au merveilleux monde sous contrôle de MSN... # Voir aussi . # User-agent: MSNBOT User-agent: msnbot # Ils sont pas clairs, tant pis pour eux. # User-agent: Intelliseek # Une boite qui fait payer pour empêcher le plagiat par les et des étudiants. # User-agent: turnitinbot # http://www.relevare.com/ est une page vide (javascript, flash), leur # robot ne s'identifie qu'avec cette adresse mail sans URL => dégage. User-agent: Bumblebee@relevare.com # C'est mal documenté et ça ressemble à des spammeurs => poubelle. # Ils lisent bien le robots.txt mais ne respectent pas l'interdiction! # User-agent: QuepasaCreep User-agent: quepasa # Pourquoi je les laisserais prendre mes ressources si eux font payer pour # en obtenir le résultat? # User-agent: Moreoverbot # Pourri, marche pas sans javascript, a l'air payant, la page d'explication # sur le robot indiquée dans le User-Agent n'existe pas... # User-agent: Krugle # Règle d'interdiction générale. Disallow: / ########## Règles générales ########## # A la fin parce qu'on s'arrête au premier qui marche. # Protège du piège les robots qui se comportent bien. User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /Zqr52MIBFilesDTC/ Disallow: /components/ Disallow: /images/artforms/ Disallow: /images/banners/ Disallow: /images/comprofilers/gallery/ Disallow: /images/fbfiles/ Disallow: /images/joomgal-medium/ Disallow: /images/joomgal-originaux/les_galeries_prives_4/ Disallow: /images/joomgal-thumb/ Disallow: /images/M_images/ Disallow: /images/morfeoshow/ Disallow: /images/newsletter/ Disallow: /images/resized/ Disallow: /images/rsgallery/ Disallow: /images/smilies/ Disallow: /images/stories/food/ Disallow: /images/stories/fruit/ Disallow: /images/stories/headers/ Disallow: /images/stories/Zqr52MiBFilesDTC/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Sitemap: http://www.mibteam.net/www/index.php?option=com_sefservicemap&task=xmlmapindex&no_html=1