Moteur de recherche interne
Logiciel de recherche verticale,
référencement - trafic - text mining.
search solution
 
 Accueil 
 Enjeux 
 Solutions 
 Actualités 
 Espace Client 
 Partenaires 
Technologie 
 L'entreprise 
 
 
Recherche   | SiteMaps | Search Index  
 

Moteur de recherche
capacité technique du crawler

moteur de recherche search engine crawler
La technologie
 » C'est Quoi ?
 » Capacité Technique
 » Formats de fichiers
 » Fonctionnalités
 » Algorithme
 » Interface Administrateur
 » Module de recherche
 » Copies d'écrans
 » Verticrawl-Lab

TagCloud
Datamean base de données crawlers du w3c email ftp html lorsque les internautes moteur de recherche généraliste ranking sousmenu webmestre

réalisé avec l'api sitemaps

Le Moteur de recherche Multi - Médias

Le spider / crawler parcourt des liens (hypertexte ou réseau) et analyse les pages visitées en fonction de critères pour en extraire les données plein texte (expressions, sémantique, pertinence..). Rassemblés au sein d'un algorithme de pertinence ces critères lui servent à calculer le ranking des pages lorsque les internautes effectuent des recherches.

Fonctionnalités du Crawler et indexation

Cette rubrique est destinée au webmestre pour répondre aux questions courantes comme la vitesse de crawling, le respect des balises metaname "robots" et du fichier robots.txt.

Attention : VERTICRAWL n'est PAS un aspirateur de site. Si vous détectez le robot "Verticrawlbot dans vos logs serveur, c'est qu'un de nos clients indexe votre site pour votre référencement (entre autre).

  1. User Agent : "Verticrawlbot; + Auth: YYYYY" (YYYYY étant le crawler client).
  2. Respect des Fichiers Robots.txt.
  3. Respect des métas NOARCHIVE.
  4. Respect du métaname "robots" (index/follow, noarchive, etc..).

Le robot n'indexe que ce qu'il est autorisé à indexer. Il découvre les liens à visiter au fur et à mesure de l'indexation.

  1. Indexation web avec ou sans Alias
  2. Indexation multimédias : word, pdf, excel, powerpoint, mp3, images, newsgroups, ftp...
  3. html, email, et base de données.

VERTICRAWL respecte la charte des crawlers du w3c.org. Il est d'ailleurs inscrit dans la liste officielle des Crawlers The webRobots Pages à l'url suivant Robotstxt

A Savoir : Verticrawlbot respecte la charge CPu de votre serveur et abandonne l'indexation de votre site quand celui-ci est indisponible ou trop lent.

Capacités techniques du Crawler / Bot

Le crawler est conçu pour respecter les serveurs distants. Ainsi, comme le spécifie la charte des moteurs de recherche, VERTICRAWL ne visite qu'une URL par seconde et par DNS.

Les capacités de crawling dépendent essentiellement des temps de réponse des serveurs distants.

Le crawler peut indexer en moyenne 1.000.000 urls par jour (ou plus suivant la solution) lors d'une première indexation.

Le robot d'indexation suit les redirections interne à un DNS, sauf sur alias de type "www". Il ne suit pas les redirections externes sauf, bien sur, si celles-ci font partie des urls à indexer.

Il authentifie les URLs / documents inaccessibles permanentes et temporaires (code 404, 300, 500 etc..)

Le moteur d'indexation peut intervenir simultannement sur un réseau local ( Windows, Unix ), un réseau http / ftp / https / ssh avec ou sans cryptage de données.

Notre crawler est capable d'identifier les urls invalides sur votre propre site et sur celui de vos partenaires. Vous pouvez donc l'utiliser pour identifier les liens rompus et effectuer des analyses précises de la charge de votre serveur à un instant T.

Mise à jour des données

Le rafraichissement des pages indéxées est effectué en permanence par VERTICRAWL. Ainsi, la base de données de votre indexation contient moins de 1 % d'url en code inaccessible (code 404), soit 40 fois moins qu'un moteur de recherche généraliste.


moteur 2-2
22
      
© Datamean 2000-2010
moteur   internet