Moteur de recherche interne
Logiciel de recherche verticale,
référencement - trafic - text mining.
search solution
 
 Accueil 
 Enjeux 
 Solutions 
 Actualités 
 Espace Client 
 Partenaires 
Technologie 
 L'entreprise 
 
 
Recherche   | SiteMaps | Search Index  
 

Moteur de recherche : Algorithme

moteur de recherche search engine crawler
La technologie
 » C'est Quoi ?
 » Capacité Technique
 » Formats de fichiers
 » Fonctionnalités
 » Algorithme
 » Interface Administrateur
 » Module de recherche
 » Copies d'écrans
 » Verticrawl-Lab

TagCloud
Verticrawl - Lab algorithme de 3ème génération ans de recherche calcul de pertinence jointures de mots mot - clef pertinence de VERTICRAWL périmètre d'indexation surexposition technologie d'indexation vides de sens

réalisé avec l'api sitemaps

Le Calcul de pertinence de VERTICRAWL

VERTICRAWL, grâce à sa technologie d'indexation multi-média exploite un algorithme de calcul de pertinence, fruit de 8 ans de recherche en indexation documentaire, basé sur la redondance sémantique et linguistique d'une expression. Il exploite aussi, un calcul de redondance linguistique multi-documentaire. Voici son principe de fonctionnement.

Algorithme de 1ere génération

Cet Algorithme calcule la pertinence d'une expression en fonction de sa présence dans un document. Il intègre aussi, des paramètres comme la taille du caractère, la mise en remarque html, la présente de balises NOINDEX, etc...

VERTICRAWL prend en compte plus de 180 critères d'analyse de pertinence lors de l'indexation d'un document.

Algorithme de 2ème génération

L'équipe VERTICRAWL s'est largement préoccupée des processus de pertinence de recherche. Aussi, VERTICRAWL intègre un 2ème algorithme couplant à la fois les données du 1er niveau et les calculs de ranking inter-documents.

VERTICRAWL évite les processus de "surexposition" au mot-clef, les mots vides de sens (toutes langues), les jointures de mots "aléatoires".

Aussi, le calcul de pertinence prend en compte l'ensemble d'un périmètre d'indexation plutôt qu'un document "isolé".

Algorithme de 3ème génération

Nativement, l'indexeur peut prendre en compte des calculs de popularité de page web en fonction des liens qui pointe vers elle [backlinks]. Cette fonctionnalité est activable à la demande. Il intègre aussi des fonctions linguistiques et sémantiques permettant la recherche en cluster

Modération d'indexation

Qui plus est, VERTICRAWL peut définir des périmètres de mots non indéxables, comme les mots grossiers, injurieux etc...ou plus simplement les mots très redondants dans votre périmètre de recherche. Cette technique intègre l'optimisation des phénomènes bruit et silence.


Stopwords - exemple :

  1. Si votre périmètre d'indexation est "le tourisme", le mot "tourisme" est il pertinent ?
  2. Si votre périmètre d'indexation est "juridique", le mot "juridique" est il pertinent ?

Vous pouvez décider à loisir de cette pertinence dans l'interface administrateur.


moteur 2-3
23
      
© Datamean 2000-2008
moteur   internet