Moteur de recherche interne
Logiciel de recherche verticale,
référencement - trafic - text mining.
search solution
 
 Accueil 
 Enjeux 
 Solutions 
 Actualités 
Espace Client 
 Partenaires 
 Technologie 
 L'entreprise 
 
 
Recherche   | SiteMaps | Search Index  
 

Etudes de cas : FraGGo.com

moteur de recherche search engine crawler
Espace Client
 » Info Clients
 » Les accords cadres
 » Foire aux Questions

 » Etudes de cas
   - Moteur Emploi
   - Portail BtoB
   - Portail BtoC
   - Site marchand


TagCloud
Etude de cas FraGGo analyse de la demande client bon nombre cache des pages web contraintes techniques déploiement de solutions options de recherche actuelle réponse simple snapshot image solution d'indexation web taille des indexes

réalisé avec l'api sitemaps

Etude de Cas : Portail BtoB

Infos :
 - 2.000.000 pages
 - Hosting : LAMP
 - Trafic fort
 - Référencement
 - Audit web
 - Double indexation

A ce jour :
70.000 utilisateurs / mois
recherche : 300.000 / mois

FraGGo.com est le seul portail B2B transport logistique disposant d'une vrai solution de recherche full-text.
transport

En 2001, en pleine crise de l'internet, le site FraGGo.com nous contactent pour étudier une solution annuaire web et moteur de recherche dédiée aux transports et à la logistique. A l'époque, il existe une multitude de portails dans ce domaine et le marché n'est pas encore structuré...FraGGo.com est aujourd'hui le portail de reférence dans ce domaine et bon nombre des ces compétiteurs ont disparus.



Analyse de la demande client :
  • Développer une solution d'indexation web permettant l'indexation profondes de sites web dans le monde.
  • Produire des résultats de recherche thématique sur 68 langues.
  • Indéxer différents formats de fichiers (essentiellement html et pdf).
  • Offrir une évolutivité totale quand aux autres types d'indexations possibles.
  • La reconnaissance linguistique est un critère important de choix du prestataire.

La solution VERTICRAWL :

1) Contraintes techniques :
  • Volume de données très important (+ de 5 millions de pages web indéxées avec + de 500Ko par page). A titre de comparaison, les moteurs de recherche généralistes indexent moins de 200Ko par document.
  • La taille de la base de données nécessite des indexations permanentes (10.000 Urls indexées par heure)
  • Le nombre de requêtes de recherche et la taille des indexes implique le déploiement de solutions dédiées.
2) Une réponse simple et efficace :
  • Architecture Bi base de données : Comme pour les moteurs généraliste, nous avons développés une architure avec 2 bases de données afin d'optimiser l'utilisation des serveurs SQL.

    a) La 1ere est exclusivement dédiée aux processus de crawling (visite, mise a jour et réindexation des urls en profondeur sur les sites (255 niveaux de répertoire par site). Le crawler passe d'url en url en identifiant les périmètres autorisés l'indexation. Une URL est revisitée, en moyenne tous les 10 jours, ce qui produit plus de 20 millions de pages visitées par mois environ.

    b) La 2ème base de données est exclusivement réservée aux internautes pour les recherches.

    c) Toutes les semaines, la base de recherche est recrée avec les contenus de la nouvelle indexation.

  • L'optimisation des processus de recherche est indispensable quand on cherche sur des grands volumes de données. VERTICRAWL produit des requetes en cache disque toutes les 4 heures. Nos analyses ont determinées une augmentation des recherches utilisateurs (process de recherche inférieur à 0,03 s contre 2,5 s) bien que le serveur utilisé soit assez classique. Pour FraGGo.com, l'architecture dédiée est mono-serveur, mono-processeur, sous linux (redhat Feudora).

  • La maintenance serveur d'indexation et de recherche est assurée par VERTICRAWL. les coûts d'exploitation supplémentaires (technicien informatique) sont inexistant. Le webmastering (modération de site référencé) est affectué par FraGGo.com dans l'interface Seek, en ligne et bénéficie de toutes les options de recherche actuelle et futures (cache des pages web, snapshot image...).

3) Schéma de principe de l'architecture FraGGo.com :



Aller plus loin :
  • Le site transport
  • Prendre contact avec notre équipe technique

  • moteur 5-7
    57
          
    © Datamean 2000-2010
    moteur   internet