|
| Etude de Cas : Portail BtoB
Infos :
- 2.000.000 pages
- Hosting : LAMP
- Trafic fort
- Référencement
- Audit web
- Double indexation
A ce jour :
70.000 utilisateurs / mois
recherche : 300.000 / mois
FraGGo.com est le seul portail B2B transport logistique disposant d'une vrai solution de recherche full-text.
En 2001, en pleine crise de l'internet, le site FraGGo.com nous contactent pour étudier une solution annuaire web et moteur de recherche dédiée aux transports et à la logistique.
A l'époque, il existe une multitude de portails dans ce domaine et le marché n'est pas encore structuré...FraGGo.com est aujourd'hui le portail de reférence dans ce domaine et bon nombre des
ces compétiteurs ont disparus.
Analyse de la demande client :
- Développer une solution d'indexation web permettant l'indexation profondes de sites web dans le monde.
- Produire des résultats de recherche thématique sur 68 langues.
- Indéxer différents formats de fichiers (essentiellement html et pdf).
- Offrir une évolutivité totale quand aux autres types d'indexations possibles.
- La reconnaissance linguistique est un critère important de choix du prestataire.
La solution VERTICRAWL :
1) Contraintes techniques :
- Volume de données très important (+ de 5 millions de pages web indéxées avec + de 500Ko par page). A titre de comparaison, les moteurs de recherche généralistes indexent moins de 200Ko par document.
- La taille de la base de données nécessite des indexations permanentes (10.000 Urls indexées par heure)
- Le nombre de requêtes de recherche et la taille des indexes implique le déploiement de solutions dédiées.
2) Une réponse simple et efficace :
-
Architecture Bi base de données : Comme pour les moteurs généraliste, nous avons développés une architure avec 2 bases de données afin d'optimiser l'utilisation des serveurs SQL.
a) La 1ere est exclusivement dédiée aux processus de crawling (visite, mise a jour et réindexation des urls en profondeur sur les sites (255 niveaux de répertoire par site). Le crawler passe d'url en url en identifiant les périmètres autorisés l'indexation.
Une URL est revisitée, en moyenne tous les 10 jours, ce qui produit plus de 20 millions de pages visitées par mois environ.
b) La 2ème base de données est exclusivement réservée aux internautes pour les recherches.
c) Toutes les semaines, la base de recherche est recrée avec les contenus de la nouvelle indexation.
-
L'optimisation des processus de recherche est indispensable quand on cherche sur des grands volumes de données. VERTICRAWL produit des requetes en cache disque
toutes les 4 heures. Nos analyses ont determinées une augmentation des recherches utilisateurs (process de recherche inférieur à 0,03 s contre 2,5 s) bien que le serveur utilisé soit assez classique.
Pour FraGGo.com, l'architecture dédiée est mono-serveur, mono-processeur, sous linux (redhat Feudora).
-
La maintenance serveur d'indexation et de recherche est assurée par VERTICRAWL. les coûts d'exploitation supplémentaires (technicien informatique)
sont inexistant. Le webmastering (modération de site référencé) est affectué par FraGGo.com dans l'interface Seek, en ligne et bénéficie de toutes les options
de recherche actuelle et futures (cache des pages web, snapshot image...).
3) Schéma de principe de l'architecture FraGGo.com :
Aller plus loin :
Le site transport
Prendre contact avec notre équipe technique
|