Moteur de recherche interne
Logiciel de recherche verticale,
référencement - trafic - text mining.
search solution
 
 Accueil 
 Enjeux 
 Solutions 
 Actualités 
 Espace Client 
 Partenaires 
Technologie 
 L'entreprise 
 
 
Recherche   | SiteMaps | Search Index  
 

Moteur de recherche
Format de fichier indexé - langue et charset

moteur de recherche search engine crawler
La technologie
 » C'est Quoi ?
 » Capacité Technique
 » Formats de fichiers
 » Fonctionnalités
 » Algorithme
 » Interface Administrateur
 » Module de recherche
 » Copies d'écrans
 » Verticrawl-Lab

TagCloud
CSV Encodings de la plate ISO - latin Microsoft RAR StarWriter TAR format CSV forme Windows full - text solution de recherche indexe

réalisé avec l'api sitemaps

Une indexation Multi-formats, multi-langues, multi-protocoles.

Formats de fichiers

Notre solution de recherche indexe les données full-text (plain texte) des fichiers ci-dessous.

En version SEEK (Mode ASP)
HTML Hypertext Markup Language (toutes les versions y compris XHTML). cela intègre aussi les fichiers de type php, asp, js...qui restituent du language html.
Texte Brut. Que ferions nous sans ce format ?!
MIME. Le format "Multipurpose Internet Mail Extension" permet l'indexation de mails y compris les pièces jointes sur les serveurs type Notes, Ldap, Imap.
Microsoft Office(tm). indexation pack office doc ppt xls VERTICRAWL indexe l'ensemble des formats Office (Word, Powerpoint et Excel) sur les versions 95, 97, 2000 et XP et supérieures.
Pocket Excel. Version allégée du tableur Excel de Microsoft pour le système d'exploitation Windows CE.
Pocket Word. Version allégée du traitement de texte Word de Microsoft pour le système d'exploitation Windows CE.
XML. Extensible Markup Language (tout type de DTD) avec restitution de contenu texte.
Adobe Pdf. VERTICRAWL indexe les documents au format Adobe Portable, compressés ou non.
Fichier compressé. ZIP, RAR, TAR, BZIP...font partie des fichiers indexables à condition que les contenus des archives soient indexables [cqfd]. Le moteur a la capacité de décompresser un zip (par exemple) pour lire et traiter les documents compressés.
Wordperfect. Documents Corel WordPerfect.
RTF. Rich Text Format est élligible lors d'une indexation VERTICRAWL.
MacroMedia Flash. Les Sections de texte MacroMedia Flash et liens hypertextes sont indexables. En réalité cela apporte peu de pertinence dans un fond documentaire car ces documents sont souvent pauvres en contenu texte.
OpenOffice. OpenOffice.org open-source office suite file formats et plus généralement tous les logiciels libres de traitement de texte sont élligibles dans l'indexation (Wordprocessor, Tableau, présentation)
StarOffice. StarWriter, StarCalc..
CSV. Format CSV délimité ou non, tout type de délimiteur.
SYLK. Format SYLK(Symbolic Link) est un format d'export de tableur.
LaTeX Writer. Système logiciel de composition de documents largement utilisé dans le module de la recherche, ou plus exactement : une collection de macro-commandes destinées à faciliter l'utilisation du « processeur de texte » TeX : prononcer [LATEC].
mais aussi VERTICRAWL peut aussi indexer un format propriétaire, spécifique à une activité. Contactez nous pour étudier plus avant ces possibilités.

En version SKM
indexation Image les formats images TIFF, JPEG, JPG, GIF, BMP, etc...
indexation video les formats vidéo avi, dvix...
indexation son les formats sons wav, mp3..

Reconnaissance Linguistique

VERTICRAWL reconnait automatiquement plusieurs langues dont le Français, l'Anglais, l'Allemand, l'Espagnol...et au total jusqu'à 68 langues.

La solution SKM reconnait plus de 240 langues dont :
Afrikaans, Arabe, Bielorusse, Bulgare, Bosniac, Catalan, Valencien, Tchèque, Danois, Allemand, Grecque moderne, Anglais, Espagnol, Finnois, Français, Irlandais, Hébreu, Croate, Hungrois, Armenien, Italien, Japonais, Latin, Lithuanien, Hollandais - Néerlandais, Norvégien, Polonais, Portugais, Roumain, Russe, Slovaque, Albanais, Serbie, Suédois, Thai, Turc, Vietnamien, Chinois et même Klingon !

Cette liste n'est pas exhaustive...Nous pouvons intégrer d'autres langues à la demande.

Charset : Encodage - Decoding

La détection de charset, la transcription de caratères est un point fondamental de la pertinence des moteurs de recherche.

ISO-Latin. ISO-Latin, tous formats.
Apple. Apple, tous formats.
Microsoft. Encodings de la plate-forme Windows : tout format.
UTF-8. UCS2 Unicode encoding specification.
UTF-16. UCS2 Unicode encoding (UTF-16, UTF-16BE, UTF-16LE).
UTF-32. UCS4 Unicode format (UTF-32, UTF-32BE, UTF-32LE).
Russe. KOI8-R
Autres encodages. D'autres encodages sont possibles sur étude.

Optimisation de Bande passante

VERTICRAWL utilise "nativement" la méthode Gzip-inflate lors des dialogues avec les serveurs à indexer (http/ftp/news). Cela garantit une optimisation du flux de données lors de l'indexation. Cette méthode réduit de 80% la bande passante nécessaire pour effectuer une indexation internet. Dans certains cas, une connexion adsl 512Kb est largement suffisante.


moteur 2-6
26
      
© Datamean 2000-2008
moteur   internet