Une indexation Multi-formats, multi-langues, multi-protocoles.
Formats de fichiers
Notre solution de recherche indexe les données full-text (plain texte) des fichiers ci-dessous.
| En version SEEK (Mode ASP) |
| HTML |
Hypertext Markup Language (toutes les versions y compris XHTML).
cela intègre aussi les fichiers de type php, asp, js...qui restituent du language html.
|
| Texte Brut. |
Que ferions nous sans ce format ?!
|
| MIME. |
Le format "Multipurpose Internet Mail Extension" permet l'indexation de mails y compris les pièces jointes sur les serveurs type Notes, Ldap, Imap.
|
| Microsoft Office(tm). |
VERTICRAWL indexe l'ensemble des formats Office (Word, Powerpoint et Excel) sur les versions 95, 97, 2000 et XP et supérieures.
|
| Pocket Excel. |
Version allégée du tableur Excel de Microsoft pour le système d'exploitation Windows CE.
|
| Pocket Word. |
Version allégée du traitement de texte Word de Microsoft pour le système d'exploitation Windows CE.
|
| XML. |
Extensible Markup Language (tout type de DTD) avec restitution de contenu texte.
|
| Adobe Pdf. |
VERTICRAWL indexe les documents au format Adobe Portable, compressés ou non.
|
| Fichier compressé. |
ZIP, RAR, TAR, BZIP...font partie des fichiers indexables à condition que les contenus des archives soient indexables [cqfd].
Le moteur a la capacité de décompresser un zip (par exemple) pour lire et traiter les documents compressés.
|
| Wordperfect. |
Documents Corel WordPerfect.
|
| RTF. |
Rich Text Format est élligible lors d'une indexation VERTICRAWL.
|
| MacroMedia Flash. |
Les Sections de texte MacroMedia Flash et liens hypertextes sont indexables. En réalité cela apporte peu de pertinence dans un fond documentaire
car ces documents sont souvent pauvres en contenu texte.
|
| OpenOffice. |
OpenOffice.org open-source office suite file formats et plus généralement tous les logiciels libres de traitement de texte sont élligibles dans l'indexation (Wordprocessor, Tableau, présentation)
|
| StarOffice. |
StarWriter, StarCalc..
|
| CSV. |
Format CSV délimité ou non, tout type de délimiteur.
|
| SYLK. |
Format SYLK(Symbolic Link) est un format d'export de tableur.
|
| LaTeX Writer. |
Système logiciel de composition de documents largement utilisé dans le module de la recherche, ou plus exactement : une collection de macro-commandes destinées à faciliter l'utilisation du « processeur de texte » TeX : prononcer [LATEC].
|
| mais aussi |
VERTICRAWL peut aussi indexer un format propriétaire, spécifique à une activité. Contactez nous pour étudier plus avant ces possibilités.
|
| En version SKM |
| indexation Image |
les formats images TIFF, JPEG, JPG, GIF, BMP, etc...
|
| indexation video |
les formats vidéo avi, dvix...
|
| indexation son |
les formats sons wav, mp3..
|
Reconnaissance Linguistique
VERTICRAWL reconnait automatiquement plusieurs langues dont le Français, l'Anglais, l'Allemand, l'Espagnol...et au total jusqu'à 68 langues.
La solution SKM reconnait plus de 240 langues dont :
Afrikaans, Arabe, Bielorusse, Bulgare, Bosniac, Catalan, Valencien, Tchèque, Danois, Allemand, Grecque moderne, Anglais, Espagnol, Finnois, Français, Irlandais, Hébreu, Croate, Hungrois, Armenien, Italien, Japonais, Latin, Lithuanien, Hollandais - Néerlandais, Norvégien, Polonais, Portugais, Roumain, Russe, Slovaque, Albanais, Serbie, Suédois, Thai, Turc, Vietnamien, Chinois et même Klingon !
Cette liste n'est pas exhaustive...Nous pouvons intégrer d'autres langues à la demande.
Charset : Encodage - Decoding
La détection de charset, la transcription de caratères est un point fondamental de la pertinence des moteurs de recherche.
| ISO-Latin. |
ISO-Latin, tous formats.
|
| Apple. |
Apple, tous formats.
|
| Microsoft. |
Encodings de la plate-forme Windows : tout format.
|
| UTF-8. |
UCS2 Unicode encoding specification.
|
| UTF-16. |
UCS2 Unicode encoding (UTF-16, UTF-16BE, UTF-16LE).
|
| UTF-32. |
UCS4 Unicode format (UTF-32, UTF-32BE, UTF-32LE).
|
| Russe. |
KOI8-R
|
| Autres encodages. |
D'autres encodages sont possibles sur étude.
|
Optimisation de Bande passante
VERTICRAWL utilise "nativement" la méthode Gzip-inflate lors des dialogues avec les serveurs à indexer (http/ftp/news). Cela garantit
une optimisation du flux de données lors de l'indexation. Cette méthode réduit de 80% la bande passante nécessaire pour effectuer
une indexation internet. Dans certains cas, une connexion adsl 512Kb est largement suffisante. |