Le logiciel de data-mining et de collecte de données : utilisations.
|
E-Miner - logiciel de data mining Extraction, enrichissement de contenu, veille marché
Fonctions VERTICRAWL E-miner. Quelle type de données collecter ? Comment enrichir vos contenus ? Comment surveiller la concurrence avec VERTICRAWL E-miner ?
|
.:Collecter:.
Identifier des sources de contenus :
Au préalable, nous identifions les sources succeptibles de vous convenir. Ces sources sont crawlées puis transmises au data miner pour extraction. VERTICRAWL E-miner exploite des modules de règles d'extraction.
Pour extraire des données d'un site, il faut toujours établir des masques d'extraction et de normalisation. Etape préalable à tout mining dont le but est de tagger l'information de façon la plus pérene possible.
Extrait des capacités de VERTICRAWL E-miner :
En réalité, toutes les données sont collectables par VERTICRAWL E-miner . Pour autant, certaines sont bien plus pertinentes ou exploitables que d'autres.
-
Format de fichiers exploitables :
VERTICRAWL E-miner peut extraire et normaliser des données provenant d'internet ou d'ailleurs, dans plus de 200 formats de fichiers (dont html, pdf, word, excel, powerpoint, etc) : Consultez la liste des formats de fichiers.
-
Identifier les documents à traiter :
Le data miner VERTICRAWL E-miner est capable d'identifier les documents qui vous interesse. Par exemple, sur un site marchand, seules les fiches produits peuvent répondre à votre demande.
-
Case sentive / insensitive :
La rédaction des contenus peut revétir une importance dans l'extraction puisque le miner se base sur le contenu pour en extraire les données taggées. La sensibilité à la casse est donc importante.
-
Transformation de données / normalisation :
Un prix, un poids ou un cours de devise contiennent souvent l'unite. Ainsi, le data miner reconnait des unités de mesure et peut transformer la donnée en une équivalence. Si la donnée collectée est "100gr", nous pouvons la transformer en "0,1Kg" à la demande.
La normalisation intègre la suppression de formats hybrides (html par exemple), éventuellement le recodage de données de charset (UTF-8 vers ISO par exemple).
-
Conserver la pertinence :
Le volume de données peut être considérable. Aussi, VERTICRAWL E-miner peut décider de ne pas stocker certaines données en fonction des conditions que vous aurez définis
-
S'intégrer à la solution de recherche :
VERTICRAWL E-miner est conçu pour s'intégrer à VERTICRAWL Seek et peut aussi fonctionner en mode autonome (standalone software).
-
S'intégrer à vos solutions actuelles :
VERTICRAWL E-miner s'intègre facilement aux outils informatiques du marché via des protocoles courant (SOAP, XML, SQL, DUMP, CSV, etc..)
.:Distribuer:.
Exporter vos données :
L'export des données est un processus indépendant du data-mining. Les formats d'export, les données transmises, la périodicité, les protocoles de communication sont autant d'éléments que nous mettons en oeuvre en fonction de vos besoins.
Seule une étude précise de vos besoins peut répondre à une problématique client. Aussi, consultez nous pour étudier plus avant ces options.
Questions courantes :
-
Puis-je collecter tout un catalogue produits à partir des pages web ?
OUI : Dans ce cas, VERTICRAWL E-miner est couplé avec VERTICRAWL Seek pour crawler le ou les sites que vous avez selectionnés.
-
Collectez vous aussi les images des produits ?
OUI : Nous collectons, dans un premier temps, les urls des images. Dans un deuxieme temps, nous pouvons aussi collecter les fichier image, en changer la taille ou le format (gif vers jpg par exemple).
-
Suis - je propriétaire des données collectées :
D'un point de vue strictement juridique : non. L'éditeur en reste l'unique propriétaire. La collecte de ces données est légale sous conditions. C'est l'utilisation des données collectées qui peut être répréhensible.
-
Pourrais-je, par exemple, observer le prix de vente d'un produit, avec sa tendance ?
OUI, car VERTICRAWL E-miner peut collecter des informations à période réguliere. Il suffit de sauvegarder ces données pour obtenir une courbe de progression. VERTICRAWL E-miner fournit la matière , à savoir les données. Une simple feuille excel vous donnera un bon graphique...
-
Peut on extraire des données provenant d'un document pdf ou word ?
OUI : VERTICRAWL E-miner peut lire dans plus de 220 formats de fichiers, et en extraire le contenu plain text normalisé (voir technologie : format de fichiers).
-
Vous avez d'autres questions ?
Contactez un consultant, sans engagement, au numéro ci-dessous.
|