Les données constituent l’atout le plus précieux de votre entreprise. Ce n’est donc pas une bonne idée de les laisser tomber entre les mains de vos concurrents..

Parfois, cependant, cela peut être difficile à éviter en raison d’une technique automatisée appelée «grattage d’écran» qui permet depuis des années d’extraire des données de pages de sites Web pour les indexer dans le temps..

Cela pose deux problèmes principaux: premièrement, les données pourraient être utilisées pour obtenir un avantage commercial - de la sous-cotation des prix (dans le cas d’un site Web de comparaison des prix, par exemple) à l’obtention d’informations sur la disponibilité des produits.

Un grattage persistant peut également nuire aux performances d'un site Web, ce qui est récemment arrivé à LinkedIn lorsque des pirates informatiques ont utilisé un logiciel automatisé pour enregistrer des milliers de faux comptes dans le but d'extraire et de copier des données à partir des pages de profil d'un membre..

Ashley Stephenson, PDG de Corero Network Security, explique les origines du phénomène, son impact potentiel sur votre entreprise et les moyens de s'en défendre.

TechRadar Pro: Qu'est-ce que le grattage d'écran? Pouvez-vous nous parler de certaines des techniques, et pourquoi quelqu'un le ferait?

Ashley Stephenson: Le grattage d'écran est un concept qui a été mis au point par les premiers programmes d'émulation de terminaux il y a plusieurs décennies. C’est une méthode programmatique pour extraire des données d’écrans principalement conçus pour être vus par des humains..

Fondamentalement, le programme de nettoyage d’écran prétend être un humain et «lit» l’écran, en rassemblant les données intéressantes dans des listes pouvant être traitées automatiquement. Le format le plus courant est nom: paires de valeur. Par exemple, les informations extraites d’un écran de réservation de site de voyage peuvent ressembler à ce qui suit -

Origine: Boston, Destination: Atlanta, Date: 10/12/13, Vol: DL4431, Prix: 650 $

Le grattage des écrans a considérablement évolué au fil des ans. Une étape historique majeure est survenue lorsque le concept de grattage d'écran a été appliqué à Internet et que le robot d'exploration de Web a été inventé..

Les robots Web liaient à l’origine les pages de sites Web lues ou déchirées et ont indexé les informations pour les consulter ultérieurement (par exemple, la recherche). Cela a donné lieu à l'industrie des moteurs de recherche. Aujourd'hui, les webcrawlers sont beaucoup plus sophistiqués et les sites web incluent des informations (balises) dédiées au robot et jamais conçues pour être lues par un humain..

Le développement de la suppression de la vente au détail en ligne a également été une étape importante dans l'évolution du grattage d'écran, l'exemple le plus connu étant peut-être l'introduction de sites Web de comparaison des prix..

Ces sites utilisent des programmes de nettoyage d’écran pour consulter périodiquement une liste de sites de vente au détail connus afin d’obtenir les informations les plus récentes sur les prix et la disponibilité d’un ensemble spécifique de produits ou de services. Ces informations sont ensuite stockées dans une base de données et utilisées pour fournir aux clients intéressés des vues comparatives agrégées du paysage de la vente au détail en ligne..

En général, les opérateurs de sites Web ont bien accueilli les techniques de grattage d'écran décrites précédemment, qui souhaitent que leurs principaux moteurs de recherche, tels que Google ou Bing, indexent leurs sites. De même, les détaillants en ligne souhaitent généralement que leurs produits soient affichés sur les principaux sites de comparaison..

eBay a introduit une API en 2004 pour lutter contre le grattage d'écran (crédit: homerjoe426)

TRP: Y a-t-il eu des développements récents dans le grattage des écrans concurrentiels?

COMME: En revanche, ces dernières années, les développements récents en matière de grattage d’écran concurrentiel ne sont pas forcément les bienvenus. Pour qu'un site soit gratté par un moteur de recherche, le robot est correct si les visites du robot sont peu fréquentes..

Pour qu’un site soit la cible d’un comparateur de prix, le racleur est correct si l’information obtenue est utilisée de manière loyale. Toutefois, comme le nombre de moteurs de recherche spécialisés ne cesse d'augmenter et que la fréquence des visites de vérification de prix grimpe en flèche, ces consultations de page automatisées peuvent atteindre des niveaux qui ont une incidence sur le fonctionnement prévu du site cible..

Plus précisément, si le site cible est victime de raclage concurrentiel, les informations obtenues peuvent être utilisées pour nuire aux activités du propriétaire du site. Par exemple, la sous-cotation des prix, la surenchère, l’achat agressif de billets d’événement, la réservation d’inventaire, etc..