Is data scraping goed, slecht of iets ertussenin?

Er is veel gezegd en geschreven over data scraping. In deze blog een overzicht van wat het is, waarom het problematisch kan zijn en hoe we er in de toekomst mee om kunnen gaan.

Data scraping is in wezen een manier om gegevens van het ene systeem naar het andere over te dragen. Maar het verschilt van meer conventionele methoden voor gegevensoverdracht. Het belangrijkste verschil zit in de output. De ‘scraped data’ dienen niet als invoer voor een ander computerprogramma, maar zijn bedoeld voor weergave aan de eindgebruiker. Data scraping is daarom een ruwe techniek die alleen zal worden gebruikt als er geen andere manier is om gegevens uit een systeem te extraheren, zoals een besturingssysteem dat niet langer compatibel is met moderne hardware. De uitvoer is vaak erg ongestructureerd, omdat zaken als opmaak, binaire gegevens en andere aanvullende informatie niet kan worden overgedragen. Dit kan er zelfs voor zorgen dat programma’s crashen tijdens het data scraping.

Onderzoekers ontdekten recentelijk een database die circuleerde op hackerforums. In de database stonden de persoonlijke gegevens van meer liefst vijfhonderd miljoen Facebook-gebruikers. Niet veel later doken soortgelijke nieuwsberichten op over een datalek in de database van LinkedIn. Uit analyse van beide incidenten bleek dat hackers niet eens de servers van de sociale-mediaplatforms hoefden aan te vallen om de gegevens te bemachtigen. Ze maakten gebruik van een handige truc genaamd ‘data scraping’. Hoe werkt deze techniek en hoe groot is het gevaar van data scraping voor internetgebruikers?

Illegaal of toch legaal?

Data scraping is op zich niet illegaal. Erkende cloudproviders zoals Amazon AWS bieden veilige tools voor web scraping in de vorm van gratis api’s. Zoals elk computerprogramma wordt data scraping pas gevaarlijk als de tools in de verkeerde handen vallen, zoals gebeurde bij Facebook.

Bij het Facebook-incident bevatte de database persoonsgegevens, zoals telefoonnummers en e-mailadressen. Als cybercriminelen deze gegevens in handen krijgen, kunnen ze deze inzetten voor phishing en andere vormen van fraude. Het is dus waar dat data scraping in eerste instantie een stuk minder ingrijpend is dan het hacken van iemands account en dat je waarschijnlijk niet direct wordt getroffen door een scraping-aanval. Maar op de lange termijn kan het je kwetsbaarder maken voor phishing-aanvallen. Bij het recente LinkedIn-datalek ging het om minder interessante gegevens, maar alle soorten data kunnen interessant zijn voor cybercriminelen of hackers.

Data scraping kan de deur openen voor spearphishing-aanvallen; hackers kunnen de namen zien van superieuren, lopende projecten, onderliggende bedrijven van organisaties et cetera. In wezen alles wat een hacker zou kunnen gebruiken om zijn boodschap aannemelijk te maken en voor hem de juiste reactie bij zijn slachtoffers uit te lokken.

Hoe kun je het voorkomen?

Als gebruiker van een website kun je niet veel doen tegen een scraping-aanval, behalve zorgvuldig beheren welke informatie je over jezelf op websites deelt. Doe met Facebook als voorbeeld daarom regelmatig een privacy-check om erachter te komen wat je wel of niet deelt. Uiteindelijk ligt de verantwoordelijkheid in wat je deelt bij jezelf. En dat is waarschijnlijk niet altijd zo gemakkelijk als je kijkt naar alle problemen die we tegenwoordig zien.

Houd er ook rekening mee dat de effecten van een hack lange tijd niet zichtbaar kunnen zijn. Op het moment dat iemand jouw gegevens misbruikt, ben je misschien zelfs al vergeten dat je deze ooit met het netwerk hebt gedeeld.

Advies voor website-eigenaren en -bouwers

Je moet er rekening mee houden dat alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers, mogelijk ook zichtbaar is voor scraping bots. Er zijn ook enkele technische trucs die kunnen worden toegepast om de data te beveiligen. Deze trucs hebben echter vaak hun beperkingen. Je kunt een scraping poging vaak herkennen aan een groot aantal verzoeken die vanaf een enkel IP-adres naar jouw website worden verzonden (niet te verwarren met een ddos-aanval, die ook op deze techniek vertrouwt). Je kunt dat dan als verdacht ip-adres uitsluiten.

In andere gevallen kan het vergrendelen van de data met inloggegevens goed werken. De scraper moet dan namelijk een stukje van zichzelf blootleggen om toegang te krijgen tot de data. Het regelmatig wijzigen van jouw html kan scrapers zodanig in de war brengen dat ze het ergens anders gaan proberen. De keerzijde hiervan is dat deze aanpak ook kan leiden tot verwarring bij jouw eigen web-ontwikkelaars. Het gebruik van captcha’s of veel mediabestanden kan ook pogingen van individuen ontmoedigen. Bots zijn soms gecodeerd om expliciet specifieke captcha-patronen te doorbreken of kunnen diensten van derden gebruiken om captcha-uitdagingen te lezen en in realtime te reageren. Aan de juridische kant: bedrijven moeten actie ondernemen tegen data scrapers en hen waarschuwen voor het proces. Dit is op te nemen in de servicevoorwaarden. Dit doet natuurlijk niets tegen het scrapen, maar is wel aan te spreken tijdens rechtszaken.

Een kijkje in de toekomst

Diverse actoren maken gebruik van web scraping-bots, waaronder concurrenten met kwaadaardige bedoelingen, internetstarters, cybercriminelen, hackers en spammers. Op deze manier is het mogelijk om moeiteloos data te stelen. Ze bootsen vaak het normale gebruikersgedrag na, waardoor ze moeilijk te detecteren en nog lastiger te vinden zijn.

Web scraping kan de verkoop en conversies bedreigen, de seo-ranglijst verlagen of de integriteit ondermijnen van de data die tijd en middelen kostte om te produceren. Maar er zit zelfs een groter probleem achter, namelijk de toename van phishing pogingen of ransomware aanvallen die gebaseerd kunnen zijn op de gestolen gegevens van de gebruikers van de website. Dit is de reden dat webdesigners en sociale-mediabedrijven zich in de toekomst goed moeten beschermen tegen dit soort aanvallen.

Het begrijpen van het gevaar van web scrapen verhoogt niet alleen het bewustzijn van deze groeiende uitdaging, het stelt website-eigenaren ook in staat om actie te ondernemen ter bescherming van hun eigendom en de privacy van hun gebruikers! Laten we hopen dat ze allemaal deze blog lezen.