Een aanzienlijk deel van het verkeer op websites komt niet van menselijke bezoekers, maar van AI-bots die data verzamelen om modellen te trainen of content te indexeren. Dit verkeer kan je server belasten en soms veiligheidsrisico’s met zich meebrengen, vooral van zogenaamde ‘fetcher bots’.

Wat er aan de hand is

Uit een analyse van Akamai, een grote cloud- en beveiligingsprovider, blijkt dat AI-bots een groot aandeel hebben in het verkeer op websites, met name in de uitgeverssector. De grootste spelers in dit AI-botverkeer zijn volgens het onderzoek OpenAI, Meta (Facebook) en ByteDance (het moederbedrijf van TikTok). Deze bots crawlen websites om data te verzamelen voor het trainen van hun grote taalmodellen (LLM’s) of voor het indexeren van content voor hun eigen zoek- en aanbevelingssystemen. Het rapport maakt een belangrijk onderscheid tussen deze bekende ‘crawler bots’ en een andere categorie: ‘fetcher bots’. Deze laatste categorie kan een directer risico vormen, omdat ze vaak worden gebruikt om inhoud te stelen of kwetsbaarheden in een website te scannen.

Wat dit betekent

Voor website-eigenaren betekent dit dat een deel van hun servercapaciteit en bandbreedte wordt gebruikt door geautomatiseerde bezoekers. Dit kan de laadsnelheid voor echte gebruikers vertragen en in sommige gevallen de hostingkosten verhogen. Het is een verschuiving in het webverkeer dat voorheen vooral werd gedomineerd door zoekmachinecrawlers van Google. Nu komen daar crawlers bij van AI-bedrijven. Het directe risico ligt volgens het rapport niet per se bij de bekende crawlers van grote bedrijven, maar bij de onbekendere fetcher bots. Deze kunnen zich voordoen als legitieme crawlers maar kwaadaardige intenties hebben, zoals het kopiëren van premium content of het uitvoeren van DDoS-aanvallen.

Hoe je dit kunt toepassen

De praktische aanpak hangt af van jouw situatie en doelstellingen. Hier zijn enkele scenario’s om te overwegen.

Als je een content- of nieuwssite beheert… Je hebt waarschijnlijk veel verkeer van crawlers. Je zou kunnen overwegen om in je serverlogboeken te kijken naar het user-agent-veld om te zien welke bots je site bezoeken. Bekende crawlers zoals die van OpenAI (ChatGPT) of Googlebot zijn over het algemeen veilig en kunnen zelfs nuttig zijn voor de zichtbaarheid van je content. Een mogelijkheid is om een robots.txt-bestand te gebruiken om specifieke delen van je site af te schermen voor crawlers, bijvoorbeeld je admin-panel of betaalde content.

Als je een webshop of bedrijfssite runt met beperkte servercapaciteit… Ongewenst botverkeer kan je site vertragen. Je zou kunnen onderzoeken of je hostingprovider tools aanbiedt om botverkeer te managen of te beperken. Overweeg om beveiligingsplugins of een Web Application Firewall (WAF) te gebruiken. Deze kunnen helpen om kwaadaardige fetcher bots te blokkeren op basis van verdacht gedrag, terwijl legitieme crawlers wel toegang houden.

Als je bezorgd bent over diefstal van je intellectueel eigendom… Fetcher bots vormen het grootste risico. Naast technische maatregelen zoals een WAF, is het belangrijk om je waardevolle content (zoals onderzoeksrapporten, unieke data of premium artikelen) achter een login of paywall te plaatsen. Dit maakt het voor simpele bots veel moeilijker om de inhoud te kopiëren. Monitor je site regelmatig op kopieën van je content met behulp van zoekopdrachten of gespecialiseerde diensten.

Als je wilt dat AI-tools je content correct weergeven en citeren… Het kan juist voordelig zijn om toegankelijk te zijn voor gerenommeerde AI-crawlers. Zorg ervoor dat je website technisch in orde is en dat je metadata (titel, beschrijving) duidelijk is. Dit helpt AI-modellen om je content beter te begrijpen en correct te attribueren, wat kan leiden tot meer autoriteit en referenties.

Bron: Search Engine Journal