Volgens een analyse van Akamai zijn AI-bots van grote techbedrijven verantwoordelijk voor een aanzienlijk deel van het verkeer op uitgeverswebsites. Dit heeft directe gevolgen voor serverkosten, prestaties en de controle over je eigen content. Vooral zogenaamde ‘fetcher bots’ vormen een directer risico voor website-eigenaren dan de bekende crawlers voor zoekmachines.

Wat er aan de hand is

Uit data van het cloudbedrijf Akamai blijkt dat AI-bots van OpenAI, Meta (Facebook) en ByteDance (eigenaar van TikTok) het meeste verkeer genereren op websites in de uitgeverssector. Deze bots verzamelen data om de grote taalmodellen (LLM’s) van deze bedrijven te trainen en up-to-date te houden. Het rapport maakt onderscheid tussen verschillende soorten bots: ‘fetcher bots’ die specifieke content ophalen voor training, en meer algemene ‘crawler bots’. Volgens de analyse vormen fetcher bots een meer direct risico voor uitgevers omdat ze intensiever kunnen zijn en mogelijk moeilijker te onderscheiden zijn van legitiem gebruikersverkeer.

Wat dit betekent

Voor website-eigenaren, en niet alleen uitgevers, betekent dit dat een groeiend deel van hun serververkeer en -kosten niet afkomstig is van menselijke bezoekers of zoekmachines, maar van AI-bedrijven. Dit kan leiden tot hogere hostingkosten en mogelijke vertragingen voor echte gebruikers als de serverbelasting te hoog wordt. Het betekent ook dat de content die je online zet, actief wordt gebruikt om commerciële AI-producten te voeden, vaak zonder expliciete toestemming of vergoeding. Voor bedrijven die afhankelijk zijn van unieke data of creatieve content is dit een directe bedreiging voor hun intellectueel eigendom.

Hoe je dit kunt toepassen

De praktische toepassing hangt sterk af van je specifieke situatie en hoe je tegenover AI-training staat. Je kunt verschillende strategieën overwegen.

Als je een informatieve website of blog beheert met beperkte servercapaciteit… is het verstandig om je serverlogs regelmatig te controleren op ongebruikelijk botverkeer. Een plotselinge toename in verkeer van bepaalde user-agents (zoals die van OpenAI of andere AI-bedrijven) kan wijzen op intensieve scraping. Je zou kunnen overwegen om via het robots.txt-bestand bepaalde bots te blokkeren van delen van je site, hoewel dit geen juridisch bindende afspraak is en niet alle bots zich hieraan houden.

Als je unieke data, onderzoek of creatieve content publiceert die je wilt beschermen… dan is monitoring essentieel. Naast robots.txt kun je technische maatregelen onderzoeken, zoals rate limiting (het beperken van het aantal verzoeken per seconde van een IP-adres) of het blokkeren van specifieke IP-ranges waarvan bekend is dat ze tot grote AI-bedrijven behoren. Dit is complexer en vereist vaak serverkennis of hulp van een hostingprovider.

Als je de kosten van je hosting of clouddienst ziet stijgen zonder dat je meer menselijk verkeer hebt… kan AI-botverkeer een oorzaak zijn. Analyseer je verbruiksdata en kijk of pieken overeenkomen met bekende bot-activiteit. Bespreek met je provider of er opties zijn voor het filteren of beheren van dit type verkeer. Het kan ook een reden zijn om over te stappen naar een hostingoplossing met voorspelbare kosten of een fair use-beleid.

Als je een webshop of bedrijfswebsite runt en je wilt dat echte klanten voorrang krijgen… richt je dan primair op het garanderen van de prestaties. Zorg voor een goede caching-strategie, zodat statische content snel wordt geserveerd zonder de server zwaar te belasten. Dit dempt de impact van botverkeer op de ervaring van je bezoekers. Het blokkeren van alle bots is meestal niet verstandig, omdat je dan ook zoekmachines uitsluit.

De keuze om AI-bots toe te staan of te blokkeren is een afweging tussen beschikbaarheid, kosten en controle over je intellectueel eigendom. Er is geen eenduidig antwoord; het hangt af van je bedrijfsmodel en middelen.

Bron: Search Engine Journal