Het grootste deel van het AI-botverkeer op uitgeverswebsites komt van bedrijven als OpenAI, Meta en ByteDance, die data verzamelen om hun modellen te trainen. Dit levert directe risico’s op voor site-performance en content-eigenaarschap, maar biedt ook inzicht in wat AI-systemen leren over jouw bedrijf.
Wat er aan de hand is
Uit een analyse van Akamai blijkt dat AI-bedrijven de grootste bron van botverkeer op uitgeverswebsites zijn. De top drie bestaat uit OpenAI (operator van ChatGPT), Meta (operator van Llama) en ByteDance (operator van Doubao). Deze bedrijven sturen zogenaamde ‘fetcher bots’ of ‘crawlers’ uit die automatisch webpagina’s bezoeken en de inhoud kopiëren voor gebruik in hun AI-trainingsdatasets. Het verkeer van deze AI-bots overtreft volgens het rapport vaak het verkeer van traditionele zoekmachinecrawlers zoals die van Google. De analyse benadrukt dat deze fetcher bots een meer onmiddellijk risico kunnen vormen voor uitgevers dan generatieve AI-tools zelf, omdat ze direct resources verbruiken en content extraheren.
Wat dit betekent
Voor uitgevers, bloggers en iedereen die professioneel content online publiceert, heeft dit drie directe gevolgen. Ten eerste legt het extra beslag op servercapaciteit en bandbreedte, wat kan leiden tot tragere laadtijden voor echte bezoekers en hogere hostingkosten. Ten tweede wordt jouw intellectuele eigendom – artikelen, analyses, unieke data – op grote schaal gekopieerd en gebruikt om commerciële AI-producten te trainen, vaak zonder expliciete toestemming of vergoeding. Ten derde bepaalt de data die deze bots verzamelen indirect hoe AI-tools zoals ChatGPT over jouw sector of expertise zullen praten. Als jouw hoogwaardige content niet wordt meegenomen, of als alleen concurrerende sites worden gescraped, verlies je invloed op het narratief dat AI hanteert.
Hoe je dit kunt toepassen
De praktische aanpak hangt af van jouw specifieke situatie, resources en strategische doelen.
Als je een nicheblog of vakpublicatie runt met beperkte technische middelen, is controle op serverkosten het meest directe belang. Je zou kunnen beginnen met het monitoren van je serverlogs (vaak mogelijk via je hostingdashboard) op verkeer van bekende AI-crawlers. Een praktische eerste stap is het plaatsen van een aangepaste robots.txt-file die specifieke AI-crawlers uitsluit, hoewel dit slechts een verzoek is dat niet alle bots respecteren. Overweeg om met je hostingprovider te bespreken of zij pakketten hebben die onverwacht hoog botverkeer opvangen zonder extra kosten.
Als content voor jou een kernactiviteit en investering is, zoals voor een uitgeverij, kennisinstituut of gespecialiseerd marketingbureau, dan gaat het om bescherming van intellectueel eigendom en strategische positionering. Een mogelijkheid is om een duidelijke licentie- of gebruiksvoorwaarden-pagina op te stellen die het scrapen van content voor AI-training verbiedt. Je zou kunnen onderzoeken of technische maatregelen zoals ‘rate limiting’ (het beperken van aanvragen per seconde van eenzelfde bron) haalbaar zijn voor jouw site. Daarnaast is het verstandig om je unieke content en auteurschap zo sterk mogelijk te brandmerken in de tekst zelf, zodat deze herleidbaar blijft, zelfs als deze in een dataset terechtkomt.
Als je inzicht wilt krijgen in hoe AI over jouw vakgebied ‘denkt’, biedt deze situatie een ongekende kans. Je zou de situatie kunnen omdraaien door te analyseren welke content van jouw site waarschijnlijk wordt opgepikt. Richt je op het publiceren van gezaghebbende, goed gestructureerde en feitelijk correcte content over jouw kernonderwerpen. Door de beste bron te zijn, vergroot je de kans dat AI-tools jouw informatie en perspectief overnemen, wat je autoriteit in het veld indirect kan versterken. Het is een benadering van ‘als je niet kunt verslaan, leid ze dan’.
Bron: Search Engine Journal