A nadie le gusta imaginar que se van a aprovechar de su trabajo de forma vil sin pagar nada a cambio. Por ello, son muchos los profesionales de Internet que piensan en formas de conseguir bloquear las IA para que no absorban su contenido. La mala noticia es que no es fácil hacerlo, pero la buena es que, al menos, es posible.
Hay que decir que, eso sí, quizá vas tarde para plantarle cara a la IA. El problema principal es que se están usando bases de datos enormes que están disponibles por la red y a las que las empresas con Chatbots acceden de manera indiscriminada para utilizar todo el contenido que puedan.
Eso significa que es posible que tu web ya esté dentro de esa lista de páginas de las que se ha sacado toda la información posible. Hay muchas bases de datos y archivos que recogen contenido y que son las que están utilizando las IA para alimentarse, entrenarse y aprender cada vez más.
Y son tantas las fuentes que utilizan, que toda esta situación asusta. No solo se limitan a absorber la Wikipedia, los principales portales o todas las webs corporativas, sino que los sistemas de las IA también aceptan incluso las publicaciones de Reddit que tienen, al menos, tres votos positivos. Con eso ya dan por válida que se trata de una información valiosa o interesante y la absorben.
Por lo tanto, ¿qué se puede hacer? Hay que bloquear que los sistemas de bases de datos almacenen tu web y tus contenidos. No es un plan 100% eficiciente, pero puedes probar a cargar este código en tu web para bloquear al CCBot User Agent en tu archivo robots.txt:
CCBot/2.0
User-agent: CCBot
Disallow: /
Además, en el meta tag de robots deberías añadir lo siguiente:
Eso sí, recuerda que cualquier bloqueo de este tipo de sistemas podría tener, en el futuro, consecuencias inesperadas. Es un asunto peliagudo del cual todavía se está investigando