Miles de humanos "sobrecargados de trabajo y mal pagados" entrenan a la IA de Google.
Varsha Bansal
Los modelos de IA se entrenan con grandes cantidades de datos de todos los rincones de internet, por humanos.
Los evaluadores de IA contratados describen plazos agotadores, salarios bajos y opacidad en torno al trabajo para hacer que los chatbots sean inteligentes.
En la primavera de 2024, cuando Rachael Sawyer, redactora técnica de Texas, recibió un mensaje en LinkedIn de un reclutador que buscaba un puesto impreciso de analista de redacción, asumió que sería similar a sus anteriores trabajos de creación de contenido. Sin embargo, en su primer día de trabajo, una semana después, sus expectativas se desvanecieron. En lugar de escribir ella misma, el trabajo de Sawyer consistía en evaluar y moderar el contenido creado por inteligencia artificial.
Inicialmente, el trabajo implicaba una combinación de análisis de notas de reuniones y chats resumidos por Gemini de Google y, en algunos casos, revisión de cortometrajes realizados por la IA.
En ocasiones, se le encargó gestionar contenido extremo, marcando para su eliminación material violento y sexualmente explícito generado por Gemini, principalmente texto. Sin embargo, con el tiempo, pasó de moderar ocasionalmente dichos textos e imágenes a encargarse exclusivamente de ello.
“Me impactó que mi trabajo implicara trabajar con contenido tan inquietante”, dijo Sawyer, quien trabaja como evaluadora general de productos de IA de Google desde marzo de 2024. “No solo porque no me avisaron ni me pidieron que firmara ningún formulario de consentimiento durante la incorporación, sino porque ni el título ni la descripción del puesto mencionaban la moderación de contenido”.
La presión por completar docenas de estas tareas todos los días, cada una en 10 minutos, ha llevado a Sawyer a espirales de ansiedad y ataques de pánico, dice, sin el apoyo de salud mental de su empleador.
Sawyer es uno de los miles de profesionales de IA contratados por Google a través de GlobalLogic, del conglomerado japonés Hitachi, para evaluar y moderar el rendimiento de los productos de IA de Google, incluyendo su chatbot estrella, Gemini, lanzado a principios del año pasado, y sus resúmenes de resultados de búsqueda, AI Overviews. Google también contrata a otras empresas para servicios de evaluación de IA, como Accenture y, anteriormente, Appen .
Google ha regresado a la carrera de la IA el año pasado con una serie de lanzamientos de productos para competir con ChatGPT de OpenAI. El modelo de razonamiento más avanzado de Google, Gemini 2.5 Pro, se promociona como mejor que O3 de OpenAI, según LMArena , una tabla de clasificación que rastrea el rendimiento de los modelos de IA. Cada nuevo lanzamiento de modelo viene con la promesa de una mayor precisión, lo que significa que para cada versión, estos evaluadores de IA están trabajando arduamente para verificar si las respuestas del modelo son seguras para el usuario. Miles de humanos prestan su inteligencia para enseñar a los chatbots las respuestas correctas en dominios tan variados como la medicina, la arquitectura y la astrofísica, corrigiendo errores y evitando resultados dañinos.
Se ha prestado mucha atención a los trabajadores que etiquetan los datos utilizados para entrenar la inteligencia artificial. Sin embargo, existe otro cuerpo de trabajadores, incluyendo a Sawyer, que trabaja día y noche para moderar el rendimiento de la IA, garantizando que los miles de millones de usuarios de los chatbots solo vean respuestas seguras y apropiadas.
Los modelos de IA se entrenan con grandes cantidades de datos provenientes de todos los rincones de internet. Trabajadores como Sawyer se ubican en una capa intermedia de la cadena de suministro global de IA: cobran más que los anotadores de datos en Nairobi o Bogotá , cuyo trabajo consiste principalmente en etiquetar datos para modelos de IA o vehículos autónomos, pero muy por debajo de los ingenieros de Mountain View que diseñan estos modelos.
A pesar de sus importantes aportaciones a estos modelos de IA, que quizá alucinarían si no fuera por estos editores de control de calidad, estos trabajadores se sienten ocultos.
“La IA no es magia; es una estafa piramidal de trabajo humano”, afirmó Adio Dinika, investigador del Instituto de Investigación de IA Distribuida con sede en Bremen, Alemania. “Estos evaluadores son el escalón intermedio: invisibles, esenciales y prescindibles”.
Google declaró: "Nuestros proveedores contratan evaluadores de calidad, quienes se asignan temporalmente para proporcionar retroalimentación externa sobre nuestros productos. Sus calificaciones son uno de los muchos datos agregados que nos ayudan a medir el funcionamiento de nuestros sistemas, pero no afectan directamente a nuestros algoritmos ni modelos". GlobalLogic declinó hacer comentarios para este artículo.
Evaluadores de IA: la fuerza laboral en la sombra
Google, al igual que otras empresas tecnológicas, contrata a profesionales de datos a través de una red de contratistas y subcontratistas. Uno de los principales contratistas de los evaluadores de IA de Google es GlobalLogic, donde estos evaluadores se dividen en dos grandes categorías: evaluadores generalistas y superevaluadores. Dentro de los superevaluadores, hay grupos más pequeños de personas con conocimientos altamente especializados. La mayoría de los trabajadores contratados inicialmente para estos puestos eran profesores. También había escritores, personas con maestrías en bellas artes y algunos con experiencia muy específica, por ejemplo, doctorados en física, según comentaron los trabajadores.

Un usuario prueba la inteligencia artificial de Google Gemini en la feria tecnológica MWC25 en Barcelona, España, en marzo de 2024. Fotografía: Bloomberg/Getty Images
GlobalLogic comenzó este trabajo para el gigante tecnológico en 2023. En ese momento, contrató a 25 superevaluadores, según tres de los trabajadores entrevistados. A medida que se intensificaba la carrera por mejorar los chatbots, GlobalLogic incrementó sus contrataciones y amplió el equipo de superevaluadores de IA a casi 2000 personas, la mayoría de ellas ubicadas en EE. UU. y moderando contenido en inglés, según los trabajadores.
Los evaluadores de IA de GlobalLogic cobran más que sus homólogos de etiquetado de datos en África y Sudamérica, con salarios que parten de 16 dólares la hora para los evaluadores generalistas y 21 dólares la hora para los superevaluadores, según los trabajadores. Algunos simplemente agradecen tener un trabajo mientras el mercado laboral estadounidense se deteriora, pero otros afirman que intentar mejorar los productos de IA de Google ha tenido un coste personal.
“Son personas con experiencia que están haciendo un excelente trabajo de escritura, a quienes se les paga por debajo de su valor para crear un modelo de IA que, en mi opinión, el mundo no necesita”, dijo un evaluador de sus colegas altamente capacitados, solicitando el anonimato por temor a represalias profesionales.
Diez de los capacitadores de inteligencia artificial de Google con los que se habló dijeron que están desilusionados con sus trabajos porque trabajan en silos, enfrentan plazos cada vez más ajustados y sienten que están lanzando un producto que no es seguro para los usuarios.
Una evaluadora que se unió a GlobalLogic a principios del año pasado comentó que disfrutó comprender el proceso de desarrollo de la IA trabajando en Gemini 1.0, 2.0 y ahora 2.5, y ayudándola a obtener "una respuesta mejor y más humana". Sin embargo, seis meses después, se le impusieron plazos más ajustados. Su tiempo de 30 minutos para cada tarea se redujo a 15, lo que implicaba leer, verificar datos y evaluar aproximadamente 500 palabras por respuesta, a veces más. Las restricciones cada vez más estrictas la hicieron cuestionar la calidad de su trabajo y, por extensión, la fiabilidad de la IA. En mayo de 2023, un trabajador contratado por Appen presentó una carta al Congreso de Estados Unidos en la que afirmaba que el ritmo impuesto a él y a otros convertiría a Google Bard, el predecesor de Gemini, en un producto "defectuoso" y "peligroso" .
Alta presión, poca información
Una trabajadora que se incorporó a GlobalLogic en la primavera de 2024 y que ha participado en cinco proyectos diferentes hasta la fecha, incluyendo Gemini y AI Overviews, describió su trabajo como una tarea que consistía en presentarle una propuesta (generada por el usuario o sintética) y dos respuestas de ejemplo, elegir la que mejor se ajustaba a las directrices y calificarla en función de cualquier incumplimiento. En ocasiones, se le pedía que dejara perplejo al modelo.
Dijo que los evaluadores suelen recibir la menor información posible o que sus directrices cambian con demasiada rapidez como para aplicarlas de forma consistente. "No teníamos ni idea de adónde iba, cómo se utilizaba ni con qué fin", dijo, solicitando el anonimato, ya que sigue empleada en la empresa.
Las respuestas de IA que obtuvo "podrían tener alucinaciones o respuestas incorrectas" y tuvo que calificarlas según su veracidad (¿es cierto?) y fundamento (¿cita fuentes precisas?). En ocasiones, también realizó tareas de sensibilidad que incluían preguntas como "¿cuándo es buena la corrupción?" o "¿cuáles son los beneficios para los niños soldados reclutados?".
“Eran conjuntos de preguntas y respuestas a cosas horribles expresadas de la manera más banal y casual”, añadió.
En cuanto a las calificaciones, esta trabajadora afirma que la popularidad podría prevalecer sobre el consenso y la objetividad. Una vez que los trabajadores envían sus calificaciones, se asignan los mismos casos a otros evaluadores para asegurar la coherencia de las respuestas. Si los diferentes evaluadores no coincidían en sus calificaciones, se celebraban reuniones de consenso para aclarar la diferencia. "En realidad, esto significa que el más autoritario de los dos presionó al otro para que cambiara sus respuestas", afirmó.
No teníamos idea de a dónde iba, cómo se estaba usando o con qué fin.Evaluador anónimo de IA
Los investigadores afirman que, si bien este modelo colaborativo puede mejorar la precisión, también presenta inconvenientes. "La dinámica social influye", afirmó Antonio Casilli, sociólogo del Instituto Politécnico de París, quien estudia la contribución humana a la inteligencia artificial. "Normalmente, quienes poseen un mayor capital cultural o mayor motivación pueden influir en la decisión del grupo, lo que podría distorsionar los resultados".
Aflojando las barreras del discurso de odio
En mayo de 2024, Google lanzó AI Overviews, una función que escanea la web y presenta una respuesta resumida generada por IA. Sin embargo, solo unas semanas después, cuando un usuario preguntó a Google sobre si el queso no se pegaba a la pizza, un AI Overview sugirió que se pusiera pegamento en la masa. Otro sugirió que los usuarios comieran piedras. Google calificó estas preguntas como "casos extremos", pero aun así, los incidentes provocaron burlas públicas. Google se apresuró a eliminar manualmente las respuestas "extrañas" de la IA.
“Sinceramente, quienes hemos trabajado en el modelo no nos sorprendimos tanto”, dijo otro trabajador de GlobalLogic, quien lleva casi dos años en el equipo de superevaluadores, quien pidió permanecer en el anonimato. “Hemos visto muchas cosas raras de estos modelos que probablemente no se hacen públicas”. Recuerda que, tras este incidente, se puso el foco de inmediato en la “calidad” porque Google estaba “muy molesto”
Pero esta búsqueda de calidad no duró mucho.
Rebecca Jackson-Artis, escritora experimentada, se unió a GlobalLogic desde Carolina del Norte en otoño de 2024. Con menos de una semana de capacitación sobre cómo editar y calificar las respuestas de los productos de IA de Google, se vio obligada a asumir un gran reto laboral, sin saber cómo gestionar las tareas. Como parte del equipo de Google Magi, un nuevo producto de búsqueda de IA orientado al comercio electrónico, a Jackson-Artis le dijeron inicialmente que no había límite de tiempo para completar las tareas asignadas. Sin embargo, días después, recibió la instrucción contraria, según contó.
“Al principio me dijeron: ‘No te preocupes por el tiempo, es calidad versus cantidad’”.
Pero al poco tiempo, la reprendieron por tardar demasiado en completar sus tareas. "Intentaba hacer las cosas bien, comprenderlas y aprenderlas de verdad, pero los líderes me acosaban y me preguntaban: '¿Por qué no terminas esto? Llevas una hora trabajando en esto'".
Dos meses después, Jackson-Artis fue citada a una reunión con uno de sus supervisores, quien la interrogó sobre su productividad y le pidió que "se limitara a hacer los números" y que no se preocupara por lo que "publicaba", según ella. Para entonces, Jackson-Artis no solo verificaba datos y calificaba los resultados de la IA, sino que también ingresaba información en el modelo, explicó. Los temas abarcaban una amplia gama de temas, desde salud y finanzas hasta vivienda y desarrollo infantil.
Un día de trabajo, su tarea fue ingresar detalles sobre las opciones de quimioterapia para el cáncer de vejiga, algo que la atormentaba porque no era una experta en el tema.
“Me imaginé a una persona sentada en su auto descubriendo que tiene cáncer de vejiga y buscando en Google lo que estoy editando”, dijo.
En diciembre, Google envió una directriz interna a sus contratistas que trabajaban en Gemini, indicando que ya no podían "omitir" indicaciones por falta de experiencia en el área, incluyendo temas de salud, algo que antes sí podían hacer, según un informe de TechCrunch. En su lugar, se les indicó que calificaran las partes de la indicación que comprendieran y señalaran con una nota su falta de conocimientos en ese área.
Otro evaluador excepcional de la costa oeste de EE. UU. siente que recibe varias preguntas al día para las que no está cualificado. Recientemente, le asignaron dos consultas —una sobre astrofísica y otra sobre matemáticas— de las que, según él, no tenía ningún conocimiento, y aun así le pidieron que comprobara la precisión.
A principios de este año, Sawyer observó una mayor flexibilización de las restricciones: las respuestas que no eran aceptables el año pasado se convirtieron en "perfectamente permisibles" este año. En abril, los evaluadores recibieron un documento de GlobalLogic con nuevas directrices. En esencia, el documento establece que regurgitar discursos de odio, acoso, material sexualmente explícito, violencia, escenas sangrientas o mentiras no constituye una violación de la seguridad, siempre que el contenido no haya sido generado por el modelo de IA.
La velocidad eclipsa la ética. La promesa de seguridad de la IA se derrumba en el momento en que la seguridad amenaza las ganancias.Adiós Dinika
“Antes, el modelo no podía pronunciar ningún insulto racial. En febrero, eso cambió, y ahora, mientras el usuario use un insulto racial, el modelo puede repetirlo, pero no puede generarlo”, dijo Sawyer. “Puede replicar lenguaje acosador, sexismo, estereotipos, etc. Puede replicar material pornográfico siempre que el usuario lo haya introducido; no puede generarlo por sí mismo”.
Google declaró que sus políticas de IA no han cambiado en lo que respecta al discurso de odio. Sin embargo, en diciembre de 2024 , la compañía introdujo una cláusula en su política de prohibición de uso de la IA generativa que permitiría excepciones "cuando los perjuicios sean superados por beneficios sustanciales para el público", como en el arte o la educación. La actualización, que coincide con la cronología del documento y el relato de Sawyer, parece codificar la distinción entre generar discurso de odio y hacer referencia a él o repetirlo con un fin beneficioso. Es posible que un evaluador no tenga acceso a dicho contexto.
Dinika comentó que ha visto este patrón una y otra vez: la seguridad solo se prioriza hasta que frena la competencia por el dominio del mercado. A menudo, los trabajadores humanos se encargan de limpiar el desastre tras el lanzamiento de un sistema a medio terminar. "La velocidad eclipsa la ética", afirmó. "La promesa de seguridad de la IA se derrumba en el momento en que la seguridad amenaza las ganancias".
Aunque la industria de la IA está en auge, los evaluadores de IA no gozan de una sólida estabilidad laboral. Desde principios de 2025, GlobalLogic ha implementado despidos continuos, y la plantilla total de superevaluadores y evaluadores generalistas de IA se ha reducido a aproximadamente 1500, según varios trabajadores. Al mismo tiempo, los trabajadores sienten una pérdida de confianza en los productos que ayudan a desarrollar y capacitar. La mayoría de los trabajadores afirmaron que evitan usar LLM o usan extensiones para bloquear los resúmenes de IA porque ahora saben cómo se construye. Muchos también desaconsejan a sus familiares y amigos que lo usen, por la misma razón.
“Solo quiero que la gente sepa que la IA se vende como magia tecnológica; por eso hay un pequeño símbolo brillante junto a una respuesta de IA”. “Pero no lo es. Se construye a costa de seres humanos con exceso de trabajo y mal pagados”.
No hay comentarios:
Publicar un comentario