Los chatbots de inteligencia artificial (IA) han explotado en popularidad en los últimos cuatro meses, dejando al público atónito con sus increíbles habilidades, desde escribir trabajos académicos sofisticados hasta mantener conversaciones sorprendentemente lúcidas.
Las empresas tecnológicas se han vuelto más reservadas sobre lo que alimentan a la IA. Por eso, The Washington Post se propuso analizar uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos que se utilizan para entrenar a una IA. Se trata de una instantánea masiva del contenido de 15 millones de sitios web que se han utilizado para instruir a algunos modelos de lenguaje de alto perfil en inglés, como el T5 de Google y el LLaMA de Facebook.
El análisis del Post sugiere que podrían surgir más desafíos legales: el símbolo de derechos de autor, que denota una obra registrada como propiedad intelectual, aparece más de 200 millones de veces en el conjunto de datos C4. También se encontró que headtopics.com, que alberga páginas de todo, desde un club de judo en Reading, Inglaterra, hasta una guardería católica en Nueva Jersey, era el quinto sitio de tecnología más grande y aloja decenas de miles de blogs bajo su dominio. Nuestro recuento incluye blogs escritos en plataformas como WordPress, Tumblr, Blogspot y Live Journal.
Las redes sociales como Facebook y Twitter, el corazón de la web moderna, prohíben el acceso a sus datos, lo que significa que la mayoría de los conjuntos de datos utilizados para entrenar la IA no pueden acceder a ellos. Los gigantes tecnológicos como Facebook y Google, que poseen enormes cantidades de datos conversacionales, no han sido claros acerca de cómo se puede utilizar la información personal de los usuarios para entrenar a los modelos de IA que son utilizados internamente o vendidos como productos. Al igual que la mayoría de las empresas, Google filtró en gran medida los datos antes de alimentar a la IA. Sin embargo, se ha demostrado que esto también elimina parte del contenido LGBTQ no sexual. Como han demostrado investigaciones anteriores, mucho contenido logra pasar los filtros. Encontramos cientos de ejemplos de sitios web pornográficos y más de 72,000 instancias de "esvástica", uno de los términos prohibidos de la lista. También encontramos un sitio caído que defendía una ideología antigubernamental compartida por personas acusadas en relación con el ataque al Capitolio de Estados Unidos el 6 de enero de 2021.
Titulares de Estados Unidos
Leer más: washingtonpost » Esta aplicación de ChatGPT para iPhone te permite usar el GPT-4 por mucho menos que ChatGPT Plus - Pal - A ChatBot Client es una aplicación para iPhone que te proporciona acceso al modelo GPT-4 por un precio más económico que la suscripción de $20 a ChatGPT Plus. Leer más ⮕El pin de Humane Ai de $1,000 es una mala noticia para los dispositivos baratos de ChatGPT - El dispositivo personal de IA Humane Ai Pin puede costar $1,000 y requiere una suscripción mensual para los datos, aquí te decimos lo que sabemos. Leer más ⮕
ChipNeMo: AI chatbot de NVIDIA similar a ChatGPT para semiconductores - Interesting Engineering es una comunidad de vanguardia diseñada para todos los amantes de la ingeniería, la tecnología y la ciencia. Leer más ⮕
Los Diez Mandamientos de ChatGPTChatGPT ha cambiado el juego para muchas profesiones. Ninguna más que en el mundo de la consultoría. Leer más ⮕
Google y Amazon invierten miles de millones en un competidor de ChatGPTLas grandes empresas tecnológicas están invirtiendo fuertemente en Claude, una IA centrada en la seguridad, justo cuando la Administración de Biden anuncia cambios en las políticas para la inteligencia artificial. Leer más ⮕
Análisis de las nuevas funciones de ChatGPT: una visión comparativa con MignedComparando las nuevas funciones de ChatGPT con Migned, una herramienta para la planificación de proyectos de TI. Evaluando el papel de la IA en la gestión de proyectos. Últimas actualizaciones en Hackernoon. Leer más ⮕