Hugging Face, la plataforma de herramientas de aprendizaje automático y comunidad de inteligencia artificial, anunció el lanzamiento de HuggingChat, un clon de ChatGPT de código abierto que cualquiera puede usar o descargar para sí mismo.

Hugging Face

Hugging Face es una empresa y comunidad de inteligencia artificial. Proporciona acceso a herramientas de código abierto gratuitas para desarrollar aplicaciones de aprendizaje automático e inteligencia artificial.

Uno de los proyectos recientemente completados de Hugging Face es un modelo de lenguaje grande de 176 mil millones de parámetros llamado Bloom, disponible para cualquiera que acepte cumplir con su licencia responsable de IA.

Hay acceso a modelos de código abierto en diversas categorías como multimodal, visión, audio, procesamiento de lenguaje natural y aprendizaje por refuerzo.

Hugging Face también aloja conjuntos de datos y bibliotecas de código abierto y sirve como una forma de que los equipos colaboren, incluyendo un repositorio similar a GitHub.

Muchos de los servicios están disponibles de forma gratuita, en niveles profesional y empresarial.

HuggingChat

El clon de ChatGPT HuggingChat se basa en el modelo de inteligencia artificial conversacional de asistente abierto.

El propio Asistente Abierto es un proyecto de la organización sin fines de lucro Large-scale Artificial Intelligence Open Network (LAION).

LAION es una organización global sin fines de lucro dedicada a proporcionar acceso a tecnología de vanguardia como código abierto.

Ellos escriben:

  • "NUESTRA CREENCIA
  • Creemos que la investigación del aprendizaje automático y sus aplicaciones tienen el potencial de tener un gran impacto positivo en nuestro mundo y, por lo tanto, deben democratizarse.
  • NUESTRAS METAS PRINCIPALES
  • Liberar conjuntos de datos, código y modelos de aprendizaje automático de código abierto.
  • Queremos enseñar los conceptos básicos de la investigación de ML a gran escala y la gestión de datos.
  • Al hacer que los modelos, conjuntos de datos y código sean reutilizables sin la necesidad de entrenar desde cero todo el tiempo, queremos promover un uso eficiente de la energía y los recursos informáticos para enfrentar los desafíos del cambio climático".
  • La página de GitHub para el modelo de chat del Asistente Abierto dice:
  • "El Asistente Abierto es un proyecto destinado a dar acceso a todos a un gran modelo de lenguaje basado en chat.
  • Creemos que al hacer esto crearemos una revolución en la innovación en el lenguaje.
  • De la misma manera que la difusión estable ayudó al mundo a hacer arte e imágenes de nuevas formas, esperamos que el Asistente Abierto pueda ayudar a mejorar el mundo mejorando el lenguaje en sí".
  • Conjunto de datos de entrenamiento de HuggingChat
  • HuggingChat fue entrenado con el conjunto de datos de conversaciones de Asistente Abierto (OASST1), que es muy nuevo, que contiene datos que se recopilaron hasta el 12 de abril de 2023.
  • El documento de investigación del conjunto de datos data de abril de 2023 (Conversaciones del Asistente Abierto - Democratizando el alineamiento del modelo de lenguaje grande - PDF).
  • Este modelo utiliza la misma metodología de entrenamiento creada por OpenAI llamada aprendizaje por refuerzo de retroalimentación humana (RLHF).
  • RLHF es una técnica para crear un conjunto de datos de preguntas y respuestas humanas de alta calidad y calificadas por calidad que se pueden utilizar para entrenar una IA para seguir instrucciones.
  • Con este lanzamiento, lograron su objetivo de poner la técnica RLHF al alcance de cualquiera que quiera entrenar una IA.
  • El documento de investigación señaló:
  • "En un esfuerzo por democratizar la investigación sobre el alineamiento a gran escala, lanzamos Conversaciones del asistente Abierto, un corpus de conversación de estilo asistente generado por humanos y anotado por humanos que consta de 161,443 mensajes distribuidos en 66,497 árboles de conversación, en 35 idiomas diferentes, anotados con 461,292 calificaciones de calidad".

El conjunto de datos es producto de un esfuerzo mundial de crowdsourcing que involucró a más de 13.000 voluntarios.

El crowdsourcing fue una buena manera de generar un conjunto de datos de entrenamiento multilingüe que contribuyó a un conjunto de datos de alta calidad.

Sin embargo, según los investigadores, el enfoque de crowdsourcing también introdujo limitaciones en la calidad del conjunto de datos en forma de prejuicios culturales y subjetivos de los individuos que crearon y calificaron los datos de entrenamiento.

También advirtieron que los participantes más comprometidos tendían a contribuir más, creando así una distribución desigual de sus valores y prejuicios.

Los investigadores concluyen que el conjunto de datos puede que no represente la diversidad de puntos de vista de todos los colaboradores.

Por ejemplo, enviaron una encuesta a su canal de Discord (solo en inglés) solicitando a sus colaboradores de código abierto preguntas relacionadas con su demografía (pero no de etnicidad).

Dejando de lado el sesgo del idioma, los resultados de la encuesta revelaron que de los 226 encuestados, 201 eran hombres, 10 mujeres, cinco se identificaron como no binarios / otros y 10 se negaron a responder.

Sin embargo, aunque no garantizan al 100% que el conjunto de datos esté libre de contenido perjudicial, aún lo respaldan porque se creó con estrictas pautas de calidad.

Los investigadores escriben:

  • "Para garantizar la calidad de nuestro conjunto de datos, hemos establecido pautas estrictas para los colaboradores que todos los usuarios deben seguir.
  • Estas directrices están diseñadas para evitar que se agregue contenido perjudicial a nuestro conjunto de datos y para alentar a los colaboradores a generar respuestas de alta calidad".
  • HuggingChat está disponible

HuggingChat está disponible para los usuarios en este momento. No es necesario registrarse para crear una cuenta de inicio de sesión para usarlo.

No espere un nivel de salida de ChatGPT, el servicio aún no está en ese nivel. La página de la aplicación lo enumera como versión 0.0, lo que debería dar una idea de cuán maduro está en este momento.

No obstante, es un logro notable y los primeros pasos para la comunidad de código abierto y no tiene ningún costo usarlo.

Visite la página web y la interfaz de usuario de HuggingChat aquí:

  • HuggingChat página web e interfaz de usuario