Lanzamiento de LLaMA 3: Meta explica su modelo de IA

0
631
Lanzamiento de LLaMA 3: Meta explica su modelo de IA
Lanzamiento de LLaMA 3: Meta explica su modelo de IA

Meta tiene como meta hacer que este modelo de lenguaje sea multilingüe y multimodal

Meta, la empresa tecnológica, ha presentado LLaMA 3, la última versión de su modelo de lenguaje grande (LLM). Esta nueva generación ofrece modelos preentrenados y ajustados para adaptarse a una amplia variedad de puntos de referencia, lo que mejora capacidades como el razonamiento, la codificación y el seguimiento de instrucciones mediante inteligencia artificial.

Los modelos de lenguaje de LLaMA 3 están preentrenados y configurados con 8 mil millones (8B) y 70 mil millones (70B) de parámetros, lo que incluye variables internas específicas del algoritmo de aprendizaje. Estos modelos pueden adaptarse a una amplia gama de aplicaciones y casos de uso.

LLaMA 3 se basa en un modelo de código abierto de última generación que busca integrar las opiniones y sugerencias de los desarrolladores para mejorar su utilidad general. Además, Meta ha adoptado una ética de código abierto que se centra en la publicación rápida y frecuente, permitiendo así que la comunidad acceda a estos modelos mientras continúan en desarrollo.

Los modelos de texto lanzados por Meta son los primeros de la serie de modelos LLaMA 3. En el futuro cercano, la empresa aspira a convertir este modelo de lenguaje en uno multilingüe y multimodal, con un contexto más extenso y una mejora continua en las capacidades fundamentales de LLM, como el razonamiento y la codificación.

Durante la creación de LLaMA 3, la empresa se enfocó en mejorar el rendimiento del modelo en benchmarks estándar y se esforzó por optimizar su funcionamiento para situaciones del mundo real. Como parte de este proceso, se creó un conjunto de evaluación humana de alta calidad.

El conjunto de evaluación está compuesto por 1.800 preguntas que abarcan 12 casos de uso fundamentales, incluyendo solicitar consejos, generar ideas, clasificar, responder preguntas cerradas, codificar, redacción creativa, extracción de información, asumir un rol de personaje, responder preguntas abiertas, razonamiento, reescritura y resumen.

Meta ha limitado el acceso a sus propios equipos de modelado para evitar el sobreajuste involuntario de los modelos en este conjunto de evaluación. Además, en el desarrollo de un modelo lingüístico de gran envergadura, Meta ha adoptado una filosofía de diseño que se centra en cuatro aspectos clave: la arquitectura del modelo, los datos de preentrenamiento, la expansión del preentrenamiento y la adaptación de las instrucciones.

De esta manera, LLaMA 3 utiliza una arquitectura de transformador de un solo descodificador, que es una tecnología esencial en el ámbito del aprendizaje profundo y el procesamiento del lenguaje natural.

El recién lanzado modelo de lenguaje presenta varias mejoras importantes, incluyendo un tokenizador con un vocabulario de 128,000 tokens que codifica el lenguaje de manera más eficiente, lo que resulta en una mejora significativa en el rendimiento del modelo. Cada token representa una unidad indivisible del lenguaje, que puede ser una palabra, un número o un símbolo.

Con el fin de mejorar la eficacia de la inferencia de los modelos de LLaMA 3, Meta ha incorporado la atención de consultas agrupadas en los tamaños 8B y 70B. Además, los modelos fueron entrenados en secuencias de 8,192 tokens, con el uso de una máscara para asegurar que la autoatención no cruce los límites del documento.

Leer también:

Samsung vuelve a ser el líder mundial en venta de celulares