Informe de noticias Tecnología
Marzo 15, 2023

Facebook desarrolla un nuevo método para duplicar el rendimiento de los transformadores de IA

En Resumen

Facebook ha desarrollado un nuevo método para duplicar el rendimiento de los transformadores de IA basado en la arquitectura del transformador.

El nuevo método encuentra los parches más similares en los espacios entre el procesamiento de diferentes bloques y los combina para reducir la complejidad computacional.

Facebook ha desarrollado un nuevo método para duplicar el rendimiento de los transformadores AI. el metodo es basado en la arquitectura del transformador y está diseñado específicamente para texto de formato largo, como libros, artículos y blogs. El objetivo del nuevo AI transformer es mejorar el rendimiento de modelos basados ​​en transformadores en texto de formato largo haciéndolos más eficientes y efectivos en el manejo de secuencias largas. Los resultados del transformador AI son muy prometedores y este nuevo método tiene la posibilidad de ayudar a mejorar el rendimiento de los modelos basados ​​en transformadores en una variedad de tareas.

Se espera que este nuevo método tenga un impacto significativo en las tareas de procesamiento del lenguaje natural, como la traducción de idiomas, el resumen y los sistemas de preguntas y respuestas. También se espera que conduzca al desarrollo de modelos de IA más sofisticados que puedan manejar textos más largos y complejos.

Facebook desarrolló un nuevo método para duplicar el rendimiento de los transformadores de IA
Más información: Más de 10 mejores editores de fotos AI 2023: en línea y gratis

Para procesar la imagen, los transformadores modernos la cortan en parches (generalmente cuadrados: vea el gif a continuación) y luego operan en representaciones de estas partículas, cada una de las cuales está representada por un "token". Los transformadores, como sabemos, funcionan más lentamente cuanto más de estos tokens haya (esto se aplica tanto a los textos como a las imágenes), y el transformador más común tiene una relación cuadrática. Es decir, a medida que se agregan más tokens, más lento se vuelve el procesamiento. Para abordar este problema, los investigadores propusieron varias técnicas para reducir la cantidad de tokens necesarios para el procesamiento de imágenes, como la agrupación jerárquica y adaptativa. Estos métodos tienen como objetivo mantener la calidad de la salida y minimizar el costo computacional.

El nuevo método encuentra los parches más similares en los espacios entre el procesamiento de diferentes bloques y los combina para reducir la complejidad computacional. La proporción de tokens fusionados es un hiperparámetro; cuanto mayor sea, menor será la calidad, pero también mayor será la aceleración. Los experimentos muestran que es posible fusionar aproximadamente el 40 % de los tokens con una pérdida de calidad de 0.1-0.4 % y obtener el doble de aceleración (consumiendo menos memoria). Este nuevo método es una solución prometedora para reducir la complejidad computacional del procesamiento de imágenes y podría permitir un procesamiento más rápido y eficiente sin comprometer la calidad del resultado final.

Cuando visualizamos qué parches fusionamos, podemos ver que están 1) cerca uno del otro y 2) describen el mismo objeto (ver áreas del mismo color en el GIF). Es decir, no se pierde información significativa; el objeto permanece “en el campo de visión” del modelo. Cuanto más tarde se aplique esto en el transformador, más tokens se fusionarán (ya que estas son representaciones de nivel superior que describen bien el contenido de la imagen).

Estos enfoques de ingeniería basados ​​en el ingenio y la comprensión de cómo funciona algo parecen muy atractivos. Además, los desarrolladores de Meta prometen traer más a StableDiffusion para acelerar las cosas allí también. Es increíble que, debido a que los transformadores están en todas partes, tales trucos se puedan implementar rápidamente en una amplia gama de modelos. Esto muestra el potencial de las soluciones de ingeniería para tener un amplio impacto en varias industrias. Será interesante ver cómo estos avances en modelos de transformadores seguirá evolucionando y mejorando con el tiempo.

  • Meta AI y Paperswithcode han lanzado el primer modelo 120B Galactica entrenado en textos científicos, lo que permite predicciones más precisas y rápidas. El objetivo de Galactica es ayudar a los investigadores a separar lo importante de lo irrelevante.

Leer más noticias relacionadas:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
Empresa Informe de noticias Tecnología
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
3 de mayo de 2024
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
Industrias Informe de noticias Tecnología
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
3 de mayo de 2024
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
Industrias Informe de noticias Tecnología
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
3 de mayo de 2024
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
Empresa Informe de noticias Tecnología
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
3 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.