Compartir:
Amazon ha revelado una nueva función en su plataforma Amazon Bedrock que promete transformar el modo en que se generan las respuestas de modelos de lenguaje a gran escala. Esta innovación, conocida como «prompt caching», ya está disponible para el público general y podría cambiar significativamente la eficiencia operativa de modelos como Claude 3.5 Haiku y Claude 3.7 Sonnet.
El «prompt caching» tiene la capacidad de reducir la latencia de respuesta en hasta un 85% al mismo tiempo que disminuye los costos operativos en un notable 90%. Esto se logra mediante el almacenamiento en caché de los «prompts» más utilizados, permitiendo a los modelos acceder a datos preprocesados y evitando cálculos innecesarios en llamadas subsecuentes a la API.
El mecanismo detrás de esta funcionalidad permite a los usuarios marcar partes de sus solicitudes para ser almacenadas, conocidas como «prompt prefixes». Si un nuevo «prompt» contiene un «prefix» que coincide con aquellos guardados, el sistema accede directamente a esta memoria caché, eludiendo el proceso de computación tradicional. Esto no solo acelera el tiempo de respuesta, sino que maximiza el uso eficiente del hardware, traduciéndose en un ahorro económico para los usuarios.
Además de mejorar la rapidez, esta herramienta es ideal para tareas que necesitan manejar contextos largos y repetitivos, como servicios de chat automatizados, programas de asistencia en codificación o sistemas donde la coherencia es crucial. La clave para maximizar los beneficios del «prompt caching» reside en la estructuración inteligente de los «prompts», ubicando la información constante al inicio y la más específica al final.
Para evaluar el impacto de esta nueva función, Amazon proporcionará métricas detalladas de rendimiento, incluyendo el seguimiento del uso de tokens en la memoria caché, lo que permitirá a los desarrolladores afinar su gestión y optimizar aún más los recursos utilizados.
No obstante, es importante mencionar que, aunque el «prompt caching» ofrece ventajas significativas, su eficacia puede ser menor en situaciones con «prompts» extremadamente largos y variables. En tales casos, los desarrolladores deberán considerar cuidadosamente la estructura de sus «prompts» para asegurar el máximo provecho de este sistema innovador.
Esta función se complementa con la capacidad de Amazon Bedrock para elegir la región de AWS más adecuada para cada solicitud, garantizando la disponibilidad de recursos y modelos incluso en momentos de alta demanda. Con estas mejoras, Amazon sigue a la vanguardia en el campo de la inteligencia artificial, proporcionando herramientas cada vez más avanzadas a sus usuarios.