Compartir:
Anthropic ha dado un paso adelante en la inteligencia artificial al introducir una capacidad revolucionaria denominada «uso de computadoras». Esta nueva función permite que sus modelos cognitivos, conocidos como Claude, logren interpretar visualmente las interfaces digitales. La capacidad de estos modelos para identificar contenido en pantalla y comprender el contexto de los elementos de la interfaz de usuario (UI) ha marcado un avance significativo. Ahora pueden reconocer acciones tales como hacer clic en botones, escribir texto o navegar entre aplicaciones. No obstante, los modelos no ejecutan estas acciones por sí mismos; requieren una capa de orquestación que asegure la implementación segura de dichas acciones.
La integración de esta tecnología está ya disponible en Amazon Bedrock Agents, aprovechando los modelos Claude 3.5 Sonnet V2 y Claude Sonnet 3.7. Este sinergia entre la percepción visual de Anthropic y la gestión robusta de Amazon Bedrock ofrece una herramienta segura y auditada para la automatización en distintos flujos de trabajo.
Muchas organizaciones enfrentan actualmente desafíos al intentar automatizar tareas repetitivas que abarcan diversas aplicaciones y sistemas. Procesos tales como el manejo de facturas o la actualización de registros de clientes muchas veces obligan a los empleados a transferir manualmente información, lo que consume tiempo y es propenso a errores. La automatización tradicionalmente depende de integraciones de API personalizadas, generando una carga significativa de trabajo para los desarrolladores. Aquí es donde las capacidades de uso de computadoras alteran el juego, permitiendo a las máquinas percibir y actuar sobre las interfaces existentes de manera similar a cómo lo haría un humano.
Un ejemplo ilustrativo de esta tecnología es el agente de uso de computadora, que manifiesta la importancia de la capa de orquestación para transformar la capacidad de percepción en automatización activa. Sin esta orquestación, el uso de computadora solo podría identificar acciones sin ejecutarlas. Las demostraciones de agentes de uso de computadora presentan un entorno seguro donde cada acción es registrada, lo que facilita tanto la trazabilidad como las pruebas y experimentaciones.
Por medio de la incorporación de la funcionalidad de uso de computadoras, Amazon Bedrock Agents ahora puede automatizar tareas empleando acciones básicas de la interfaz gráfica y comandos integrados de Linux. Un agente podría, por ejemplo, tomar capturas de pantalla, crear y editar archivos de texto, además de ejecutar comandos de Linux. Incluye herramientas para interactuar con interfaces de usuario, editar texto y ejecutar comandos de Bash.
El flujo de trabajo para el uso de computadora abarca pasos como la creación del agente, la especificación de sus interacciones, la adición de grupos de acciones permitidas y la activación del agente con una consulta que requiera dicha capacidad. El agente analiza las herramientas disponibles y determina la acción a seguir, garantizando una ejecución precisa y segura.
Este avance tecnológico dota a los desarrolladores de una capacidad de automatizar tareas no solo de manera más eficiente sino también con un seguimiento que optimiza los flujos de trabajo organizacionales. Utilizando Amazon Bedrock Agents, las entidades pueden manejar procesos como el procesamiento de facturas o la gestión documental de recursos humanos de forma considerablemente más eficaz.
En definitiva, la inclusión de la capacidad de uso de computadoras en Amazon Bedrock Agents ofrece una solución transformadora para los retos de automatización en flujos de trabajo complejos, al eliminar la necesidad de APIs personalizadas y facilitar implementaciones rápidas. Esta tecnología promete potenciar las operaciones empresariales con niveles inéditos de eficiencia e innovación.