Mejorando la tecnología just walk out con IA multimodal

Elena Digital López

Desde su lanzamiento en 2018, la tecnología Just Walk Out de Amazon ha revolucionado la experiencia de compra al permitir a los clientes ingresar a una tienda, recoger productos y salir sin hacer fila para pagar. Esta tecnología de caja sin fricciones se encuentra en más de 180 ubicaciones de terceros en todo el mundo, incluidos minoristas de viajes, estadios deportivos, lugares de entretenimiento, centros de conferencias, parques temáticos, tiendas de conveniencia, hospitales y campus universitarios. El sistema de Just Walk Out determina automáticamente qué productos elige cada cliente en la tienda y proporciona recibos digitales, eliminando la necesidad de colas para pagar.

En esta publicación, destacamos la última generación de la tecnología Just Walk Out de Amazon, impulsada por un modelo de base multi-modal (FM) de última generación. Diseñamos este modelo multi-modal para tiendas físicas utilizando una arquitectura basada en transformadores similar a la que subyace a muchas aplicaciones de inteligencia artificial generativa. El modelo ayudará a los minoristas a generar recibos de compra altamente precisos utilizando datos de múltiples entradas, incluidos videocámaras aéreas, sensores de peso especializados en los estantes, planos digitales del piso e imágenes del catálogo de productos.

Nuestros esfuerzos en investigación y desarrollo (I+D) en modelos multi-modales de última generación permiten que el sistema Just Walk Out se implemente en una amplia gama de situaciones de compra con mayor precisión y a un menor costo. Similar a los grandes modelos de lenguaje que generan texto, el nuevo sistema Just Walk Out está diseñado para generar un recibo de venta preciso para cada comprador que visite la tienda.

Debido a su entorno innovador sin cajas, las tiendas Just Walk Out nos presentaron un desafío técnico único. Tanto los minoristas como los compradores, así como Amazon, exigen una precisión de casi el 100 por ciento en la revisión, incluso en las situaciones de compra más complejas. Estas incluyen comportamientos de compra inusuales que pueden crear una secuencia larga y complicada de actividades que requieren un esfuerzo adicional para analizarlas.

Las generaciones anteriores del sistema Just Walk Out utilizaban una arquitectura modular que abordaba situaciones de compra complejas desglosando la visita del comprador en tareas discretas, como la detección de interacciones del comprador, el seguimiento de artículos, la identificación de productos y el conteo de lo seleccionado. Estos componentes individuales se integraban luego en tuberías secuenciales para habilitar la funcionalidad general del sistema. Si bien este enfoque producía recibos altamente precisos, se requerían esfuerzos de ingeniería significativos para abordar desafíos en situaciones nuevas y no encontradas previamente, lo que limitaba la escalabilidad de este enfoque.

Para enfrentar estos desafíos, introdujimos un nuevo FM multi-modal diseñado específicamente para entornos de tiendas minoristas, permitiendo que la tecnología Just Walk Out maneje escenarios de compra en el mundo real complejos. El nuevo FM multi-modal mejora aún más las capacidades del sistema Just Walk Out al generalizar de manera más efectiva a nuevos formatos de tiendas, productos y comportamientos de clientes, lo cual es crucial para escalar la tecnología Just Walk Out.

La incorporación del aprendizaje continuo permite que la capacitación del modelo se adapte y aprenda automáticamente de los nuevos escenarios desafiantes a medida que surgen. Esta capacidad de auto-mejora ayuda a garantizar que el sistema mantenga un alto rendimiento, incluso cuando los entornos de compra continúan evolucionando.

A través de esta combinación de aprendizaje de extremo a extremo y generalización mejorada, el sistema Just Walk Out puede abordar una gama más amplia de entornos minoristas dinámicos y complejos. Los minoristas pueden implementar con confianza esta tecnología, sabiendo que proporcionará una experiencia de compra sin fricciones para sus clientes.

Los elementos clave de nuestro modelo de IA multi-modal Just Walk Out incluyen entradas de datos flexibles, las cuales rastrean cómo interactúan los usuarios con productos y muebles, como estantes o refrigeradores. Se basa principalmente en transmisiones de video de múltiples vistas como entradas, utilizando sensores de peso únicamente para rastrear artículos pequeños. El modelo mantiene una representación digital en 3D de la tienda y puede acceder a imágenes de catálogo para identificar productos, incluso si el comprador devuelve los artículos al estante incorrectamente.

Los datos multi-modales se procesan mediante codificadores que los comprimen en tokens de transformadores, la unidad básica de entrada para el modelo de recibo. Esto permite que el modelo interprete movimientos de manos, diferencie entre artículos y cuente con precisión la cantidad de artículos recogidos o devueltos al estante con velocidad y precisión. Además, el sistema utiliza estos tokens para crear recibos digitales para cada comprador, diferenciando entre diferentes sesiones de compra y actualizando dinámicamente cada recibo a medida que se recogen o devuelven artículos.

Para entrenar el FM de Just Walk Out, hemos invertido en una infraestructura robusta que puede procesar de manera eficiente las enormes cantidades de datos necesarias para entrenar redes neuronales de alta capacidad que imitan la toma de decisiones humanas. Construimos la infraestructura para nuestro modelo Just Walk Out con la ayuda de varios servicios de Amazon Web Services (AWS), incluidos Amazon Simple Storage Service (Amazon S3) para el almacenamiento de datos y Amazon SageMaker para la capacitación.

En conclusión, con nuestra abordagem innovadora, estamos alejándonos de los sistemas modulares de IA que dependen de subcomponentes e interfaces definidos por humanos. En su lugar, estamos construyendo sistemas de IA más simples y escalables que pueden entrenarse de extremo a extremo. Aunque solo hemos comenzado, la IA multi-modal ha elevado el estándar para nuestro ya altamente preciso sistema de recibos y nos permitirá mejorar la experiencia de compra en más tiendas con tecnología Just Walk Out en todo el mundo.

Scroll al inicio