Los agentes de inteligencia artificial y el almacenamiento de datos
Los agentes de inteligencia artificial operan utilizando sistemas de archivos, empleando herramientas estándar para navegar por directorios y leer rutas de ficheros. Sin embargo, surge un desafío fundamental: una gran cantidad de datos empresariales reside en sistemas de almacenamiento de objetos, principalmente en Amazon S3. Este tipo de almacenamiento sirve los datos a través de llamadas a una API, no mediante rutas de archivos, lo que genera una brecha tecnológica.
Hasta ahora, superarla requería implementar una capa de sistema de archivos paralela a S3, duplicando los datos y creando complejos procesos de sincronización para mantener ambos sistemas alineados. El auge de la IA generativa y los sistemas de agentes ha intensificado este problema, afectando incluso a la propia capacidad de Amazon para ejecutar sus proyectos internos.
Los equipos de ingeniería de AWS que utilizaban herramientas como Kiro y Claude Code se encontraban repetidamente con el mismo obstáculo: los agentes recurrían por defecto a herramientas de archivos locales, pero los datos que necesitaban estaban en S3. La descarga local de los datos funcionaba temporalmente, pero el estado de la sesión se perdía en cuanto la ventana de contexto del agente se compactaba.
S3 Files: Una solución innovadora
La respuesta de Amazon a este dilema es S3 Files, una nueva solución que permite montar cualquier bucket de S3 directamente en el entorno local de un agente con un único comando. De este modo, los datos permanecen en S3, sin necesidad de migración.
Técnicamente, AWS conecta su tecnología Elastic File System (EFS) directamente con S3 para ofrecer una semántica de sistema de archivos completa y nativa, en lugar de una simple simulación. S3 Files ya está disponible en la mayoría de las regiones de AWS.
Andy Warfield, vicepresidente e ingeniero distinguido de AWS, explicó: «Al hacer que los datos en S3 estén disponibles de forma inmediata, como si formaran parte del sistema de archivos local, hemos logrado una aceleración muy significativa en la capacidad de herramientas como Kiro y Claude Code para trabajar con esos datos».
Incompatibilidad fundamental entre almacenamiento de archivos y de objetos
La incompatibilidad fundamental entre el almacenamiento de archivos y el de objetos radica en su diseño. S3 fue concebido para ofrecer durabilidad, escalabilidad y acceso basado en API a nivel de objeto, convirtiéndose en el estándar de facto para el almacenamiento de datos empresariales. No obstante, estas mismas propiedades lo hacen incompatible con las herramientas basadas en archivos de las que dependen desarrolladores y agentes de IA.
«S3 no es un sistema de archivos y carece de su semántica en muchos aspectos», afirmó Warfield. «No se puede realizar un movimiento atómico de un objeto, y en realidad no existen directorios en S3».
Intentos anteriores y limitaciones
Los intentos anteriores para solucionar esta desconexión se basaban en FUSE (Filesystems in USErspace), una capa de software que permite montar sistemas de archivos personalizados sin modificar el almacenamiento subyacente. Herramientas como Mount Point de AWS, gcsfuse de Google o blobfuse2 de Microsoft utilizaban controladores FUSE para que sus respectivos almacenamientos de objetos parecieran un sistema de archivos.
El problema, según Warfield, es que seguían sin serlo. Estos controladores o bien falseaban el comportamiento de los archivos introduciendo metadatos adicionales, lo que rompía la coherencia con la API de objetos, o bien rechazaban operaciones de archivo que el almacenamiento de objetos no podía soportar.
S3 Files y su arquitectura innovadora
S3 Files adopta una arquitectura completamente diferente al conectar EFS directamente a S3. Esto presenta una capa de sistema de archivos nativa y completa, manteniendo S3 como el sistema de registro principal. De esta forma, tanto la API del sistema de archivos como la API de objetos de S3 permanecen accesibles de forma simultánea sobre los mismos datos.
Para los agentes de IA, el impacto es inmediato. Ya no es necesario instruir explícitamente a un agente para que descargue los datos antes de utilizarlos, solucionando así el problema de la pérdida del estado de la sesión.
Warfield lo ilustra con un caso de análisis de logs: antes, un desarrollador debía indicar al agente dónde estaban los registros y ordenarle que los descargara; ahora, basta con señalar la ruta de archivo donde están montados para que el agente pueda acceder a ellos al instante.
Beneficios en sistemas multiagente
En sistemas multiagente, esta ventaja se multiplica. Varios agentes pueden acceder simultáneamente al mismo bucket montado. Según AWS, miles de recursos de computación pueden conectarse a un único sistema de archivos S3, alcanzando un rendimiento de lectura agregado de varios terabytes por segundo.
La gestión del estado compartido se realiza mediante convenciones estándar de sistemas de archivos, como subdirectorios o ficheros de notas compartidos. Este patrón ya está siendo utilizado internamente por los equipos de ingeniería de AWS.
Conclusiones del sector y futuro de S3 Files
Analistas del sector, como Jeff Vogel de Gartner, coinciden en que S3 Files es más que una simple mejora de FUSE. «S3 Files elimina el trasiego de datos entre el almacenamiento de objetos y el de archivos, convirtiendo S3 en un espacio de trabajo compartido de baja latencia sin necesidad de copiar datos. El sistema de archivos se convierte en una vista, no en otro conjunto de datos». Esta aproximación centralizada evita problemas de sincronización y elimina una clase entera de fallos, como los causados por metadatos obsoletos, que son notoriamente difíciles de depurar.









