Memoria visual en escenas reales
Memoria visual en escenas reales
El mundo no cabe en objetos aislados
Antes de entrar en el artículo, podemos volver un momento al cuerpo.
Ojos.
Respiración.
Cuello.
Pecho.
Pies.
Ahora, recordar una escena.
Una calle.
Una habitación.
Una escuela.
Una cocina.
Un rostro en la esquina de la imagen.
Una ventana abierta.
Una luz entrando.
Un objeto sobre la mesa.
No recordamos el mundo como una colección de cuadrados de colores flotando en el vacío.
Recordamos escenas.
Relaciones.
Profundidad.
Dirección.
Textura.
Contraste.
Ambiente.
Posibilidad de acción.
El artículo “A Population Vector Model of Visual Working Memory for Real-World Scenes”, de John E. Kiat y Steven J. Luck, entra exactamente en este punto: la memoria visual de trabajo necesita ser comprendida en escenas reales, no solo en objetos artificiales simplificados.
Para BrainLatam2026, este artículo es un puente directo hacia la idea de 3D interno, atención, espacios representacionales y Cuerpo-Territorio 5D.
Porque el mundo vivido no llega al cuerpo como objeto aislado.
Llega como campo.
La pregunta original del artículo
La pregunta central del artículo puede formularse así:
¿cómo representa la memoria visual de trabajo escenas complejas del mundo real?
La memoria visual de trabajo es fundamental para navegar e interactuar con ambientes complejos.
El problema es que gran parte de la investigación tradicional en esta área usó estímulos simples: objetos discretos, colores aislados, formas fáciles de separar y atributos definidos por un único valor.
Kiat y Luck parten justamente de ese límite.
Los modelos clásicos fueron muy útiles para el control experimental, pero tienen dificultad para explicar cómo el cerebro almacena temporalmente escenas naturales complejas, parecidas a fotografías, llenas de contornos, gradientes continuos y relaciones espaciales.
La pregunta es valiosa porque desplaza la memoria visual desde un laboratorio abstracto hacia un mundo más cercano a la vida.
Después de todo, en lo cotidiano, no memorizamos solo “un objeto rojo”.
Memorizamos:
un objeto rojo sobre una mesa,
en una habitación con poca luz,
cerca de una persona,
frente a una puerta,
dentro de un ambiente que puede sentirse seguro, extraño, bello, amenazante o familiar.
La memoria visual de trabajo no almacena solo ítems.
Sostiene mundo temporalmente.
Lo que el artículo realmente investigó
El artículo propone un modelo vectorial poblacional para explicar cómo las escenas reales pueden ser representadas en la memoria visual de trabajo.
La propuesta es representar una escena como un vector ruidoso de tasas de disparo neural en una o más áreas de la vía visual ventral, estimadas por un modelo de red neuronal profunda.
Con esto, los autores buscan aproximar comportamiento, actividad cerebral y modelado computacional en tareas que exigen almacenar escenas naturalísticas en la memoria de trabajo.
La materialidad científica del artículo pasa por cinco elementos principales:
escenas naturalísticas;
comportamiento en tareas de memoria;
EEG;
análisis de similitud representacional;
redes neuronales profundas como aproximación computacional de las representaciones visuales.
Este es un punto importante.
El artículo no está solamente defendiendo, filosóficamente, que las escenas reales son más complejas.
Propone una forma cuantitativa de modelar esa complejidad.
Y ahí está su fuerza: llevar la memoria visual de trabajo más cerca del mundo real sin abandonar el modelado formal.
La fuerza del artículo
La fuerza de este artículo está en enfrentar un problema metodológico profundo:
¿cómo estudiar la memoria visual sin empobrecer demasiado el mundo visual?
Muchos estudios ganaron precisión al usar estímulos simples.
Eso es útil.
Pero el precio fue alto.
Las escenas reales tienen relaciones espaciales, profundidad, textura, semántica, saliencia, continuidad y contexto.
Un vaso aislado no es lo mismo que un vaso dentro de una cocina.
Una silla aislada no es lo mismo que una silla vacía en un hospital.
Una puerta aislada no es lo mismo que una puerta abierta al final de un corredor.
El artículo de Kiat y Luck es fuerte porque intenta actualizar los modelos formales para lidiar con esa complejidad.
Busca predecir tanto el comportamiento como la actividad cerebral durante el almacenamiento de escenas naturalísticas.
Para BrainLatam2026, esto abre una pregunta mayor:
¿y si la memoria visual de trabajo fuera menos un cajón de objetos y más una arquitectura temporal de mundo?
El óptimo local del artículo
El óptimo local del artículo está en el modelado computacional y neural de la memoria visual de trabajo para escenas reales.
Es fuerte cuando muestra que escenas complejas pueden formalizarse sin ser reducidas a un único atributo simple.
También es fuerte cuando usa redes neuronales profundas y EEG como puentes entre imagen, comportamiento y actividad cerebral.
Pero, desde la lente BrainLatam2026, podemos ampliar la pregunta.
El artículo modela cómo las escenas son representadas.
BrainLatam2026 pregunta:
¿dónde viven esas escenas dentro del cuerpo-territorio?
Y más:
¿cuándo una escena deja de ser imagen y se vuelve posibilidad corporal?
Porque una escena real no es solo visual.
Es espacial.
Afectiva.
Motora.
Histórica.
Territorial.
Una imagen de una plaza puede activar infancia.
Una calle oscura puede activar amenaza.
Un aula puede activar vergüenza.
Una cocina puede activar pertenencia.
Un paisaje puede activar fruición.
Un hospital puede activar miedo.
El artículo mide memoria visual.
BrainLatam2026 pregunta por el mundo interno que esa memoria organiza.
Cuerpo-Territorio 5D: escenas como espacios internos
En el modelo Cuerpo-Territorio 5D, la percepción es una abstracción espacial producida por la transducción de los estímulos.
Una escena visual entra por los ojos, pero no permanece solo como imagen retiniana.
Es transducida.
Reorganizada.
Asociada.
Priorizada.
Transformada en espacio interno.
Ese espacio tiene:
3D, movimiento y qualia.
3D interno
El artículo profundiza la dimensión 3D porque trabaja con escenas reales.
Una escena tiene profundidad.
Tiene frente y fondo.
Tiene centro y periferia.
Tiene derecha e izquierda.
Tiene objetos en relación.
Tiene caminos posibles.
Tiene barreras.
Tiene textura.
Tiene perspectiva.
La memoria visual de una escena no es solo “guardar píxeles”.
Es sostener temporalmente una arquitectura interna.
BrainLatam2026 preguntaría:
¿qué partes de la escena ocupan el centro del cuerpo-territorio?
¿qué queda periférico?
¿qué parece cerca?
¿qué parece distante?
¿qué elementos crean profundidad, abertura o cierre?
¿la escena amplía el campo de acción o estrecha el cuerpo?
Este es el punto en que la memoria visual deja de ser solo cognitiva.
Se vuelve espacial.
Movimiento
La escena recordada también se mueve.
Incluso cuando la imagen estática permanece quieta en la pantalla, el cuerpo-territorio se mueve dentro de ella.
La atención recorre la imagen.
Va hacia la luz.
Vuelve al rostro.
Se desvía hacia la puerta.
Busca amenaza.
Reconoce un camino.
Compara con una memoria anterior.
Activa expectativa.
Después la escena desaparece.
Pero deja rastro.
Un elemento recientemente activado tiene mayor facilidad de volver.
Una región saliente puede dominar el campo.
Un detalle amenazante puede secuestrar el tiempo vivido.
En el modelo BrainLatam2026, no existe un eje separado del tiempo.
El tiempo vivido es derivado del movimiento de los espacios internos.
En la memoria visual, esto significa:
el tiempo de la escena es el movimiento de la atención dentro de la arquitectura representada.
Una imagen puede durar segundos en el experimento.
Pero dentro del cuerpo-territorio puede abrir infancia, miedo, deseo, asco, nostalgia o futuro.
El reloj mide exposición.
El cuerpo vive movimiento.
Qualia
Una escena nunca es neutra para el cuerpo.
Tiene qualia.
Puede ser bella.
Pesada.
Familiar.
Extraña.
Segura.
Amenazante.
Confusa.
Amplia.
Sofocante.
Deseable.
Una misma escena puede ser procesada como configuración visual, pero vivida como mundo afectivo.
Un aula puede ser apenas “interior con sillas” para un participante.
Para otro, puede ser memoria de humillación.
Una calle puede ser apenas “escena urbana”.
Para otro, puede ser vigilancia corporal.
Un bosque puede ser naturaleza.
Para otro, puede ser Tekoha.
El artículo trabaja con la representación visual.
BrainLatam2026 agrega:
toda escena representada carga una posibilidad de qualia.
Y el qualia cambia el espacio.
Atención: lo que gana derecho de existir en el campo
La memoria visual de trabajo no guarda todo con la misma fuerza.
La atención selecciona.
Prioriza.
Organiza.
Borra.
Reactiva.
Cuando el artículo critica modelos basados en objetos simples, toca algo que BrainLatam2026 considera decisivo: el mundo real no llega en unidades perfectamente recortadas.
Las escenas naturales tienen contornos complejos, gradientes continuos y relaciones espaciales que desafían modelos simplificados de memoria.
En el cuerpo-territorio, la atención funciona como una diplomacia interna.
Decide:
lo que entra,
lo que permanece,
lo que desaparece,
lo que vuelve,
lo que amenaza,
lo que calma,
lo que se vuelve camino,
lo que se vuelve ruido.
Pero la atención no es neutra.
Está modulada por hambre, sueño, trauma, deseo, cultura, lenguaje, miedo, pertenencia, algoritmo, escuela, familia y Estado.
Una escena real no es vista solo por el ojo.
Es vista por el cuerpo entero.
APUS: escena como campo de acción
APUS es propriocepción extendida.
Es el territorio entrando por la posición corporal, por el espacio, la arquitectura, la distancia, la postura y el campo de acción.
Una escena real no pregunta solamente:
¿qué estoy viendo?
Pregunta:
¿hacia dónde puedo ir?
¿puedo pasar?
¿puedo esconderme?
¿puedo sentarme?
¿puedo escapar?
¿puedo tocar?
¿puedo aproximarme?
¿puedo habitar?
La memoria visual de una escena real sostiene posibilidades de acción.
Es una preparación espacial del cuerpo.
Por eso BrainLatam2026 diría:
la memoria visual de escenas reales es APUS temporal.
Un espacio visual mantenido por algunos segundos puede orientar movimiento, decisión, búsqueda, evitación, planificación y seguridad.
El artículo no necesita usar este lenguaje para abrir esta trilha.
Ya nos da la base: las escenas reales exigen modelos más ecológicos de memoria.
Tekoha: escena como estado interno
Tekoha es interocepción extendida.
Es el territorio entrando por los estados internos del cuerpo.
Una escena puede alterar la respiración.
Acelerar el corazón.
Relajar los hombros.
Contraer la mandíbula.
Producir pertenencia.
Producir vigilancia.
Una fotografía de casa puede calentar el pecho.
Una imagen de violencia puede cerrar el cuerpo.
Una escena de bosque puede ampliar la respiración.
Una escena de hospital puede anticipar dolor.
La memoria visual de trabajo, en este sentido, no es solo almacenamiento.
Es regulación momentánea del cuerpo ante un mundo representado.
Por eso, una propuesta BrainLatam2026 preguntaría:
¿qué Tekoha activa cada escena?
¿La escena amplía seguridad o activa amenaza?
¿Abre Zona 2 o secuestra hacia Zona 3?
¿Produce fruición o vigilancia?
Jiwasa: las escenas nunca son solo individuales
Una escena también puede cargar lo colectivo.
Un aula carga escuela.
Una iglesia carga religión.
Un estadio carga hinchada.
Una plaza carga ciudad.
Una casa carga familia.
Un hospital carga Estado, cuidado y miedo.
Un campo de fútbol carga camiseta, adversario, pertenencia y disputa.
Una imagen de periferia puede ser leída por un cuerpo como casa y por otro como amenaza, dependiendo del Jiwasa que organizó su percepción.
La memoria visual de escenas reales también es memoria de pertenencia.
El artículo investiga la representación de escenas naturalísticas en memoria visual.
BrainLatam2026 pregunta:
¿qué Jiwasa ya está dentro de la escena antes de que la persona la recuerde?
Porque ninguna escena social llega vacía.
Llega con historia colectiva.
Con códigos.
Con desigualdad.
Con racismo.
Con deseo.
Con propaganda.
Con arquitectura.
Con algoritmo.
Con política.
Inteligencia DNA e Inteligencia Artificial
Este artículo también permite discutir Inteligencia DNA e Inteligencia Artificial.
La Inteligencia DNA es información vivida en el cuerpo.
Es el cuerpo aprendiendo escenas.
Reconociendo lugares.
Diferenciando seguridad y riesgo.
Guardando caminos.
Creando mapas internos.
Recordando rostros, esquinas, puertas, luces, amenazas, escondites, aberturas.
Es la vida organizando espacio para continuar viviendo.
La Inteligencia Artificial aparece como parte del camino metodológico: redes neuronales profundas ayudan a estimar representaciones visuales y a aproximar modelos computacionales de la memoria humana para escenas reales.
Eso es poderoso.
Pero BrainLatam2026 mantiene la pregunta:
¿la IA está ayudando a comprender la Inteligencia DNA o está sustituyendo el cuerpo por un modelo?
Una red neuronal puede estimar patrones.
Puede comparar imágenes.
Puede modelar representaciones.
Pero no siente pertenencia.
No siente miedo de la calle.
No siente nostalgia de casa.
No siente el cuerpo relajarse frente a un paisaje.
No vive el costo de estar en un territorio.
La IA organiza rastros visuales.
La Inteligencia DNA vive escenas.
La ciencia del futuro necesita hacer que ambas conversen sin confundir una con la otra.
Crítica decolonial generosa
Como todo estudio situado en un contexto científico específico, este artículo abre espacio para preguntar cómo aparece la memoria visual de escenas reales en contextos latinoamericanos, colectivos y no-WEIRD.
¿Qué escenas usamos en los experimentos?
¿Escenas de dónde?
¿Producidas por quién?
¿Para qué cuerpos?
Una cocina norteamericana, una calle europea, una sala universitaria, una favela brasileña, una escuela pública latinoamericana, una aldea indígena y una terminal de autobuses no son equivalentes desde el punto de vista cuerpo-territorial.
Pueden ser todas “escenas reales”.
Pero no activan los mismos espacios 5D.
No cargan los mismos Jiwasas.
No producen los mismos qualia.
No organizan el mismo Tekoha.
BrainLatam2026 no hace esta pregunta para disminuir el artículo.
La hace para ampliar su fuerza.
Si queremos estudiar escenas reales, necesitamos preguntar:
¿reales para quién?
¿reales en qué territorio?
¿reales para qué cuerpo?
Propuesta experimental BrainLatam2026
A partir de este artículo, BrainLatam2026 podría proponer un experimento:
¿Cómo escenas reales de diferentes territorios reorganizan la memoria visual de trabajo, el cuerpo-territorio 5D y la sensación de pertenencia?
Diseño posible:
participantes de diferentes contextos sociales y territoriales;
escenas de casa, escuela, calle, hospital, plaza, iglesia, trabajo, transporte y naturaleza;
escenas familiares y no familiares;
escenas seguras y amenazantes;
escenas de alta y baja densidad social;
comparación entre imágenes estandarizadas e imágenes recogidas en los propios territorios de los participantes.
Medidas:
EEG para dinámica rápida de la representación visual y la atención;
fNIRS para hemodinámica prefrontal durante el mantenimiento de escenas en la memoria;
eye-tracking para saliencia, búsqueda visual y retorno atencional;
HRV/RMSSD para regulación autonómica;
respiración para ritmo y tiempo vivido;
GSR para alerta;
EMG facial/mandibular para tensión;
relato fenomenológico para qualia, Tekoha y pertenencia;
análisis computacional de las imágenes con modelos de visión artificial;
análisis del Jiwasa asociado a cada escena.
La pregunta no sería solamente:
¿qué escena fue mejor recordada?
La pregunta sería:
¿qué escena ocupó más espacio en el cuerpo-territorio?
Y más:
¿qué escenas amplían Zona 2?
¿qué escenas secuestran hacia Zona 3?
¿qué escenas producen pertenencia?
¿qué escenas activan vigilancia?
¿qué escenas vuelven con mayor facilidad después del desvío atencional?
DANA y el cuidado con las imágenes
Este tipo de investigación también exige DANA.
Las imágenes son datos.
Pero las imágenes también son territorio.
Una escena de periferia puede volverse dato científico.
Pero también puede volverse estereotipo.
Una imagen de escuela pública puede volverse estímulo experimental.
Pero también puede cargar desigualdad.
Una escena de casa puede revelar intimidad.
Una imagen de calle puede exponer vulnerabilidad.
DANA pregunta:
¿quién elige las imágenes?
¿quién las autoriza?
¿quién las interpreta?
¿quién se beneficia?
¿la imagen cuida el cuerpo-territorio o captura su mundo?
En el estudio de escenas reales, la ética no es solo consentimiento.
Es diplomacia visual.
Cierre
El artículo de Kiat y Luck importa porque intenta llevar la memoria visual de trabajo más cerca del mundo tal como aparece: complejo, continuo, relacional y lleno de escenas.
Propone un modelo vectorial poblacional para escenas reales y abre una trilha para pensar cómo comportamiento, actividad cerebral y modelado computacional pueden dialogar cuando el estímulo deja de ser objeto aislado y pasa a ser mundo visual.
Para BrainLatam2026, este artículo abre una trilha esencial:
el mundo no cabe en objetos aislados.
La memoria tampoco.
La percepción tampoco.
La conciencia tampoco.
Las escenas reales son espacios representacionales.
Entran en el cuerpo como 3D.
Mueven la atención y el tiempo vivido.
Cargan qualia.
Activan APUS.
Reorganizan Tekoha.
Convocan Jiwasa.
Y pueden ser aproximadas por IA, siempre que la Inteligencia DNA permanezca en el centro.
La pregunta que queda es:
si la memoria visual guarda escenas, ¿qué mundos estamos colocando dentro de los cuerpos cuando elegimos lo que la ciencia llama estímulo?
Referencia destacada
Artículo comentado:
Kiat, J. E., & Luck, S. J. (2026).
A Population Vector Model of Visual Working Memory for Real-World Scenes.
Journal of Experimental Psychology: General, 155(5), 1257–1281.
DOI: 10.1037/xge0001921.
Este artículo es la base principal de este comentario BrainLatam2026. A partir de su propuesta de un modelo vectorial poblacional para la memoria visual de trabajo en escenas reales, ampliamos la discusión hacia 3D interno, atención, espacios representacionales, Cuerpo-Territorio 5D, APUS visual, Tekoha de las escenas, Jiwasa de las imágenes, Inteligencia DNA y la pregunta de cómo estudiar memoria visual sin reducir el mundo vivido a objetos aislados.