Investigación

El uso de MidJourney como una herramienta para etapas iniciales del diseño arquitectónico La experiencia en un taller exploratorio de la Universidad de Costa Rica

Iker Luna
Gabriel Murillo

Bitácora Arquitectura

Universidad Nacional Autónoma de México, México

ISSN: 1405-8901

ISSN-e: 2594-0856

Periodicidad: Cuatrimestral

vol. 1, núm. 54, 82-91, 2024

editora.bitacora@fa.unam.mx



Resumen: Este artículo explora cómo la inteligencia artificial (ia) está influyendo en el campo del diseño. Aborda el debate sobre si la ia actúa como una herramienta colaborativa o competitiva. Para propiciar el diálogo se plantea la perspectiva de expertos, destacando las posibilidades que la ia ofrece para mejorar la creatividad y eficiencia en el diseño. La investigación se apoyó de encuestas a profesionales del diseño para entender su percepción, revelando los desafíos de integrar estas herramientas en el campo del diseño.

Palabras clave: Diseño, Inteligencia artificial, Aprendizaje profundo, Tecnología, ChatGPT, MidJourney.

Abstract: This article delves into the transformative impact of artificial intelligence on the realm of design, navigating the nuanced debate surrounding its role as either a collaborator or competitor. By incorporating the insights of industry experts, the discussion is enriched, spotlighting the potential of ai to enhance both creativity and efficiency within the design process. To further ground the conversation, the research draws upon surveys conducted with design professionals, shedding light on their perceptions of AI and the hurdles encountered when assimilating these advanced tools into their workflow.

El uso de MidJourney como una herramienta para etapas iniciales del diseño arquitectónico

La experiencia en un taller exploratorio de la Universidad de Costa Rica

por Iker Luna

Gabriel Murillo

Imagen ejemplo
Imagen ejemplo
Elaborado por el estudiante Rodrigo Solís. 2023. Cortesía.

Introducción

En la última década, hemos sido testigos del acelerado crecimiento y capacidad que la inteligencia artificial (ia) tiene para analizar grandes bases de datos, reconocer patrones y proporcionar información crítica para la toma de decisiones. En este sentido, la ia ha demostrado el potencial de contribuir en la optimización de diversos aspectos del diseño arquitectónico. Con la masificación del acceso a tecnologías de ia capaces de generar imágenes a partir de textos, la práctica arquitectónica está experimentando cambios paradigmáticos en la manera en que se concibe la imagen dentro de los procesos de diseño.

Un generador de imágenes fundamentado en texto es un sistema basado en ia que, de manera general, funciona mediante la integración de dos componentes principales: 1) el modelo de procesamiento de lenguaje natural (npl, por sus siglas en inglés)[1] y 2) el modelo de generación de imágenes basado en redes neuronales convolucionales (cnn[2]) que implica mapear la representación semántica en características visuales para luego renderizar píxeles acordes. En algunos casos este último proceso se complementa con redes neuronales recurrentes (rnn[3]) o redes generativas adversariales (gan[4]). El resultado de la interacción entre estas redes es una interpretación gráfica en forma de imagen de la descripción textual (véase figura 1). En esencia, son programas que emplean algoritmos de aprendizaje profundo para convertir palabras en imágenes. Es importante mencionar que estos sistemas suelen ser entrenados con extensas bases de datos que contienen textos e imágenes, lo que les permite aprender a relacionar las descripciones de textos con representaciones visuales.

Integración de ia en procesos creativos: una realidad

Distintas personas han advertido que el uso de imágenes generadas con base a texto produce elementos carentes de emociones y significados profundos debido a que, en lugar de estar inspirados en experiencias subjetivas, son concebidos con la ayuda de algoritmos que presentan potenciales sesgos, producto de las bases de datos con las que fueron entrenados. Guney, por ejemplo, menciona que las aplicaciones digitales en la práctica arquitectónica pueden incluso disminuir la creatividad y aumentar la dependencia tecnológica de personas estudiantes.[5]

En el artículo «In the Mirror of ai: What is Creativity?», Neil Leach ofrece una reflexión alternativa sobre la naturaleza de la creatividad y su relación con los avances en la ia, sobre todo el impacto y desafío que estas herramientas representan para nuestras percepciones tradicionales. En este artículo el autor explora varias facetas de la creatividad en el contexto de la ia y sugiere que esta podría ser un concepto más subjetivo y menos tangible de lo que a menudo se cree. Leach se pregunta si la ia puede ser creativa aun careciendo de conciencia o emociones; y propone que esta cualidad puede no requerir ni de una ni de la otra y que las personas (incluyendo las profesionales en arquitectura) pueden no ser tan originales como se cree.[6] De aquí se deriva la idea de que gran parte de lo que se denomina como creativo podría ser el resultado de procesos de búsqueda y síntesis análogos a los que utiliza la ia para crear imágenes a partir de textos.

Abonando a esta postura, Lu et al.[7] y Amer[8] mencionan que estas tecnologías no sólo prometen aumentar la eficiencia del diseño y fomentar la innovación tecnológica, sino también estimular dichos procesos creativos. Akcay et al. también destacan la utilización de la ia por parte de estudiantes en la educación temprana de diseño, en donde los conjuntos de datos generados pro- mueven y estimulan la colaboración.[9]

En la Escuela de Arquitectura de la Universidad de Costa Rica, la apertura misma de un taller optativo de exploración a través de MidJourney v5.2 (con 20 estudiantes inscritos) evidenció un interés significativo por acercarse a estas tecnologías. Asumiendo la integración de estas herramientas en procesos creativos de arquitectura en la academia, se considera que la gestión de sus prejuicios y la identificación de sus oportunidades es la tarea de estos espacios académicos emergentes.

Imagen y arquitectura

A lo largo de la historia, los medios visuales han sido componentes hegemónicos en el desarrollo de la arquitectura como profesión: modelos, dibujos e imágenes se han presentado como las mejores herramientas para expresar las maneras en que los objetos arquitectónicos deben ser creados, transformados o analizados. Esto no se limita únicamente a los cuestionamientos constructivos, sino que también se refiere a cómo esas ideas se relacionan con un discurso coherente; comprender la esencia de las imágenes permite criticar, analizar o proponer ideas inspiradoras.

En definitiva, las imágenes juegan un rol fundamental para transmitir ideas arquitectónicas de manera efectiva y, en dependencia del sistema y flujo de trabajo con que fueron creadas, tienen el potencial de capturar las dimensiones emocionales del diseño.[10] En 2018, Akari Nakai Kidd profundizó el rol del afecto en la práctica arquitectónica, específicamente en la creación de imágenes. Desafiando las nociones tradicionales, propuso una perspectiva donde el afecto es fundamental para comprender y moldear las experiencias arquitectónicas.[11] La creación de imágenes a través de procesadores de textos con ai presenta una oportunidad al permitir proyectar entrecruces conceptuales que desde las técnicas tradicionales demandarían una enorme cantidad de recursos y tiempo.

Siguiendo esta idea, Brisco et al. mencionan que, a pesar de los posibles beneficios, el uso de generadores de imágenes basados en textos, también presenta desafíos desde el aspecto técnico-constructivo, especialmente en el diseño conceptual de ingeniería debido a que la tecnología no siempre puede interpretar con precisión el concepto de diseño previsto y mucho menos entender las implicaciones estructurales de las imágenes generadas.[12]

Con estas ideas formando parte fundamental del programa, en la Es- cuela de Arquitectura de la Universidad de Costa Rica se logró la apertura de un primer taller exploratorio impartido durante el segundo semestre de 2023 cuyos hallazgos se comparten a continuación.

Experiencias del taller exploratorio

Dentro de los ejercicios reflexivos, se plantearon preguntas para indagar de qué manera estas herramientas podrían mejorar. Algunas de las respuestas tie- nen que ver con cómo estas imágenes bidimensionales pueden comenzar a sugerir una fase en la que se analiza una tercera dimensión de las mismas. Dentro de las posibles mejoras o imaginarios se destacan: a) crear interoperabilidad con otros softwares de uso común en arquitectura y la capacidad de interactuar generando modelos 3D o tomándose como referencia ya sea para ser usados como base de datos de entrenamiento o como imágenes iniciales; b) la capacidad de generar distintos ángulos de vista de la misma imagen, para tener una visión más completa del espacio; c) tener un sistema más robusto de organización de las imágenes; d) integrar una herramienta que ayude a entender el historial del proceso en tiempo real, salvar preconfiguraciones o prompts; y por último, e) incorporar componentes tipo deslizadores que ayuden a controlar comandos de variación de regiones o combinaciones de imágenes.

El taller estuvo dirigido a estudiantes del ciclo avanzado de su formación y se enfocó en etapas tempranas del diseño arquitectónico. Se propuso MidJourney (MJ) como herramienta de prueba, primeramente por su presencia en la vanguardia investigativa, segundo, por la numerosa comunidad colaborativa presente desde la plataforma Discord; y tercero, porque cuenta con una serie de herramientas amigables para manipular las imágenes que coproduce. Todo esto permite que las personas exploren una vasta cantidad de imágenes y puedan, al mismo tiempo, sistematizar sus procesos creativos.

«Las ia capaces de generar una gran cantidad de imágenes a partir de textos han creado un posible punto de fuga donde convergen el proceso del diseño arquitectónico y la curaduría».

Tradicionalmente, el flujo básico de trabajo dentro del proceso de diseño arquitectónico se puede dividir en cuatro etapas: 1) estudios preliminares, 2) esquemáticos, 3) desarrollo de diseño y 4) documentación constructiva. Las prime- ras dos conllevan una mayor interacción entre la(s) persona(s) que solicita(n) y la(s) que provee(n) el diseño, ya que se estudian los criterios generales, presupuestos, restricciones y otras condiciones contextuales. Una parte esencial de estas etapas es la presentación de dibujos esquemáticos e imágenes que permitan concebir las intenciones espaciales del proyecto. El siguiente diagrama representa un flujo general para orientar un proceso que ayude a explorar variaciones relevantes y curar las imágenes producidas (véase figura 2).

La capacidad de generar imágenes con intenciones espaciales en tiempos cortos hace que integrar MidJourney en las etapas 1 y 2 permita una mayor fluidez en la creación de una primera lluvia de ideas y búsquedas de un norte en términos de diseño. Al res- pecto Hsueh et al. Refieren que brindar imágenes para ser evaluadas en etapas tempranas promueve la inclusión de actores no especializados en el diseño y la educación arquitectónica. Para Enjellina y Anastasya Gisela Cinintya Rossy esto tiene sentido, ya que implica un uso eficiente del tiempo y, ya que, a nivel profesional y educacional la mayoría de los diseñadores ya hacen uso de redes sociales o buscadores de imágenes para apoyar sus procesos de inspiración.[13] Ana Elena Sánchez, una de las estudiantes del taller, comparte sus hallazgos que respaldan lo mencionado diciendo que, con MidJourney:

[...] se agilizan las intenciones iniciales, por lo que voy encontrando ideas que deseo incorporar a mi diseño. De igual manera me per- mite visualizar intenciones que no me terminan agradando y rápida- mente modificarlas o eliminarlas para componer una lluvia de ideas de lo que quiero para mi proyecto. Este proceso usualmente lo solía hacer a mano por medio de collages digitales o moodboards y, si bien aún los utilizo para tener una idea de la vibra que deseo crear, por medio de MidJourney los puedo visualizar dentro del espacio, lo que me ha ayudado mucho en mi proceso de toma de decisiones. También es útil cuando estoy totalmente bloqueada o siento que estoy dando vueltas, ya que la libertad que brinda la herramienta se siente como un «juego» que me divierte e incita a seguir creando e imaginando [...]

En el taller se propusieron una serie de ejercicios para reflexionar colectiva- mente sobre cómo se pueden utilizar estas herramientas a favor del proceso de diseño y con el propósito de desarrollar métodos personalizables. Esto permitió que cada estudiante tuviera la oportunidad de verter sus intereses personales e inquietudes académicas por medio de una serie de desafíos. De esta manera, los proyectos del taller abordaron temáticas como: estructuras nómadas, no-lugares, habitar desde el trópico, interiores comerciales, arquitectura y seguridad alimentaria, espacios de encuentro y ficciones espaciales. Para tratarlas, se emplearon distintos métodos de representación más allá de la imagen producida por MidJourney, como diagramas, láminas síntesis e historietas gráficas (véase figura 3).

Los ejercicios académicos involucraron el diseño de prompts, mezclas de imágenes, adiciones investigativas y la creación de criterios de selección.

En este sentido, se priorizó la exploración y producción de variaciones de imágenes como una operación que invitaba a abandonar la necesidad de «controlar» con precisión matemática los resultados. La amplia gama de so- luciones obligó a los estudiantes a encontrar métodos creativos de curación, en este sentido, la «efectividad» de los ejercicios se entrelaza con la reflexión del procedimiento y el desarrollo de conceptos, la sistematización y, final- mente, el reconocimiento de criterios de selección (véase figura 4).

Dentro de los ejercicios reflexivos, se plantearon preguntas para indagar de qué manera estas herramientas podrían mejorar. Algunas de las respuestas tie- nen que ver con cómo estas imágenes bidimensionales pueden comenzar a sugerir una fase en la que se analiza una tercera dimensión de las mismas. Dentro de las posibles mejoras o imaginarios se destacan: a) crear interoperabilidad con otros softwares de uso común en arquitectura y la capacidad de interactuar generando modelos 3D o tomándose como referencia ya sea para ser usados como base de datos de entrenamiento o como imágenes iniciales; b) la capacidad de generar distintos ángulos de vista de la misma imagen, para tener una visión más completa del espacio; c) tener un sistema más robusto de organización de las imágenes; d) integrar una herramienta que ayude a entender el historial del proceso en tiempo real, salvar preconfiguraciones o prompts; y por último, e) incorporar componentes tipo deslizadores que ayuden a controlar comandos de variación de regiones o combinaciones de imágenes.

Diagrama de integración de MidJourney en el flujo de diseño.
Diagrama de integración de MidJourney en el flujo de diseño.
Elaboración propia. 2023.

Lámina síntesis del proceso de generación de imágenes
Lámina síntesis del proceso de generación de imágenes
Elaborado por la estudiante Ana Elena Sánchez. 2023. Cortesía.

Criterios de selección
Criterios de selección
Elaborado por el estudiante Gabriel Murillo. 2023. Cortesía.

De igual manera algunos estudiantes encontraron ciertas limitaciones y desafíos al usar esta herramienta, tales como a) precisión en el lenguaje, sobre todo para encontrar las palabras adecuadas y el peso que estas deben tener dentro del conjunto. b) el coman- do «/Blend» si bien es consideran como uno de los comandos con mayor potencial, proyecta demasiada aleatoriedad y puede llevar a cierta frustración por no alcanzar lo deseado. Lo mismo sucede con la herramienta de variación de regiones. c) La falta de control en cuanto a materiales o paletas de colores vuelve difícil ajustar imágenes con mucho detalle, de igual manera se presenta mucha dificultad al agregar escalas humanas y detalles propios de la cultura, finalmente d) el idioma: estos sistemas están entrenados principalmente en inglés, por lo tanto, los resultados esperados en otros idiomas como español no son los deseados o llegan a ser limitados. Es importante destacar que la generación de estas imágenes puede obviar una dimensión fundamental de nuestra práctica contextual y por lo tanto crear imágenes genéricas.

Oportunidades

En los últimos años, algunas firmas de arquitectura se han interesado en prestar atención al cambio que representan las tecnologías basadas en ia; un paradigma que reconoce la agencia que pueden tener estos materiales digitales y que reflexiona de manera crítica sobre sus implicaciones en los procesos de diseño ya que estos pueden afectar la manera en que concebimos y trans- formamos la realidad. Estos nuevos giros manifiestan un interés en la in- fluencia que pueda tener la creación de imágenes, no sólo desde la representación cautivadora, sino como un recurso dinámico que potencia la creatividad.

Si bien dichas imágenes no re- presentan una réplica exacta de nuestras visiones, revelan posibles puntos iniciales para discutir, intercambiar y explorar ideas. Dentro de esta acotación, este artículo propuso describir los resultados de una exploración de la herramienta MidJourney como medio para generar imágenes que abordan lo arquitectónico a partir de textos. La intención fue descubrir sus limitantes y potencialidades a través de un taller exploratorio impartido en la Escuela de Arquitectura de la Universidad de Costa Rica. De manera que el encuentro con estas nuevas tecnologías se convirtiera en un catalizador de procesos de investigación en el campo del diseño.

Podríamos decir que los resultados del taller experimental demostraron un proceso altamente creativo ofreciendo distintas vías de concebir propuestas espaciales que intenten ser puntos de partida en la formulación de un proyecto arquitectónico. La gran mayoría de los estudiantes consideraron que este tipo de herramientas ayudan a visualizar sus ideas y conceptos; sin embargo, se requiere del diseño de estrategias planificadas con anterioridad para convertirlas en un proceso de exploración espacial verdaderamente satisfactorio.

Finalmente, se concluyó que las ia capaces de generar una gran cantidad de imágenes a partir de textos han creado un posible punto de fuga donde convergen el proceso del diseño arquitectónico y la curaduría. La idea de un ensamblaje entre ambas disciplinas pretende promover un diálogo que ayude a desarrollar un cuerpo coherente de imágenes, teniendo en cuenta los afectos que pueden llegar a producir este tipo de materia a partir de un entrecruzamiento de ideas. Considerar el significado de cada palabra, cuestionar su selección, justificar el descarte de imágenes, comunicar un proceso sistematizado y sus resultados, son todas actividades propias de la curaduría de imágenes arquitectónicas: una oportunidad que se abre en la adopción de estos nuevos paradigmas.

«El uso de generadores de imágenes basados en textos, también presenta desafíos [...] especialmente en el diseño conceptual de ingeniería debido a que la tecnología no siempre puede interpretar con precisión el concepto de diseño previsto y mucho menos entender las implicaciones estructurales».

nota del autor: Agradecemos a las personas estudiantes que alimentaron las reflexiones con sus trabajos: Ana Elena Sánchez Barquero, Ricardo Andrés Varela Torres, Sebastián Mora Campos, Jesús Armando Rivera Pérez, Sofía Victoria Rodríguez Zarate, Diana Isabel Castillo Barrantes, Lucely Zamira Fonesa Rodríguez, Ariel Madrigal Hernández, Sebastián Pelz Seyfarth, Jimmy Fabrián Rodríguez Alfaro, Adrián Daniel Ulate Morales, Gabriel de los Ángeles Molina Ureña, Adrián David Azofeifa Gómez, Julián Roldán Gómez, Rodrigo Solís Campos, Paola Vargas Quintana, Gabriel Murillo Quesada y Manuel Enrique Zamora Carvajal.

REFERENCIAS

Agnese, Jorge, Jonathan Herrera, Haicheng Tao, y Xingquan Zhu 2020 «A Survey and Taxonomy of Adversarial Neural Networks for Text-to-image Synthesis», WIREs Data Mining and Knowledge Discovery 10 (4), e1345.

2022 «AI Driven Creativity in Early Design Education - A Pedagogical Approach in the Age of Industry 5.0», eCAADe, volume 1 (40), pp.133-142.

Amer, Nihal 2023 «Architectural Design in The Light of AI Concepts and Applications», MSA Engineering Journal 2 (2), pp. 628-646.

Brisco, Ross, Laura Hay, y Sam Dhami 2023 «Exploring the Role of Text-To-Image Ai in Concept Generation», Proceedings of the Design Society 3, pp.1835-1844.

2023 «Performative Driven Form Finding in the Early Design Stage», Journal of Engineering and Applied Science 70, 73.

2023 «Review of AI Image Generator: Influences, Challenges, and Future Prospects for Architectural Field», Journal of Artificial Intelligence in Architecture 2 (1), pp. 53-65.

Modelo de publicación sin fines de lucro para conservar la naturaleza académica y abierta de la comunicación científica
HTML generado a partir de XML-JATS4R