Exploración de Redes Neuronales Holográficas con Cuantificación Difusa para la Monitoreo de Conductores en Conducción Autónoma Condicional

Luis Ariel Diago Marquez; Hiroe Abe; Kana Adachi; Ichiro Hagiwara

Exploring Fuzzy-Quantized Holographic Neural Networks for Driver Monitoring in Conditional Driving Automation

Luis Ariel Diago Marquez luis_diago@meiji.ac.jp

MEIJI UNIVERSITY, Japón

Hiroe Abe h_abe@meiji.ac.jp

MEIJI UNIVERSITY, Japón

Kana Adachi kanaadachi91@gmail.com

MEIJI UNIVERSITY, Japón

Ichiro Hagiwara ihagi@meiji.ac.jp

MEIJI UNIVERSITY, Japón

Revista Cubana de Transformación Digital

Unión de Informáticos de Cuba, Cuba

ISSN-e: 2708-3411

Periodicidad: Trimestral

vol. 2, núm. 1, 2021

rctd@uic.cu

Recepción: 01 Diciembre 2020

Aprobación: 20 Enero 2021

URL: http://portal.amelica.org/ameli/jatsRepo/389/3891971005/index.html

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Resumen: La Sociedad de Ingenieros Automotrices (SAE, siglas en inglés) define los siste- mas de conducción automatizados (ADS, siglas en inglés) para vehículos de ca- rretera como aquellos que pueden realizar toda la tarea de conducción dinámica sin un conductor humano en el lazo de control. Bajo la conducción autónoma condicional (SAE Nivel 3), cuando la conducción automatizada falla, se espera que los conductores reanuden la conducción manual. Para que esta transición se produzca de forma segura es imperativo que los conductores reaccionen de forma adecuada y oportuna, lo que es difícil que suceda una vez que el conduc- tor ha sido sometido a largas distancias de conducción autónoma. Las técnicas de inteligencia artificial (IA) podrían utilizarse para garantizar la seguridad de los sistemas adaptativos de seguridad crítica. No solo al observar el entorno ex- terior del vehículo, sino también al monitorear el estado de la comunicación conductor-vehículo. Además, en este contexto el concepto de IA explicable tie- ne potencial para proporcionar evidencia de que un ADS podría respaldar la garantía de seguridad y el cumplimiento normativo. Este trabajo presenta un método neuro-difuso que funciona como un enfoque de aprendizaje automáti- co explicable adecuado para dominios en los que se requiere la validación de los modelos de predicción subyacentes. Los resultados de la comparación entre el modelo propuesto y otros modelos de la literatura muestran que el modelo pro- puesto podría proporcionar explicaciones sobre sus predicciones en tiempo real para garantizar transiciones fluidas en el nivel 3 de SAE.

Palabras clave: conducción autónoma condicional, inteligencia artificial explicable, monitoreo del conductor, redes neuronales holográficas con cuan- tificación difusa.

Abstract: The Society of Automotive Engineers (SAE) defines Automated Driving Systems (ADS) for road vehicles as being that can perform the entire dynamic driving task without a human driver in the loop. Under conditional driving automation (SAE Level 3), when automated driving fails the drivers are expected to resume manual driving. For this transition to occur safely, it is imperative that drivers react in an appropriate and timely manner, which is difficult to happen once the driver has been subjected to long distances of autonomous driving. Artificial Intelligence (AI) techniques could be used for safety assurance of adaptive safety-critical systems. Not only sensing the external environment of the vehicle, but also monitoring the state of the driver-vehicle communication. Further, the concept of explainable AI was highlighted as having potential to provide evidence from ADS that could support safety assurance and regulatory compliance. This work presents a neu- ro-fuzzy method working as an explainable machine learning approach suitable for domains where validation of the underlying non-linear prediction models is required. The results of comparison between proposed model and other models from the literature show that the proposed model could provide explanations about its predictions in real time to ensure smooth transitions in SAE Level 3.

Keywords: Conditional driving automation, Explainable artificial intelli- gence, Driver monitoring, Fuzzy-Quantized Holographic Neural Networks.

INTRODUCCIÓN

El objetivo general de la investigación sobre vehículos autónomos es el desarrollo de sistemas totalmente automatizados capaces de conducir en cualquier escenario de tráfico. Los ocupan-

tes de tal vehículo serían entonces meros pasajeros, sin acceso a los controles. Sin embargo, para desarrollar de manera segura la tecnología para lograr este objetivo, es necesario que haya un control compartido entre el vehículo y un conductor humano. El rol de cada uno se define dentro de cada uno de los 5 niveles de automatización de vehículos definidos por la Sociedad de Ingenieros Automotrices (SAE, 2018). En los niveles 1 y 2, el vehículo cuenta con algún sistema de automatización de la conducción, ya sea para el control del movimiento longitudi- nal y/o lateral, pero la figura del conductor humano sigue presente para realizar las tareas de conducción dinámica. Los vehículos condicionalmente autónomos (nivel 3) pueden operar de manera autónoma en escenarios de tráfico específicos, pero se espera que un ocupante huma- no, detrás del volante, controle el sistema automatizado y esté preparado para las solicitudes de toma de control. Finalmente, para los niveles 4 y 5 desaparece la figura del conductor y el propio sistema de automatización de la conducción cuenta con un sistema de respaldo para actuar en caso de fallo del sistema principal y poder conducir hasta una situación de riesgo mínimo. Solo en el nivel 3 el control debe transferirse del vehículo al ser humano durante los modos de falla del sistema. Por lo tanto, la estimación continua de la disponibilidad de este ocupante para hacerse cargo es fundamental para una transferencia de control segura y opor- tuna. En el resto de este documento, se usa el término “conductor” en el contexto de vehícu- los condicionalmente autónomos para referir al ocupante responsable de tomar el control del vehículo.

Una revisión de la literatura muestra que ya se ha abordado el problema estrechamente

relacionado de estimar la distracción del conductor en condiciones de conducción manual (Khan y Lee, 2019). La distracción del conductor se ha definido como el desvío de la atención del conductor de las actividades críticas para la conducción segura hacia una segunda activi- dad, que puede resultar en una atención insuficiente o nula a las actividades críticas para una conducción segura (Ballingall, Sarvi, y Sweatman, 2020). En el nivel 3 aumenta la posibilidad de que los conductores participen en actividades secundarias no realizadas antes, durante la conducción manual, así como la posibilidad de participar más libremente en actividades secundarias (en inglés, non-driving related tasks o NDRT) como atender el teléfono o leer un libro. Si bien se han propuesto sofisticados algoritmos de visión por computadora para el análisis de la actividad del conductor (Khan y Lee, 2019), relativamente pocos trabajos (Deo y Trivedi 2019; Braunagel, Rosenstiel y Kasneci 2017) han abordado el problema de mapear la actividad del conductor con la preparación para la toma de control. Esto podría atribuirse a dos desafíos principales. Primero, hay una falta de conjuntos de datos de conducción natu- ralistas que observen la actividad del conductor en vehículos condicionalmente autónomos. En segundo lugar, definir la verdad absoluta (en inglés, ground truth) acerca de la preparación para tomar el control es una tarea desafiante. Los enfoques basados en datos dependen de la disponibilidad de datos reales de lo que se estima. Un conjunto completo de datos de conduc- ción naturalista que capture una amplia gama de comportamientos de los conductores per- mitiría enfoques basados en datos para mapear la actividad del conductor con su preparación para tomar el control. Sin embargo, ante la dificultad para obtener datos de conducción con-

dicional naturalista y por la naturaleza de la tarea, Braunagel y colaboradores (2017) definen la preparación para tomar el control a partir del tiempo de toma de control y la calidad de la toma de control en ensayos experimentales con solicitudes de toma de control emitidas a con- ductores que realizan actividades secundarias en entornos de simulación.

En este artículo, se propone un enfoque basado en datos para estimar la preparación de los conductores en vehículos condicionalmente autónomos para tomar el control, basado pu- ramente en las salidas de sensores no invasivos (p.ej. sensores de visión) orientados hacia el conductor en un entorno de simulación donde es posible medir variables fisiológicas del con- ductor durante la marcha del vehículo. Para encontrar una relación entre la información que se obtiene de los sensores de visión y la condición interna del conductor es necesario estudiar la condición del conductor a partir de sus variables fisiológicas. Como no se encuentra claro cuál de todas las variables fisiológicas tiene una mayor correlación con los datos obtenidos de los sensores de visión, es necesario estudiarlas todas para establecer la verdad absoluta.

Trabajos relacionados

En trabajos recientes (Deo y Trivedi, 2019) se comenta, que si bien los sensores de electroen- cefalograma (EEG) permiten la representación más fiel de la actividad cerebral del conductor, (Khan y Lee, 2019) son demasiado invasivos para ser viables en vehículos comerciales. Es por esto que los autores utilizan evaluaciones subjetivas en una escala de 1 (nivel bajo) a 5 (nivel alto) de 7 evaluadores que al observar videoclips de los conductores durante la marcha de un vehícu- lo autónomo califican el nivel de disposición del conductor para asumir el control. Finalmente, obtienen un índice subjetivo para evaluar el nivel de disposición del conductor para asumir el control a partir del promedio de las evaluaciones normalizadas de 260 videoclips de 30s cada uno dividiéndolos en segmentos de 2s para su evaluación. Desafortunadamente, las personas no siempre pueden dar calificaciones subjetivas de manera consistente. Como muestra el índice de correlación (en inglés, ICC: Interclass Correlation Coefficient) empleado en el trabajo de Deo y Trivedi (2019), el nivel de coincidencia entre los evaluadores puede ser moderado (0,5 < ICC< 0,75) y en ocasiones pobre (< 0,5). En este trabajo se usa una representación más fiel de la activi- dad cerebral del conductor a partir de los valores de EEG. En el trabajo anterior (Deo y Trivedi, 2019), también se empleó un modelo de red neuronal recurrente del tipo LSTM (en inglés, Long Short-Term Memory) para obtener la dependencia temporal de las representaciones por tra- mas y predecir continuamente el nivel de disposición del conductor a partir del índice subjetivo creado. En lugar de describir el estado del conductor con un índice continuo, en este trabajo se divide el estado de atención del conductor en clases (por ejemplo, 1-baja, 2-media y 3-alta) con el objetivo de extraer reglas que permitan argumentar el estado asignado al conductor por mo- delos computacionales de tipo neuro-difuso (Diago, Kitaoka, Hagiwara y Kambayashi, 2011a). Estos modelos funcionan con un enfoque de aprendizaje automático explicable adecuado para dominios donde se requiere la validación de los modelos de predicción subyacentes.

Para desarrollar los vehículos comerciales pudiera pensarse en crear un modelo predicti- vo independiente del sujeto entrenado con una base de datos que incluya muchos individuos

en diferentes condiciones como se ha realizado en estudios anteriores (Deo y Trivedi, 2019; Braunagel, et al., 2017). Sin embargo, estos modelos tienen un comportamiento inferior al esperado cuando se llevan a la práctica, debido a que la cantidad de muestras para el apren- dizaje es muy pequeña. En Braunagel y colaboradores (2017), al igual que en este trabajo, los experimentos duran alrededor de 30 min (5 min de conducción manual, 3 min de conducción automática sin intervención, 5 min de una prueba condicional en conducción recta y dos ex- perimentos de toma de control en dos escenarios diferentes de 8 min cada uno). Los autores mencionan que para entrenar el clasificador tuvieron que equilibrar las clases reduciendo aún más la ya baja cantidad de datos de aprendizaje. Por lo tanto, el conjunto de entrenamiento aplicado es equilibrado e independiente del sujeto, pero contiene relativamente pocas situa- ciones de toma de control. Estudios recientes con conductores de diferentes edades (Wu, et al., 2020) muestran que para conductores más jóvenes, realizar NDRT puede contrarrestar la somnolencia del conductor y no siempre puede tener efectos negativos en el rendimiento después de recibir la señal de RtI. Sin embargo, debido a que los conductores mayores (posi- blemente incluidos los de mediana edad) ya son menos propensos a la somnolencia y son más vulnerables a la carga de trabajo mental inducida por las NDRT, parece inapropiado animar a los conductores de edad avanzada a participar en las NDRT cuando se necesita que res- pondan a una señal de RtI. Roche, Somieski, y Brandenburg (2019) demuestran que los con- ductores cambian su comportamiento ante peticiones repetidas de toma de control. Es por eso que la tendencia actual es a desarrollar sistemas de aprendizaje en línea que se puedan adaptar a diferentes tipos de conductores (Wu, et al., 2020; Roche, et al., 2019).

El objetivo del presente estudio es explorar el uso de los modelos neuro-difusos anteriores para el monitoreo del conductor en la conducción condicional y mostrar no solo que se ob- tiene un modelo explicable, sino que el modelo propuesto es más rápido que el modelo LSTM manteniendo similar exactitud en la predicción del estado del conductor. A continuación se muestra el enfoque propuesto dentro de la metodología y se discuten los principales resulta- dos. Finalmente se muestran las conclusiones preliminares y se presentan algunas líneas de investigación en las que se trabaja actualmente.

METODOLOGÍA

conductor

El enfoque propuesto es similar a los presentados en Deo y Trivedi (2019) y Braunagel y cola- boradores (2017), en el que se emplean técnicas de aprendizaje para predecir el nivel de prepa- ración para la toma de control de un conductor a partir de sensores de visión. Deo y Trivedi (2019) modelan el problema como un problema de regresión y Braunagel y otros (2017) pre- sentan el problema como un problema de clasificación. En este trabajo se sigue la propuesta de Braunagel, otros (2017), en el que se entrena un clasificador para reconocer la preparación del conductor para la toma de control a partir de la calidad de sus intervenciones (baja, media o alta) después de recibir la señal de RtI. La figura 1 resume el enfoque propuesto cuyas prin- cipales contribuciones son las siguientes:

1. 1. Registros de datos de múltiples variables fisiológicas de conductores de vehículos condicionalmente autónomos en un simulador: Se recopila un conjunto de datos de 10-20 min de conductores al volante de un vehículo autónomo simulado. Esto se captura mediante el empleo de una cámara que observa al conductor y sensores de múltiples variables fisiológicas (electrocardiograma o ECG, electroencefalograma o EEG, actividad electrodérmica o EDA, pulso sanguíneo y frecuencia respiratoria) co- locados al conductor durante la simulación de la marcha en un vehículo autónomo. Estos datos son usados para entrenar y evaluar los modelos de aprendizaje. Hasta donde se conoce, este es el primer estudio que evalúa la preparación de los conduc- tores para la toma de control que usan un conjunto de datos con estas cinco varia- bles fisiológicas. En este trabajo se reportan los resultados preliminares obtenidos a partir de las señales de EEG.
2. Anotaciones automáticas sobre la preparación para la toma de control: el objetivo de este

trabajo es estimar continuamente la preparación de los conductores para la toma de con- trol a partir de sensores de visión. Para probar la viabilidad de este enfoque, se utiliza- ron los valores de e-Sense (atención del conductor) obtenidos a partir de la señal de EEG de dispositivos de la familia NeuroSkyMindWave (disponibles en http://neurosky.com) como valores enteros de 0 a 100 y se asignaron los niveles de atención (1-baja, 2-media, 3-alta) a partir de los histogramas de los valores de atención durante una ventana de tiempo T de 5 a 20s.

3. Modelo neuro-difuso para estimar la preparación para la toma de control: Se procesa- ron los flujos de la cámara fotograma a fotograma para extraer los rasgos característicos de las expresiones faciales del conductor a partir de 68 puntos ubicados en las fronteras de la cara (hasta la ceja), la boca, la nariz y los ojos (ver figura 1). Se propone una red neuronal holográfica para modelar la dependencia temporal de las representaciones por tramas y una cuantificación difusa de los niveles de atención que se adapta a las caracte- rísticas de cada conductor. Esta combinación permite crear funciones de cuantificación difusa para explicar las causas de las predicciones hechas por el modelo para ese nivel de atención del conductor a partir de los rasgos extraídos de sus expresiones faciales. El modelo emite continuamente el nivel de atención del conductor para tomar el control en función de los T= 10s de actividad anterior.

El estado del arte para la clasificación de estados afectivos y cognitivos a partir de señales

de EEG (Appriou, Cichocki, y Lotte, 2020), muestra que aun cuando los estados de los suje- tos pueden ser modelados en una escala continua (por ejemplo: modelo circumplejo de las emociones de Russell) habitualmente se trabaja como un problema de clasificación y se usan clasificadores dependientes del sujeto debido a la gran variabilidad entre los mismos. En este trabajo se realiza un estudio comparativo de dos modelos de predicción del estado del con- ductor: las redes neuronales recurrentes del tipo LSTM y las redes neuronales holográficas con cuantificación difusa (FQHNN por sus siglas en inglés) (Diago, et al., 2011) a partir de datos recolectados en un simulador.

Figura 1.
Resumen del enfoque propuesto:
1) A partir de los registros de datos de múltiples variables fisiológicas (electrocardiograma o ECG, electroencefalograma o EEG, actividad electrodérmica o EDA, pulso sanguíneo y frecuencia respiratoria), el video del conductor y los datos del vehículo en distintos escenarios, 2) se asignan automáticamente los niveles de atención del conductor (clases) y 3) se propone un modelo neuro-difuso para predecir el nivel de atención previsto para una nueva secuencia de video.

Recolección de datos

Para la recolección de datos se utilizó el marco llamado “NeuroFaceLab” que fue introducido en investigaciones anteriores para analizar los estados emocionales de los pasajeros de un vehículo autónomo (Diago, Yang, Abe y Hagiwara, 2018). NeurofaceLab ha sido desarrollado como una red piconet que permite que un dispositivo maestro se interconecte con hasta siete dispositivos esclavos activos utilizando protocolos de tecnología Bluetooth. La aplicación en el dispositivo maestro (la computadora) ha sido desarrollada empleando la biblioteca DirectShow para rende- rizar un video y guardar el video de entrada proveniente de la cámara de video en combinación con las herramientas del software NeuroSky Inc. para adquisición de datos en tiempo real de las ondas cerebrales. Toda la información se sincroniza en la aplicación y utiliza el filtro del adminis- trador de gráficos en DirectShow. NeurofaceLab también incluye la posibilidad de reproducción de video durante la adquisición de datos. Se mostraron videos de entre 10 y 20 min de duración con una resolución de 960 x 540 pixeles a 18 sujetos que participaron en los experimentos. Los videos incluyen tres tipos de escenas de conducción: nevando por la mañana (SM), tarde soleada (SA) y noche oscura (DN). Durante la muestra de los videos se detectaron las expresiones faciales de los conductores y se analizan en este trabajo su relación con los valores de NeuroSky eSense.

Expresiones faciales

Existen principalmente dos tipos de enfoques para la extracción de rasgos faciales (Diago, et al.,

2011a): métodos basados en rasgos geométricos y métodos basados en apariencia. Los rasgos fa-

ciales geométricos presentan la forma y ubicación de los componentes faciales (incluye boca, ojos, cejas, nariz, entre otros) mientras que en los métodos basados en la apariencia, se aplican filtros de imagen a todo el rostro o región específica en una imagen de rostro para extraer un vector de características. ¿Cuándo utilizar uno u otro enfoque? Es una cuestión que permanece en discu- sión entre los investigadores. Como la aplicación propuesta se centra en la comprensibilidad de clasificadores no lineales, las expresiones faciales son representadas por vectores de característi- cas compuestos por veinte parámetros en la figura 2b que incluyen áreas (p1,..., p4) y distancias (p5,. ., p20) calculados a partir de 68 puntos característicos de la cara numerados en la figura 2a.

Figura 2.
Extracción de rasgos característicos de la cara:
a) 68 puntos característicos, b) parámetros utilizados.

Valores de e-Sense

eSense es un algoritmo patentado de NeuroSky para caracterizar estados mentales. Para cal- cular eSense, la tecnología NeuroSky thinkGear amplifica la señal de ondas cerebrales sin procesar, y elimina el ruido ambiental y el movimiento muscular. Luego, el algoritmo eSense se aplica a la señal restante y da como resultado los valores interpretados del medidor eSen- se, llamados Atención y Meditación (ATN y MED). ATN y MED de los sujetos en estado de concentración, relajación, fatiga y sueño se han analizado en investigaciones anteriores (He, Liu, Wan y Hu, 2014). Los valores de ATN se dividieron en 3 segmentos: bajos (0-40), medios (41-60) y altos (61-100). A partir de los valores registrados durante una ventana de tiempo T entre 5 y 20s (figura 3a), se asigna el nivel de atención del conductor a partir del rango más probable obtenido a partir del histograma mostrado en la figura 3b

Figura 3.
Asignación de clases para los niveles de atención del conductor (ATN) en una ventana de tiempo T:
A) Valores de ATN B) Histograma de ATN divididos en 3 clases 1-bajos (0-40), 2-medios (41- 60) y 3-altos (61-100)

Redes neuronales holográficas con cuantificación difusa (FQHNN)

Como las FQHNN han evolucionado a partir de las redes neuronales holográficas (HNN) propuestas por (Sutherland, 1990), primeramente se introduce la teoría básica y luego se des- cribe el método propuesto.

Teoría Básica (Sutherland, 1990)

Si se asumen dos vectores reales representados por el vector de entrada x = {x1, x2, ..., xk}T y el vector de salida y = {y1, y2, ..., ym}T, en datos de muestra pueden ser representados por las matrices de entrada y salida X e Y de la ecuación (1).

1
X e Y de la ecuación (1).
X e Y de la ecuación (1).

Los elementos de las matrices X e Y se pueden convertir a los ángulos θti (t = 1, ..., n; i = 1, ..., k) y ϕtj (t = 1, ..., n; j = 1..., m) por las funciones de mapeo ƒx y ƒy de la ecuación (2) y luego cada ángulo se mapea al plano complejo mediante la función exponencial de (3).

ecuación (2)
ecuación (2

Ecuacion 3
sin fuente

En la ecuación (2), las funciones ƒx y ƒy pueden ser lineales, sigmoides o tangentes exponen- ciales inversas. En la ecuación (3), λ es una unidad imaginaria y mediante las operaciones de las ecuaciones (2) y (3), la entrada X y la salida Y se representan en el plano complejo como el estímulo S y la respuesta R, respectivamente.

Ecuacion4
sin fuente

La función de transferencia H = [h1, ..., hm] de las HNN se obtiene a partir de minimizar la diferencia entre los datos de entrenamiento en R y el producto S · H según la ecuación (5)

Ecuacion5
sin fuente

Aquí, el símbolo representa la conjugada compleja de la matriz. La salida V para la nueva entrada U se predice mediante V = U · H utilizando la matriz H. Además, Sutherland obtiene la siguiente ecuación (6) para trabajar con series de tiempo (Diago, et al., 2011a).

Ecuacion 6
sin fuente

donde la Matriz M se calcula a partir de la matriz inversa de S S en la ecuación (5) para una ventana de tiempo T y los valores de λti y γt en la ecuación (3). El valor de σ permite definir perfiles de memoria de corto o largo plazo.

Cuantificación difusa (Diago, et al., 2011a)

En la teoría básica propuesta por Sutherland se incluye la posibilidad de expandir el número de funciones bases de la ecuación (3) a través del uso de términos estadísticos de orden supe-

rior según la expresión ∏ K λ eiθi para mejorar la exactitud en la predicción de las HNN. Sin

i i

embargo, la forma de determinar el número de funciones bases requeridas (K) se continúa haciendo de forma empírica para cada aplicación. Diago y colaboradores (2011a) proponen au- mentar la precisión de las HNN y a la vez determinar el número de funciones bases necesarias para cada aplicación de forma automática mediante el empleo de la teoría de cuantificación

difusa tipo II [6, 11]. Para ello, cada variable de entrada xi(i = 1, …, k) se expresa como f1(x), se considera que cada una tiene una varianza arbitraria -∞<xi< ∞. Se divide el dominio externo de la variable xi en li categorías Cil (l = 1, ..., li), se calculan las nuevas funciones de distribución para cada categoría y se determina las fronteras τ1, τ2,...,τli-1) de cada una por la ecuación (7).

ecuacion 7
sin fuente

De esta manera se pueden obtener reglas del tipo IF-THEN por cada categoría, según se ex- presa en la ecuación (8):

Ecuacion 8
Ecuacion 8

El número de categorías li en la ecuación (8) coincide con el número de funciones bases de la ecuación (3) y se determina automáticamente al resolver un problema de auto-valores propios generalizado Ac=η2 Βc donde las matrices A y B se calculan a partir de las funciones de per- tenencia μCil(xt) y μGj(ya) de los grupos difusos de las variables de entrada y salida respecti- vamente (Diago, Kitaoka, Hagiwara e Ishiguro, 2011b). El valor propio máximo η2 y su vector propio correspondiente (c) proporcionan el grado máximo de separación de los grupos difu- sos. Finalmente, se puede obtener una representación simple de la información contenida en H al dibujar la estructura de los grupos difusos de salida en el eje de números reales a partir de la ecuación (9):

Ecuacion 9
ecuacion 9

Los valores de xt (t=1…n) incluyen una ventana de tiempo representada en la ecuación (1) y se utiliza para encontrar la función de cuantificación difusa correspondiente a los niveles del conductor (off-line) antes de comenzar la predicción de dichos niveles a partir de las secuen- cias de video. La figura 4 muestra la arquitectura general de la red neuronal con cuantificación difusa propuesta. En este trabajo se emplean por primera vez las FQHNN para obtener una representación adaptada a las características de cada conductor y estimar el estado de los con- ductores en el nivel de conducción autónoma condicional a partir de sus expresiones faciales.

Figura 4
Figura 4

Al igual que para HNN, el aumento en el número de términos de expansión en el caso de FQHNN permite reducir el error durante el aprendizaje pero la matriz resultante en la ecua- ción (5) puede no ser invertible. Fukushima, Kamada y Hagiwara (2004) propusieron el uso de los parámetros de penalización p1 y p2 en la ecuación (10) para aumentar el rendimiento de generalización de HNN y evitar el cálculo de la inversa en la ecuación (5).

Ecuacion 10
sin fuente

Aquí, O es una matriz cuadrada con todos sus elementos iguales a uno e I es la identidad. Si p2 no es cero, como el rango de la matriz (S · S + p1O + p2I) concuerda con el tamaño de la matriz, la matriz inversa siempre existe. Cuando los parámetros p1 y p2 están cerca de cero, la primera parte de la ecuación (10) tiene mayor peso y la matriz se acerca a la matriz de Moo- re-Penrose (Fukushima et al., 2004) que permite resolver tales sistemas, incluso con deficien- cia de rango, y proporciona vectores de norma mínima del error de aprendizaje. Al igual que en los trabajos anteriores [6, 9] este trabajo emplea los valores de p1 = 1 y p2 = 1 en la ecuación

(10) para obtener mejores resultados de generalización. En los experimentos con FQHNN se usaron las funciones fx:θti=π/2 + 2π (l-1) / li ∀xti ∈ Cil (l=1...li) y, fy: φtj = π/2+2πyt /m en la ecua- ción (2) donde li = 3, m=3, y los valores de λti=1, γt=1 y τ=1 en las ecuaciones (3) y (6).

Comparación con las redes neuronales de memoria a largo plazo (LSTM)

En la sección experimental se comparan las redes FQHNN con las redes de memoria a largo plazo (LSTM) que son ampliamente usadas en la literatura para la clasificación de secuencias de tiempo. Las LSTM son un tipo especial de redes neuronales recurrentes (RNN), capaces de aprender las dependencias a largo plazo (Hochreiter y Schmidhuber, 1997). Como el pro- blema presentado tiene un alto desequilibrio en las clases se usa la exactitud (Acc, en inglés Accuracy) de la predicción (10) y los valores del coeficiente Kappa en (11) como métricas para la comparación calculados a partir de la matriz de confusión MC según:

Ecuacion 10-11
sin fuente

donde MC es una matriz cuadrada de dimensión (m x m) donde m denota el número de clases del problema, los valores de la diagonal de la matriz MCii tienen la cantidad de muestras co- rrectamente clasificadas para clase i y N es el número total de muestras. Pr(a) es el acuerdo ob- servado relativo entre los evaluadores y Pre es la probabilidad hipotética de acuerdo por azar. Kappa mide el nivel de acuerdo en un rango de valores entre un valor mínimo igual a 0 y un máximo de 1 que indica acuerdo absoluto. Valores < 0 indican (Acuerdo menos que casual), 0-0,2 (Acuerdo leve), 0,2-0,4 (Acuerdo justo), 0,4-0,6 (Acuerdo moderado), 0,6-0,8 (Acuerdo sustancial) y 0,8-1,0 (Concordancia casi perfecta). En este caso un evaluador sería el valor de ATN obtenido a partir de asignar clases a los valores de NeuroSky (“Ground Truth”) y el otro sería la evaluación del modelo en cuestión (FQHNN o LSTM). En este trabajo se usa la imple- mentación de Matlab 2018b del LSTM con los siguientes parámetros (MaxEpochs= 10, Mini- BatchSize= 150, InitialLearnRate= 0,01, SequenceLength= 1000, GradientThreshold= 1). La arquitectura del LSTM se probó con una configuracion 20-100-3, donde los 20 parámetros de la figura 2 se utilizan como entrada, el número de unidades ocultas es 100 y el número de sali- das es 3. Se utilizó el optimizador con estimación de momento adaptativo (ADAM en inglés). Para evaluar ambos modelos de aprendizaje, el trabajo sigue el ejemplo de Matlab que muestra cómo clasificar datos de secuencias utilizando una red LSTM. El algoritmo se basa en el método desarrollado por Kudo, Toyama y Shimbo (1999). Durante el entrenamiento, de forma predeterminada, el software divide los datos de entrenamiento en mini lotes y rellena las secuencias para que tengan la misma longitud. Para evitar que el proceso de entrenamiento agregue demasiado relleno, los datos de entrenamiento se ordenan por longitud de secuencia y se elige un tamaño de mini lote para que las secuencias de un mini lote tengan una longitud similar. En los experimentos se dividen los datos en secuencias impares para entrenamiento y

secuencias pares para prueba.

RESULTADOS Y DISCUSIÓN

En la figura 5 se muestran 3 entornos en los que se ha utilizado el método propuesto. En el pri- mer entorno (figura 5A) se muestran los resultados de la detección y el seguimiento de los 68 puntos característicos de los rostros de 18 sujetos que participaron en los experimentos en un entorno no controlado usando NeuroSky Mindwave Mobile. Varios de los problemas encon- trados en el coche autónomo se presentan en este entorno de simulación. Como se muestra en la figura, la cara no se detectó en algunos sujetos (por ejemplo, fila 3, columnas 1 y 3) debido a los movimientos de los sujetos fuera del ángulo visual de la cámara. En otros casos, incluso si se detecta la cara, las señales recibidas de los sensores no tienen un nivel suficiente (señal deficiente) para que los niveles de ATN recibidos sean fiables, por lo que en muchos casos esos datos se pierden.

Figura 5
Ejemplos de puntos característicos detectados en la cara de los conductores en distintos entornos de simulación: A) 18 sujetos en un entorno no controlado que usa NeuroSky Mindwave Mobile B) Sujeto No.9 en un entorno controlado con medición de 5 variables fisiológicas C) Sujeto No.9 en el Simulador de conducción condicional en el momento de recibir la señal “Request-to-Intervent (RtI)” D) Sujeto No.9 después de conmutar al modo de conducción manual.

Ocho de los 18 sujetos fueron invitados a participar en un segundo experimento donde se muestran videos de estímulo y se miden 5 variables fisiológicas (electrocardiograma o ECG, electroencefalograma o EEG, actividad electrodérmica o EDA, pulso sanguíneo y frecuencia respiratoria) en un entorno controlado. En la figura 5B se muestra un cuadro del video obtenido por una cámara frontal con los 68 puntos característicos detectados en la cara del sujeto No. 9 (fila 2 columna 3) de la figura 5A, y en la tabla 1 se muestra un segmento de los datos obtenidos

para el mismo sujeto durante el experimento. Además, de las 5 variables fisiológicas, la base de datos almacena las señales de reloj (Clock) que indica el momento en que se realizó el experi- mento y una marca (Mark) que permiten sincronizar las señales de video con el estímulo mos- trado al sujeto. De los 8 sujetos del segundo experimento se seleccionaron 3, para los cuales las variables fisiológicas registradas mostraron una alta correlación con los parámetros mostrados en la figura 2 para un tercer experimento en un simulador de conducción condicional. Las figu- ras 5C y 5D muestran a uno de los 3 sujetos en el momento de recibir la señal “Request-to-Inter- vent (RtI)” (5C) y después de conmutar al modo de conducción manual (5D). Como se muestra en la figura, los 68 puntos característicos de la cara del sujeto también fueron adquiridos incluso cuando el simulador muestra vehículo con variaciones de iluminación durante la marcha. En este trabajo solo reportamos los resultados del primer experimento de la figura 5A, cuyos datos se encuentran disponibles para investigación bajo solicitud a los autores.

Tabla1
Segmento de los datos correspondientes a las 5 variables fisiológicas (electrocardiograma o ECG, actividad electrodérmica o EDA, electroencefalograma o EEG, pulso sanguíneo y frecuencia respiratoria) registradas para el sujeto de la figura 5B con el tiempo (Clock) del experimento y las marcas (Mark) para sincronización.

La tabla 2 muestra la distribución de la atención del conductor representada en 3 clases (baja, media, alta) calculadas a partir de ventanas de tiempo T de diferentes tamaños para 17 sujetos cuyos datos fueron válidos en el experimento 1 y la exactitud (Acc) en la predicción con el mo-

delo FQHNN para los mejores valores de Kappa y su correspondiente ventana de tiempo T. Los valores de Kappa y Acc muestran los resultados en el conjunto de prueba. Los valores prome- dio de Kappa y Acc para los conjuntos de entrenamiento y prueba se muestran en la tabla 2. La tabla 2 muestra que cada sujeto presenta un problema de clasificación con clases altamente no-balanceadas y que el número de muestras para entrenamiento y prueba disminuye con el aumento de la ventana de tiempo T.

Tabla 2.
Distribución de la atención del conductor representada en 3 clases (Baja, Media, Alta) calculadas a partir de ventanas de tiempo T de diferentes tamaños para 17 de los 18 sujetos que participaron en el experimento 1 y la exactitud (Acc) en la predicción en el conjunto de prueba con el modelo FQHNN para los mejores valores de Kappa y su correspondiente ventana de tiempo T.

Por ejemplo, si se toma una ventana de tiempo T de 5s, varios de los sujetos están casi todo el tiempo con niveles de atención baja (sujeto 9 y 12) o media-alta (sujeto 10). En estos casos se utiliza una estrategia de aprendizaje incremental parecida a la deriva virtual mencionada por Gama, Žliobai- tė, Bifet, Pechenizkiy y Bouchachia (2014) que permite acomodar nuevas clases e introducir nuevos datos para el concepto de atención del conductor. Como en este caso se conoce el número total de clases posibles, se generan aleatoriamente secuencias virtuales de los parámetros de los rasgos facia- les de los sujetos y se asignan clases a dichas secuencias para que el número de muestras por clase (es decir, distribución de probabilidad de clase) sea un número distinto de cero. Para T= 5s el número de casos con clases de probabilidad 0 es 3 (sujetos 9, 10 y 12), pero este número aumenta con el aumento del tamaño de la ventana (4 para T= 10s, 6 para T= 15s y 9 para T= 20s). En estos casos también se incluyen las clases con una sola secuencia pues tampoco se permitiría probar el modelo desarrollado. Las últimas tres columnas muestran la exactitud en la predicción con el conjunto de prueba usando el modelo FQHNN para los mejores valores de Kappa y su correspondiente ventana de tiempo T. Los resultados de la tabla muestran que hay sujetos que se pueden predecir con exactitud (85 < Acc < 100

%) a partir de sus expresiones faciales y se logra un acuerdo sustancial o casi perfecto con los niveles

de atención asignados por NeuroSky (Kappa>0.6, sujetos 7, 8, 9, 12 y 13). Sin embargo, hay otros que aun cuando su acuerdo con el dispositivo de NeuroSky es moderado (0.4< Kappa< 0.6, sujetos 1, 4, 6, 10 y 15) la exactitud de la predicción está dispersa; 0 % (para sujeto 6), muy baja (< 25 % para sujetos 4, 10 y 15) o muy alta (73 % para el sujeto 1). La arquitectura de FQHNN propuesta permite obtener funciones de cuantificación difusa para los niveles de atención de cada conductor que permite acla- rar las causas de los resultados de las predicciones obtenidas por el método. Después de resolver el problema de optimización según (Diago, et al., 2011b), se obtiene el máximo autovalor propio y su autovector correspondiente para construir las funciones de cuantificación difusa de salida para cada nivel de atención a la marcha del vehículo con la ecuación (9). Por ejemplo, en la figura 6 se muestran las funciones de membresía para dos sujetos (9 y 4) para los cuales los modelos exhiben comporta- mientos diferentes. Cada curva de la gráfica muestra los resultados de la interpolación de los puntos (Ya,Br), donde Ya se calcula según la ecuación (9) y Br según las funciones de membresía de cada grupo de salida del sujeto: baja (línea roja), medio (línea verde) y alta (línea azul). Estas funciones están en correspondencia con los valores indicados en la tabla 2 para ambos sujetos. La gráfica muestra que el sujeto 9 mantiene casi todo el tiempo niveles de atención baja (línea roja) y presenta pocas zonas de solapamiento de las funciones de membresía. Esto hace que el porcentaje de predicción sea de 95 %. Mientras que el sujeto 4, presenta muchas zonas de solapamiento entre las funciones que hacen más difícil predecir su estado de atención (solo 17 %) aunque la mayor parte del tiempo se mantiene con un nivel medio (línea verde) de atención. De esta manera, por medio de las funciones de cuantifica- ción difusa para los niveles de atención del conductor mostradas en la figura 6 se pueden analizar las causas de los bajos porcentajes de predicción del modelo FQHNN.

Figura 6.
Funciones de cuantificación difusa para los niveles de atención de dos sujetos.

Por último, la tabla 3 muestra una comparación de los tiempos y la exactitud del entre- namiento y la prueba de los modelos LSTM y FQHNN para diferentes ventanas de tiem- po T. Los experimentos se desarrollaron en una computadora MacBook Air (13-pulgadas, de mediados de 2013), con un procesador de 3 GHz Intel Core i5 y 4GB 1600 MHz DDR3. Todos los programas para la creación y análisis de los modelos se desarrollaron en Mat- lab Version: 9.6.0.1174912 (R2019a) actualización 5. Para ambos casos, con el aumento del tamaño de la ventana disminuye el tiempo de procesamiento tanto para el entrenamiento como para la prueba. Sin embargo, el tiempo de entrenamiento para la red FQHNN es mu- cho menor que el tiempo de entrenamiento para LSTM, lo que hace que en la mayoría de las aplicaciones actuales las redes LSTM sean entrenadas con base de datos fuera de línea y utilizadas para predecir solamente en etapa de pruebas del modelo donde los tiempos para ventanas de tiempo T= 20s son menores que de 1s (0,85 como promedio). Como los videos que se usaron en el experimento fueron solo de 10 min (600s), para una ventana de tiempo T= 20s, solo se cuenta con 30 secuencias como máximo para entrenamiento y prueba si no se pierden fotogramas por los movimientos del sujeto y errores de la comunicación Bluetoo- th. Para ninguno de los sujetos del experimento se logró contar con 30 secuencias válidas (ver T= 20s en la tabla 1). Sin embargo, para el caso de trabajar con pocas muestras el mo- delo FQHNN puede ser entrenado con un 97,1 % de exactitud (Kappa= 0,936), mientras que el modelo LSTM solo llega a un 54 % de exactitud (Kappa= 0,428). Para el modelo FQHNN no existen diferencias significativas en los tiempos de entrenamiento y prueba (0,03 y 0,02 segundos respectivamente). Aunque los valores de Kappa para ambos modelos exhiben una coincidencia justa (Kappa= 0,3) con las clases asignadas a partir de los niveles de atención del dispositivo NeuroSky MindWave, la exactitud del modelo FQHNN es más de un 7 % superior al modelo LSTM como promedio.

Tabla 3.
Comparación de los tiempos y la exactitud del entrenamiento y la predicción de los modelos LSTM y FQHNN para diferentes ventanas de tiempo T.

CONCLUSIONES

En este estudio, se propone un enfoque para caracterizar la disponibilidad observable de toma de control de los conductores en vehículos autónomos y un modelo de aprendi- zaje automático para estimarlo. Se recopila un conjunto de datos de múltiples variables fisiológicas de conductores de vehículos condicionalmente autónomos en un simulador que constituye una base de datos útil para evaluar diferentes modelos de aprendizaje au- tomático durante la conducción autónoma condicional. A partir de una de las variables fisiológicas recopiladas se desarrolló un método para la anotación automática sobre la preparación para la toma de control de los conductores que permitieron entrenar mo- delos neuro-difusos con un enfoque de aprendizaje automático explicable. El modelo se adapta a las características de cada conductor y brinda una función de cuantificación difusa que permite explicar los resultados de las predicciones obtenidas por el mode- lo. El modelo ha sido probado en 2 entornos de simulación con entorno controlado, no controlado y en un simulador de conducción condicional. En este trabajo se reportan los resultados de la comparación del modelo propuesto con los modelos de redes de me- moria de largo plazo ampliamente usados en la literatura para predecir secuencias de tiempo. El modelo propuesto alcanza un porcentaje de predicción promedio de 57 % (7 % superior a los modelos LSTM), a la vez que pueden ser utilizados para el aprendizaje en línea debido a que su aprendizaje es 2000 veces más rápido que los modelos de memoria a largo plazo actuales.

Aunque los resultados reportados en el trabajo muestran superioridad de los modelos

basados en FQHNN en comparación con los modelos LSTM, todavía hay posibilidades de mejora. Los porcentajes de predicción obtenidos por ambos modelos están en concordan- cia con los resultados reportados por Appriou, Cichocki y Lotte (2020), donde la mayoría de los estudios demostraron que la clasificación de los estados afectivos a partir del EEG siguen siendo un gran desafío, ya que los resultados apenas superan la exactitud de un clasificador aleatorio (50-52 %) cuando se trabaja con pocas muestras. Según los resulta- dos reportados por Appriou (2020), obtener un modelo independiente del sujeto es mu- cho más desafiante (se obtienen porcentajes menores que para los modelos dependientes del sujeto), pero si tiene éxito, permitiría obtener una verdad absoluta para el monitoreo que no requiere ninguna calibración para nuevos sujetos. Para la asignación de las clases se pudieran utilizar otras de las variables fisiológicas que se registraron en un entorno controlado en busca de una la representación más fiel de la actividad del conductor y su correlación con sus expresiones faciales. En el trabajo se dividieron los valores de ATN en 3 segmentos: bajos (0-40), medios (41-60) y altos (61-100) para la asignación de las clases. Sin embargo, estas fronteras tienden a ser difusas y variables para cada sujeto. Por ejemplo se pudieran usar unidades de acción facial correspondientes al Sistema de Codificación de Acciones Faciales (en inglés, FACS: Facial Action Coding System) para explorar otras técnicas de aprendizaje supervisado débil (weak supervised learning).

REFERENCIAS

Appriou, A., Cichocki, A., & Lotte, F. (2020). Modern Machine-Learning Algorithms: For Classifying Cognitive and Affective States From Electroencephalography Signals. IEEE Systems, Man, and Cybernetics Magazine, 6(3), 29-38.

Ballingall, S., Sarvi, M. & Sweatman, P. (2020). Safety Assurance Concepts for Automated Dri- ving Systems. SAE Technical Paper Series, 2(3), pp. 1528-1537. doi:10.4271/2020-01-0727.

Braunagel, C., Rosenstiel, W., & Kasneci, E. (2017). Ready for take-over? A new driver assis- tance system for an automated classification of driver take-over readiness. IEEE Intelligent Transportation Systems Magazine, 9(4), 10-22.

Deo, N., & Trivedi, M. M. (2019). Looking at the driver/rider in autonomous vehicles to pre- dict take-over readiness. IEEE Transactions on Intelligent Vehicles, 5(1), 41-52.

Diago, L., Kitaoka, T., Hagiwara, I., & Kambayashi, T. (2011a). Neuro-fuzzy quantification of personal perceptions of facial images based on a limited data set. IEEE Transactions on Neural Networks, 22(12), 2422-2434.

Diago, L., Kitaoka, T., Hagiwara, I., & Ishiguro, S. (2011b). Analyzing facial expressions with fuzzy quantification theory II: indefinite generalized eigenvalue problem. Japan Journal of Industrial and Applied Mathematics, 28(1), 153-170.

Diago, L., Yang, Y., Abe, H. & Hagiwara, I.. (2018). NeuroFaceLab : A new framework for pas- sengers analysis in autonomous driving. En Proceedings of the 31st International Compu- tational Mechanics Symposium - CMD2018(286). Japan: JSME.

Fukushima, H., Kamada, Y., & Hagiwara, I. (2004). Optimum engine mounting layout using MPOD. Nippon Kikai Gakkai Ronbunshu, C Hen/Transactions of the Japan Society of Mechanical Engineers, Part C, 70(1), 54-61.

Gama, J., Žliobaitė, I., Bifet, A., Pechenizkiy, M., & Bouchachia, A. (2014). A survey on concept drift adaptation. ACM computing surveys (CSUR), 46(4), 1-37.

He, J., Liu, D., Wan, Z., & Hu, C. (2014). A noninvasive real-time driving fatigue detection technology based on left prefrontal Attention and Meditation EEG. In 2014 Internatio- nal Conference on Multisensor Fusion and Information Integration for Intelligent Systems (MFI) (pp. 1-6). IEEE.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.

Khan, M. Q. y Lee, S. (2019). A Comprehensive Survey of Driving Monitoring and Assistance Systems. Sensors (Basel, Switzerland), 19(11), 2574. https://doi.org/10.3390/s19112574

Kudo, M., Toyama, J., & Shimbo, M. (1999). Multidimensional curve classification using pas- sing-through regions. Pattern Recognition Letters, 20(11-13), 1103-1111.

Roche, F., Somieski, A., & Brandenburg, S. (2019). Behavioral changes to repeated takeovers in highly automated driving: effects of the takeover-request design and the nondriving-rela- ted task modality. Human factors, 61(5), 839-849.

SAE On-Road Automated Vehicle Standards Committee. (2018). Taxonomy and definitions for terms related to driving automation systems for on-road motor vehicles. SAE Interna- tional: Warrendale, PA, USA.

Sutherland, J. G. (1990). A holographic model of memory, learning and expression. Internatio- nal Journal of Neural Systems, 1(03), 259-267.

Wu, Y., Kihara, K., Hasegawa, K., Takeda, Y., Sato, T., Akamatsu, M., & Kitazaki, S. (2020). Age-related differences in effects of non-driving related tasks on takeover performance in automated driving. Journal of safety research, 72, 231-238.