Artículos de investigación
Control Wavenet para un sistema HRpI CyberForce: Teoría y Experimentos
Pädi Boletín Científico de Ciencias Básicas e Ingenierías del ICBI
Universidad Autónoma del Estado de Hidalgo, México
ISSN-e: 2007-6363
Periodicidad: Semestral
vol. 6, núm. 11, 71–80, 2018
Resumen: Los sistemas de interacción física hombre-robot (HRpI), corresponden a plataformas ideadas para la transmisión de conocimiento, a partir del contacto kinestésico entre un humano, y un dispositivo robótico con dinámica inercial y tribológica baja o nula. La dinámica de contacto, para el sistema robótico, representa modificación a las fuerzas inerciales, gravitacionales y tribológicas (fricción y vibraciones mecánicas); lo que constituye incertidumbre en la cooperación dado que el operador humano responde de manera distinta en distintos eventos experimentales. Por lo que las estrategias de control de robot, son notablemente insuficientes con sistemas de estabilización clásica (control PID convencional), o bien controles no lineales robustos que no experimentan cam bios en las ganancias de control en función de la dinámica de interacción. En este trabajo de investigación, se propone el diseño e implementación de un control Wavenet (Control PID discreto asistido con redes neuronales waveletde segunda generación como esquema de identificación) y evaluado por primera vez en un dispositivo mayordomo de altas prestaciones tecnológicas (CyberFor- ce) ideado para el posicionamiento de un exoesqueleto CyberGrasp con el operador humano en el lazo, es importante mencionar que la selección del dispositivo háptico se realizó con base al espacio de trabajo, al análisis de manupulabilidad y características de par de los actuadores, ya que permiten desempeñar tareas de guiado háptico en todo el miembro superior.
Palabras clave: Interfaz háptica, Guiado háptico, Planificación de movimiento, Control PID discreto, Control Wavenet, Redes neuronales.
Abstract:
English Summary
Control
Wavenet para un sistema HRpI CyberForce: Teoría y Experimentos The human-robot physical interaction systems (HRpI), are experimental platforms designed for the transmission of know- ledge based on kinesthetic contact between a human operator and a robotic device with inertial dynamic and joint friction low. The robotic system dynamic (inertial, gravitational and tri- bology forces) represent uncertainty in the cooperative scheme in the physical interaction and, the human operator responds differently in different experimental events. In a passive haptic guidance scheme, the robot control strategies are remarkably insufficient when the stabilization classical systems are used (conventional PID control). In this research work, the design and implementation of a wavenet control (PID control based on wavelet theory and neural networks, with purpose to compute the joint velocity filter and identification scheme) are presented. Cyberforce haptic device with the human operator in the loop is used as an experimental platform with high performance.
Keywords: CyberForce, Haptic Interface, Haptic Guidance, Motion Plan- ning, Discrete PID Control, Wavenet Control, Neural Networks.
1. Introducción
En la práctica de la ingeniería comúnmente existe la necesidad de llevar un sistema físico hasta un punto determinado con cierto grado de precisión. Un sistema de control es el conjunto de técnicas y herramientas que guían un sistema físico hasta las condiciones deseadas. Dentro de la vida cotidiana son cada vez más los aspectos en que se han visto involucrados los sistemas de control, ya sea en la producción industrial, sistemas de transporte, líneas de ensamble, sistemas de seguridad, etc. En algunos de éstos, la precisión y certidumbre de los procesos realizados es de vital importancia, y en ellas el control juega un papel fundamental. El fundamento del control automático consiste en calcular una acción correctiva, u en función del error, e que se define como la diferencia entre la salida actual de la planta, y y de la salida deseada, yre f . Esto se conoce como control realimentado y está conformado por tres bloques básicos: un proceso, planta o sistema a controlar, un sensor y un contro lador Ogata (1998), como se muestra en la Figura 1.
El presente trabajo propone el desarrollo e implementación de un controlador tipo PID discreto (Aström (1997), Kuo (1995), Ogata (1995)) sintonizado empleando una red wavenet. Las redes wavenet se han utilizado con anterioridad para aproximación de funciones e identificación de procesos cuyo modelo matemático que describe el comportamiento del proceso es desconocido. En trabajos previos (Cruz-Tolentino et al. (2012), Díaz-López et al. (2013), Domínguez-Mayorga et al. (2012) y Ramos-Velasco et al. (2013)) se han empleado algoritmos wavenet para sintonizar controladores en plantas con modelos no lineales.
El propósito de utilizar un PID wavenet es que las ganancias Kp, Ki y Kd del PID se auto-ajusten a posibles cambios de la planta. Un método autosintonizado es una consideración importante de diseño de sistemas para construir controles adaptables de un sistema desconocido que varía lentamente. La idea básica en el control adaptable es estimar los parámetros desconocidos de la planta y correspondientemente ajustar en línea los parámetros del controlador, basados en las señales medidas del sistema, empleando los parámetros estimados en el cálculo de la entrada de control Sastry and Bodson (1989-1994).
2. Dispositivo háptico CyberForce
El sistema mayordomo - exoesqueleto (CyberTeam), es cons tituido de un mecanismo de eslabones articulados de 6 grados de libertad (CyberForce) que garantiza el posicionamiento y orientación de un exoesqueleto de 5 grados de libertad (Cy- berGrasp) empleado en tareas de manipulación en ambientes virtuales dinámicos deformables, para ello emplea como retro- alimentación con un guante de 22 sensores de fibra de carbono (CyberGlove) para medición de flexión-extensión y aducción- abducción de falanges.
3. Desarrollo de un control PID wavenet
El control PID wavenet está conformado por tres bloques funcionales principales: el controlador PID, la red neuronal wavenet y el algoritmo de sintonización. El controlador es un PID discreto que genera la señal de control que lleva la planta hasta la referencia, y reduce el efecto de perturbaciones en el ciclo de control principal. La red neuronal wavenet se encarga de aproximar localmente el comportamiento de la planta desconocida, y genera una señal de estimación de la salida de la planta. El algoritmo de sintonización, a través de un algoritmo de minimización del error, calcula los nuevos valores para las ganancias del controlador y los parámetros de la red neuronal.
3.1. Autosintonización de un PID mediante una red wavenet
Los enfoques de control adaptables tradicionales son limitados en lo que respecta a no poder tratar con sistemas no lineales complejos. Típicamente, estas técnicas suponen que el modelo de control está operando en una región lineal. Los parámetros del modelo de la planta linealizada son calculados recursivamente y usados para actualizar el controlador. En general, el diseño de un controlador basado en el análisis matemático para tales plantas que constan de la no linealidad e incertidumbres, es muy complicado. El problema empeora cuando las funciones que describen la planta son desconocidas y variantes en el tiempo. Tales problemas de control adaptable no lineal variantes en el tiempo no lineales están surgiendo con una frecuencia creciente en la tecnología de hoy. Por esto es importante desarrollar una técnica eficaz en la que la estructura de los modelos desconocidos de la planta ya sea lineales o no lineales pueden ser identificados como un proceso adaptable; y los controladores tienen que ser diseñados para actuar rápidamente, con exac titud y en un modo estable Díaz-López et al. (2013).
3.2. Esquema de identificación wavenet y sintonización del PID
El esquema de identificación wavenet y sintonización se muestra en la Figura 3. En él se pueden identificar las tres etapas que manipulan la salida del sistema dinámico MIMO no lineal: identificación, autosintonización y control PID. En la Tabla 1 se muestran las distintas variables que intervienen en cada etapa, las cuales se describen a continuación:
yre f (k) | Referencia deseada |
E(k) | Error de seguimiento |
uc(k) | Señal de control del PID |
uh(k) | Señal de control del usuario |
u(k) | Señal de control total |
r(k) | Señal de ruido |
y(k) | Salida de la planta |
yˆ(k) | Salida estimada |
e(k) | Error de estimación |
v(k) | Señal de persistencia |
3.2.1. Identificación del sistema
El proceso de identificación se hace mediante una red neuronal de base radial en la que las funciones de activación ψ(τ) son funciones wavelets hijas ψl(τl) del tipo RASP1, la selección de dicha wavelet se debe principalmente a la sencillez para ser programada. Además, cuenta en cascada con p filtros IIR (Filtro de respuesta infinita - Sistemas Auto-regresivos) que tienen como función filtrar (podar) las neuronas que tienen poca contribución en el proceso de identificación, permitiendo con esto reducir el número de iteraciones en el proceso de aprendizaje Haykin (2001). Estos dos elementos se pueden ver en las Figuras 4 y 5, respectivamente.
En el caso de una red neuronal multivariable, se propone:
dondees la j-ésima variable de escala, que permite dilataciones y contracciones, bl, j es el (l, j)-ésimo elemento de traslación, que permite desplazamientos en el instante k. La representación matemática de la wavelet RASP1 está dada por Daubechies (1992):
donde su derivada parcial con respecto a b es:
La i-ésima señal de aproximación de la wavenet con filtro IIR yˆi(k) puede ser calculada como:
Donde
L es el número de wavelets hijas, wi,l son los pesos de cada neurona en la wavenet, ci,i y di, j son los coeficientes de adelanto y atraso del filtro IIR, respectivamente. M y N representan el número de los coeficientes de adelanto y atraso del mismo filtro, respectivamente. Los parámetros de la wavenet son optimizados por medio de un algoritmo de aprendizaje basado en mínimos cuadrados medios (LMS), tras minimizar las funciones de costo de E , definidas como:
para el caso particular de la i-ésima salida se tiene que Ei está dado por:
donde el error de estimación ei(k) se define como la diferencia entre la salida de la wavenet con filtro IIR yˆi(k) y la salida real del sistema yi(k), es decir:
Para minimizar E se aplica el
método del decenso más pronunciado (steepest decent), para el cual se requiere
el cálculo de los gradientes , para actualizar los cambios incrementales
de cada parámetro en particular y que para cada coeficiente se define como el
negativo de sus gradientes.
3.2.2. Auto-sintonización
Como las ganancias de los controladores kpσ (k), kiσ (k) y kdσ (k) fueron consideradas en la función de costo E pueden ser actualizadas de la siguiente forma
donde Γˆi,q(k) es el elemento (i, q) de la matriz Γˆ de la identificación del sistema. Las constantes µ son las tazas de aprendizaje de las ganancias del controlador PID.
4. Planificación de movimiento
La tarea TDH(t), como consigna de movimiento aplicada al dispositivo háptico, es constituida por tres trayectorias; TDH−1(t) corresponde a la regulación basada en seguimiento operacional, con el propósito de resolver la dinámica inercial debido al estado de reposo y de movimiento, así como establecer un tiempo de convergencia tb1. La trayectoria TDH−2(t), corresponde al lugar geométrico de una circunferencia (Ecuación 9), con un tiempo de duración TC2 = 2π/ω; con ω como la velocidad angular, r el radio, [Xc, Yc, Zc] el centro de la circunferencia y TCn = tbn − tbn−1 es el tiempo de convergencia de la n-ésima trayectoria de TDH(t). TDH−3(t) corresponde a la regulación basada en seguimiento hasta la condición inicial de la tarea.
Las trayectorias TDH−1(t) y TDH−3(t), son definidas por el polinomio de la Ecuación 10, con un tiempo base TCn; y co- rresponde a la trayectoria de seguimiento operacional o articular de acuerdo a la ley de control aplicada, con una conducta suave que limita esfuerzos electromecánicos del mecanismo de eslabones articulados, y garantiza convergencia en tiempo fini to. Su derivada ξ˙n(t) contribuye a que la velocidad en el tiempo de convergencia sea cero, y cuyo valor máximo sea en la mitad de dicho tiempo.
Dada la planificación de movimiento en el espacio operacional, las trayectorias que involucran a la regulación basada en seguimiento son descritas como:
§ TDH−1 (t): {(Xc + r)ξ(t), Ycξ(t), Zcξ(t)} en tb0 ≤ t ≤
b1
§ TDH−3(t) : {X0ξ(t), Y0ξ(t), Z0ξ(t)} en tb2 < t ≤ tb3
4.1. Resultado experimental en seguimiento pasivo
4.2. Circunferencia
La Tabla 4.2, contiene los parámetros numéricos requeridos para la tarea de seguimiento TDH(t) y las ganancias de control.
Parámetro | Valor |
Kθ | [75,75,75] |
αθ | [0.01,0.01,0.01] |
Kx | [300,300,300] |
αx | [0.01,0.01,0.01] |
tb0 | 0 s |
tb1 | 8 s |
tb2 | 24 s |
tb3 | 32 s |
r | 0.1 m |
[Xc,Yc,Zc] | [0,0.508,0.235] m |
[X0,Y0,Z0] | [0,0.506,0.492] m |
La trayectoria generada en la sección 4 se muestra en la Figura 6:
Se realizó la comparación del desempeño del control PID wavenet con y sin el usuario en el lazo a partir del tiempo de convergencia a la trayectoria deseada, comparación del error de posición, el par de entrada global, medición de la energía total, autosintonización de ganancias kp, kd, ki y la misma posición inicial.
Se puede observar que tanto en la gráfica 7 que corresponde a la identificación del sistema sin el usuario en el lazo y la gráfica 8 que corresponde a la identificación del sistema con el usuario en el lazo se obtiene una respuesta favorable en esta etapa.
En la Figura 9 y 10 se aprecian los errores de estimación de cada una de las señales identificadas.
En las Figuras 11, 12 se presenta el comportamiento evolutivo de los parámetros de la red neuronal, se puede observar que debido a acoplamiento del usuario en el sistema CyberForce los parámetros se adaptan al cambio de la dinámica del dispositivo.
Las Figuras 17, 18, 19, 20, 21 y 22 muestran la evolución de las ganancias del controlador PID wavenet, se puede observar que debido a acoplamiento del usuario en el sistema CyberForce las ganancias calculadas en línea se adaptan a las incertidumbres que genera el usuario, llevando de manera favorable el dispositivo a la referencia.
5. Resultados de interfaz hombre-robot
En esta sección se verificarán las condiciones de control y planificación de movimiento con base en la antropometría y espacio de trabajo humano en el lazo de control, y verificar los límites de operación con alta manipulabilidad para garantizar alto desempeño en condiciones de incertidumbre de carga (pre sencia de operador humano con limitación biomecánica o movimiento involuntario).
Se implementará un método para el análisis de la energía, con el propósito de verificar el intercambio de energía y beneficios de entrenamiento y fisioterapia asistida.
Donde
E es la energía de
intercambio, corresponde al vector de fuerza aplicada en el efector final del dispositivo CyberForce y
corresponde al vector de
velocidades operacionales.
Para el desarrollo de las pruebas se utiliza la misma trayecto ria propuesta en la sección anterior (sección 4)
5.1. Resultados obtenidos con usuarios
Nombre: | Carlos Ernesto López Padilla |
Edad: | 19 |
Ocupación | Estudiante |
Carrera: | Ing. en Informática |
Cuatrimestre: | 5 |
Nombre: | Gerardo Martínez Terán |
Edad: | 25 |
Ocupación | Estudiante |
Carrera: | Maestría en Mecatrónica |
Cuatrimestre: | 5 |
Nombre: | Jose Luis Acosta García |
Edad: | 20 |
Ocupación | Estudiante |
Carrera: | Ing. en Informática |
Cuatrimestre: | 5 |
Nombre: | Jose Luis Valdez Verdin |
Edad: | 19 |
Ocupación | Estudiante |
Carrera: | Ing. en Mecatrónica |
Cuatrimestre: | 5 |
5.2. Comparativa de parámetros del esquema de control con usuario y sin usuario en el lazo
erentes usuarios en el lazo, tomando en cuenta la actualización de los parámetros de la red neuronal (A, B, W), el filtro IIR (C, D) y las gana
En la siguiente sección se muestra una comparación de desempeño en la tarea de guiado háptico con diferentes usuarios en el lazo, tomando en cuenta la actualización de los parámetros de la red neuronal (A, B, W), el filtro IIR (C, D) y las ganancias (Kp, Ki, Kd) del controlador PID discreto de los diferentes experimentos realizados, se utilizó la misma planificación de movimiento y los mismos valores iniciales en las tareas de guiado háptico pasivo sin usuario y con diferentes usuarios en el lazo.
El diagrama de la identificación y control propuesto a base de un PID discreto Wavenet cumple el cometido dado que para diferentes usuarios en el lazo, la convergencia (Figura 31) no se aprecia afectada ante los cambios de fuerza resultante (Figura 30) y energía utilizada (Figura 32) en el dispositivo para estabilizar al humano, ni ante los diferentes parámetros de la red neuronal y el filtro IIR generados por cada usuario.
6. Conclusiones
La descripción con relación a un sistema PID adaptable ba sado en identificación del modelo a través de redes neuronales y teoría wavenet presenta una posibilidad para la aplicación en sistemas de HRpI de forma activa, pasiva e interacción virtual en las cuales las contribuciones son: convergencia en movimiento y fuerza aproximadas a sistemas con controles basados en la dinámica, identificación de la planta y adaptabilidad. El uso de controles adaptables indirectos contribuye a: identi ficación de la planta en base a la entrada-salida de la misma, adaptabilidad en condiciones de incertidumbre, actualización en tiempo real de las ganancias del controlador y específica- mente en controladores PID wavenet para actualización de pa rámetros de la red neuronal, filtro IIR y coeficientes de adelanto y a trazó de la función de activación wavelet.
El planteamiento desarrollado en este trabajo de investiga ción, permite abrir posibilidades de aplicación de distintas estrategias de diagnóstico y rehabilitación de pacientes con discapacidad (movimiento involuntario o espástico) en miembro superior, así como contribuciones en inmersión virtual, y teleoperación de sistemas robóticos con dinámicas conocidas a partir de sistemas de identificación de parámetros, con fines de reconstrucción de dinámica para la HRpI en el dispositivo CyberForce.
Referencias
Aström, K., 1997. Computer-Controlled Systems, Theory and Design. Pretince- Hall.
Cruz-Tolentino, J., Jarillo-Silva, A., Ramos-Velasco, L., Domínguez-Ramírez, O., 2012. Wavelet PID and Wavenet PID: Theory and Applications, PID Controller Design Approaches - Theory. Tuning and Application to Frontier Areas, Dr. Marialena Vagia (Ed.), ISBN: 978-953-51-0405-6, InTech.
Daubechies, I., 1992. Ten Lectures on Wavelets. SIAM.
Díaz-López, F., Ramos-Velasco, L., Domínguez-Ramírez, O., Parra-Vega, V., 2013. Multiresolution wavenet pid control for global regulation of robots. 9th Asian Control Conference (ASCC 2013) at Istanbul, Turkey.
Domínguez-Mayorga, C., Espejel-Rivera, M., Ramos-Velasco, L., Ramos- Fernández, J., Escamilla-Hernández, E., 2012. Algoritmos wavenet con apli- caciones en la aproximación de señales: un estudio comparativo. Revista Iberoamericana Automática e Informática (RIAI), ISSN:1697-7912, Vol. 09,
Haykin, S., 2001. Kalman Filtering and Neural Networks. Wiley. Kuo, B., 1995. Digital Control Systems. Oxford University Press. Ogata, K., 1995. Discrete-Time Control Systems. Pretince-Hall.
Ogata, K., 1998. Ingeniería de Control Moderna. Pretince-Hall, New York. Ramos-Velasco, L., Ramos-Fernández, J., Islas-Gómez, O., García-Lamont, J.,
Espejel-Rivera, M., Márquez-Vera, M., 2013. Identificación y control wavenet de un motor de ca. Revista Iberoamericana Automática e Informática (RIAI), Elsevier, ISSN:1697-7912.
Sastry, S., Bodson, M., 1989-1994. Adaptive Control: Stability, Convergence, and Robustness. Prentice-Hal.