Análisis comparativo entre algoritmos de aprendizaje de reglas para identificar indicadores que influyen en el bajo rendimiento industrial

Comparative Analysis between Rule Learning Algorithms to Identify Indicators that Influence Low Industrial Yield

Yohan Gil Rodríguez
DATAZUCAR, GRUPO AZUCARERO AZCUBA, Cuba
Raisa Socorro Llanes
UNIVERSIDAD TECNOLÓGICA DE LA HABANA JOSÉ ANTONIO HECHEVERRÍA (CUJAE), Cuba
Alejandro Rosete Suárez
UNIVERSIDAD TECNOLÓGICA DE LA HABANA JOSÉ ANTONIO HECHEVERRÍA (CUJAE), Cuba
Lisandra Bravo Ilisástigui
UNIVERSIDAD TECNOLÓGICA DE LA HABANA JOSÉ ANTONIO HECHEVERRÍA (CUJAE), Cuba

Revista Cubana de Transformación Digital

Unión de Informáticos de Cuba, Cuba

ISSN-e: 2708-3411

Periodicidad: Trimestral

vol. 3, núm. 1, 2022

rctd@uic.cu

Recepción: 05 Marzo 2022

Aprobación: 16 Mayo 2022



Resumen: La informatización de los procesos de la industria azucarera genera cuantio- sos datos. En la actualidad la aplicación de los programas de la Plataforma Agro-Industrial existente en el Grupo Azucarero Azcuba, ha garantizado la rapidez y calidad de las informaciones de zafra y los beneficios que de ello se derivan. La industria azucarera cubana requiere implementar herramientas y métodos científicos que permitan analizar y cuantificar con mayor precisión la influencia de las variables tecnológicas del proceso industrial en la eficiencia de la fabricación del azúcar de caña. Por eso, es necesario descubrir cuáles son las causas principales que están incidiendo en los bajos rendimientos industriales en el proceso de fabricación del azúcar de caña en Cuba a partir de los datos históricos de la zafra azucarera. Se utiliza la metodología CRISP-DM para el modelado del proceso de minería de datos. Se realiza como punto de partida para análisis posteriores más profundos una comparación entre algoritmos de

aprendizajes de reglas, donde se obtienen patrones que influyen en los bajos rendimientos industriales.

Palabras clave: Minería de datos, CRISP-DM, Rendimiento Industrial, Aprendizaje de Reglas.

Abstract: The computerization of the processes of the sugar industry generates abundant data. At present, the application of the programs of the existing Agro-Indus- trial Platform in Azcuba has guaranteed the speed and quality of harvest in- formation and the benefits derived from it. The cuban sugar industry needs to implement scientific tools and methods that allow the influence of the techno- logical variables of the industrial process on the efficiency of cane sugar manu- facturing to be analyzed and quantified with greater precision. For this reason, it is necessary to discover what are the main causes that are influencing the low industrial yields in the cane sugar manufacturing process in cuba based on the historical data of the sugar harvest. The CRISP-DM methodology is used for modeling the data mining process. As a starting point for deeper analysis, a comparison between rule learning algorithms is made, where patterns that influence low industrial yields are obtained.

Keywords: Data Mining, CRISP-DM, Industrial Yield, Rule Learning..

INTRODUCCIÓN

Cuba posee una rica tradición de más de cuatro siglos en la producción de azúcar de caña, la que ocupa el mayor uso de la tierra cultivable del país, por lo que constituye una de las fuentes principales de alimentación para el hombre, además del amplio uso que tienen los productos derivados a partir de procesos industriales de este cultivo (Concep- ción Cruz et al., 2015).

En la industria azucarera cubana existe una base de datos amplia que necesita ser utilizada

en forma eficaz para guiar el desarrollo productivo hacia escenarios más rentables. La utili- zación correcta de esta información ayudaría a la toma de decisiones con bases objetivas. El sector azucarero cubano requiere implementar métodos que permitan cuantificar con mayor precisión la influencia de las variables tecnológicas del proceso sobre el rendimiento indus- trial. Se necesita prever el comportamiento de su proceso productivo con el fin de planificar y optimizar el uso de los recursos técnicos, humanos y financieros para mejorar aquellas varia-

bles tecnológicas que tienen mayor peso sobre el rendimiento industrial (Ribas García, Con- suegra del Rey, y Alfonso Alfonso, 2016).

La informatización de los procesos de la industria azucarera genera cuantiosos datos. En la actualidad la aplicación de los programas de la Plataforma Agro-Industrial existente en Azcuba, ha garantizado la rapidez y calidad de las informaciones de zafra y los beneficios que de ello se derivan. La plataforma está integrada por varios sistemas, entre ellos el sistema IPlus que es el sistema informativo de zafra del Grupo Azcuba que posibilita la conexión de los resultados ope- rativos de lo conducción del proceso agroindustrial. Se visualiza a diferentes niveles de dirección y contiene números módulos tanto para la empresa, provincia y nación, fundiendo como un todo único la información industrial de la zafra («Iplus – Datazucar», s. f.).

Se conoce la influencia que tienen algunas variables tecnológicas en el rendimiento in- dustrial, ya sea por conocimiento empírico o por investigaciones científicas, como la de Ribas García et al., 2016, que en su investigación sólo analiza valores anuales de 39 variables tecno- lógicas en tres años de zafra.

En la actualidad se necesita conocer, partiendo del comportamiento histórico del proceso productivo, relaciones interesantes entre las variables tecnológicas que tienen mayor peso en el bajo rendimiento industrial. Donde a partir del análisis de la información histórica diaria de más de 500 indicadores en 10 años de zafra, se identificarán reglas sólidas, desconocidas o como confirmación de las relaciones utilizadas actualmente.

El objetivo del presente trabajo es realizar un análisis comparativo de diferentes algorit- mos de aprendizaje de reglas que permitan realizar un preprocesamiento de los datos, para identificar los indicadores que influyen en la clasificación del rendimiento industrial en los históricos de diez años de la zafra azucarera cubana (2010-2017).

METODOLOGÍA

Materiales y Métodos

Metodología

El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales y otras fuentes ha crecido espectacularmente en las últimas décadas. Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido. Aparte de su función de “memoria de la organización”, la información histó- rica es útil para explicar el pasado, entender el presente y predecir la información futura. La mayoría de las decisiones de empresas, organizaciones e instituciones se basan también en información sobre experiencias pasadas extraídas de fuentes muy diversas. Además, ya que los datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la inminente necesidad de analizar los mismos para la obtención de información útil para la organización.

En muchas situaciones, el método tradicional de convertir los datos en conocimiento con-

siste en un análisis e interpretación realizada de forma manual. Esta forma de actuar es lenta,

cara y altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuen- temente, muchas decisiones importantes se realizan, no sobre la base de la gran cantidad de datos disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herra- mientas necesarias. Éste es el principal cometido de la minería de datos: resolver problemas analizando los datos presentes en las bases de datos (Hernández Orallo, Ramárez Quintana, & Ferri Ramírez, 2004).

La minería de datos es un sistema de información basado en computación que explora

grandes repositorios de datos para generar información y descubrir conocimiento. La palabra se origina en la minería tradicional; sin embargo, el objetivo es buscar conocimiento que per- mita descubrir elementos como: patrones interesantes, relación entre los datos, definir reglas, predecir valores desconocidos, agrupar objetos homogéneos y otros aspectos que son difíciles de descubrir en sistemas de información tradicionales (Peña-Ayala, 2014).

La minería de datos trata, en términos generales, de resolver problemas mediante el aná- lisis de datos presentes en bases de datos reales. Hoy en día, está calificado como ciencia y tecnología para explorar datos para descubrir patrones desconocidos ya presentes. Se distin- gue la minería de datos como sinónimo del proceso de descubrimiento de conocimientos en bases de datos (KDD, del inglés Knowledge Discovery in Databases), mientras que otros ven a la minería de datos como el paso principal de KDD.

Proceso 

de descubrimiento de conocimientos en bases de datos.
Figura 1.
Proceso de descubrimiento de conocimientos en bases de datos.
sf

La Figura 1 resume el proceso KDD y revela las seis etapas mencionadas previamente. Cabe mencionar que todas las etapas están interconectadas, mostrando que el proceso KDD es en realidad un esquema auto organizado donde cada etapa condiciona las etapas restantes y el camino inverso también está permitido (García, Luengo, y Herrera, 2015).

Son diversas las metodologías que han sido propuestos para el desarrollo de proyectos de Minería de Datos, según Montequín et al., s. f., las metodologías SEMMA (Sample, Explore, Modify, Model, Assess) y CRISP-DM (Cross-Industry Standard Process for Data Mining) com- parten la misma esencia, estructurando el proyecto de Minería de Dato en fases que se en- cuentran interrelacionadas entre sí, convirtiendo el proceso de Minería de Dato en un proceso iterativo e interactivo. La metodología SEMMA se centra más en las características técnicas del desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una perspecti- va más amplia respecto a los objetivos empresariales del proyecto. Esta diferencia se establece ya desde la primera fase del proyecto de Minería de Datos donde la metodología SEMMA co- mienza realizando un muestreo de datos, mientras que la metodología CRISP-DM comienza realizando un análisis del problema empresarial para su transformación en un problema téc- nico. Desde ese punto de vista más global se puede considerar que la metodología CRISP-DM está más cercana al concepto real de proyecto, pudiendo ser integrada con una Metodología de Gestión de Proyectos específica que completaría las tareas administrativas y técnicas.

Un gran número de técnicas para minería de datos son bien conocidas y se utilizan en mu- chas aplicaciones. Según Wirth y Hipp (2000) los principales métodos de minería de datos se dividen teniendo en cuenta el método utilizado para la obtención del conocimiento en predic- tivos y descriptivos. A continuación, daremos una breve descripción del método Aprendizaje de Reglas, incluidas las referencias de algunos representantes y algoritmos concretos y consi- deraciones importantes desde el punto de vista de los datos de preprocesamiento.

Los métodos basados en reglas son útiles y muy conocidos en el ámbito del aprendizaje automático debido a que son capaces de crear modelos interpretables. La principal caracte- rística del método es utilizar reglas basadas en lenguaje natural, teniendo en cuenta el grado de complejidad. Las reglas pueden o no asociarse a cada categoría, de manera que validen, invaliden o incluyan la categoría en los resultados, siempre que cumplan con los requisitos de las reglas. También sirven para el reordenamiento de los resultados expresado en un lenguaje básico computacional. El reordenamiento viene dado por el algoritmo de aprendizaje (Pérez,

s. f.).

El aprendizaje de reglas también llamado algoritmos de reglas de separación y conquista o de cobertura. Todos los métodos comparten la operación principal. Buscan una regla que expliquen parte de los datos, separe estos ejemplos y conquiste recursivamente el resto. Hay muchas formas de hacer esto, y también muchas formas de interpretar las reglas producidas y utilizarlas en el mecanismo de inferencia. Desde el punto de vista de preprocesamiento de datos, en general, requieren datos nominales o discretizados (aunque esta tarea suele estar implícita en el algoritmo) y disponer de un selector de atributos interesantes de los datos. Sin embargo, ejemplos ruidosos y valores atípicos pueden perjudicar el rendimiento del modelo final. Buenos ejemplos de estos modelos son los algoritmos AQ, CN2, RIPPER, PART y FU- RIA (Wirth y Hipp, 2000).

El aprendizaje de reglas inductivas es uno de los campos más tradicionales en el

aprendizaje automático. Sin embargo, al reflexionar sobre su larga historia, se puede ar-

gumentar que, si bien los métodos modernos son algo más escalables que los algoritmos tradicionales de aprendizaje de reglas, no se ha logrado ningún avance importante. De hecho, el algoritmo de aprendizaje de reglas RIPPER sigue siendo muy difícil de superar en términos de precisión y simplicidad de los conjuntos de reglas aprendidos (Beck y Fürnkranz, 2021).

Herramientas

Knime Analytics Platform es una plataforma de análisis, informes e integración de datos de código abierto desarrollada y respaldada por Knime.com AG. Mediante el uso de una interfaz gráfica, Knime permite a los usuarios crear flujos de datos, ejecutar pasos de análisis seleccio- nados y revisar los resultados, modelos y vistas interactivas.

Escrito en Java y construido sobre Eclipse, Knime Analytics Platform aprovecha la capaci- dad de extensión del módulo de Eclipse mediante el uso de complementos y conectores. Los complementos disponibles admiten la integración, con métodos para minería de texto, mine- ría de imágenes y análisis de series de tiempo.

Knime también integra varios otros proyectos de código abierto, incluidos los algoritmos de aprendizaje automático de Weka, R y JFreeChart. Admite envoltorios para llamar a otro código y proporciona nodos para que los usuarios puedan ejecutar Java, Python, Perl y otros fragmentos de código. La plataforma de análisis de Knime aprovecha la capacidad del comple- mento Eclipse; como resultado, existen más de 1,000 módulos que admiten conectores para todos los formatos de archivo y bases de datos principales, así como una amplia gama de tipos

de datos, funciones estadísticas y algoritmos avanzados de aprendizaje automático y predicti- vo (Equipo Técnico de Krypton Solid, 2021).

Para la realización del proceso, y luego de un estudio exploratorio, se decidió emplear la metodología CRISP-DM y la herramienta de análisis de datos Knime.

RESULTADOS Y DISCUSIÓN

Comprensión del negocio

Actualmente, ante la gran cantidad de datos que son recogidos y almacenados en la base de datos del IPlus, las herramientas tradicionales de gestión de datos y las herramientas estadís- ticas no son adecuadas para extraer conocimiento útil, comprensible y previamente descono- cido, por lo que resulta necesario la aplicación de técnicas de minería de datos a los históricos de la zafra azucarera.

Comprensión de los datos

Existe multitud de registros y atributos para procesar en una aplicación de minería de da- tos. Las bases de datos presentan las siguientes dimensiones:

Cantidad de registros por años.
Figura 2.
Cantidad de registros por años.
sf

Cantidad de Indicadores: la cantidad de indicadores gestionados por el sistema es de 3605 como promedio, pero sólo 578 como promedio son almacenados en los históricos en cada base de datos. La base de datos que menor cantidad de indicadores posee es la del año 2010 con 518 indicadores y la que más posee es la del 2019 con 676 indicadores (Figura 3).

Cantidad de indicadores por años.
Figura 3
Cantidad de indicadores por años.
sf

Estos orígenes de datos almacenan los valores numéricos de los indicadores que describen el proceso industrial azucarero diariamente.

Se realiza una exploración inicial de los orígenes de datos disponibles, revelando informa- ción interesante acerca del comportamiento de los indicadores de las zafras azucareras en el país.

Se realiza una exploración de 578 indicadores como promedio en cada base de datos, que arroja los siguientes resultados:

Se decide utilizar solo los indicadores capturados y no así los calculados, ya que los calcu- lados se conoce las relaciones o fórmulas que los generan, es necesario determinar la influen- cia de estos con el rendimiento.

Se realiza la verificación de la calidad de los datos durante el proceso de descripción y ex- ploración. Algunos de los problemas detectados son los siguientes:

Preparación de los datos

Se recolectó información de las bases de datos de los históricos de la zafra azucarera, pro- porcionada por la Dirección de informática, comunicaciones y análisis del Grupo Azcuba. Se

realiza la selección de los atributos o características de interés para la investigación actual, en la base de datos donde se guarda toda la información referente los valores de los indicadores analizados en la zafra azucarera. Los atributos de Indust_Indicador_Diario son de gran utili- dad:

La construcción de nuevos datos se realiza por medio de sentencias SQL propias del ori- gen de datos. Entre las características agregadas se hallan:

Se dispone de varios orígenes de datos, correspondiente a uno por cada año de zafra azu- carera. Se utiliza el método básico de adición para integrar dos o más conjuntos de datos con atributos similares, pero con registros diferentes. Aplicando la herramienta Knime se diseña un flujo de trabajo donde se utiliza un Nodo Concatenate - KNIME, para integrar los diferen- tes orígenes de datos previamente obtenidos por medio de consulta SQL. Una vez realizado

este proceso, se realizan las acciones para agregar nuevos datos y se obtiene las vistas mina- bles por cada conjunto de datos, que son salvadas para su posterior uso en un fichero .CSV, como se ilustra en la Figura 4.

Flujo de Trabajo para integrar diferentes orígenes de datos.
Figura 4
Flujo de Trabajo para integrar diferentes orígenes de datos.
sf

Modelado y Evaluación

Se realiza una partición los datos donde se utiliza el 90 % de los datos para el conjunto de en- trenamiento y el 10 % para el conjunto de prueba. Aplicando TAKE FROM TOP, donde, se coloca las filas superiores en la primera tabla de salida (conjunto de entrenamiento) y el resto en la segunda tabla (conjunto de prueba). Para estimar la precisión del modelo es necesario comparar los casos etiquetados en el conjunto de prueba con el resultado de aplicar el modelo, para obtener un porcentaje de clasificación. Si la precisión del clasificador es aceptable, podre- mos utilizar el modelo para clasificar nuevos casos (de los que desconocemos realmente su

clase). Se describen los siguientes diseños de comprobación. De un total de 59 387 registros, se utilizan 53 448 de los datos para el conjunto de entrenamiento y 5 939 para el conjunto de prueba.

Se diseña un modelo de entrenamiento para clasificación en Knime (Figura 5). Este flujo

de trabajo demuestra cómo se aplican seis algoritmos de aprendizajes de reglas para identifi- car los indicadores que influyen en el rendimiento a partir de los datos históricos de la zafra azucarera.

Modelo de entrenamiento para clasificación
Figura 5
Modelo de entrenamiento para clasificación
sf

Se obtiene los siguientes modelos para cada uno de los algoritmos aplicados:

st
sn
st
sf

La métrica Recall mide qué tan bueno es el modelo para detectar eventos positivos (Wid- mann, 2019), se obtiene que el algoritmo que es capaz de identificar mejor para clasificar el bajo rendimiento es DECISIONTABLE con (1.0), seguido del RIDOR con (0.93).

La métrica Precision mide qué tan bueno es el modelo para asignar eventos positivos a la

clase positiva (Widmann, 2019), se obtiene que el algoritmo que más precisión presenta para el entrenamiento realizado para clasificar el bajo rendimiento es el CONJUNCTIVERULE con (0.94), seguido del JRIP con (0.92).

La métrica Sensitivity mide qué tan apto es el modelo para detectar eventos en la clase positiva (Widmann, 2019), se obtiene que el algoritmo que más sensibilidad presenta para el entrenamiento realizado para clasificar el bajo rendimiento es el CONJUNCTIVERULE con (0.94), seguido del JRIP con (0.92).

La métrica Specificity mide cuán exacta es la asignación a la clase positiva (Widmann, 2019), se obtiene que el algoritmo que más especificidad presenta para el entrenamiento rea- lizado para clasificar el bajo rendimiento es el CONJUNCTIVERULE con (0.87), seguido del FURIA con (0.62).

La métrica F-meansure, es la media armónica de recuperación y precisión (Wid- mann, 2019), se obtiene que el algoritmo que presenta mejor precisión y recuperación para clasificar el bajo rendimiento es DECISIONTABLE con (0.92), seguido del RIDOR con (0.91).

El Coeficiente Kappa de Cohen (κ), un estadístico de concordancia entre dos investiga- dores que corrige el azar (Gordillo & Rodríguez, 2009), se obtiene que el algoritmo que más confiabilidad presenta para el entrenamiento realizado es FURIA con (0.35), seguido del JRIP con (0.33).

La métrica Accurancy, mide el porcentaje de casos que el modelo ha acertado (Martínez Heras, 2020), se obtiene que el algoritmo que presenta mejor precisión y recuperación para clasificar el bajo rendimiento es DECISIONTABLE y RIDOR con (0.85), seguido del PART con (0.8).

Como resultado de la revisión se obtienen las siguientes reglas que inciden en el rendi- miento:

  1. (i368 <= 12.4485) and (i63d > 1.065) and (i64 <= 14.995) and (i113 <= 14.555) and (i10124

    <= 1.34) and (i42a <= 1327.4805) => Eval_BajoRend = Bajo Donde:

  1. » Agua imbibición Total t(i42a)

    » Jugo Última Extracción Tándem A Pol %(i63d)

    » Jugo Clarificado Brix %(i64)

    » Jugo filtros Brix %(i113)

    » Rendimiento Guía(i368)

    » % caña madurez media(i10124)

Resulta necesario realizar con posterioridad a esta investigación, una validación y evalua-

ción más profunda de los conjuntos de reglas obtenidas, para descartar factores conocidos que influyen en el rendimiento.

CONCLUSIONES

El trabajo permitió realizar a grandes rasgos una comprensión del negocio, una comprensión de los datos, así como una preparación de los mismos para realizar el modelado de diferentes técnicas.

El trabajo permitió comparar diferentes algoritmos de reglas que permiten identificar las que más se ajustan a los objetivos planteados, así como los indicadores que influyen en la cla- sificación del rendimiento industrial.

El trabajo constituye punto de partida para la evaluación más profunda de las reglas obte- nidas y su posterior validación.

REFERENCIAS

Beck, F., y Fürnkranz, J. (2021). An Empirical Investigation Into Deep and Shallow Rule Lear- ning. Frontiers in Artificial Intelligence, 4. Recuperado de https://bit.ly/3M0huZg

Concepción Cruz, E., Caraballoso Torrecilla, V., Nápoles Alberto, R. G., Morales Fundora, L., Cruz Coca, O., y Viñas Quintero, Y. (2015). PROBLEMAS ASOCIADOS AL RENDI- MIENTO AGRÍCOLA DE LA CAÑA DE AZÚCAR EN LA COOPERATIVA POTRERI- LLO, PROVINCIA SANCTI SPÍRITUS: PROBLEMS ASSOCIATED TO THE AGRICUL- TURAL YIELD OF SUGARCANE IN THE POTRERILLO COOPERATIVE, PROVINCE OF SANCTI SPÍRITUS. Centro Azúcar, 42(2), 83-92.

Coto Palacio, J., Jiménez Martínez, Y., y Nowé, A. (2020). Aplicación de sistemas neuroborro- sos en la clasificación de reportes en problemas de secuenciación. Revista Cubana de Cien- cias Informáticas, 14(4), 34-47.

Equipo Técnico de Krypton Solid. (2021, diciembre 28). Examinando la plataforma de análi- sis de Knime para análisis de big data. Recuperado 9 de enero de 2022, de Krypton Solid website: https://bit.ly/3vksF9d

García, S., Luengo, J., y Herrera, F. (2015). Data Preprocessing in Data Mining. Cham: Sprin- ger International Publishing. https://doi.org/10.1007/978-3-319-10247-4

Gordillo, J. J. T., & Rodríguez, V. H. P. (2009). CÁLCULO DE LA FIABILIDAD Y CONCOR- DANCIA ENTRE CODIFICADORES DE UN SISTEMA DE CATEGORÍAS PARA EL ESTUDIO DEL FORO ONLINE EN E-LEARNING. 27, 17.

Hernández Orallo, J., Ramárez Quintana, M. J., & Ferri Ramírez, C. (2004). Introducción a la minería de datos. España: PEARSON EDUCACION. S.A.

Ian H., W., y Frank, E. (2011). Data Mining: Practical Machine Learning Tools and Techni- ques. Elsevier. https://doi.org/10.1016/C2009-0-19715-5

Iplus – Datazucar. (s. f.). Recuperado 11 de octubre de 2021, de Datazucar website: https://bit. ly/3Ig8Kv1

Martínez Heras, J. (2020, octubre 9). Precision, Recall, F1, Accuracy en clasificación. Recupe- rado 28 de abril de 2022, de IArtificial.net website: https://bit.ly/37PaLSE

Montequín, R., Teresa, M., Cabal, Á., Valeriano, J., Fernández, M., Manuel, J., y Valdés, G. (s. f.). METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING. DATA MINING, 9.

Núñez, V. B., Velandia, R., Hernández, F., Meléndez, J., y Vargas, H. (2013). Atributos Relevan- tes para el Diagnóstico Automático de Eventos de Tensión en Redes de Distribución de Energía Eléctrica. Revista Iberoamericana de Automática e Informática Industrial RIAI, 10(1), 73-84. https://doi.org/10.1016/j.riai.2012.11.007

Ortega, R. A. V., y Suárez, F. L. H. (2010). EVALUACIÓN DE ALGORITMOS DE EXTRAC- CIÓN DE REGLAS DE DECISIÓN PARA EL DIAGNÓSTICO DE HUECOS DE TEN- SIÓN. 127.

Peña-Ayala, A. (2014). Educational data mining: A survey and a data mining-based analysis of recent works. Expert Systems with Applications, 41(4), 1432-1462. https://doi.org/10.1016/j. eswa.2013.08.042

Pérez, F. M. (s. f.). Estudio y análisis del funcionamiento de técnicas de minería de datos en conjuntos de datos relacionados con la Biología. 35.

Ribas García, M., Consuegra del Rey, R., y Alfonso Alfonso, M. (2016). ANÁLISIS DE LOS FACTORES QUE MÁS INCIDEN SOBRE EL RENDIMIENTO INDUSTRIAL AZUCA- RERO. 43(1), 10.

Rivas Méndez, A. (2014). Estudio experimental sobre algoritmos de clasificación supervisa- da basados en reglas en conjuntos de datos de alta dimensión. Recuperado de https://bit. ly/3LoZcQR

Widmann, M. (2019, mayo 27). From Modeling to Scoring: Confusion Matrix and Class Statistics. Recuperado 20 de febrero de 2021, de KNIME website: https://bit.ly/3vw- jv9u

Wirth, R., y Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. Proceedings of the 4th International Conference on the Practical Applications of Knowle- dge Discovery and Data Mining.

Modelo de publicación sin fines de lucro para conservar la naturaleza académica y abierta de la comunicación científica
HTML generado a partir de XML-JATS4R