Recepción: 15 Marzo 2018
Aprobación: 24 Agosto 2018
Autor de correspondencia: gusdel53@gmail.com
Resumen: En el presente trabajo se ha aplicado la estadística robusta para la identificación de valores “outliers” en la determinación del factor recobrado en el análisis de residuos de clorpirifos en maní por cromatografía de gases con detector ECD. Para ello fue elaborado un programa en lenguaje HP- BASIC, basado en la estadística robusta y específicamente en el algoritmo de Huber y el cual fue editado en la calculadora gráfica de última generación HP PRIME Graphing Calculator. El programa fue ejecutado ingresando los datos obtenidos de los resultados de la evaluación del factor de recobrado para el método de análisis de clorpirifos en una muestra de referencia interna de maní, obteniéndose como resultado un estimado de los parámetros de la población y la identificación de 3 “outliers”. Este programa fue validado con uno de referencia elaborado en Excel por el Comité de Métodos Analíticos de la Royal Society of Chemistry, observándose que la desviación de los parámetros de la población (m,s) fueron menores que la precisión iterativa, lo que indica que no hubo diferencias significativas entre los dos programas. Por otro lado, estos resultados se compararon con los obtenidos por las pruebas clásicas de Dixon y de Grubbs, concluyendo que el método de Huber es el más sensible. El menos sensible es el test de Dixon, dado que su aplicación no detectó ningún outlier, mientras que el test de Grubbs identificó los dos valores más pequeños.
Palabras clave: Valores outliers, Estadística robusta, Algortimo de Huber, Test de Dixon, Test de Grubbs, Lenguaje HP Basic, Factor recobrado, Análisis clorpirifos en maní.
Abstract: In the present work, robust statistics have been applied for the identification of "outliers" values in the determination of the recovered factor in the analysis of chlorpyrifos residues in peanut by gas chromatography with detector ECD. For this, a program was developed in the HP-BASIC language, based on robust statistics and specifically on the Huber algorithm and which was edited in the latest generation HP PRIME Graphing Calculator. The program was executed by entering the data obtained from the results of the evaluation of the recovery factor for the method of analysis of chlorpyrifos in an internal peanut reference sample, obtaining as a result an estimate of the parameters of the population and the identification of 3 "Outliers" This program was validated with a reference made in Excel by the Committee of Analytical Methods of the Royal Society of Chemistry, observing that the deviation of the parameters of the population (m,s) were lower than the iterative precision, which indicates that there were no significant differences between the two programs. On the other hand, these results were compared with those obtained by the classic tests of Dixon and Grubbs, concluding that the Huber method is the most sensitive. The least sensitive is the Dixon test, given that its application did not detect any outlier, whereas the Grubbs test identified the two smallest values.
Keywords: Outliers values, Robust statistics, Algortimo de Huber, Dixon test, Grubbs test, HP Basic Language, Recovered factor, Chlorpyrifos analysis in peanuts.
1. Introducción
Actualmente, Nicaragua está ampliando el mercado de productos agroalimentarios, y entre ellos el maní es uno de los productos que más se exporta a Latinoamérica, EE. UU. y Europa Delgado G y Hernández N., (2014). Para garantizar su inocuidad se hace necesario la implementación del Sistema de la Calidad a todo lo largo de la cadena de producción, desde el cultivo hasta el procesamiento industrial. Uno de las exigencias que imponen los países compradores es la certificación del producto, para lo cual debe cumplir con los requisitos establecidos en el Codex Alimentarius, (2000), o por la legislación europea European Food Safety Autority, (2014). El laboratorio analítico juega un papel muy importante en la evaluación de la conformidad de este producto. Esto significa que se debe garantizar la calidad de los resultados de los ensayos bajo tres principios básicos relacionados: aptos para el uso del cliente, método validado y control de calidad de acuerdo a ISO/IEC 17025(E) (2017) y Thompson M., Lowthian P.L.,(2011) . Esto implica que los resultados que se reportan en el certificado de análisis deben reflejar trazabilidad, precisión y confiabilidad.
No obstante, es muy frecuente que los datos obtenidos en las mediciones analíticas están sujetos a valores considerados discordantes con el resto de los valores de la serie, los cuales son denominados “outliers” AMC Technical Brief (2004), AMC-RSC, (1989) . Estos valores sospechosos deben ser investigados con el fin de evitar que el laboratorio emita certificados de análisis con resultados sesgados, ya que esto conlleva a la no conformidad del producto, provocando desconfianza en los clientes y por consiguiente pérdidas para la empresa y el país. La investigación de las causas y la aplicación de las acciones correctivas, ISO/IEC 17025(E) (2017), pertinentes son muy importantes para la garantía de la calidad de la certificación del producto. Entre las causas más frecuentes de estas no conformidades están los errores durante la transcripción o registro de los datos, los cometidos durante el proceso analítico, los debidos a la contaminación o a la transposición de la muestra.
Las dos técnicas estadísticas que comúnmente se utilizan para identificar “outliers” son el test de Dixon, Dixon W.J, (1950) y el test de Grubbs Grubbs F.E., (1969); ISO5721-2,(1994), Tecnometrics, 1969, 11, 1. Estas técnicas dependen de los valores extremos y del tamaño de los datos. Si se utiliza la estadística robusta, se evita este problema, ya que depende de la mediana y de la mediana de la desviación absoluta (MAD). Esta estadística se aplica en forma aproximada, evaluando el intervalo de aceptación de los datos con la mediana y el MAD multiplicada por un factor 3 según Thompson M., Lowthian P.L.,(2011). Pero para obtener una mejor estimación de los parámetros de la población y rechazar los valores discordantes con mayor certeza, es necesario aplicar el algoritmo de Huber (ISO 5721-5, (1994)), el cual consiste en calcular la media y la desviación estándar por iteraciones sucesivas, tomando como valores iniciales la mediana y el MAD. En ensayos de aptitud es muy útil para demostrar la competencia técnica de los laboratorios de ensayos. Este algoritmo ha sido programado en lenguaje FORTRAN 77 (AMC-RSC, (1989)), el cual converge hasta obtener una media y una desviación estándar con una aproximación mínima de 0.01%. Para que este programa se ejecute es necesario disponer de una computadora dotada con este tipo de sistema de programación. Este programa se puede editar en Visual Basic integrado con Excel o con el cálculo simbólico MAPLE 2015. En cualquiera de los casos una computadora es imprescindible. Cuando se lleva a cabo un control de calidad inmediato, es decir durante el proceso de análisis de rutina, donde se necesita evaluar en forma rápida algún parámetro de calidad analítica se hace de mucha utilidad un medio de cálculo portátil, es decir una calculadora programable apropiada.
El presente estudio pretende aplicar la estadística robusta para la identificación de “outliers” en la determinación del factor de recobrado en análisis de residuos de clorpirifos en maní de exportación, aplicando un programa basado en el algoritmo de Huber, elaborado en lenguaje HP- BASIC en la calculadora gráfica de última generación HP-PRIME Graphing (HP PRIME, (2013)). Así mismo, se realiza una comparación de ésta con las pruebas estadísticas clásicas, el test de Dixon y el de Grubbs.
2. Revisión de la literatura (Teoría)
La técnica estadística más utilizada para investigar valores “outliers” en una serie de datos producidos en los laboratorios de ensayos es el test de Grubbs, la que es descrita en la norma ISO 5725-2 (ISO 5721-2, (1994)). Esta prueba depende del tamaño de la muestra estadística y es muy sensible para identificar dos valores “outliers” sucesivos. Para valores extremos (el valor más pequeño y el más grande) el parámetro de Grubbs (Gk) se calcula de acuerdo a la siguiente fórmula ec. 1:
Donde k es 1 para el valor más pequeño y n para el más grande; 𝑥̅ y s son el promedio y la desviación estándar de todos los datos. El valor resultante de la aplicación de la ecuación (1) se compara con los valores de la tabla de Grubbs (Feinberg M., (1996)), al 95% o 99% de nivel de confianza. Si los valores de Gk calculados son mayores que los de las tablas de Grubbs se dice que el valor dudoso es “outlier” y debe ser rechazado del resto de la serie de datos. Este rechazo debe ser fundamentado a través de un procedimiento de acciones correctivas de acuerdo a al requisito 8.7 de la norma ISO/IEC 17025:2017.
La prueba para dos valores dudosos sucesivos, ya sea los dos valores más pequeños o los dos más grandes, se aplican las ecuaciones (2) y (3)respectivamente.
Donde el subíndice L indica el valor más bajo de la serie y H el valor más alto, p es el tamaño de la serie de datos, 𝑥̅𝐿 es el promedio calculado de la serie para los dos valores menores excluyendo los dos mayores; y 𝑥̅𝐻 es el promedio para la serie excluyendo los dos valores más pequeños. La formulación es la siguiente ec (4) y (5):
La otra técnica estadística es la prueba de Dixon, la cual consiste en calcular el parámetro Qi para los valores extremos. El valor más pequeño (x1) y el más grande por (xn) son verificados por las ecuaciones siguientes (6) y (7):
Si el valor de Qi es mayor que el de las tablas de Dixon (1950) se rechaza el valor dudoso y se dice que es “outlier”.
La diferencia principal con el test de Grubbs, es que la prueba de Dixon no puede verificar los dos valores sucesivos extremos. Por otro lado, el test de Huber tiene la ventaja sobre los dos anteriores que no depende de los valores extremos, ni del tamaño de la muestra estadística. Además, se pueden identificar simultáneamente todos los outliers y obtener una mejor estimación de los parámetros de la población. El algoritmo en que está basado esta técnica es denominado algoritmo de Huber, el cual es recomendado por la norma ISO 5725-5 (ISO 5721-5, (1994))] consiste de las siguientes etapas según Thompson M., Lowthian P.L.,(2011) e ISO 5721-5, (1994):
· Cálculo de la mediana de los valores y el MAD=mediana.
· Cálculo de la desviación estándar inicial , dividiendo el MAD entre 0.6745.
· Estimar los valores iniciales de los parámetros de la población
Si el valor de es mayor que , entonces
· Si el valor de es menor que entonces
· Si el valor de cae en el intervalos de, es decir entonces
· Si el valor de cae en el intervalo, es decir entonces
· Cálculo de la media mejor estimada
· Cálculo de la desviación estándar robusta
· El proceso finaliza cuando o
· Finalmente, los parámetros de la población estimados son: y
3. Metodología
Para determinar el factor de recobrado se fortificaron muestras negativas de maní siguiendo las directrices del método oficial del Laboratorio SER-AGRO, S.A. SAOSA-001, (2015). Para elaborar el programa con el algoritmo de Huber fue utilizada la calculadora HP PRIME GRAPHING CALCULATOR. Para su validación se descargó de internet el programa en Excel elaborado por el Comité de Métodos Analíticos de la Royal Society of Chemistry Feinberg M., (1996).
El procedimiento para la edición del programa en la calculadora HP PRIME es el siguiente:
1. Ingresar al editor de programas y editar con el nombre: MediaRobust-00
2. Introducir serie de datos en D1
3. Cálculo de la mediana : MEDIAN (D1)
4. Cálculo del MAD: Median(abs(D1(i)-Median(D1)).
5. Cálculo de la desviación estándar: s=MAD/0.6745.
6. Asignar la mediana como el valor inicial de la media poblacional
7. Asignar la desviación estándar s como el valor inicial de la incertidumbre estándar de la población
8. Asignar j=1 Desde i=1 hasta n
El valor de
Calcular promedio hasta que abs
Calcular hasta que abs
Asignar hasta
si no hay convergencia.
9. La media y la desviación estándar robustas serán los parámetros estimados de la población:
10.Los valores “outliers” están fuera del intervalo
4. Resultados y discusión
4.1 Programa de algoritmo de Huber en HP-BASIC
En base al procedimiento del algoritmo de Huber se editó el programa en la calculadora HP PRIME, nombrándolo MediaRobust00. El cuerpo del programa detallado se presenta a continuación.
EXPORT MediaRobust00()
//By G. Delgado, UNAN-León (2016) BEGIN
LOCAL i,n,d,x,y,s,j,SX;
LOCAL DT,c,smad,xs,sumx,Xm,k0,xc; LOCAL xm0,xs0,sm,sm2,a, H15,c1; LOCAL l;
LOCAL xm:=makeMat(0,50); D2:={};L2:={}; D3:={}; L7:={}; L8:={};
INPUT(n,"Tamaño datos"); EDITLIST(D1);
median(D1)▶Xm;
MSGBOX("MED"+Xm); L9:=D1;
FOR i FROM 1 TO n DO L1(i):=ABS(D1(i)-Xm);
END;
median(L1)▶y;
MSGBOX("MAD="+y);
smad:=y/0.6745; c:=1.5;
xs:=smad; L2(1):=Xm;//mediana xc:=smad*c; c1:=c*sqrt(1-1/n); xm:=Xm;
xs:=smad; j:=1;
while j<50 do
xm0:=xm; xs0:=xs; sm:=0; sm2:=0;
xc:=c1*xs;
for i from 1 to n do
a:=MIN(xm+xc,MAX(xm-xc,L9(i))); sm:=sm+evalf(a); sm2:=sm2+(evalf(a)-xm)²;
end; xm:=sm/n;
xs:=(sqrt(sm2/(0.778*(n-1)))); if ABS(xs-xs0)/xs<0.0001 then l:=j; MSGBOX("Iteraciones"+l); j:=51;
end;
j:=j+1;
end; H15:=xm;
FOR i FROM 1 TO n DO L7(i):=H15-2*xs; L8(i):=H15+2*xs;
END; D2:=L7; D3:=L8;
if l>50 then
MSGBOX("NO CONVERGE");
else
PRINT();
PRINT("******ESTADISTICA ROBUSTA*******"); PRINT(" μHub="+H15);
PRINT("σHub="+xs);
PRINT("Iteraciones "+l); PRINT(" ");
PRINT("Presione Enter para ver OUTLIERS"); PRINT(" ");
WAIT(0);
FOR i FROM 1 TO n DO
IF L9(i)<H15-2*xs or L9(i)>H15+2*xs THEN PRINT("Outlier "+"("+i+")=> "+L9(i));
END;
END;
end;
PRINT(" ");
PRINT("Limites:");
PRINT("Li="+(H15-2*xs)); PRINT("Ls="+(H15+2*xs)); PRINT("");
PRINT(" G. Delgado"); END;
Una vez editado el programa se puede ejecutar desde el menú usuario (Usua). Se selecciona el nombre del programa MediaRobust00 y se ejecuta con Enter. Los datos de entradas son los siguientes: número o tamaño de datos (n) e introducción de la serie de datos x1…xn. Los datos de salida son los siguientes: media robusta , desviación o incertidumbre estándar robusta, los valores Outliers, límite mínimo y máximo de valores permitidos. Se puede obtener el gráfico de control en Aplicaciones (Apps). Seleccionando la aplicación 1 Var Estadistica y pulsando Enter, aparece la tabla numérica de tres columnas D1, D2 y D3. Al pulsar la tecla Symb aparece el menú donde se deben especificar las columnas Di y seleccionar line. Con la tecla Plot aparecerá el gráfico de control.
4.2. Aplicación del programa MediaRobust00 en recobrados para análisis de residuos de clorpirifos en maní
El programa MediaRobust00 fue aplicado para identificar valores “outliers” en la estimación del factor de recobrado en análisis de residuo de clorpirifos en maní, cuyos resultados son útiles para estimar la veracidad del método de determinación de plaguicidas residuales por cromatografía de gases con detectorECD. En la tabla 1 se presentan los resultados de los recobrados obtenidos en 18 días a lo largo de 3 meses y por diferentes analistas. Estos datos se introducen en el programa para obtener los valores “outliers”.
Los datos se introdujeron en la columna D1 de la aplicación 1 Var Estadistica. Para visualizar los valores dudosos se graficaron los datos pulsando la tecla Plot, como puede verse los puntos dentro de los círculos en la figura 1. Se observa que al menos hay 2 outliers.
El programa se ejecutó desde el menú Usua y pulsando la tecla táctil ok y la tecla Enter se introduce el número de datos n: 15 y se pulsa ok. Aparece la pantalla con la tabla de datos como se muestra en el cuadro de la figura 2
Se revisan si los valores son correctos. Si es necesario corregirlos se utilizan las teclas direccionales de la calculadora para ubicarse en la celda y se introducen los valores corregidos. La ejecución del programa continúa pulsando la tecla ok y siguiendo las direcciones del cuadro de diálogo de la pantalla.
Los resultados finales del programa MediaRobust00, se presentan en el cuadro de la figura 3. Donde se pueden ver los parámetros de la población estimados, los 3 valores outliers y los límites del intervalo donde son aceptados los datos.
Los límites de control y la serie de datos incluyendo los “outliers” se pueden visualizar gráficamente en la aplicación 1 Var Estadistica. En esta aplicación se pulsa Enter y aparecen la tabla de datos con dos columnas adicionales D2 y D3. En D2 aparece el límite de control inferior y en D3 el límite superior, figura 4.
Con la tecla Plot se obtiene la gráfica de la figura 5. Donde se observan claramente los puntos “outliers” y los límites de variación de los valores de recobrado de clorpirifos en mani
4.3. Validación del programa
Para validar el programa MediaRobust00, se utilizó el programa Robstat basado en el algoritmo de Huber, y elaborado en Excel por la Comisión de métodos analíticos de la “Royal Society of Chemistry”. Los datos se ingresaron en ambos programas y los resultados obtenidos se muestran en la tabla 2.
Las desviaciones son menores que las precisiones o aproximaciones en el cálculo iterativo. Esto significa que no hay diferencias entre los dos programas. De esta manera se puede concluir que el programa MediaRobust00, elaborado en HP-BASIC es apto para ser utilizado en la identificación de “outliers” en las mediciones analíticas.
4.4. Comparación con los test de Dixon y Grubbs
Aplicando las pruebas de Dixon y de Grubbs al 95% de nivel de confianza para detectar “outliers”, se tienen los resultados de la tabla 3 y 4. Los cálculos se realizaron ordenando los datos de menor a mayor.
Como puede observarse claramente, el test de Dixon es el menos sensible, el Test de Grubbs identificó los dos valores más pequeños como “outliers”. Mientras que con el método de Huber se encontraron tres outliers: el valor máximo de la serie (128) y los dos valores más pequeños (70 y 77). Lo que indica que este último método es mucho más sensible. El test de Dixon es muy útil para tamaño de serie de datos pequeñas (n≤5), el test de Grubbs se aplica para n≤10 y el test de Huber funciona para n≥6.
Con el fin de confirmar la validez del programa en HP BASIC se utilizó un programa elaborado en cálculo simbólico MAPLE 2015 denominado MediaHuber00 (Delgado, G, 2015). Los resultados muestran que no hay diferencias entre los parámetros de la población estimados con los dos programas (desviación de 0.05% para la incertidumbre estándar y 0.0009% para la media poblacional). Si se toma la media y la desviación estándar clásicas y se elabora el gráfico de control con rango móvil al 95% de nivel de confianza (ver anexo, según ASTM D 6299-02, 2002 y WADSWORTH H, STEPHENS K, GOFFREY A. B., 2005), el intervalo de los límites será mayor que el del método de Huber, tal a como lo muestran las líneas punteadas de la figura 6. En la misma gráfica se observa que este intervalo se reduce aplicando la estadística robusta. Esto verifica que el método de Huber es más sensible para la identificación de “outliers”. Es importante destacar que con este gráfico también se identificaron los tres puntos “outliers” al 95% de nivel de confianza. Son los puntos que están fuera de los límites de control.
5. Conclusiones
El diseño y elaboración del programa basado en el algoritmo de Huber en lenguaje HP-BASIC (mezcla de QBASIC y Pascal) utilizando la calculadora de última generación HP-PRIME y validado con el programa de referencia del Comité de Métodos Analíticos de la Royal Society of Chemistry, fue aplicado a la identificación de valores “outliers” en la determinación de residuos de clorpirifos en maní por cromatografía de gases con detector mECD. El algoritmo se fundamenta en la estadística robusta que no depende ni de valores extremos ni del tamaño de la muestra. Este método es mucho más sensible que los métodos clásicos, test de Grubbs y test de Dixon. El programa editado en la calculadora programable HP PRIME es útil para la inmediatez del control de calidad en análisis de rutina, ya que en la mayoría de los casos se necesita de medios de cálculos rápidos para evaluar parámetros de calidad de los procesos analíticos, ver anexos.
Por otro lado, desde el punto de vista académico este trabajo es muy útil por la facilidad de contar con una herramienta de cálculo portátil que puede ser aplicado en los cursos de quimiometría o de estadística aplicada. Lo importante a señalar es que el emulador o calculadora virtual HP PRIME se puede descargar de internet Wadsworth H, Stephens K, Goffrey A. B., (2005) .
Agradecimientos
Vaya el agradecimiento de los autores al Laboratorio SER AGRO, S.A. por permitirnos la difusión del presente estudio, dentro del contexto de la mejora continua del Sistema de Gestión de la Calidad ISO/IEC 17025
Literatura Citada
AMC-RSC. (1989). "Robust Statistics", Analyst, Vol. 14, 1693-1697
AMC Technical Brief (2004), Royal Soc. of Chem. No. 6
ASTM D. (2002). "Applying Statistical Quality Techniques" Norma Internacional, EE.UU.
Codex Alimentarius. (2000). "Residuos de plaguicidas presentes en alimentos y piensos", 32ª Reunión, Países Bajos.
Delgado G y Hernández N. (2014). "Evaluación de la homogeneidad de la muestra y estudio intralaboratorio de la precisión intermedia en la determinación de aflatoxinas en maní", Universitas UNAN-León, Vol 5, 1, 11-25.
Delgado, G. (2015). Programa elaborado en MAPLE 2015, Universidad Nacional Autónoma de Nicaragua, León (UNAN-León).
Dixon, WJ. (1950). Análisis de valores extremos. The Annals of Mathematical Statistics. 21 (4), 488-506.
European Food Safety Autority, (2014), EFSA Journal, Vol 12, 12, 3942.
Feinberg M., (1996), "La Validation des Méthodes d´Analyse", Masson, París, pag. 383.
Grubbs F.E., (1969), Tecnometrics, 1969, 11, 1. https://doi.org/10.1080/00401706.1969.10490657
ISO 5721-2. (1994). "Accuracy of measurements methods and results", Norma Internacional, Ginebra, Suiza;
ISO 5721-5, (2017) "Accuracy of measurements methods and results", Norma Internacional, Ginebra, Suiza.
Thompson, M. (2011). The characteristic function, a method-specific alternative to the Horwitz function. Journal of AOAC International, 95(6), 1803-1806.
Basurto, E., & Mancera, E. (2013, August). USO DE HP PRIME EN LA COMPRENSIÓN DE PARÁMETROS EN FUNCIONES POLINOMIALES. In VI Congresso Internacional de Ensino de Matemática-2013.
Wadsworth, H. M., Stephens, K. S., & Godfrey, A. B. (2005). Métodos de control de calidad. Cecsa.
Etapas para elaborar una carta de control de rango móvil
Los límites de control se calculan en base a 2. El algoritmo consta de las siguientes etapas:
1. Cálculo del promedio de la serie de valores x1, x2, …xn.
2.Calculo del promedio de rango móvil:
3.Cálculo de los límites de control:
Notas
Notas de autor
gusdel53@gmail.com