Resumen
En este trabajo de investigación se ha elaborado y aplicado el algoritmo “random
forest” para un modelo de clasificación, con la finalidad de predecir la tenencia de
anemia en niños de 6 a 35 meses de edad nacidos en todo el Perú, utilizando la
base de datos recolectada a través de la Encuesta Demográfica y de Salud Familiar
(ENDES) por el Instituto Nacional de Estadística e Informática (INEI), durante los
años 2015 al 2019, conformada por 57410 registros de encuestados. Se
seleccionaron 33 variables independientes de todas las que recoge la ENDES. Se
plantearon seis procedimientos alternativos utilizando una combinación de los
criterios de balanceo de datos y reajuste de parámetros para la predicción de
anemia, obteniéndose valores de los indicadores, Área Bajo la Curva (AUC), nivel
de especificidad y nivel de sensibilidad para cada uno de ellos. De los seis
procedimientos, el que mejor predijo la tenencia de anemia con valores para los
indicadores de especificidad (63,6%) y sensibilidad (65,9%) más similares fue el que
utiliza datos balanceados con un reajuste de los parámetros, reduciendo la cantidad
de arboles y con selección de variables. Las 5 variables independientes más
importantes para este modelo en la tenencia de anemia son: variables relacionadas
con el niño (edad del niño, en meses), variables sociodemográficas (altitud del
conglomerado, en metros), variables del cuidado materno e infantil (número de
visitas prenatales por embarazo, meses de embarazo del primer control prenatal y
talla de la madre en centímetros).