Art - Ugr

Art - Ugr

ART Un mtodo alternativo para la construccin de rboles de decisin Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera Grupo de investigacin en Bases de Datos y Sistemas de Informacin Inteligentes Departamento de Ciencias de la Computacin e Inteligencia Artificial E.T.S Ingeniera Informtica Universidad de Granada Introduccin Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Aprendizaje en Inteligencia Artificial Programas/sistemas autnomos. Sistemas de ayuda a la decisin. Resultado del aprendizaje

MODELO Funciones: descripcin y/o prediccin. 2 Introduccin Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Objetivo Conseguir modelos de clasificacin simples, simples inteligibles y robustos de una forma eficiente y escalable. escalable 3 Introduccin Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos

continuos Infraestructur a Conclusiones Los desarrollos ms provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Induccin de rboles de decisin + Extraccin de reglas de asociacin = ART [Association Rule Trees] 4 ndice general Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 5

Propedutica Propedutica: Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Enseanza preparatoria para el estudio de una disciplina D.R.A.E. rboles de decisin Induccin de reglas y listas de decisin Reglas de asociacin 6 Propedutica rboles de decisin Introduccin Propedutica rboles Reglas Asociacin El modelo ART

Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Representacin del conocimiento: rbol Nodo internos Preguntas Nodos hoja Decisiones Y 0 1 X X 0 1 0 Z 0 Z 1

0 0 1 1 1 1 0 0 1 7 Propedutica > rboles de decisin Construccin Algoritmos TDIDT [Top-Down Induction on Decision Trees] Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a

Conclusiones Estrategia divide y vencers para la construccin recursiva del rbol de decisin de forma descendente. Reglas de divisin Reglas de parada Reglas de poda 8 Propedutica > rboles de decisin Reglas de divisin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Criterios heursticos para evaluar la bondad de una particin p.ej. Medidas de impureza Ganancia de informacin (ID3)

9 Propedutica > rboles de decisin Reglas de divisin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Criterio de proporcin de ganancia (C4.5) ndice de diversidad de Gini (CART) 10 Propedutica > rboles de decisin Reglas de divisin Otros criterios Introduccin Propedutica rboles Reglas Asociacin El modelo ART

Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 11 Propedutica > rboles de decisin Reglas de divisin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Alternativas de formulacin ms simple MAXDIF ndice Generalizado de Gini

12 Propedutica > rboles de decisin Reglas de divisin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Pese a su sencillez, MAXDIF y el ndice Generalizado de Gini obtienen resultados satisfactorios en la prctica. Las distintas reglas de divisin propuestas mejoran marginalmente la precisin de los rboles de decisin y lo hacen slo en situaciones concretas. Berzal, Cubero, Cuenca & Martn-Bautista On the quest for easy-to-understand splitting rules 13

Data & Knowledge Engineering, 2002 Propedutica Induccin de reglas Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones IDEA Emplear reglas como bloque de construccin de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aqullos que no 14 Propedutica > Induccin de reglas Ejemplos Introduccin Propedutica rboles Reglas Asociacin

El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Metodologa STAR Aprendizaje incremental de expresiones lgicas en forma normal disyuntiva para describir conceptos Listas de decisin Lista ordenada de reglas if ... then ... else if ... else ... Estrategia separa y vencers 15 Propedutica Reglas de asociacin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a

Conclusiones Item En bases de datos transaccionales: Artculo involucrado en una transaccin. En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) 16 Propedutica Reglas de asociacin Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones

Regla de asociacin XY Soporte de una regla de asociacin soporte(XY) = soporte(XUY) = P(XUY) Confianza de una regla de asociacin confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X) 17 Propedutica > Reglas de asociacin Clasificadores Introduccin Propedutica rboles Reglas Asociacin El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Modelos de clasificacin parcial vg: Bayardo

Modelos de clasificacin asociativos vg: CBA (Liu et al.) Clasificadores bayesianos vg: LB (Meretakis et al.) Patrones emergentes vg: CAEP (Dong et al.) rboles de reglas vg: Wang et al. Reglas generales con excepciones vg: Liu et al. 18 ndice general

Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 19 El modelo ART Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Presentacin Construccin del clasificador ART Ejemplo Uso del clasificador ART Propiedades del clasificador ART Resultados experimentales

20 El modelo ART Presentacin Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones IDEA Aprovechar la eficiencia de los algoritmos de extraccin de reglas de asociacin para construir un modelo de clasificacin en forma de rbol de decisin. ART = Association Rule Tree CLAVE Reglas de asociacin + Ramas else Hbrido rbol de decisin lista de decisin 21

El modelo ART Un caso real: SPLICE Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 22 El modelo ART Construccin K=1 Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos

continuos Infraestructur a Conclusiones Extraccin de reglas con K items en su antecedente S existen reglas adecuadas? No S Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 23 El modelo ART Construccin K=1 Introduccin Propedutica El modelo ART Presentacin

Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Extraccin Seleccin K++ Ramificacin Seguir? Hoja Extraccin de reglas: Hiptesis candidatas MinSupp MinConf Umbral de soporte mnimo Umbral de confianza mnima Umbral fijo Seleccin automtica 24

El modelo ART Construccin K=1 Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Extraccin Seleccin Ramificacin K++ Seguir? Hoja Seleccin de reglas:

Reglas agrupadas por conjuntos de atributos. Criterio de preferencia. 25 El modelo ART Ejemplo Conjunto de datos Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 26 El modelo ART Ejemplo Introduccin Propedutica El modelo ART Presentacin

Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Nivel 1 K=1 NIVEL 1 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75% 27 El modelo ART Ejemplo Introduccin Propedutica El modelo ART Presentacin Construccin

Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Nivel 1 K=2 NIVEL 1 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%) 28 El modelo ART Ejemplo Introduccin Propedutica El modelo ART Presentacin Construccin

Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Nivel 1 NIVEL 1 Seleccin del mejor conjunto de reglas p.ej. S1 S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ... 29 El modelo ART Ejemplo Nivel 1 Nivel 2 Introduccin Propedutica El modelo ART Presentacin

Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 30 El modelo ART Ejemplo Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Nivel 2 NIVEL 2

Extraccin de reglas S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2) 31 El modelo ART Ejemplo Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones ART TDIDT XY

Y 00 0 ART vs. TDIDT 0 e ls e 01 0 0 X X Z 1 1 0 1 1 1 0 Z

0 Z 1 0 0 1 1 1 1 0 0 1 32 El modelo ART Uso del clasificador Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis

candidatas Atributos continuos Infraestructur a Conclusiones Berzal, Cubero, Snchez & Serrano ART: A hybrid classification model Machine Learning 33 El modelo ART Uso del clasificador Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 34 El modelo ART Uso del clasificador Conversin del rbol en reglas

Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Conjunto de reglas Lista de decisin 35 El modelo ART Propiedades Introduccin Propedutica El modelo ART Presentacin Construccin

Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Estrategia de bsqueda Algoritmo greedy separa y vencers Robustez del clasificador Ruido y claves primarias Complejidad del rbol Profundidad Factor de ramificacin 1/MinSupp 36 El modelo ART Resultados experimentales Introduccin Propedutica El modelo ART Presentacin

Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Implementacin Java 2 SDK (Sun Microsystems) AspectJ Experimentacin 10-CV & Tests estadsticos JDBC (InterBase 6) Windows NT 4.0 Workstation Conjuntos de datos UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/ MLRepository.html 37 El modelo ART > Resultados experimentales Precisin del clasificador 100

90 audiology car chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic vote 80 Precisin del clasificador Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 70

60 50 40 30 20 10 0 ART C4.5 CN2-STAR CN2-DL RIPPER Naive Bayes Por defecto 38 El modelo ART > Resultados experimentales Complejidad Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos

Infraestructur a Conclusiones Complejidad del clasificador 1000 audiology car chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic vote 100 10 1 ART C4.5 AQR CN2-STAR CN2-DL

RIPPER 39 El modelo ART > Resultados experimentales Tiempo de entrenamiento 1000000 audiology car chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic vote 100000 Tiempo de entrenamiento (ms) Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis

candidatas Atributos continuos Infraestructur a Conclusiones 10000 1000 100 10 1 ART C4.5 CN2-STAR CN2-DL RIPPER Naive Bayes 40 El modelo ART > Resultados experimentales Operaciones de E/S 1000000 audiology car

chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic vote 100000 Operaciones de E/S (recorridos) Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 10000 1000

100 10 1 ART C4.5 CN2-STAR CN2-DL RIPPER Naive Bayes 41 El modelo ART > Resultados experimentales Operaciones de E/S 1000000000 100000000 audiology car chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic

vote 10000000 Operaciones de E/S (registros) Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones 1000000 100000 10000 1000 100 10 1 ART C4.5 CN2-STAR CN2-DL

RIPPER Naive Bayes 42 El modelo ART > Resultados experimentales Operaciones de E/S 1000000000 100000000 Operaciones de E/S (pginas) Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones ART 10000000 C4.5

1000000 CN2 - STAR 100000 CN2 - DL 10000 RIPPER 1000 Naive Bayes 100 10 1 1 2 4 8 16 32 64 Tamao de pgina 128

256 512 1024 43 El modelo ART Comentarios finales Introduccin Propedutica El modelo ART Presentacin Construccin Ejemplo Uso Propiedades Resultados Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Modelos de clasificacin obtenidos Precisin aceptable Complejidad reducida Interacciones entre atributos Mtodo de construccin de

clasificadores Algoritmo eficiente Mtodo escalable Seleccin automtica de 44 ndice general Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 45 Hiptesis candidatas Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos

continuos Infraestructur a Conclusiones Extraccin de reglas de asociacin El algoritmo TBAR TBAR en ART Evaluacin de las reglas obtenidas Medidas disponibles Resultados experimentales 46 Hiptesis candidatas Extraccin de reglas K=1 Introduccin Propedutica Extraccin de reglas El modelo ART con K items en su antecedente Hiptesis candidatas Extraccin Evaluacin existen reglas Atributos adecuadas? No continuos Infraestructur S

a Conclusiones Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol S K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 47 Hiptesis candidatas > Extraccin de reglas Reglas de asociacin Extraccin de reglas de asociacin Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones Umbrales mnimos

MinSupport MinConfidence Estrategia divide y vencers Encontrar todos los itemsets frecuentes. Generar las reglas de asociacin que se derivan de los itemsets frecuentes. 48 Hiptesis candidatas > Extraccin de reglas Reglas de asociacin Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones Obtencin de los itemsets frecuentes Lk Algoritmos de la familia Apriori Generacin de candidatos Ck a partir de Lk-1 x Lk-1

Recorrido secuencial de la base de datos para obtener Lk a partir de Ck 49 Hiptesis candidatas > Extraccin de reglas TBAR Algoritmo de la familia Apriori Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones IDEA rbol de itemsets [Tree-Based Association Rule mining] Berzal, Cubero, Marn & Serrano TBAR: An efficient method for association rule mining in relational databases Data & Knowledge Engineering, 2001 50

Hiptesis candidatas > Extraccin de reglas TBAR: rbol de itemsets Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones A:0 [3] A:1 [2] B:0 [2] C:1 [2] B:0 [2] B:1 [3] B:1 [2]

C:1 [2] C:1 [4] C:1 [2] Nivel L[1] C:1 [3] Nivel L[2] Nivel L[3] 51 Hiptesis candidatas > Extraccin de reglas TBAR: rbol de itemsets Tabla hash Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones

A:0 [3] A:0 [3] A:1 [2] B:0 [2] B:0 [?] B:1 [?] C:1 [?] B:1 [3] B:0 [?] A:1 [2] B:0 [2] B:1 [3]

C:1 [4] Nivel L[1] C:1 [4] B:1 [?] C:1 [?] C:1 [?] C:1 [?] 52 Hiptesis candidatas > Extraccin de reglas TBAR vs. Apriori Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones

vg: CENSUS 53 Hiptesis candidatas > Extraccin de reglas TBAR http://frontdb.ugr.es/ Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones 54 Hiptesis candidatas > Extraccin de reglas TBAR en ART Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur

a Conclusiones Extraccin de itemsets En la ltima iteracin, L[MaxSize+1], se eliminan los itemsets candidatos que no incluyen el atributo de la clase. Generacin de reglas Se sustituye la fase de generacin de reglas por una exploracin adecuada del rbol de itemsets. 55 Hiptesis candidatas Evaluacin de las reglas K=1 Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones Extraccin de reglas con K items en su antecedente S

existen reglas adecuadas? No S Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 56 Hiptesis candidatas > Evaluacin de las reglas Medidas de cumplimiento Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones

Medidas alternativas Confianza Conviccin Inters Divergencia Hellinger Factores de certeza Utilidad ... 57 Hiptesis candidatas > Evaluacin de las reglas Resultados experimentales 100 90 Precisin del clasificador Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones

audiology car chess hayesroth lenses lungcancer mushroom nursery soybean splice tictactoe titanic vote 80 70 60 50 40 30 20 10 0 Confianza Utilidad CF Conviccin Inters Medida de evaluacin de las reglas Hellinger

58 Hiptesis candidatas Comentarios finales Introduccin Propedutica El modelo ART Hiptesis candidatas Extraccin Evaluacin Atributos continuos Infraestructur a Conclusiones Formulacin de hiptesis candidatas: Extraccin de reglas de asociacin Algoritmo TBAR Evaluacin de hiptesis candidatas: Existencia de criterios alternativos Confianza / Utilidad Factores de certeza / Conviccin 59 ndice general

Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 60 Atributos continuos Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Discretizacin vg:

Discretizacin contextual rboles n-arios con atributos continuos Resultados experimentales: Manejo de atributos continuos en ART Anexo: Medidas de similitud 61 Atributos continuos Discretizacin Mtodos de agrupamiento Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones Basados en centroides Jerrquicos

Aglomerativos Divisivos Mtodos de discretizacin Discretizacin supervisada vs. no supervisada Uso local vs. global 62 Atributos continuos Discretizacin contextual Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones IDEA Medir la similitud existente entre los vectores caractersticos de los valores adyacentes del atributo continuo.

Discretizacin supervisada Discretizacin jerrquica 63 Atributos continuos Discretizacin contextual Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones Versin aglomerativa t Versin divisiva t 64

Atributos continuos Discretizacin contextual Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones Ejemplo 65 Atributos continuos rboles n-arios Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur

a Conclusiones Atributos continuos en rboles de decisin rboles binarios rboles n-arios Mtodos de discretizacin Local Global vg: Discretizacin local jerrquica Variante aglomerativa Variante aglomerativa con prediscretizacin Variante divisiva 66 Atributos continuos rboles n-arios Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones

Resultados experimentales: Discretizacin en los algoritmos TDIDT Precisin similar a la obtenida por C4.5. rboles ms pequeos (tanto en nmero de hojas como en profundidad media). La discretizacin global mejora la eficiencia, manteniendo la precisin y reduciendo la complejidad del rbol. 67 Atributos continuos Resultados experimentales Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones

Precisin del clasificador ART 100 adult australian breast bupa car glass hayesroth heart ionosphere iris pima spambase thyroid waveform wine yeast Promedio 90 80 70 60 50 40 30 20 10 0 B C A al al

al u u u t t x x xt te te te n n n Co Co Co 1R M LP D ta Ze -M K ns ea id w i

u Eq Mtodo de discretizacin local th p de i u Eq th 68 Atributos continuos Resultados experimentales Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones Precisin del clasificador ART

100 adult australian breast bupa car glass hayesroth heart ionosphere iris pima spambase thyroid waveform wine yeast Promedio 90 80 70 60 50 40 30 20 10 0 lB lC lA ua ua ua t

t t x x x te te te n n n Co Co Co 1R M LP D t Ze a K -M n ea s id iw u

Eq Mtodo de discretizacin global th ep id u Eq th 69 Atributos continuos Resultados experimentales MDLP - Global - TDIDT Contextual - Local - TDIDT Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones C4.5 - Local - TDIDT

Contextual - Global - TDIDT MDLP - Local - TDIDT Equidepth - Global - TDIDT Equidepth - Local - TDIDT Contextual - Global - ART MDLP - Global - ART K Means - Global - ART Equidepth - Global - ART Equidepth - Local - ART K Means - Local - ART MDLP - Local - ART Contextual - Local - ART Sin discretizacin - ART 0 10 20 30 Error 40 50 70 Atributos continuos Resultados experimentales MDLP - Local - ART MDLP - Global - ART Introduccin Propedutica

El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones Contextual - Global - ART Sin discretizacin - ART MDLP - Local - TDIDT Contextual - Global - TDIDT Contextual - Local - ART Equidepth - Global - ART Equidepth - Local - ART MDLP - Global - TDIDT Contextual - Local - TDIDT Equidepth - Global - TDIDT C4.5 - Local - TDIDT Equidepth - Local - TDIDT 0 20 40 60 Complejidad 80

71 Atributos continuos Comentarios finales Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Discretizaci n rboles narios Resultados Infraestructur a Conclusiones ART con atributos continuos... Precisin similar a la obtenida por los algoritmos TDIDT. rboles mucho ms pequeos que los obtenidos por otros mtodos. Mejor si se utiliza discretizacin global: Mayor precisin. Menor complejidad. Mayor eficiencia. 72

ndice general Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 73 Infraestructura Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones

Modelo conceptual del sistema Sistemas basados en componentes Diseo e implementacin vg: Conjuntos de datos Servicio de persistencia 74 Infraestructura Modelo conceptual Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones 75 Infraestructura Componentes Introduccin Propedutica El modelo ART

Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones 76 Infraestructura Componentes ETREK Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones EnTerprise Run-time Environment Kernel

Clientes: Sesiones, recursos & metadatos. Agentes: Planificacin, migracin & monitorizacin. Infraestructura: Evolucin & coordinacin. 77 Infraestructura Diseo e implementacin Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones Patrones de diseo Tecnologas existentes Servicios web (SOAP, WSDL &

UDDI) Java: RMI, Jini... Objetivos Transparencia Usabilidad 78 Infraestructura Diseo e implementacin Servicio de persistencia Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones 79 Infraestructura Diseo e implementacin Acceso a los datos Introduccin Propedutica El modelo ART Hiptesis candidatas

Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones 80 Infraestructura Diseo e implementacin Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones 81 Infraestructura Diseo e implementacin Introduccin Propedutica El modelo ART Hiptesis

candidatas Atributos continuos Infraestructur a Modelo Componentes Diseo Conclusiones Berzal, Blanco, Cubero & Marn OLAP vs. OLTP in the middle tier: Component-based data mining frameworks 82 Communications of the ACM ndice general Introduccin Propedutica El modelo de clasificacin ART Construccin de hiptesis candidatas Manejo de atributos continuos Cuestin de infraestructura Conclusiones 83 Conclusiones

Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Extraccin de reglas de asociacin Tcnicas de clasificacin ART Tcnicas de discretizacin Infraestructura 84 Conclusiones ART Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones

rboles n-arios politticos con ramas else vs. TDIDT rboles ms pequeos vs. DL Extraccin ms eficiente de reglas Sin mecanismos artificiales adicionales. Ajuste automtico de parmetros. Mtodo escalable (reglas de asociacin). 85 Modelos de clasificacin simples y Conclusiones Resultados complementarios Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones Algoritmo TBAR.

Algoritmos TDIDT: Reglas de divisin alternativas: MaxDif y el ndice Generalizado de Gini. rboles n-arios arbitrarios con tcnicas de discretizacin jerrquica. Discretizador contextual. Arquitectura basada en componentes Modelizacin de conjuntos de datos. 86 Almacn de datos. Trabajo futuro Introduccin Propedutica El modelo ART Hiptesis candidatas Atributos continuos Infraestructur a Conclusiones

Hbrido ART-TDIDT. Tcnicas difusas. Reglas de asociacin cuantitativas. ART en problemas de regresin. Algoritmos de extraccin de reglas. Introduccin de pesos en las reglas. Medidas alternativas de evaluacin de reglas. Criterios alternativos de seleccin de reglas. ART como tcnica de aprendizaje 87 incremental. ART Un mtodo alternativo para la construccin de rboles de decisin Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera Grupo de investigacin en Bases de Datos y Sistemas de Informacin Inteligentes Departamento de Ciencias de la Computacin e Inteligencia Artificial E.T.S Ingeniera Informtica Universidad de Granada

Recently Viewed Presentations

  • Journal - Yeg Lit

    Journal - Yeg Lit

    Concrete details. Discrete information used to describe something. Helps the reader visualize or comprehend an idea. Typically factual details - you can't argue with them . Rely mainly on adjectives . Can be helpful, but not always the strongest for...
  • Status update for Renaissance initiatives - June 2010

    Status update for Renaissance initiatives - June 2010

    Company Forum. July 2012. NFS Administrative shared service. Project overview. Co-brand logo area.A co-branding company's logo must be positioned within the borders of this shape
  • Using positive praise alongside the sanction system. Why

    Using positive praise alongside the sanction system. Why

    Instant rewards using Vivo App has has very much helped to motivate students, having a positive impact on progress, learning and outcomes. Only been using a very short time - but I love that it is so easy! It is...
  • Water Project for Chasnigua, Honduras

    Water Project for Chasnigua, Honduras

    Water Project for Chasnigua, Honduras. Graduate Students: John Jackson and Adrian Weaver. Undergrads: Daniel Howell, John Stein, Eric Strailyand Rebecca Walthall
  • Do Now - Weebly

    Do Now - Weebly

    Warm Up - - Do Now. Hashtag History . Come up with hashtags that demonstrate your understanding of the following vocabulary words from the Renaissance. Example. Humanism #peoplerock #yolo. Patron. Renaissance Man
  • Geo-Referenced Dynamic Pushbroom Stereo Mosaics for 3D and ...

    Geo-Referenced Dynamic Pushbroom Stereo Mosaics for 3D and ...

    Sensor and Vision Research for Potential Transportation Applications Research Initiatives for Nano and Hi-tech Research January 18, 2006 Zhigang Zhu
  • Diapositive 1 - pourdespyreneesvivantes.fr

    Diapositive 1 - pourdespyreneesvivantes.fr

    Associations naturalistes : Saiak, LPO-Aquitaine, Organbidexka Col Libre, GEOB Nature Midi-Pyrénées, Nature Comminges, Association des Naturalistes de l'Ariège, Cerca Nature, Groupe Ornithologique du Roussillon, LPO-Aude Etablissements publics : Office national de la chasse et de la faune sauvage ; Office...
  • Getting Ready to Teach Pearsons new AS and

    Getting Ready to Teach Pearsons new AS and

    Simon Armitage 'Chainsaw Versus the Pampas Grass' Eavan Boland 'Inheritance' Ian Duhig 'The Lammas Hireling' Consider the methods used to convey childhood: Helen Dunmore 'To My Nine-Year-Old Self' John Burnside 'History' Julia Copus 'An Easy Passage' There are many ways...