Trabajo Final de Grado Inteligencia Artificial Reduccin de

Trabajo Final de Grado Inteligencia Artificial Reduccin de

Trabajo Final de Grado Inteligencia Artificial Reduccin de la dimensionalidad mediante mtodos de seleccin de caractersticas en microarrays de ADN Grado de Ingeniera Informtica Maseda Tarin, Miguel 10/01/2019 INDICE 1 INTRODUCCIN 2 SELECCIN DE CARACTERSTICAS 3 MTODOS DE SELECCIN DE CARACTERSTICAS 4 CONJUNTO DE DATOS 5 MTODOS DE VALIDACIN 6 MTRICAS 7 f-score 8 mRMR 9 Sequential Forward Selection

10 Mtodo hbrido 11 Conclusiones 1. INTRODUCCIN Los datos por si solos no ofrecen toda la informacin que en ellos se encuentran Uso de tcnicas de DM y ML para obtener un valor aadido a nuestros datos Hay que tratar previamente los datos para poder hacer uso de las tcnicas Mtodos de tratamiento previo de los datos: Imputacin de valores ausentes Filtrado de ruido Reduccin de la dimensionalidad Reduccin de instancias Discretizacin Aprendizaje no balanceado

1. INTRODUCCIN Mtodos de clasificacin supervisada Sabemos a qu clase pertenece cada muestra a qu clase pertenecer una nueva muestra? Maldicin de la dimensionalidad Abordaremos la reduccin de la dimensionalidad en los conjuntos de datos 2. SELECCIN DE CARACTERSTICAS Dimensionalidad del conjunto de datos: Nmero de muestras: ={={1,2,,} Nmero de caractersticas: ={1,2,,} Problema de dimensionalidad: m>n Problema de dimensionalidad grave: m >> n

Mtodos de reduccin de la dimensionalidad: Seleccin de caractersticas Extraccin de caractersticas 2. SELECCIN DE CARACTERSTICAS Extraccin de caractersticas: Seleccin de caractersticas: Transformacin del conjunto original Las caractersticas originales no son necesarias para la interpretacin del modelo Interpretabilidad < Exactitud Seleccionan las caractersticas relevantes Las caractersticas originales son

necesarias para la interpretacin del modelo Interpretabilidad = Exactitud 2. SELECCIN DE CARACTERSTICAS Tipos de caractersticas (descripcin de Kohavi): Fuertes Dbiles Irrelevantes Hay que tener en cuenta las caractersticas redundantes 1.Relevantes 2.Dbiles pero no redundantes 3.Dbiles redundantes 4.Irrelevantes 2. SELECCIN DE CARACTERSTICAS Beneficios de la seleccin de caractersticas:

Modelos ms precisos y rpidos Reduccin del espacio de almacenamiento y bsqueda Mayor comprensin sobre el conjunto de datos Modelos ms simples, mejorando su visualizacin Pueden reducir los costes a la hora de recopilar nueva informacin 3. MTODOS DE SELECCIN DE CARACTERSTICAS Filtro Wrapper La seleccin es independiente al algoritmo utilizado Coste computacional bajo Gran capacidad de generalizacin

Univariantes y multivariantes Utilizan un algoritmo ML que mide la eficacia de las caractersticas Gran coste computacional Se usan cuando el coste computacional no es un problema Empotrados Hbridos La seleccin de caractersticas se realiza en el propio algoritmo de ML Menor coste computacional que los mtodos wrapper Combinacin de mtodos de filtro y wrapper Buscan obtener las ventajas de estos mtodos

4. CONJUNTO DE DATOS Microarray de ADN: LEUCEMIA Contiene un total de 72 muestras Cada muestra tiene 7.129 caractersticas (genes) Se divide en dos clases: Leucemia mieloide aguda, AML (25 muestras) Leucemia linfoblstica aguda, ALL (47 muestras) 5. METODOS DE VALIDACION Aplicacin de los mtodos de seleccin de caractersticas Stratified k-fold (5 hojas): Conjunto de entrenamiento Conjunto de test k-fold (10 hojas) al conjunto de entrenamiento: Conjunto de entrenamiento Conjunto de validacin Algoritmos de aprendizaje:

k Neighbours Classifier Decision Tree Classifier Support Vector Classifier 6. METRICAS Exactitud (accuracy) Precisin (precision) Exhaustividad (recall) TP = true positive TN = true negative FP = false positive FN = false negative 7. f-score Funcin f_score de la biblioteca scikitFeature Valoracin individual de las caractersticas

Ventajas: Tiempo de ejecucin casi nulo Muy buenos resultados Inconvenientes: Ordena de mejor a peor No elimina redundancia Accuracy KNN 98.57% DTC 91.52% f-score SVC

98.57% 8. mRMR Funcin mRMR de la biblioteca scikitFeature Accuracy Ventajas: Descarta caractersticas redundantes Mtodo multivariante Inconvenientes: Ordena segn relevancia Tiempos de ejecucin elevados No tiene tan buenos resultados como fscore 80.00% 40.00%

0.00% m RM R m RM R ) 00 (5 KNN DTC SVC 9. Sequential Foward Selection

Funcin SFS de la biblioteca mlxtend Ventajas: Niveles de clasificacin aceptables Algoritmo utilizado para la evaluacin: SVC Inconvenientes: Aade caractersticas una a una Tiempos de ejecucin muy elevados No tiene tan buenos resultados como fscore Accuracy KNN DTC 91.42%

SVC 89.04% 87.61% f-score 10. MTODO HBRIDO Combinacin de los mtodos: f-score mRMR SFS_b SFS_f Ventajas:

Buenos niveles de clasificacin Menor tiempo de ejecucin que el mtodo wrapper Inconvenientes: Tiempos de ejecucin no tan rpidos como los de filtro No supera los resultados de f-score Accuracy KNN 94.47% DTC 93.04% f-score SVC 93.04%

11. CONCLUSIONES Los conjuntos de datos microarray de ADN proponen un desafo para los algoritmos de aprendizaje La reduccin de la dimensionalidad es un paso previo para obtener los mejores resultados Los mejores resultados se obtienen con el mtodo f-score Nuestro mtodo hbrido solo supera al mtodo f-score con el algoritmo DTC Mtodo Atributos Algoritmo Accuracy Filtro: f-score 45 KNN

98,57% Hbrido 35 DTC 93,04% Filtro: f-score 305 SVC 98,57%

Recently Viewed Presentations

  • Growth & Culture of Bacteria Binary Division  1

    Growth & Culture of Bacteria Binary Division 1

    Times New Roman Arial Blank Growth & Culture of Bacteria Binary Division Phases of Growth Slide 4 Slide 5 Slide 6 Measuring Growth Slide 8 Slide 9 Slide 10 Slide 11 Measuring Growth-cont'd Slide 13 Slide 14 Physical Factors: -philes...
  • Joint Strategic Needs Assessment 2015

    Joint Strategic Needs Assessment 2015

    Scarf Chart showing the breakdown in life expectancy gap between most deprived and least deprived quintiles across Test Valley, by broad cause of death 2010-12 . Test Valley. Life expectancy gap between most deprived and least deprived quintiles, by broad...
  • Einführung, Proseminar WS 2004 - von Wachter

    Einführung, Proseminar WS 2004 - von Wachter

    Kandidaten für differentiae specificae? wahr rational (internalistisch; Gegenbeispiele von Gettier) durch den Gegenstand auf geeignete Weise erzeugt (externalistisch, z.B. Verläßlichkeit (reliabilism)) „Wissen" i.e.S. & i.w.S. I.e.S.: Glauben (Überzeugung) ist nie wissen, und wissen ist nie glauben.
  • Right to Privacy - longovt.com

    Right to Privacy - longovt.com

    Connecticut (1965) Connecticut law prohibits using contraceptives and counseling for using them which Griswold had done Court overturns conviction stating law violates her right to privacy Justice Douglas stipulates a right to privacy emerges from other rights such as the...
  • Chapter 7 LATE BAROQUE MUSIC BACH AND HANDEL Craig Wright&#x27;s ...

    Chapter 7 LATE BAROQUE MUSIC BACH AND HANDEL Craig Wright's ...

    Chapter 7 LATE BAROQUE MUSIC BACH AND HANDEL Craig Wright's Listening to Music, 4/edition Timeline Late Baroque Aesthetic Refinement rather than innovation Old forms polished and perfected Culmination of Baroque style Drama through contrast Large blocks of sound placed in...
  • Unit 4 - Development through the Life Stages

    Unit 4 - Development through the Life Stages

    Learning Outcomes of Unit 4 . You will be able to: Identify and define the stages of growth and development through the human lifespan, Identify, define and apply the potential effects of life factors and events on the development of...
  • Leading Change Wood Badge S7-602-13  VIDEO INSERT Leading

    Leading Change Wood Badge S7-602-13 VIDEO INSERT Leading

    (Ask for feedback) When you go through a C.O.P.E. experience, you will not succeed without some team building occurring. Sometimes you can build your group helping lead change, such as Al did in choosing this staff, but usually the people...
  • Tissue systems - College of Charleston

    Tissue systems - College of Charleston

    Micrograph - vascular bundle in cross section Micrograph and diagram - ground tissues in stems and leaves Micrograph - herbaceous dicot stem Micrograph of herbaceous eudicot stem; image of woody stem; diagram of woody stem tissue organization Image - new...