Datamining on distributed medical databases

Anna Szynkowiak Have

    Research output: Book/ReportPh.D. thesisResearch

    1271 Downloads (Pure)

    Abstract

    This Ph.D. thesis focuses on clustering techniques for Knowledge Discovery in Databases. Various data mining tasks relevant for medical applications are described and discussed. A general framework which combines data projection and data mining and interpretation is presented. An overview of various data projection techniques is offered with the main stress on applied Principal Component Analysis. For clustering purposes, various Generalized Gaussian Mixture models are presented. Further the aggregated Markov model, which provides the cluster structure via the probabilistic decomposition of the Gram matrix, is proposed. Other data mining tasks, described in this thesis are outlier detection and the imputation of the missing data. The thesis presents two outlier detection methods based on the cumulative distribution and a special designated outlier cluster in connection with the Generalized Gaussian Mixture model. Two models for imputation of the missing data, namely the K-nearest neighbor and a Gaussian model are suggested. With the purpose of interpreting a cluster structure two techniques are developed. If cluster labels are available then the cluster understanding via the confusion matrix is available. If data is unlabeled, then it is possible to generate keywords (in case of textual data) or key-patterns, as an informative representation of the obtained clusters. The methods are applied on simple artificial data sets, as well as collections of textual and medical data. In Danish: Denne ph.d.-afhandling fokuserer på klyngeanalyseteknikker til ekstraktion af viden fra databaser. Afhandling præsenterer og diskuterer forskellige datamining problemstillinger med relevans for medicinske applikationer. Specielt præsenteres en generel struktur der kombinerer data-projektion, datamining og automatisk fortolkning. Indenfor data-projektion gennemgås en række teknikker med speciel vægt på anvendt Principal Komponent Analyse. En række generaliserede Gaussisk miksturmodeller foreslås til klyngeanalyse. Desuden foreslås en aggregatet Markov model, som estimerer klyngestrukturen via dekomposition af en sandsynlighedsbaseret Grammatrix. Herudover beskriver afhandlingen to andre datamining problemstillinger nemlig "outlier" detektion og imputering af manglende data. Afhandlinger præsenterer "outlier" detektionsmetoder. Dels baseret på akumulerede fordelinger, dels baseret på introduktion af en speciel "outlier" klynge i forbindelse med den generaliserede Gaussisk mikstur-model. Med hensyn til imputation af manglende data præsenteres to metoder baseret på a K-nærmeste-nabo eller en Gaussisk model antagelse. Der er udviklet to metoder til automatisk fortolkning af klyngestrukturen. Nå klynge annoteringer "labels" er tilgængelige vil konfusionsmatricen danne grundlaget for fortolkningen. Hvis sådanne annoteringer ikke er tilgængelige, er det muligt at generere nøgleord (i tilfælde af tekst data) eller generelt nøgle-mønstre, som således bibringer til fortolkning af klyngerne. De foreslåede metoder er testet på simple kunstige datasæt såvel som kollektioner af tekst og medicinske data.
    Original languageEnglish
    PublisherTechnical University of Denmark
    Number of pages203
    Publication statusPublished - Feb 2004

    Cite this

    Have, A. S. (2004). Datamining on distributed medical databases. Technical University of Denmark.
    Have, Anna Szynkowiak. / Datamining on distributed medical databases. Technical University of Denmark, 2004. 203 p.
    @phdthesis{56fe2de790114debbacd3aba994cce24,
    title = "Datamining on distributed medical databases",
    abstract = "This Ph.D. thesis focuses on clustering techniques for Knowledge Discovery in Databases. Various data mining tasks relevant for medical applications are described and discussed. A general framework which combines data projection and data mining and interpretation is presented. An overview of various data projection techniques is offered with the main stress on applied Principal Component Analysis. For clustering purposes, various Generalized Gaussian Mixture models are presented. Further the aggregated Markov model, which provides the cluster structure via the probabilistic decomposition of the Gram matrix, is proposed. Other data mining tasks, described in this thesis are outlier detection and the imputation of the missing data. The thesis presents two outlier detection methods based on the cumulative distribution and a special designated outlier cluster in connection with the Generalized Gaussian Mixture model. Two models for imputation of the missing data, namely the K-nearest neighbor and a Gaussian model are suggested. With the purpose of interpreting a cluster structure two techniques are developed. If cluster labels are available then the cluster understanding via the confusion matrix is available. If data is unlabeled, then it is possible to generate keywords (in case of textual data) or key-patterns, as an informative representation of the obtained clusters. The methods are applied on simple artificial data sets, as well as collections of textual and medical data. In Danish: Denne ph.d.-afhandling fokuserer p{\aa} klyngeanalyseteknikker til ekstraktion af viden fra databaser. Afhandling pr{\ae}senterer og diskuterer forskellige datamining problemstillinger med relevans for medicinske applikationer. Specielt pr{\ae}senteres en generel struktur der kombinerer data-projektion, datamining og automatisk fortolkning. Indenfor data-projektion gennemg{\aa}s en r{\ae}kke teknikker med speciel v{\ae}gt p{\aa} anvendt Principal Komponent Analyse. En r{\ae}kke generaliserede Gaussisk miksturmodeller foresl{\aa}s til klyngeanalyse. Desuden foresl{\aa}s en aggregatet Markov model, som estimerer klyngestrukturen via dekomposition af en sandsynlighedsbaseret Grammatrix. Herudover beskriver afhandlingen to andre datamining problemstillinger nemlig {"}outlier{"} detektion og imputering af manglende data. Afhandlinger pr{\ae}senterer {"}outlier{"} detektionsmetoder. Dels baseret p{\aa} akumulerede fordelinger, dels baseret p{\aa} introduktion af en speciel {"}outlier{"} klynge i forbindelse med den generaliserede Gaussisk mikstur-model. Med hensyn til imputation af manglende data pr{\ae}senteres to metoder baseret p{\aa} a K-n{\ae}rmeste-nabo eller en Gaussisk model antagelse. Der er udviklet to metoder til automatisk fortolkning af klyngestrukturen. N{\aa} klynge annoteringer {"}labels{"} er tilg{\ae}ngelige vil konfusionsmatricen danne grundlaget for fortolkningen. Hvis s{\aa}danne annoteringer ikke er tilg{\ae}ngelige, er det muligt at generere n{\o}gleord (i tilf{\ae}lde af tekst data) eller generelt n{\o}gle-m{\o}nstre, som s{\aa}ledes bibringer til fortolkning af klyngerne. De foresl{\aa}ede metoder er testet p{\aa} simple kunstige datas{\ae}t s{\aa}vel som kollektioner af tekst og medicinske data.",
    author = "Have, {Anna Szynkowiak}",
    year = "2004",
    month = "2",
    language = "English",
    publisher = "Technical University of Denmark",

    }

    Have, AS 2004, Datamining on distributed medical databases. Technical University of Denmark.

    Datamining on distributed medical databases. / Have, Anna Szynkowiak.

    Technical University of Denmark, 2004. 203 p.

    Research output: Book/ReportPh.D. thesisResearch

    TY - BOOK

    T1 - Datamining on distributed medical databases

    AU - Have, Anna Szynkowiak

    PY - 2004/2

    Y1 - 2004/2

    N2 - This Ph.D. thesis focuses on clustering techniques for Knowledge Discovery in Databases. Various data mining tasks relevant for medical applications are described and discussed. A general framework which combines data projection and data mining and interpretation is presented. An overview of various data projection techniques is offered with the main stress on applied Principal Component Analysis. For clustering purposes, various Generalized Gaussian Mixture models are presented. Further the aggregated Markov model, which provides the cluster structure via the probabilistic decomposition of the Gram matrix, is proposed. Other data mining tasks, described in this thesis are outlier detection and the imputation of the missing data. The thesis presents two outlier detection methods based on the cumulative distribution and a special designated outlier cluster in connection with the Generalized Gaussian Mixture model. Two models for imputation of the missing data, namely the K-nearest neighbor and a Gaussian model are suggested. With the purpose of interpreting a cluster structure two techniques are developed. If cluster labels are available then the cluster understanding via the confusion matrix is available. If data is unlabeled, then it is possible to generate keywords (in case of textual data) or key-patterns, as an informative representation of the obtained clusters. The methods are applied on simple artificial data sets, as well as collections of textual and medical data. In Danish: Denne ph.d.-afhandling fokuserer på klyngeanalyseteknikker til ekstraktion af viden fra databaser. Afhandling præsenterer og diskuterer forskellige datamining problemstillinger med relevans for medicinske applikationer. Specielt præsenteres en generel struktur der kombinerer data-projektion, datamining og automatisk fortolkning. Indenfor data-projektion gennemgås en række teknikker med speciel vægt på anvendt Principal Komponent Analyse. En række generaliserede Gaussisk miksturmodeller foreslås til klyngeanalyse. Desuden foreslås en aggregatet Markov model, som estimerer klyngestrukturen via dekomposition af en sandsynlighedsbaseret Grammatrix. Herudover beskriver afhandlingen to andre datamining problemstillinger nemlig "outlier" detektion og imputering af manglende data. Afhandlinger præsenterer "outlier" detektionsmetoder. Dels baseret på akumulerede fordelinger, dels baseret på introduktion af en speciel "outlier" klynge i forbindelse med den generaliserede Gaussisk mikstur-model. Med hensyn til imputation af manglende data præsenteres to metoder baseret på a K-nærmeste-nabo eller en Gaussisk model antagelse. Der er udviklet to metoder til automatisk fortolkning af klyngestrukturen. Nå klynge annoteringer "labels" er tilgængelige vil konfusionsmatricen danne grundlaget for fortolkningen. Hvis sådanne annoteringer ikke er tilgængelige, er det muligt at generere nøgleord (i tilfælde af tekst data) eller generelt nøgle-mønstre, som således bibringer til fortolkning af klyngerne. De foreslåede metoder er testet på simple kunstige datasæt såvel som kollektioner af tekst og medicinske data.

    AB - This Ph.D. thesis focuses on clustering techniques for Knowledge Discovery in Databases. Various data mining tasks relevant for medical applications are described and discussed. A general framework which combines data projection and data mining and interpretation is presented. An overview of various data projection techniques is offered with the main stress on applied Principal Component Analysis. For clustering purposes, various Generalized Gaussian Mixture models are presented. Further the aggregated Markov model, which provides the cluster structure via the probabilistic decomposition of the Gram matrix, is proposed. Other data mining tasks, described in this thesis are outlier detection and the imputation of the missing data. The thesis presents two outlier detection methods based on the cumulative distribution and a special designated outlier cluster in connection with the Generalized Gaussian Mixture model. Two models for imputation of the missing data, namely the K-nearest neighbor and a Gaussian model are suggested. With the purpose of interpreting a cluster structure two techniques are developed. If cluster labels are available then the cluster understanding via the confusion matrix is available. If data is unlabeled, then it is possible to generate keywords (in case of textual data) or key-patterns, as an informative representation of the obtained clusters. The methods are applied on simple artificial data sets, as well as collections of textual and medical data. In Danish: Denne ph.d.-afhandling fokuserer på klyngeanalyseteknikker til ekstraktion af viden fra databaser. Afhandling præsenterer og diskuterer forskellige datamining problemstillinger med relevans for medicinske applikationer. Specielt præsenteres en generel struktur der kombinerer data-projektion, datamining og automatisk fortolkning. Indenfor data-projektion gennemgås en række teknikker med speciel vægt på anvendt Principal Komponent Analyse. En række generaliserede Gaussisk miksturmodeller foreslås til klyngeanalyse. Desuden foreslås en aggregatet Markov model, som estimerer klyngestrukturen via dekomposition af en sandsynlighedsbaseret Grammatrix. Herudover beskriver afhandlingen to andre datamining problemstillinger nemlig "outlier" detektion og imputering af manglende data. Afhandlinger præsenterer "outlier" detektionsmetoder. Dels baseret på akumulerede fordelinger, dels baseret på introduktion af en speciel "outlier" klynge i forbindelse med den generaliserede Gaussisk mikstur-model. Med hensyn til imputation af manglende data præsenteres to metoder baseret på a K-nærmeste-nabo eller en Gaussisk model antagelse. Der er udviklet to metoder til automatisk fortolkning af klyngestrukturen. Nå klynge annoteringer "labels" er tilgængelige vil konfusionsmatricen danne grundlaget for fortolkningen. Hvis sådanne annoteringer ikke er tilgængelige, er det muligt at generere nøgleord (i tilfælde af tekst data) eller generelt nøgle-mønstre, som således bibringer til fortolkning af klyngerne. De foreslåede metoder er testet på simple kunstige datasæt såvel som kollektioner af tekst og medicinske data.

    M3 - Ph.D. thesis

    BT - Datamining on distributed medical databases

    PB - Technical University of Denmark

    ER -

    Have AS. Datamining on distributed medical databases. Technical University of Denmark, 2004. 203 p.