Sie sind auf Seite 1von 120

Dissertation

Medical Information Search in Semi-Structured Data

submitted by

Markus Eduard KREUZTHALER MSc, BSc

for the Academic Degree of

Doctor of Medical Science (Dr. scient. med.)

at the

Medical University of Graz

————————————–

Institute for Medical Informatics, Statistics and Documentation Medical University of Graz Head: Univ.-Prof. Dipl.-Ing. Dr. techn. Andrea Berghold

————————————–

under the Supervision of

Univ.-Prof. Dr.med. Stefan Schulz Univ.-Prof. Dipl.-Ing. Dr. techn. Andrea Berghold Prof. Dr. habil. Henning Muller¨

Graz, October 2015

Dissertation Committee

Univ.-Prof. Dr.med. Stefan Schulz Institute for Medical Informatics, Statistics and Documentation Medical University of Graz Auenbruggerplatz 2

8036 Graz

Univ.-Prof. Dipl.-Ing. Dr. techn. Andrea Berghold

Institute for Medical Informatics, Statistics and Documentation Medical University of Graz Auenbruggerplatz 2

8036 Graz

Prof. Dr. habil. Henning Muller¨

University of Applied Sciences Western Switzerland, Sierre (HES-SO) TechnoArk 3

3960 Sierre, Switzerland

Declaration

I hereby declare that this thesis is my own original work and that I have fully acknowledged by name all of those individuals and organisations that have contributed to the research for this thesis. Due acknowledgement has been made in the text to all other material used. Throughout this thesis and in all related publications I followed the guidelines of “Good Scientific Practice”.

Eidesstattliche Erkl¨arung

Ich erkl¨are ehrenw¨ortlich, dass ich die vorliegende Arbeit selbst¨andig angefertigt und abge- fasst, und jene Personen und Institutionen, die am Zustandekommen der Forschungsdaten beteiligt waren, namentlich genannt habe. Andere als die angegebenen Quellen habe ich nicht verwendet und die den benutzten Quellen w¨ortlich oder inhaltlich entnommenen Stellen habe ich als solche kenntlich gemacht. Die Arbeit an der Dissertation und da- raus entstandener Publikationen wurde gem¨aß den Regeln der Good Scientific Practice“ durchgefuhrt.¨

Graz, 28th October 2015

Markus Kreuzthaler

Danksagung

Diese Arbeit wurde im Jahr 2015 am Institut fur¨

Dokumentation an der Medizinischen Universit¨at Graz verfasst. Teile der Arbeit wurden

durch das Toolset der Firma Averbis GmbH unterstutzt.¨

Ich m¨ochte mich hierbei vor allem bei alle beteiligten Personen des Instituts bedanken, die mich bei verschiedensten Aspekten der Arbeit unterstutzt¨ haben (Infrastruktur, Inhalt, Feedback). Ich habe in den unteschiedlichen Bereichen der Medizinfinformatik uber¨ die Jahre vieles mitgenommen und mich dennoch auf ein Gebiet spezialisieren k¨onnen. Des weiteren gilt ein großer Dank Univ.-Prof. Dr.med. Stefan Schulz und Univ.-Prof. Dipl.- Ing. Dr. techn. Andrea Berghold die es mir erm¨oglicht haben mich ausfuhrlich¨ mit dem Inhalt dieser Dissertation zu besch¨aftigen und mir uber¨ die Jahre einen sicheren Ruckhalt¨ gegeben haben. Auch der gesamten BST Projektgruppe m¨ochte ich einen großen Dank fur¨ die angenehme Arbeitsatmosph¨are und das gute Gespr¨achsklima aussprechen. And thank you Marcus for always having an open ear.

Medizinische Informatik, Statistik und

Ein weiterer Dank gilt meiner Familie, meinen Freunden und besonders Carine, die mich ahrend meiner intensiven Phase der Arbeit begleitet hat.

Coming back to where you started is not the same as never leaving.A Hat Full of Sky, Terry Pratchett (1948-2015).

Graz, am 28. Oktober 2015

Markus Kreuzthaler

Abstract

Computer systems for clinical information management store large amounts of textual data in medical records. Finding reports and patient summaries use semi-structured document templates. Coded data, using controlled vocabularies, are mainly restricted to accounting, research, and quality assurance. Unstructured or semi-structured content is difficult to analyse, although there are multiple use cases for content retrieval from clinical texts which would benefit from semantically enhanced retrieval functionalities.

This thesis focuses on the investigation of clinical narratives in combination with improved semantic indexing and extraction systems for patient-based decision making. It addresses the development and evaluation of technical solutions to support health professionals and researchers in retrieving targeted patient-related information in a timely and efficient way, according to their information needs. The information to be searched for is constituted within medical free text from various clinical domains in a hospital environment. Different state of the art approaches are explored to what extent they can be adapted to the domain and how they can be optimized to apply to clinical professionals’ information needs.

These approaches, applied to anonymized clinical textual data, show the potential of adapted solutions to medical domains and related sublanguages for enhanced information retrieval. The following search scenarios have been investigated: collection-based patient search and patient-based document search. Within these search scenarios, enhanced text processing methods have shown their applicability to support domain expert retrieval. The results show the trade-off of clinical information systems and the possibilities of novel frameworks and technologies for unstructured information processing. For selected clinical information system content, they can bridge the gap between patient-based storage systems and disease-related search systems.

Zusammenfassung

Klinische Informationssysteme enthalten große Mengen von textuellen Daten fur¨ patien- tenbasierte medizinische Aufzeichnungen, wobei diese meist in semi-strukturierten Do- kumentvorlagen eingebettet sind. Die Verwendung von kodierten Daten und einem kon- trollierten Vokabular, ist meist auf die Abrechnung medizinischer Leistungen, Forschung und Qualit¨atssicherung beschr¨ankt. Unstrukturierte oder semi-strukturierte Informationen sind schwierig zu analysieren, obwohl es jedoch Anwendungsf¨alle der klinischen Dokumen- tenrecherche gibt, die von einer verbesserten Semantik profitieren wurden.¨

Diese Arbeit konzentriert sich auf die Entwicklung und Bewertung technischer L¨osungen fur¨ Gesundheitsfachkr¨afte und Forscher bei der Suche nach patientenbezogenen Infor- mationen und wie diese dabei effizient, je nach Informationsbedarf, unterstutzt¨ werden onnen. Die Datenbest¨ande, die dabei untersucht werden, sind aus verschiedenen klini- schen Abteilungen entstanden und wurden innerhalb eines klinischen Informationssystems abgespeichert. Verschiedene dem aktuellen Stand der Technik existierende Frameworks, Methoden und L¨osungen aus Industrie und Forschung werden untersucht, in wie weit sie sich auf die jeweilige Sprachendom¨ane anpassen und optimieren lassen, um g¨angige Suchanfragen von medizinischen Experten zu unterstutzen.¨

Die verschiedenen Ans¨atze wurden auf anonymisierte klinische Texte angewandt und zei- gen das Potential angepasster Suchl¨osungen fur¨ die jeweilige Sprachendom¨ane fur¨ eine bessere Informationsrecherche in der Medizin. Folgende Rechercheszenarien wurden dabei untersucht: dokumentenbasierte Patientensuche und patientenbasierte Dokumentensuche. In diesen Anwendungsf¨allen k¨onnen erweiterte Textverarbeitungsmethoden den medizini- schen Dom¨anenexperten in seiner Arbeit unterstutzen.¨ Die Ergebnisse zeigen die M¨oglich- keiten und Limitationen neuer Frameworks und Technologien fur¨ die Verarbeitung von unstrukturierter Information in klinischen Informationssystemen auf. Fur¨ ausgew¨ahlte In- halte in klinischen Informationssystemen, k¨onnen sie eine Verbindung zwischen patienten- basierten Speichersystemen und krankheitsorientierten Suchsystemen darstellen.

Contents

1 Introduction

1

1.1 Motivation

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

1

1.2 Objectives

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2

1.3 Outline

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2

2 Background

4

2.1 Semi-structured data .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

2.2 Medical language

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

2.3 Language technologies

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

2.3.1 Document classification

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

2.3.2 Information retrieval .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

2.3.3 Information extraction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2.3.4 Natural language processing

 

8

2.4

Data sets and frameworks

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

3 Methods

11

3.1 Support vector machines .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

3.2 Vector space model .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

3.2.1 Weighting schemes

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

3.2.2 Similarity measure

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

3.3 Latent semantic analysis .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

3.4 Regular expressions .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

14

3.5 Morphosemantic processing

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

15

3.6 Evaluation metrics

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

4 Clinical Document Classification

 

19

 

i

4.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

4.2 Related work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

4.3 Materials and methods .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

4.3.1 Overview

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

4.3.2 Gold standard

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

4.3.3 Data .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

4.4 Results and discussion

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

4.4.1 Neoplasm detection

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

4.4.2 Inflammation detection

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

4.4.3 Discussion .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

27

4.5 Conclusion and outlook

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

5 Clinical Information Retrieval

 

31

5.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

31

5.2 Related work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

32

5.3 Materials and methods .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

35

5.3.1 Overview

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

35

5.3.2 Information Needs

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

35

5.3.3 Gold standard

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

36

5.4 Results and discussion

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

38

5.5 Conclusion and outlook

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

6 Clinical Information Extraction

 

44

6.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

44

6.2 Related work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

44

6.3 Material and methods

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

47

6.3.1 Patient corpus

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

47

6.3.2 Evaluation architecture

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

49

6.3.3 Implementation aspects

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

50

6.4 Results and discussion

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

52

6.4.1 Regular expression analysis

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

52

6.4.2 Performance analysis

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

52

6.5 Conclusion and outlook

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

56

 

ii

7 Clinical Natural Language Processing

58

7.1 Introduction .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

58

 

7.1.1

Problem analysis

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

59

7.2 Related work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

61

7.3 Materials and methods .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

62

 

7.3.1

Definitions and preprocessing

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

62

7.3.2

Data .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

62

7.3.3 Gold standard

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.