Algorithmen Und Datenstrukturen in Der Bioinformatik Neuntes Ubungsblatt WS 11/12

Hochgeladen von

Dethleff90

0% fanden dieses Dokument nützlich (0 Abstimmungen)

7 Ansichten3 Seiten

Originaltitel

Copyright

Verfügbare Formate

PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

7 Ansichten3 Seiten

Algorithmen Und Datenstrukturen in Der Bioinformatik Neuntes Ubungsblatt WS 11/12

Hochgeladen von

Dethleff90

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 3

Im Dokument suchen

Prof. Dr.

Knut Reinert
Enrico Siragusa
Sascha Meiers
Christoph Hartmann

Institut für Informatik

AG Algorithmische Bioinformatik

Algorithmen und Datenstrukturen in der Bioinformatik

Neuntes Übungsblatt WS 11/12

Abgabe Montag, 02.01.2011, 15:00 Uhr, diesmal auch per E-Mail

Name: Übungsgruppe: A B C
Matrikelnummer:

Niveau I

Aufgabe1: Pidgeonhole Principle

Beweisen Sie das Lemma 1 aus dem Skript, Kapitel 6.2.

Lemma 1. Gegeben sei ein Match zwischen einem Text Occ und einem Pattern P mit
k Fehlern, desweiteren sei P = p1 , . . . , pj eine beliebige Konkatenation vonPInfixen (=
Teilstrings) von P und seien a1 , . . . , aj nicht-negative Ganzzahlen mit A = ji=1 ai .
Dann gilt: es existiert ein i ∈ [1 . . . j], so dass Occ ein Infix enthält, welches pi mit
höchstens bai k/Ac Fehlern matcht.

Hinweis: Es empfiehlt sich ein relativ simpler Widerspruchsbeweis. a1 , . . . , aj sind dabei

willkürliche gewählte Zahlen. Die vorangehende Aussage (“Teilt man das Pattern in k+1
Teile ...”) ist ein Spezialfall dieses Lemmas, bei dem man ai = 1 ∀i wählt.

Aufgabe 2: Approximate Matching

Finden Sie das Pattern P = WIRSING mit maximal k = 3 Abweichungen im Text
T = WIRSINDIRRSINNIG. Benutzen Sie dafür den Algorithmus mit hierarchischer Veri-
fizierung aus dem Skript, Kapitel 6.4. Wenn Sie wollen, können Sie die exakten Treffer
der Teilworte mit dem Aho-Corasick-Algorithmus suchen; ansonsten reicht es aus die
Treffer per Hand zu finden.

Niveau II
Aufgabe 3: PEX
Der PEX-Algorithmus ist ein Algorithmus zur approximativen Stringsuche, der das
Schubfachprinzip nutzt. Im Skript, Kapitel 6.5 sind die Pseudocodes für die Baumerstel-
lung und Suchphase des PEX-Algorithmus gegeben. Benutzen Sie diese, um
a) einen Suchbaum für das Wort BRAUN für k = 2, also maximal zwei abweichende
Zeichen, zu erstellen
b) mit diesem Suchbaum den Text BLAUKRAUT zu durchsuchen.

Programmieraufgabe (Abgabe Montag, 9.01.2012, 15:00)

P-Aufgabe 5: Implement a program to map a set R of genomic reads to a reference

genome G with at most k mismatches. To this end, your program should perform the
following steps:
a) Read the reference genome G and the reads R from their corresponding input files
(Template code given)
b) Construct a q-gram Index over G
c) For each read R ∈ R
i) Partition R into k + 1 pieces
ii) Search each piece in G using the q-gram Index (Each occurrence of a piece of
R in G is called a hit)
iii) Verify that R matches with at most k mismatches the substring of G sur-
rounding each hit
iv) Write end positions of all approximate occurrences of R in G into an output
file (Beware of reporting each approximate occurrence only once)
Hints:
• The underlying Alphabet is Σ = {A, C, G, T}.
• Reads are short sequences of length 36–400. For simplicity, all reads will have the
same length.
• A naive algorithm for Hamming Distance can be used to verify that a read R
matches a substring of G with at most k mismatches.
• Your program must take the file containing the reference genome G as the first
command-line argument, the file containing the set of reads R as the second ar-
gument, the number of mismatches k as the third argument, the output file as the
fourth argument.
• The reference genome G is stored on a single line.
• Each read R ∈ R is stored on a single and distinct line.
• Each approximate occurrence must be written in a separate row of the output file,
following the format: hRead Ri,hEnd position in Gi,hMismatchesi
• You can download the code template at https://svn.imp.fu-berlin.de/agbio/
aldabi/ws11/documents/aufgabe5.
Example:
• File with reference genome G:
AAGATACATTTTTAAAAAAAAAACAATTT
• File with reads R:
GATACA
CATTTT
• Output file:
GATACA,7,0
CATTTT,11,0
CATTTT,28,1
Evaluation:
• This exercise will be evaluated with 6 points instead of 3.

Das könnte Ihnen auch gefallen

Grundlagen Der Informatik
Dokument25 Seiten
Grundlagen Der Informatik
Mohamed Nasser
Noch keine Bewertungen
Funktionen Und Bedeutungen Des Verbs: Lassen
Dokument42 Seiten
Funktionen Und Bedeutungen Des Verbs: Lassen
Reni Angel Sirumapea
Noch keine Bewertungen
Algorithmen Und Datenstrukturen in Der Bioinformatik Achtes Ubungsblatt WS 10/11
Dokument2 Seiten
Algorithmen Und Datenstrukturen in Der Bioinformatik Achtes Ubungsblatt WS 10/11
Dethleff90
Noch keine Bewertungen
Algorithmen Und Datenstrukturen in Der Bioinformatik Siebentes Ubungsblatt WS 10/11
Dokument3 Seiten
Algorithmen Und Datenstrukturen in Der Bioinformatik Siebentes Ubungsblatt WS 10/11
Dethleff90
Noch keine Bewertungen
Blatt 01
Dokument6 Seiten
Blatt 01
bingooma794
Noch keine Bewertungen
Klausur FOP 2018 04
Dokument26 Seiten
Klausur FOP 2018 04
Santosh Chetri
Noch keine Bewertungen
Exam 3
Dokument18 Seiten
Exam 3
skxnx
Noch keine Bewertungen
Informática 2022 W
Dokument7 Seiten
Informática 2022 W
Daniel
Noch keine Bewertungen
Algorithmen Und Datenstrukturen Blatt 1
Dokument4 Seiten
Algorithmen Und Datenstrukturen Blatt 1
michele.nergadse
Noch keine Bewertungen
Beispiel Informatik
Dokument3 Seiten
Beispiel Informatik
Devashish Pisal
Noch keine Bewertungen
Ue3 Angabe
Dokument6 Seiten
Ue3 Angabe
Gergő Gyula Kovács
Noch keine Bewertungen
Algorithmen Und Datenstrukturen in Der Bioinformatik Elftes Ubungsblatt WS 11/12
Dokument4 Seiten
Algorithmen Und Datenstrukturen in Der Bioinformatik Elftes Ubungsblatt WS 11/12
Dethleff90
Noch keine Bewertungen
Blatt 06
Dokument4 Seiten
Blatt 06
Mambo Jambo
Noch keine Bewertungen
Ub 1
Dokument2 Seiten
Ub 1
Rayen Ayari
Noch keine Bewertungen
GAD Trainer
Dokument60 Seiten
GAD Trainer
mimikushleva
Noch keine Bewertungen
WEP-Uebung 06
Dokument2 Seiten
WEP-Uebung 06
Linh Nguyen
Noch keine Bewertungen
Algorithmen Und Datenstrukturen in Der Bioinformatik ZW Olftes Ubungsblatt WS 11/12
Dokument3 Seiten
Algorithmen Und Datenstrukturen in Der Bioinformatik ZW Olftes Ubungsblatt WS 11/12
Dethleff90
Noch keine Bewertungen
A 06
Dokument4 Seiten
A 06
Anonymous HQqVa0QvU5
Noch keine Bewertungen
Blatt 10
Dokument2 Seiten
Blatt 10
Clement Chin
Noch keine Bewertungen
Aufgaben 6
Dokument3 Seiten
Aufgaben 6
Liechtenstein
Noch keine Bewertungen
DAP 2 - Klausur - 2021 - 1
Dokument26 Seiten
DAP 2 - Klausur - 2021 - 1
danik2002z
Noch keine Bewertungen
Coma2 ss12 2
Dokument2 Seiten
Coma2 ss12 2
Dethleff90
Noch keine Bewertungen
Blatt 03
Dokument1 Seite
Blatt 03
Dan
Noch keine Bewertungen
Loesung 2223
Dokument19 Seiten
Loesung 2223
K.A Zribi
Noch keine Bewertungen
Abl Arrays
Dokument4 Seiten
Abl Arrays
Jannis
Noch keine Bewertungen
Blatt 01
Dokument3 Seiten
Blatt 01
Tobias Zimmermann
Noch keine Bewertungen
E D Informatica 2022 SP MI Pascal Var 01 LGE
Dokument3 Seiten
E D Informatica 2022 SP MI Pascal Var 01 LGE
Irina Barboiu
Noch keine Bewertungen
Blatt08 PG
Dokument14 Seiten
Blatt08 PG
Josh Peterson
Noch keine Bewertungen
CoMa2 Uebung2 SoSe2013
Dokument2 Seiten
CoMa2 Uebung2 SoSe2013
Dethleff90
Noch keine Bewertungen
AB Vom Struktogramm Zum Programm
Dokument4 Seiten
AB Vom Struktogramm Zum Programm
Mirko Martinovic
Noch keine Bewertungen
Probeklausur 2223
Dokument20 Seiten
Probeklausur 2223
K.A Zribi
Noch keine Bewertungen
Coma2 ss12 3
Dokument1 Seite
Coma2 ss12 3
Dethleff90
100% (1)
Kryptographie
Dokument4 Seiten
Kryptographie
M
Noch keine Bewertungen
Uebung 05
Dokument2 Seiten
Uebung 05
Justus Multhaup
Noch keine Bewertungen
Algorithmen Und Datenstrukturen
Dokument31 Seiten
Algorithmen Und Datenstrukturen
Герман Манукян
Noch keine Bewertungen
Programmiersprache C++ 1Jg
Dokument34 Seiten
Programmiersprache C++ 1Jg
Heinrich
Noch keine Bewertungen
2015 - Teil B - Aufgaben
Dokument3 Seiten
2015 - Teil B - Aufgaben
Deah Alis
Noch keine Bewertungen
Anleitung
Dokument6 Seiten
Anleitung
Moed Alan
Noch keine Bewertungen
Blatt 11
Dokument3 Seiten
Blatt 11
Clement Chin
Noch keine Bewertungen
E D Informatica 2022 SP MI C Var 01 LGE
Dokument3 Seiten
E D Informatica 2022 SP MI C Var 01 LGE
Irina Barboiu
Noch keine Bewertungen
03-Methods Strings 1
Dokument10 Seiten
03-Methods Strings 1
Achref Saidi
Noch keine Bewertungen
Datenstrukturen Und Algorithmen Sommersemester 2022
Dokument2 Seiten
Datenstrukturen Und Algorithmen Sommersemester 2022
a
Noch keine Bewertungen
Exercise
Dokument2 Seiten
Exercise
Mahshid Jafarpour
Noch keine Bewertungen
Coma2 ss12 4
Dokument2 Seiten
Coma2 ss12 4
Dethleff90
Noch keine Bewertungen
HM2 Serie04
Dokument2 Seiten
HM2 Serie04
Andrin Leo
Noch keine Bewertungen
Sec 14
Dokument22 Seiten
Sec 14
Rayen Ayari
Noch keine Bewertungen
Solution Era Endterm
Dokument28 Seiten
Solution Era Endterm
mimikushleva
Noch keine Bewertungen
FSP Mathematik T Kurs
Dokument8 Seiten
FSP Mathematik T Kurs
Ngọc Nghĩa
Noch keine Bewertungen
Uebung Assembler2
Dokument3 Seiten
Uebung Assembler2
Internet Money
Noch keine Bewertungen
Angewandte Mathematik Probeklausur
Dokument3 Seiten
Angewandte Mathematik Probeklausur
Crassius Curio
Noch keine Bewertungen
Bootstrap-Verfahren bei der Berechnung von Prognosen in (G)ARCH-Modellen: Möglichkeiten und Grenzen des Verfahrens bei der Bestimmung der Verteilungs- und Intervallprognose der Renditen und Renditevolatilität sowie bei der Berechnung von Value-at-Risk
Von Everand
Bootstrap-Verfahren bei der Berechnung von Prognosen in (G)ARCH-Modellen: Möglichkeiten und Grenzen des Verfahrens bei der Bestimmung der Verteilungs- und Intervallprognose der Renditen und Renditevolatilität sowie bei der Berechnung von Value-at-Risk
Marianna Jaskewitz
Noch keine Bewertungen
01 Reguläre Ausdrücke
Dokument43 Seiten
01 Reguläre Ausdrücke
Marvin Hicks
Noch keine Bewertungen
Automathe Theorie
Dokument94 Seiten
Automathe Theorie
Socra Antonio
Noch keine Bewertungen
Klausur GPR SS21
Dokument5 Seiten
Klausur GPR SS21
Dilay Vural
Noch keine Bewertungen
2-Klausur-12 02 10
Dokument19 Seiten
2-Klausur-12 02 10
Martin Schulze
Noch keine Bewertungen
Uebungsblatt 3
Dokument3 Seiten
Uebungsblatt 3
martinhorsttranslates
Noch keine Bewertungen
EPR 03 v1
Dokument3 Seiten
EPR 03 v1
lexot21686
Noch keine Bewertungen
Klausur SS21
Dokument18 Seiten
Klausur SS21
Simon Stecker
Noch keine Bewertungen
NuMo03 PDF
Dokument2 Seiten
NuMo03 PDF
zhifeng yan
Noch keine Bewertungen
2013 MV Mathematik Cas Aufgaben
Dokument8 Seiten
2013 MV Mathematik Cas Aufgaben
albalkhi55
Noch keine Bewertungen
E D Informatica 2023 SP MI C Var Simulare LGE
Dokument3 Seiten
E D Informatica 2023 SP MI C Var Simulare LGE
Andrew R.
Noch keine Bewertungen
Uebung 3
Dokument2 Seiten
Uebung 3
Dethleff90
Noch keine Bewertungen
DBS12 Uebungsblatt 07
Dokument2 Seiten
DBS12 Uebungsblatt 07
Dethleff90
Noch keine Bewertungen
Uebung 4
Dokument1 Seite
Uebung 4
Dethleff90
Noch keine Bewertungen
Coma2 ss12 2
Dokument2 Seiten
Coma2 ss12 2
Dethleff90
Noch keine Bewertungen
Coma2 ss12 3
Dokument1 Seite
Coma2 ss12 3
Dethleff90
100% (1)
Coma2 ss12 1
Dokument2 Seiten
Coma2 ss12 1
Dethleff90
Noch keine Bewertungen
Coma2 ss12 4
Dokument2 Seiten
Coma2 ss12 4
Dethleff90
Noch keine Bewertungen
Coma2 ss12 5
Dokument2 Seiten
Coma2 ss12 5
Dethleff90
Noch keine Bewertungen
Das Team Der Unfallchirurgie
Dokument1 Seite
Das Team Der Unfallchirurgie
Seamei Sea
Noch keine Bewertungen
DIN 5510-1 Brand
Dokument13 Seiten
DIN 5510-1 Brand
Matt Jarl
Noch keine Bewertungen
Chevrolet Astro, Safari 1993 Owner's Manual
Dokument88 Seiten
Chevrolet Astro, Safari 1993 Owner's Manual
UHFM
50% (2)