Sie sind auf Seite 1von 12

Die Kommandozeile

Teil 3b

Sammeth / GENO 1
Aktuelles:
Wahlen der Studierendenvertretungen
• Youtube Video "Lass dich aufstellen für die Fachschaft
Angewandte Naturwissenschaften!":
https://www.youtube.com/watch?
v=iEtcNIc_cbA&list=PLmxTSEHfMAxSOEY_4VuCOouqWqKsivTss

• Stammtisch diesen Donnerstag 22/04 um 19:00:


https://hs-coburg.zoom.us/j/98159911555?
pwd=bXBkRUpjbzQwVTlURzRVTnpFc1JwUT09

• weitere Infos: Ronja.von-Westphalen@stud.hs-coburg.de

© Sammeth / SS21 / AInf 2


Wiederholung
Analysieren Sie die Datei SGD_features.tab :

1. Wie viele Zeilen hat die Datei?

2. Wie viele Zeilen enthalten den Eintrag "gene"?

3. Wie viele Zeilen gibt es mit den Eintrag "ORF"?

Dokumentieren Sie Ihr Vorgehen ("README" Datei)!


cat grep –v head –n tail –n wc -l |

Sammeth / GENO 3
Wie speichere ich die Ergebnisse in einer
neuen Datei?

! Das > Symbol bedingt eine "Umleitung" des Datenstroms. Anstelle


vom Terminal/Bildschirm geht der Strom in eine Datei
cat SGD_features.tab | grep YAL060W > match.tab

jetzt überprüfen Sie wie viele Dateien Sie haben:


match.tab
SGD_features.tab

Sie haben nun einen Teil der Daten aus dem ursprünglichen
Datensatz in einer neuen Datei match.tab gespeichert.

Sammeth / GENO 4
Wie wähle ich Spalten aus?
Es sieht so aus als ob die Datei den Featuretyp ORF (Spalte 2) für
protein-codierende Gene verwendet. Sie wollen also die zweite
(Tab-separierte) Spalte "ausschneiden" (cut):
cat SGD_features.tab | cut –f 2 | head

gibt aus:
ORF
CDS
ORF
CDS
ARS
telomere
telomeric_repeat

Sammeth / GENO 5
Wie baue ich meine Pipeline auf
Bauen Sie Ihre Pipeline Schritt für Schritt aus Kommandos auf, und
überprüfen Sie immer, ob Sie auf dem richtigen Weg sind.

Schreiben Sie ein Kommando, und lassen Sie es durch einen


"Limitierer" laufen ( head ), dann fügen Sie ein neues Kommando
dazu, lassen Sie es erneut laufen.

Versichern Sie sich, dass Sie bei jedem Schritt verstehen, was die
Kommandokette "soweit" tut.
cat SGD_features.tab | head
cat SGD_features.tab | cut –f 2 | head
cat SGD_features.tab | cut –f 2 | grep ORF | head

Sammeth / GENO 6
sort: viele Probleme können durch eine Sortierung
gelöst werden

Das Tool sort ordnet identische Einträge nacheinander an.

Filtern der Featuretypen:


cat SGD_features.tab | cut –f 2 > types.txt

Featuretypen sortieren:
cat types.txt | sort | head

Sammeth / GENO 7
uniq: fasst konsekutive gleiche
Einträge zusammen
Das Tool uniq kondensiert alle konsekutiven identischen Wörter in
einem einzigen Eintrag: findet unterschiedliche ("unique") Worte.
Probieren Sie zunächst:
cat types.txt | uniq | head

und danach:
cat types.txt | sort | uniq | head

Vergleichen Sie auch die Ausgabe von:


cat types.txt | sort | head

Sammeth / GENO 8
Sort + Uniq beantworten überraschend viele
Fragen

Bsp: Wie viele unterschiedliche Features sind in der Datei?

cat types.txt | sort | uniq | wc -l

Wir erhalten:
44

Die Herausforderung ist oft nur zu Erkennen, wann ein Problem


durch eine sort + uniq Kombination modelliert werden kann.

Sammeth / GENO 9
Uniq –c (count) zählt die Instanzen
Die Herausforderung ist oft zu Erkennen, wann ein Problem durch
eine sort + uniq Aktion modelliert werden kann.

uniq -c gibt auch noch die Anzahl der kondensierten Einzeleinträge


zurück:
cat types.txt | sort | uniq –c | head

zeigt die Zählwerte und Typen an:


352 ARS
196 ARS_consensus_sequence
7074 CDS
50 LTR_retrotransposon

Sammeth / GENO 10
Auch sort hat einige nützliche Flags
Angenommen Sie wollen die Feature-Typen nach ihrer Häufigkeit
sehen, was passiert wenn Sie eingeben:

cat types.txt | sort | uniq –c | sort

Das Flag -n sortiert numerisch (integer), probieren Sie:


cat types.txt | sort | uniq –c | sort -n

Und das Flag -r sortiert rückwärts, von der größten zur kleinsten
Zahl:
cat types.txt | sort | uniq –c | sort –r –n

Sammeth / GENO 11
Übung
http://sgd-archive.yeastgenome.org/curation/chromosomal_feature/SGD_features.tab

Analysieren Sie die Datei SGD_features.tab :


1. Wie oft kommt der Eintrag "ORF" in der zweiten Spalte vor?
2. Welches Wort kommt in der zweiten Spalte 50mal vor?
3. Wie oft kommt der Eintrag "Z2_region" in der zweiten Spalte
vor?
4. Wie viele verschiedenen Einträge kommen in der zweiten
Spalte vor?
5. Wie viele Einträge sind auf dem Watson und wie viele auf
dem Crick Strang annotiert? -> README
cat grep –v head –n tail –n wc –l |
cut –f sort –n –r uniq –c
} >
Sammeth / GENO 12