02 Kommandozeile03b

Die Kommandozeile
Teil 3b
Sammeth / GENO 1
Aktuelles:
Wahlen der Studierendenvertretungen
• Youtube Video "Lass dich aufstellen für die Fachschaft
Angewandte Naturwissenschaften!":
https://www.youtube.com/watch?
v=iEtcNIc_cbA&list=PLmxTSEHfMAxSOEY_4VuCOouqWqKsivTss
• Stammtisch diesen Donnerstag 22/04 um 19:00:

https://hs-coburg.zoom.us/j/98159911555?
pwd=bXBkRUpjbzQwVTlURzRVTnpFc1JwUT09
• weitere Infos: Ronja.von-Westphalen@stud.hs-coburg.de
© Sammeth / SS21 / AInf 2

Wiederholung
Analysieren Sie die Datei SGD_features.tab :
1. Wie viele Zeilen hat die Datei?
2. Wie viele Zeilen enthalten den Eintrag "gene"?
3. Wie viele Zeilen gibt es mit den Eintrag "ORF"?
Dokumentieren Sie Ihr Vorgehen ("README" Datei)!

cat grep –v head –n tail –n wc -l |
Sammeth / GENO 3
Wie speichere ich die Ergebnisse in einer
neuen Datei?
! Das > Symbol bedingt eine "Umleitung" des Datenstroms. Anstelle

vom Terminal/Bildschirm geht der Strom in eine Datei
cat SGD_features.tab | grep YAL060W > match.tab
jetzt überprüfen Sie wie viele Dateien Sie haben:

match.tab
SGD_features.tab
Sie haben nun einen Teil der Daten aus dem ursprünglichen
Datensatz in einer neuen Datei match.tab gespeichert.
Sammeth / GENO 4
Wie wähle ich Spalten aus?
Es sieht so aus als ob die Datei den Featuretyp ORF (Spalte 2) für
protein-codierende Gene verwendet. Sie wollen also die zweite
(Tab-separierte) Spalte "ausschneiden" (cut):
cat SGD_features.tab | cut –f 2 | head
gibt aus:
ORF
CDS
ORF
CDS
ARS
telomere
telomeric_repeat
Sammeth / GENO 5
Wie baue ich meine Pipeline auf
Bauen Sie Ihre Pipeline Schritt für Schritt aus Kommandos auf, und
überprüfen Sie immer, ob Sie auf dem richtigen Weg sind.
Schreiben Sie ein Kommando, und lassen Sie es durch einen

"Limitierer" laufen ( head ), dann fügen Sie ein neues Kommando
dazu, lassen Sie es erneut laufen.
Versichern Sie sich, dass Sie bei jedem Schritt verstehen, was die
Kommandokette "soweit" tut.
cat SGD_features.tab | head
cat SGD_features.tab | cut –f 2 | head
cat SGD_features.tab | cut –f 2 | grep ORF | head
Sammeth / GENO 6
sort: viele Probleme können durch eine Sortierung
gelöst werden
Das Tool sort ordnet identische Einträge nacheinander an.
Filtern der Featuretypen:

cat SGD_features.tab | cut –f 2 > types.txt
Featuretypen sortieren:
cat types.txt | sort | head
Sammeth / GENO 7
uniq: fasst konsekutive gleiche
Einträge zusammen
Das Tool uniq kondensiert alle konsekutiven identischen Wörter in
einem einzigen Eintrag: findet unterschiedliche ("unique") Worte.
Probieren Sie zunächst:
cat types.txt | uniq | head
und danach:
cat types.txt | sort | uniq | head
Vergleichen Sie auch die Ausgabe von:

cat types.txt | sort | head
Sammeth / GENO 8
Sort + Uniq beantworten überraschend viele
Fragen
Bsp: Wie viele unterschiedliche Features sind in der Datei?
cat types.txt | sort | uniq | wc -l
Wir erhalten:
44
Die Herausforderung ist oft nur zu Erkennen, wann ein Problem

durch eine sort + uniq Kombination modelliert werden kann.
Sammeth / GENO 9
Uniq –c (count) zählt die Instanzen
Die Herausforderung ist oft zu Erkennen, wann ein Problem durch
eine sort + uniq Aktion modelliert werden kann.
uniq -c gibt auch noch die Anzahl der kondensierten Einzeleinträge

zurück:
cat types.txt | sort | uniq –c | head
zeigt die Zählwerte und Typen an:

352 ARS
196 ARS_consensus_sequence
7074 CDS
50 LTR_retrotransposon
Sammeth / GENO 10
Auch sort hat einige nützliche Flags
Angenommen Sie wollen die Feature-Typen nach ihrer Häufigkeit
sehen, was passiert wenn Sie eingeben:
cat types.txt | sort | uniq –c | sort
Das Flag -n sortiert numerisch (integer), probieren Sie:

cat types.txt | sort | uniq –c | sort -n
Und das Flag -r sortiert rückwärts, von der größten zur kleinsten
Zahl:
cat types.txt | sort | uniq –c | sort –r –n
Sammeth / GENO 11
Übung
http://sgd-archive.yeastgenome.org/curation/chromosomal_feature/SGD_features.tab
Analysieren Sie die Datei SGD_features.tab :

1. Wie oft kommt der Eintrag "ORF" in der zweiten Spalte vor?
2. Welches Wort kommt in der zweiten Spalte 50mal vor?
3. Wie oft kommt der Eintrag "Z2_region" in der zweiten Spalte
vor?
4. Wie viele verschiedenen Einträge kommen in der zweiten
Spalte vor?
5. Wie viele Einträge sind auf dem Watson und wie viele auf
dem Crick Strang annotiert? -> ...README
cat grep –v head –n tail –n wc –l |
cut –f sort –n –r uniq –c
} >
Sammeth / GENO 12

02 Kommandozeile03b

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

02 Kommandozeile03b

Hochgeladen von

Copyright:

Verfügbare Formate

Die Kommandozeile

• Stammtisch diesen Donnerstag 22/04 um 19:00:

• weitere Infos: Ronja.von-Westphalen@stud.hs-coburg.de

© Sammeth / SS21 / AInf 2

1. Wie viele Zeilen hat die Datei?

2. Wie viele Zeilen enthalten den Eintrag "gene"?

3. Wie viele Zeilen gibt es mit den Eintrag "ORF"?

Dokumentieren Sie Ihr Vorgehen ("README" Datei)!

! Das > Symbol bedingt eine "Umleitung" des Datenstroms. Anstelle

jetzt überprüfen Sie wie viele Dateien Sie haben:

Schreiben Sie ein Kommando, und lassen Sie es durch einen

Das Tool sort ordnet identische Einträge nacheinander an.

Filtern der Featuretypen:

Vergleichen Sie auch die Ausgabe von:

Bsp: Wie viele unterschiedliche Features sind in der Datei?

cat types.txt | sort | uniq | wc -l

Die Herausforderung ist oft nur zu Erkennen, wann ein Problem

uniq -c gibt auch noch die Anzahl der kondensierten Einzeleinträge

zeigt die Zählwerte und Typen an:

cat types.txt | sort | uniq –c | sort

Das Flag -n sortiert numerisch (integer), probieren Sie:

Analysieren Sie die Datei SGD_features.tab :

Das könnte Ihnen auch gefallen