Din en Iso 23418 e 2020-10

DEUTSCHE NORM Entwurf Oktober 2020
DIN EN ISO 23418

D
ICS 07.100.30 Einsprüche bis 2020-11-11
Entwurf
Mikrobiologie der Lebensmittelkette –

Vollständige Genomsequenzierung zur Typisierung und genomischen
Charakterisierung von Bakterien in Lebensmitteln –
Allgemeine Anforderungen und Leitfaden (ISO/DIS 23418:2020);
Deutsche und Englische Fassung prEN ISO 23418:2020
Microbiology of the food chain –
Whole genome sequencing for typing and genomic characterization of foodborne bacteria –
General requirements and guidance (ISO/DIS 23418:2020);
German and English version prEN ISO 23418:2020
Microbiologie de la chaîne alimentaire –
Séquençage de génome complet pour le typage et la caractérisation génomique des bactéries
dans les aliments –
Exigences générales et recommandations (ISO/DIS 23418:2020);
Version allemande et anglaise prEN ISO 23418:2020
Anwendungswarnvermerk
Dieser Norm-Entwurf mit Erscheinungsdatum 2020-09-11 wird der Öffentlichkeit zur Prüfung und
Stellungnahme vorgelegt.
Weil die beabsichtigte Norm von der vorliegenden Fassung abweichen kann, ist die Anwendung dieses Entwurfs
besonders zu vereinbaren.
Stellungnahmen werden erbeten
– vorzugsweise online im Norm-Entwurfs-Portal von DIN unter www.din.de/go/entwuerfe bzw. für Norm-
Entwürfe der DKE auch im Norm-Entwurfs-Portal der DKE unter www.entwuerfe.normenbibliothek.de,
sofern dort wiedergegeben;
– oder als Datei per E-Mail an nal@din.de möglichst in Form einer Tabelle. Die Vorlage dieser Tabelle kann im
Internet unter www.din.de/go/stellungnahmen-norm-entwuerfe oder für Stellungnahmen zu Norm-
Entwürfen der DKE unter www.dke.de/stellungnahme abgerufen werden;
– oder in Papierform an den DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL),
10772 Berlin oder Saatwinkler Damm 42/43, 13627 Berlin.
Die Empfänger dieses Norm-Entwurfs werden gebeten, mit ihren Kommentaren jegliche relevanten
Patentrechte, die sie kennen, mitzuteilen und unterstützende Dokumentationen zur Verfügung zu stellen.
Gesamtumfang 104 Seiten
DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL)

– Entwurf –
E DIN EN ISO 23418:2020-10
Nationales Vorwort
Dieses Dokument (prEN ISO 23418:2020) wurde vom Technischen Komitee ISO/TC 34 „Food products“ in
Zusammenarbeit mit dem Technischen Komitee CEN/TC 463 „Mikrobiologie der Lebensmittelkette“
erarbeitet, dessen Sekretariat von AFNOR (Frankreich) gehalten wird.
Das zuständige deutsche Normungsgremium ist der Arbeitsausschuss NA 057-01-06 AA „Mikrobiologie der
Lebensmittelkette“ im DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL).
Um Zweifelsfälle in der Übersetzung auszuschließen, ist die englische Originalfassung beigefügt. Die
Nutzungsbedingungen für den deutschen Text des Norm-Entwurfes gelten gleichermaßen auch für den
englischen Text.
Aktuelle Informationen zu diesem Dokument können über die Internetseiten von DIN (www.din.de) durch
eine Suche nach der Dokumentennummer aufgerufen werden.
2
– Entwurf –
2020-09
prEN ISO 23418:2020
Titel de: Mikrobiologie der Lebensmittelkette — Vollständige Genomsequenzierung

zur Typisierung und genomischen Charakterisierung von Bakterien in
Lebensmitteln — Allgemeine Anforderungen und Leitfaden
(ISO/DIS 23418:2020)
Titel en: Microbiology of the food chain — Whole genome sequencing for typing and
genomic characterization of foodborne bacteria — General requirements
and guidance (ISO/DIS 23418:2020)
Titel fr: Microbiologie de la chaîne alimentaire — Séquençage de génome complet

pour le typage et la caractérisation génomique des bactéries dans les
aliments — Exigences générales et recommandations
(ISO/DIS 23418:2020)
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Inhalt
Seite
Europäisches Vorwort .......................................................................................................................................................... 4

Vorwort ...................................................................................................................................................................................... 5
Einleitung .................................................................................................................................................................................. 6
1 Anwendungsbereich ............................................................................................................................................... 7
2 Normative Verweisungen ..................................................................................................................................... 7
3 Begriffe ........................................................................................................................................................................ 7
4 Kurzbeschreibung ................................................................................................................................................. 12
4.1 Allgemeines ............................................................................................................................................................. 12
4.2 Laborbetrieb: Probenvorbereitung und Sequenzierung ........................................................................ 12
4.3 Bioinformatische Analyse................................................................................................................................... 13
4.4 Metadatenformate und Hinterlegung von Sequenzdaten in Repositorien ...................................... 13
4.5 Validierung und Verifizierung des WGS-Workflows ................................................................................ 14
5 Allgemeiner Laborleitfaden............................................................................................................................... 14
5.1 Bakterienisolierung und DNA-Extraktion .................................................................................................... 14
5.2 Laborumgebung ..................................................................................................................................................... 14
5.3 Standardverfahrensanweisungen (SOP, en: standard operating procedure) und nicht
konforme Arbeit..................................................................................................................................................... 14
5.4 Labor-Informations- und Management-System (LIMS) ........................................................................... 15
5.5 Kompetenz im Labor ............................................................................................................................................ 15
6 Laborbetrieb............................................................................................................................................................ 15
6.1 Herstellung und Lagerung der Proben .......................................................................................................... 15
6.2 Bakterienisolate..................................................................................................................................................... 15
6.3 Isolierung der DNA ................................................................................................................................................ 16
6.4 Vorbereitung der Bibliothek ............................................................................................................................. 16
6.4.1 DNA-Sequenzierung .............................................................................................................................................. 16
6.4.2 Verwendung von Kontrollen ............................................................................................................................. 17
6.4.3 Beurteilung der Qualität von Read-Rohdaten............................................................................................. 17
6.4.4 Speicherung und Aufbewahrung von Proben und Daten........................................................................ 17
7 Bioinformatische Datenanalyse ....................................................................................................................... 17
7.1 Anforderungen an Software und/oder bioinformatische Pipelines, die für die
Datenanalyse verwendet werden .................................................................................................................... 17
7.2 Protokollierung und Dokumentation ............................................................................................................ 18
7.3 Qualitätsbeurteilungen ....................................................................................................................................... 18
7.4 SNP-Analysen .......................................................................................................................................................... 19
7.5 MLST-Analysen (cgMLST und wgMLST) ........................................................................................................ 19
7.6 Detektion von Zielgenen ..................................................................................................................................... 20
7.7 Phylogenetische Baum- oder Dendrogramm-Generierung ................................................................... 20
7.8 Metriken und Protokolldateien........................................................................................................................ 20
7.9 Interpretation und Meldung der Ergebnisse bioinformatischer Analysen ...................................... 21
7.9.1 Interpretation der Ergebnisse aus bioinformatischen Pipelines ........................................................21
7.9.2 Angabe über die Ergebnisse der Genomanalyse........................................................................................21
8 Metadaten................................................................................................................................................................. 21
8.1 Allgemeines ............................................................................................................................................................. 21
2
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
8.2 Interoperabilität und Zukunftssicherheit von Metadaten ..................................................................... 21

8.2.1 Ontologien ................................................................................................................................................................ 22
8.2.2 ISO WGS-Slim........................................................................................................................................................... 22
8.3 Formatierung von Metadaten mit der Norm ............................................................................................... 22
8.4 Metadaten im Zusammenhang mit der Probenahme............................................................................... 22
8.5 Metadaten im Zusammenhang mit dem Isolat ........................................................................................... 23
8.6 Mit der Sequenz verbundene Metadaten ...................................................................................................... 23
9 Sequenz-Repositorien.......................................................................................................................................... 23
10 Validierung und Verifizierung .......................................................................................................................... 23
10.1 Validierung .............................................................................................................................................................. 23
10.1.1 Validierung des Laborbetriebs......................................................................................................................... 23
10.1.2 Validierung der bioinformatischen Pipeline .............................................................................................. 23
10.1.3 Validierung des durchgehenden Workflows............................................................................................... 24
10.2 Verifizierung ........................................................................................................................................................... 25
10.2.1 Verifizierung des Laborbetriebs ...................................................................................................................... 25
10.2.2 Verifizierung der bioinformatischen Pipeline............................................................................................ 26
Anhang A (informativ) ........................................................................................................................................................ 33
A.1 Leitfaden für die Entwicklung von Qualitätsmetriken für Sequenzierungstechnologien
mit kurzer und langer Read-Länge ................................................................................................................. 33
A.2 Empfehlung für die Qualitätsbeurteilung von Short-Read-Daten ....................................................... 35
A.3 Empfohlene Verwendung von Kontrollen .................................................................................................... 36
Anhang B (informativ) Felder für Labor-Kontaktinformationen ...................................................................... 38
Anhang C (informativ) Geographischer Standort der Probenahmefelder ..................................................... 40
Anhang D (informativ) Verlaufsfelder der Isolat-Passage ................................................................................... 41
Anhang E (informativ) Ergebnisse des Antibiogramms und Verfahrensfelder ........................................... 42
Anhang F (informativ) Detektion von Virulenzfaktoren und Verfahrensfelder .......................................... 44
Anhang G (informativ) Metriken zur Qualitätskontrolle der Sequenz ............................................................ 45
Anhang H (informativ) Spezifikation der Metadaten............................................................................................. 46
H.1 Spezifikation der Metadaten für Einreichungen bei NCBI/DDBJ ......................................................... 46
H.2 Spezifikation der Metadaten für Einreichungen bei EBI......................................................................... 48
Anhang I (informativ) Anweisungen für die Integration der Ontologie Slim durch
Softwareentwickler .............................................................................................................................................. 50
I.1 Einleitung ................................................................................................................................................................. 50
I.2 Ratschläge für die Implementierung der ISO WGS Slim .......................................................................... 51
I.2.1 Datentabellen für die Integration von Ontologien .................................................................................... 51
I.2.2 Integration von Ontologien in einer SQL-Datenbank............................................................................... 52
I.3 Ansätze zur Integration von Ontologien in Systeme zur Erfassung und Verwaltung von
Metadaten ................................................................................................................................................................ 52
I.3.1 Datentabellen ......................................................................................................................................................... 52
I.3.2 Integration von Ontologien in einer SQL-Datenbank............................................................................... 53
Literaturhinweise................................................................................................................................................................. 55
3
prEN ISO 23418:2020 (D)
Europäisches Vorwort
Dieses Dokument (prEN ISO 23418:2020) wurde vom Technischen Komitee ISO/TC 34 „Food products“ in
Zusammenarbeit mit dem Technischen Komitee CEN/TC 463 „Mikrobiologie der Lebensmittelkette“
erarbeitet, dessen Sekretariat von AFNOR gehalten wird.
Dieses Dokument ist derzeit zur parallelen Umfrage vorgelegt.
Anerkennungsnotiz
Der Text von ISO/DIS 23418:2020 wurde von CEN als prEN ISO 23418:2020 ohne irgendeine Abänderung
genehmigt.
4
prEN ISO 23418:2020 (D)
Vorwort
ISO (die Internationale Organisation für Normung) ist eine weltweite Vereinigung nationaler
Normungsinstitute (ISO-Mitgliedsorganisationen). Die Erstellung von Internationalen Normen wird
üblicherweise von Technischen Komitees von ISO durchgeführt. Jede Mitgliedsorganisation, die Interesse an
einem Thema hat, für welches ein Technisches Komitee gegründet wurde, hat das Recht, in diesem Komitee
vertreten zu sein. Internationale staatliche und nichtstaatliche Organisationen, die in engem Kontakt mit
ISO stehen, nehmen ebenfalls an der Arbeit teil. ISO arbeitet bei allen elektrotechnischen Normungsthemen
eng mit der Internationalen Elektrotechnischen Kommission (IEC) zusammen.
Die Verfahren, die bei der Entwicklung dieses Dokuments angewendet wurden und die für die weitere Pflege
vorgesehen sind, werden in den ISO/IEC-Direktiven, Teil 1 beschrieben. Es sollten insbesondere die
unterschiedlichen Annahmekriterien für die verschiedenen ISO-Dokumentenarten beachtet werden. Dieses
Dokument wurde in Übereinstimmung mit den Gestaltungsregeln der ISO/IEC-Direktiven, Teil 2 erarbeitet
(siehe www.iso.org/directives).
Es wird auf die Möglichkeit hingewiesen, dass einige Elemente dieses Dokuments Patentrechte berühren
können. ISO ist nicht dafür verantwortlich, einige oder alle diesbezüglichen Patentrechte zu identifizieren.
Details zu allen während der Entwicklung des Dokuments identifizierten Patentrechten finden sich in der
Einleitung und/oder in der ISO-Liste der erhaltenen Patenterklärungen (siehe www.iso.org/patents).
Jeder in diesem Dokument verwendete Handelsname dient nur zur Unterrichtung der Anwender und
bedeutet keine Anerkennung.
Für eine Erläuterung des freiwilligen Charakters von Normen, der Bedeutung ISO-spezifischer Begriffe und
Ausdrücke in Bezug auf Konformitätsbewertungen sowie Informationen darüber, wie ISO die Grundsätze der
Welthandelsorganisation (WTO, en: World Trade Organization) hinsichtlich technischer Handelshemmnisse
(TBT, en: Technical Barriers to Trade) berücksichtigt, siehe www.iso.org/iso/foreword.html.
Dieses Dokument wurde vom Technischen Komitee ISO/TC 34, Food Products, Unterkomitee SC 9,
Microbiology erarbeitet.
Rückmeldungen oder Fragen zu diesem Dokument sollten an das jeweilige nationale Normungsinstitut des
Anwenders gerichtet werden. Eine vollständige Auflistung dieser Institute ist unter
www.iso.org/members.html zu finden.
5
prEN ISO 23418:2020 (D)
Einleitung
Next generation sequencing (NGS) bietet schnellen, kostengünstigen Zugang zu mikrobiellen Gesamtgenom-
sequenzen (WGS, en: Whole Genome Sequencing) im Hochdurchsatzverfahren und wird bei einer
wachsenden Zahl von Problemen in der Mikrobiologie von Lebensmitteln angewandt. WGS sind digitale
Darstellungen des biologischen Potentials zur Sequenzierung des Organismus bei Einzelbasenauflösung. Die
digitale Beschaffenheit der WGS-Daten ist eine Abkehr von der kontinuierlichen Variation der Phänotypen,
die routinemäßig in der Mikrobiologie von Lebensmitteln analysiert werden. Daher bietet WGS erhebliche
Vorteile gegenüber bestehenden Technologien (z. B. Serologie, Pulsfeld-Gelelektrophorese, phänotypische
Antibiotikaresistenz). WGS-basierte Analysen werden von Laboren für öffentliche Gesundheit verwendet,
um Ausbrüche zu erkennen und Mutationen, Gene und andere genetische Merkmale zur Charakterisierung
der Virulenz und des Überlebenspotentials nachzuweisen. Innerhalb der Lebensmittelindustrie besteht
Interesse an WGS, um bakterielle Isolate aus ausgegliederten Bestandteilen und umgebenden Flächen zu
charakterisieren, ihre Herkunft und Ökologie besser zu verstehen und die Verfahren zur Risikominderung zu
aktualisieren. Einige Unternehmen haben die Kapazitäten zur Erfassung und Analyse von WGS-Daten
geschaffen oder schaffen diese gerade. Andere werden sich an Drittlabore wenden, um diese
Dienstleistungen zu erbringen, wie sie es derzeit für andere mikrobiologische Analysen tun.
Gestrichener Text
Diese Norm soll sowohl für das Labor als auch für die bioinformatischen Komponenten der WGS und die
zugehörigen Metadaten für lebensmittelbedingte Mikroorganismen als Leitfaden dienen. Diese Norm soll auf
alle derzeit verfügbaren Technologien zur DNA-Sequenzierung mit kurzen und langen Reads anwendbar
sein. Sie darf zur Analyse von WGS-Daten mit proprietärer, Open Source- und kundenspezifischer Software
eingesetzt werden. Sie ist nicht zur Festlegung der Sequenzierungschemikalien, analytischen Verfahren oder
Software vorgesehen. Die Norm definiert Labor-, Daten- und Metadaten-Verwaltungspraktiken, um
sicherzustellen, dass Analysen eindeutig angegeben werden, transparent und für Anfragen zugänglich sind
sowie für unvorhergesehene Zwecke zur Verfügung stehen. Diese Norm soll Labore in die Lage versetzen,
ihre Managementsysteme für Qualität und technische Abläufe zu entwickeln. Kunden von Laboren und
Aufsichtsbehörden dürfen sie auch zur Anerkennung und Bestätigung der Kompetenz von Laboren nutzen.
6
prEN ISO 23418:2020 (D)
1 Anwendungsbereich
Diese Internationale Norm legt Mindestanforderungen für die Generierung und Analyse von Daten der
Gesamtgenomsequenzierung (WGS) fest, die aus pathogenen Mikroorganismen aus Lebensmitteln
gewonnen werden. Diese Anforderungen gelten für jede Sequenzierplattform oder -chemie. Dieser Prozess
kann die folgenden Phasen umfassen:
a) Umgang mit Bakterienkulturen;
b) Isolierung der genomischen DNA;
c) Vorbereitung der genomischen DNA-Bibliothek, Sequenzierung und Beurteilung der Read-Qualität von
Rohdaten und deren Speicherung;
d) bioinformatische Analyse zur Bestimmung der genetischen Verwandtschaft, des genetischen Gehalts
und zur Vorhersage des Phänotyps sowie Validierung der bioinformatischen Pipeline;
e) die Erfassung von Metadaten und die Hinterlegung von Sequenzdaten in Repositorien und
f) Validierung des durchgehenden WGS-Workflows (gebrauchstauglich für die beabsichtigte Anwendung).
2 Normative Verweisungen
Es gibt keine normativen Verweisungen in diesem Dokument.
3 Begriffe
Für die Anwendung dieses Dokuments gelten die folgenden Begriffe.
ISO und IEC stellen terminologische Datenbanken für die Verwendung in der Normung unter den folgenden
Adressen bereit:
— ISO Online Browsing Platform: verfügbar unter https://www.iso.org/obp
— IEC Electropedia: verfügbar unter http://www.electropedia.org/
3.1
Adaptersequenz
DNA mit einer bekannten Sequenz, die an das Ende eines DNA-Bibliotheksfragments angefügt wird, um den
Sequenzierungsprozess zu erleichtern (z. B. Annealing an eine Flusszelle)
3.2
Annotation
Prozess der Identifizierung von Genen und anderen Merkmalen der Genomassemblierung
3.3
Antibiogramm
Zusammenfassung der Ergebnisse antimikrobieller Anfälligkeitsprüfungen, die für einen spezifischen
Mikroorganismus durchgeführt wurden, üblicherweise in tabellarischer Form
3.4
Assembly
Ergebnis aus dem Prozess des Alignments und der Zusammenführung von Sequenzabschnitten (Reads) zu
größeren zusammenhängenden Sequenzen (Contigs)
7
prEN ISO 23418:2020 (D)
3.5
Basenaufruf
Prozess, bei dem Nukleotide und Qualitätswerte Positionen in den Sequenzabschnitten zugewiesen werden
3.6
Bioinformatik
Erfassung, Speicherung und Analyse biologischer Sequenzdaten
3.7
bioinformatische Pipeline
einzelne Programme, Skripte oder miteinander verknüpfte Softwarekomponenten, wobei die Ausgabe eines
Programms als Eingabe für den nächsten Schritt der Datenverarbeitung verwendet wird
3.8
carry-over-Kontamination
Proben, die mit DNA aus zuvor sequenzierten Proben oder Stoffen, einschließlich EDTA, Phenol-Chloroform,
Protein, überschüssigen Salzen, kontaminiert sind
3.9
Chemical Entities of Biological Interest Ontology
ChEBI (en: Chemical Entities of Biological Interest Ontology)
Ontologie zur Beschreibung kleiner chemischer Verbindungen
3.10
Contig
zusammenhängendes Stück einer DNA-Sequenz, die sich aus der Assemblierung kleinerer, überlappender
DNA-Reads ergibt
3.11
kontrolliertes Vokabular
endlicher Vorrat von Werten, die die einzig zulässigen Werte für ein Datenelement darstellen
[QUELLE: ISO 11238:2018 (en)]
3.12
Abdeckung
durchschnittliche Häufigkeit, die jede Base in einem Genom sequenziert wird
3.13
Kreuzkontamination
Kontamination einer Probe (Bakterienisolat oder DNA) mit anderen Proben
3.14
DNA-Qualität
Angabe der DNA-Reinheit (frei von Polysacchariden, Kontaminanten und Enzyminhibitoren) und Integrität
(hohes Molekulargewicht mit geringen bis gar keinen Anzeichen auf Abbau)
3.15
DNA-Probe
Teil einer DNA, die aus einem Material extrahiert wird
3.16
Draft-Assemblierung
de novo-Assemblierung von Genomen, bestehend aus Contigs ohne implizite Reihenfolge, die üblicherweise
mit Hilfe der Gesamtgenom-Schrotschuss-Sequenzierung mit einer Short-Read-Technologie erzeugt werden
8
prEN ISO 23418:2020 (D)
3.17
Umweltontologie
EnvO (en: Environment Ontology)
Ontologie zur Beschreibung von Umweltmerkmalen und Lebensräumen
3.18
FoodEx2-Ontologie
FoodEx2
genormtes System zur Klassifizierung und Beschreibung von Lebensmitteln, entwickelt von der
Europäischen Behörde für Lebensmittelsicherheit (EFSA)
3.19
Lebensmittel-Ontologie
FoodOn (en: Food Ontology)
Ontologie zur Beschreibung von Lebensmittelprodukten, Tierfutter und Lebensmittelverarbeitung
3.20
ontologisches Gazetteer (Ortsverzeichnis)
GAZ
Ontologie zur Beschreibung geographischer Orte
3.21
Index
Oligonukleotidsequenzen, die im Prozess der Bibliotheksvorbereitung verwendet werden, um DNA aus
spezifischen Proben zu markieren oder mit einem Barcode zu versehen, so dass mehrere Proben in einer
Sequenzierungsreaktion kombiniert (gemultiplext) werden können
3.22
Internationale Nukleotidsequenz-Datenbank-Zusammenarbeit
INSDC (en: International Nucleotide Sequence Database Collaboration)
Initiative, die von der DNA-Datenbank Japans (DDBJ), dem Europäischen Laboratorium für
Molekularbiologie, dem Europäischen Institut für Bioinformatik (EMBL-EBI) und dem Nationalen Zentrum
fur Biotechnologieinformation (NCBI) betrieben wird
3.23
ISO WGS-Slim
zusammenfassende Ontologie mit interoperablen Feldern und Begriffen bezüglich der Verwendung von WGS
für die Mikrobiologie von Lebensmitteln
3.24
Isolat
Population von Bakterienzellen in Reinkultur, die aus einer einzigen Kolonie stammen
3.25
k-mere
alle möglichen Sequenzen der Länge k, die in einer ganzen Genomsequenz enthalten sind
3.26
Bibliothek
Sammlung von genomischen DNA-Fragmenten aus einem einzigen Isolat zur Bestimmung der
Genomsequenz
3.27
Managementsystem
Qualitäts-, Verwaltungs- und technische Systeme, die den Betrieb einer Organisation regeln
Anmerkung 1 zum Begriff: In diesem Dokument bezieht sich „Organisation“ auf das „Labor“.
9
prEN ISO 23418:2020 (D)
3.28
Mapping
Verwendung von Software für das Alignment von Sequenzabschnitten mit Referenzsequenzen
3.29
Metadaten
Daten, die andere Daten beschreiben und definieren
[QUELLE: ISO/IEC 11179-1:2015, 3.2.16]
3.30
minimale Daten zum Abgleich
MDM (en: minimal data for matching)
Informationen, die zur Beschreibung der Probenquelle und -herkunft einer genomischen Sequenz
erforderlich sind, wie durch den Global Microbial Identifier [10] definiert und durch die Internationale
Nukleotidsequenz-Datenbank-Zusammenarbeit implementiert
3.31
minimale Hemmkonzentration
MHK
geringste Konzentration, die unter definierten In-vitro-Prüfbedingungen in einem vorgegebenen
Zeitintervall das Wachstum um einen vereinbarten Betrag verringert
Anmerkung 1 zum Begriff: Die MHK wird in mg/l angegeben.
[QUELLE: ISO 16256:2012 (en)]
3.32
Multilocus-Sequenztypisierung
MLST (en: multi-locus sequence typing)
Verfahren der Genomanalyse, bei der Nukleotidvarianten innerhalb vordefinierter Sätze von Loci, entweder
Kerngenomloci für cgMLST oder ganze Genomloci für wgMLST, identifiziert werden
3.33
N50
Länge (N), so dass Contigs von N oder länger die Hälfte der Basen in der Assembly umfassen
3.34
NCBITaxon Ontology
NCBITaxon
automatische Übersetzung der NCBI-Taxonomiedatenbank
3.35
NG50
Länge (N) der DNA, so dass Contigs von N oder länger die Hälfte der Basen im Genom umfassen
3.36
Open Biological and Biomedical Ontology Foundry
OBO Foundry
Sammlung von Ontologien, die von einer Gemeinschaft von Ontologie-Entwicklern erstellt wurden und die
sich zur Zusammenarbeit und zur Einhaltung gemeinsamer Grundsätze verpflichtet haben
3.37
Ontologie
kontrolliertes Vokabular, das in einer Hierarchie angeordnet ist, wobei die Begriffe durch logische
Beziehungen miteinander verbunden sind
10
prEN ISO 23418:2020 (D)
3.38
Ontologie-Slim
Reihe von Ontologiefeldern und -begriffen, die als Teil einer bestimmten Sammlung kommentiert werden,
oft zu einem bestimmten Zweck, und die extrahiert werden können, um eine Datei zu erstellen, die sich von
der ursprünglichen Ontologie unterscheidet
3.39
Phred-Qualitätswert (Q) der Sequenz
Maß für die Wahrscheinlichkeit, dass eine Base an einer bestimmten Position falsch zugeordnet wird in der
Sequenz, die ausgedrückt wird als:
= 10 log10
Anmerkung 1 zum Begriff: Ein Wert von Q30 zeigt an, dass eine Wahrscheinlichkeit von 1 zu 1 000 besteht, dass eine
Base falsch zugeordnet ist (d. h. der Basenaufruf ist zu 99,9 % richtig).
3.40
Read
aus einem DNA- oder RNA-Fragment abgeleitete Nukleotidsequenz
3.41
Sequenz-Repository
Datenbank, in der WGS-Datensätze gespeichert und verwaltet werden
Anmerkung 1 zum Begriff: Ein öffentliches Repository ermöglicht den uneingeschränkten Zugang zu den Daten,
während ein privates Repository oder eines im Verbund den Zugang zu den Daten einschränkt.
3.42
Parallelproben der Sequenzierung, biologisch
Sequenzierung einer anderen Kolonie aus demselben Isolat, das aus demselben Probenmaterial gewonnen
wurde, um die biologische Variation zu bewerten
3.43
Parallelproben der Sequenzierung, technisch
Resequenzierung derselben biologischen Probe oder Bibliothek zur Bewertung der Sequenzvariation
aufgrund der Instrumentierung und des Protokolls
3.44
Serotyp
Klassifizierungsschema auf der Grundlage des antigenen Nachweises oder des sequenzbasierten Nachweises
von Genen, die Bakterienoberflächenmoleküle kodieren
3.45
Einzelnukleotid-Polymorphismus
SNP (en: Single Nucleotide Polymorphism)
SNV, die eine bestimmte Qualitäts- und/oder Frequenzschwelle überschreitet
3.46
Einzelnukleotid-Variante
SNV (en: Single Nucleotide Variant)
Unterschiede zwischen den Nukleotidzuständen an der gleichen genomischen Position von zwei oder mehr
Isolaten
11
prEN ISO 23418:2020 (D)
3.47
Stamm
Nachkommen einer einzelnen Isolierung in Reinkultur, die in der Regel von einer einzigen Ausgangskolonie
auf einem festen Wachstumsmedium abstammen [1]
Anmerkung 1 zum Begriff: Ein Stamm darf als ein Isolat oder eine Gruppe von Isolaten angesehen werden, die sich von
anderen Isolaten derselben Gattung und Art durch phänotypische und genotypische Merkmale unterscheiden lassen.
3.48
Validierung
Ermittlung der Leistungskenngrößen eines Verfahrens und Bereitstellung eines objektiven Nachweises, dass
die Leistungsanforderungen für eine festgelegte vorgesehene Anwendung erfüllt sind
[QUELLE: ISO 16140-1:2016 (en)]
3.49
validierte Dateneingabe
automatisierter Prozess, der sicherstellt, dass die in ein Repository eingegebenen Daten korrekt sind
3.50
Verifizierung
Nachweis, dass ein validiertes Verfahren bei der Anwendung durch den Anwender nach den in der
Validierungsuntersuchung (3.48) bestimmten Verfahrensspezifikationen funktioniert und gebrauchstauglich
ist
[QUELLE: ISO 16140-1:2016 (en)]
3.51
Gesamtgenomsequenzierung
WGS (en: Whole Genome Sequencing)
Prozess zur Bestimmung der DNA-Sequenz des Genoms eines Organismus unter Verwendung einer
genomischen Gesamt-DNA als Eingabe
4 Kurzbeschreibung
4.1 Allgemeines
Jede Organisation, die Proben handhabt, Sequenzierungen oder bioinformatische Analysen für die WGS-
Analyse durchführt, muss durch die Bereitstellung von Nachweisen belegen, dass eine ordnungsgemäße
Dokumentation der Probenherkunft, der Verfahren und der Qualitätskontrolle erfasst und zur
Nachverfolgung aufbewahrt wird.
Die WGS-Analyse pathogener Mikroorganismen aus Lebensmitteln besteht aus einer Bakterienkultur, einer
DNA-Isolierung in einem mikrobiologischen Labor, Sequenzierungsschritten in einer Sequenzierungs-
einrichtung und bioinformatischen Analysen, die in einer speziellen Computerumgebung durchgeführt
werden.
4.2 Laborbetrieb: Probenvorbereitung und Sequenzierung
Die Probenvorbereitung und Sequenzierung sollten die folgenden Schritte umfassen:
a) Informationen über die zu sequenzierenden Isolate, einschließlich Barcodes für Multiplex-Proben,

werden in die entsprechenden Aufzeichnungssysteme, wie z. B. ein Laborinformationsmanagement-
system (LIMS) und/oder Arbeitsblätter zur Probenbeschreibung, eingegeben.
12
prEN ISO 23418:2020 (D)
b) Genomische DNA wird aus Reinkulturen extrahiert, und idealerweise wird die Artidentität bestätigt.
c) Aus der genomischen DNA-Extraktion werden DNA-Bibliotheken hergestellt. Dieser Prozess sollte
Folgendes umfassen:
i) DNA-Fragmentierung;
ii) Ligation von Indizes und Adaptern;
iii) Quantifizierung, Normalisierung und Qualitätskontrolle der resultierenden Bibliothek; und
iv) Pooling von Bibliotheken für Multiplex-Sequenzierungsläufe.
d) Die Bibliotheken sind sequenziert.
e) Die vom Sequenzierungsinstrument erzeugten Qualitätsmetriken werden für jeden Lauf aufgezeichnet.
4.3 Bioinformatische Analyse
Pipelines für bioinformatische Analysen können sich auf In-silico-Vorhersagen des Phänotyps (z. B. Virulenz)
oder auf den Nachweis von Clustern genetisch ähnlicher Isolate (d. h. gleicher Stamm, Sequenztyp oder
Serotyp) konzentrieren. Pipelines, die auf vergleichenden Ansätzen basieren, können verwendet werden, um
das Vorhandensein und die Zustände von Markern in rohen und assemblierten Sequenzierungsdaten zu
erkennen, um In-silico-Stamm- (z. B. Sequenztyp) und Phänotypvorhersagen zu machen.
Sequenzdaten für mehrere Isolate können mit SNP-, MLST- oder k-mer-Abstands-Analyseverfahren
analysiert werden, um Cluster eng verwandter Bakterien zu identifizieren. Die Ergebnisse dieser Analysen
können verwendet werden, um auf Beziehungen zwischen Isolaten zu schließen, die mit phylogenetischen
Bäumen und Dendrogrammen veranschaulicht werden können.
a) SNP-Analysen
Bei SNP-Analysen werden Reads auf eine Referenzsequenz abgebildet oder Reads zu Contigs assembliert, die
verglichen werden. Zur Bestimmung von SNPs werden SNVs qualitätsgefiltert, um SNP-Positionen zu
identifizieren.
b) MLST-Analysen
Für MLST-Analysen werden die Reads assembliert oder abgebildet. Die Zielloci werden identifiziert,
qualitätsgefiltert und mit einer kuratierten cgMLST- oder wgMLST-Datenbank verglichen.
c) Analyse des k-mer-Abstandes
Sequenzdaten für mehrere Isolate können mit k-mer-Abstandsverfahren analysiert werden, um Cluster
verwandter Bakterien zu identifizieren. K-mer-Analysen haben den Vorteil, dass sie sehr schnell sind, weisen
aber einige Einschränkungen auf, insbesondere in Bezug auf die Präzision. (D. h. sie sind bei der
Artbestimmung anwendbar, werden aber nicht für detaillierte Quellennachweisanalysen von eng
verwandten Stämmen empfohlen.)
4.4 Metadatenformate und Hinterlegung von Sequenzdaten in Repositorien
Für alle Sequenzen müssen Metadatensätze erstellt und sicher gespeichert werden. Sequenzdaten und
entsprechende Metadaten sollten konsistent formatiert und dokumentiert werden. Diese Metadaten können
nach alleinigem Ermessen des Eigentümers der Metadaten freigegeben werden. Daten und die
entsprechenden Metadaten müssen Sicherheitserwägungen, Kosten und Nutzen, gesetzlicher Haftung,
13
prEN ISO 23418:2020 (D)
geistigen Eigentumsrechten, vertraulichen Geschäftsinformationen, Vertragsbeschränkungen oder anderen

verbindlichen schriftlichen Vereinbarungen unterliegen.
Zur Förderung von bewährten Verfahren für die Datenverwaltung [3] bietet diese Norm optionale
Metadaten-Berichtsformate, die auf einen gemeinschaftlichen Datenstandard abgestimmt sind (z. B.
Ontologien für MDM oder OBO Foundry). Diese Formate und Normen erleichtern die Reproduzierbarkeit
und das gemeinsame Verständnis der Terminologie. Zur Formatierung und Bereitstellung von Werten für die
empfohlenen Metadatenfelder wurde eine ISO WGS Slim erstellt. WGS und ausgewählte Metadaten können
in eine öffentlich zugängliche Datenbank übertragen (hochgeladen) werden.
4.5 Validierung und Verifizierung des WGS-Workflows
Der gesamte WGS-Workflow muss validiert werden, um sicherzustellen, dass die Verfahren für den
bestimmungsgemäßen Gebrauch geeignet sind.
5 Allgemeiner Laborleitfaden
5.1 Bakterienisolierung und DNA-Extraktion
Die Bakterienisolierung und DNA-Extraktion sollte in einem allgemeinen mikrobiologischen Labor

durchgeführt werden, das für die Arbeit mit den spezifischen Bakterien, einschließlich Krankheitserregern,
geeignet ist. Bei der Vorbereitung einer Sequenzierungsbibliothek, die eine DNA-Amplifikation mittels
Polymerase-Kettenreaktion (PCR) beinhaltet, sollten Vor- und Nach-PCR-Schritte in verschiedenen oder
getrennten Bereichen des Labors durchgeführt werden, um eine carry-over-Kontamination zu vermeiden.
5.2 Laborumgebung
Luftbewegungen, Vibrationen, Temperatur und Feuchtigkeit können die Leistung vieler Sequenzer
beeinträchtigen und sollten bei der Platzierung der Geräte im Labor berücksichtigt werden. Labore sollten
den Leitfaden des Sequenziergeräteherstellers zur Vorbereitung des Standorts als Orientierungshilfe
konsultieren.
5.3 Standardverfahrensanweisungen (SOP, en: standard operating procedure) und nicht

konforme Arbeit
Labore sollten Standardverfahrensanweisungen (SOP), Arbeitsablaufdokumente, Bestandskontrollen von

Reagenzien und Gerätewartungsprotokolle pflegen und einhalten. SOPs sollten Verfahren für die
Verwendung von Positiv- und Negativkontrollen für die DNA-Extraktion, die Vorbereitung der
Sequenzbibliothek und die Sequenzierungsschritte enthalten. SOPs sollten Verfahren zur Überwachung von
Arbeitsvorgängen auf Ausführungsqualität und Fehler (falsche Kennzeichnung von Proben oder
Kreuzkontamination) enthalten.
Im Falle einer falschen Kennzeichnung oder Kontamination von Proben muss die Grundursache für Fehler in
der Sequenzierung untersucht werden:
i) Sicherstellung, dass Läufe, die falsch gekennzeichnete Proben oder mit mehreren Stämmen
kontaminierte Proben enthalten, nicht für bioinformatische Analysen verwendet oder in Datenbanken
hochgeladen werden; und
ii) Umsetzung von Maßnahmen zur Aufrechterhaltung der Qualität und zur Verhinderung des erneuten
Auftretens von Fehlern.
ANMERKUNG Falsche Kennzeichnung und/oder Kontamination von Proben oberhalb von Schwellenwerten, die
bestimmt wurden, um die Ergebnisse bioinformatischer Analysen zu beeinflussen, sind kritische Fehler, die eine weitere
Verwendung der betroffenen Daten untersagen sollten.
14
prEN ISO 23418:2020 (D)
5.4 Labor-Informations- und Management-System (LIMS)
Die Informationen zu Proben müssen mit einem LIMS oder einem ähnlichen System zur Dokumentation und
Verfolgung von Informationen erfasst werden.
5.5 Kompetenz im Labor
Labore sollten Aufzeichnungen führen, die die Aus- und Fortbildung sowie die Eignung der Personen
dokumentieren, die Sequenzierungs- und bioinformatische Analysen durchführen, sowie Richtlinien zur
Aufbewahrung von Proben.
Das Labor sollte seine Leistung durch Vergleich mit den Ergebnissen anderer Labore überwachen, sofern
diese verfügbar und angemessen sind. Diese Überwachung sollte geplant und überprüft werden und u. a.
eine der folgenden Maßnahmen umfassen:
i) jährliche Teilnahme an einem Eignungsprüfungsprogramm;
ii) jährliche Teilnahme an Vergleichsprüfungen zwischen Laboren mit Ausnahme von Eignungsprüfungen;
iii) jährliche Verifizierung des Analyseprozesses durch Einführung von Blindproben oder Proben, deren
Merkmale dem Bearbeiter nicht bekannt sind.
Die Daten aus diesen Überwachungstätigkeiten sollten analysiert, zur Kontrolle und gegebenenfalls zur
Verbesserung der Tätigkeit des Labors verwendet werden. Wenn sich herausstellt, dass die Ergebnisse der
Analyse von Daten aus diesen Überwachungstätigkeiten außerhalb der vordefinierten Kriterien liegen,
sollten geeignete Maßnahmen ergriffen werden, um zu verhindern, dass falsche Ergebnisse verwendet
werden.
6 Laborbetrieb
6.1 Herstellung und Lagerung der Proben
Jegliches zu sequenzierende Material (bakterielles Isolat oder extrahierte genomische DNA) sollte so
gehandhabt und gelagert werden, dass das Risiko des Probenabbaus, der falschen Kennzeichnung und
Kreuzkontamination minimiert wird.
6.2 Bakterienisolate
Bakterienisolate sollten mit Verfahren gelagert und kultiviert werden, die das Potential für die Einführung
genetischer Veränderungen (z. B. Verlust von Plasmiden oder Polymorphismen, die durch die Kultur und
Passage eingeführt werden) minimieren. Bakterienisolate sollten wegen der Möglichkeit der Einführung
genetischer Veränderungen nicht länger als zwei Wochen auf Agarplatten oder im Stabformat (bei 4 °C bis
25 °C) gelagert werden. Wenn Proben in dieser Form länger als zwei Wochen aufbewahrt werden, sollte dies
in den Metadaten der Probe vermerkt werden. Wenn das Labor ein Bakterienisolat erhält, muss das Labor
die Reinheit des Isolats sicherstellen und idealerweise die Spezies bestätigen, bevor weitere Schritte
durchgeführt werden. Jede Probe sollte nicht mehr als fünf einzelnen Koloniepassagen unterzogen werden,
um die Einführung genetischer Veränderungen und Engpässe zu vermeiden. Wenn die Sorge besteht, dass
potentiell instabile Elemente (z. B. Plasmide) während der Passage aus einer Probe verloren gehen könnten,
sollten Sequenzen von zwei oder drei biologischen Parallelproben gesammelt werden. Die Anzahl der
einzelnen Koloniepassagen sollte vermerkt werden, wenn sie in den Metadaten der Probe größer als fünf ist.
Bakterienisolate sollten mit Verfahren wie dem Einfrieren als Glyzerinvorrat bei -80 °C archiviert werden.
15
prEN ISO 23418:2020 (D)
6.3 Isolierung der DNA
Wenn eine Isolierung bakterieller DNA erforderlich ist, sollte das Extraktionsverfahren für die Herstellung
von DNA geeignet sein, die für die Organismen und die verwendete Sequenzierplattform geeignet ist. Die
Isolierung bakterieller DNA wird durch eine Reihe von Faktoren beeinflusst, darunter Zellart (grampositiv
oder -negativ), Wachstumsphase (früh-, mittel-, spät-logarithmisch oder -stationär) und Nährmedium. Die
Quantität und Qualität der DNA sollte beurteilt und dokumentiert werden.
ANMERKUNG Die Lagerungsbedingungen werden die DNA-Integrität und die Vorbereitung der Bibliothek für
bestimmte Sequenziertechnologien beeinflussen. Verschiedene Sequenzierplattformen haben unterschiedliche
Anforderungen an DNA-Quantität, -Qualität und -Integrität. Wenn ein Isolierungskit verwendet wird, kann die DNA bis
zum Abschluss der Analyse nach den Anweisungen des Herstellers aufbewahrt werden. Die Vorbereitung von Einweg-
DNA-Aliquoten kann dazu beitragen, Kreuzkontaminationen und wiederholtes Auftauen der Probe zu verhindern.
6.4 Vorbereitung der Bibliothek
Das Labor sollte das vom Hersteller empfohlene Protokoll befolgen. Die Verfahren dürfen für spezifische
Bedürfnisse angepasst werden, aber alle Änderungen müssen vollständig dokumentiert und validiert
werden.
ANMERKUNG 1 Größenauswahlverfahren, die bei einigen Verfahren zur Vorbereitung der Bibliothek verwendet
werden (z. B. beim Aufbau von Einzelmolekül-Echtzeitbibliotheken mit großformatigem Einsatz (> 2 kb)), können zum
Verlust kleiner Plasmide führen.
ANMERKUNG 2 Bei der PCR-Anreicherung von Bibliotheken ist Vorsicht geboten, da dies unter Umständen zu einer
Verringerung der Komplexität der Bibliothek und zu einer Verringerung der Anzahl der verschiedenen DNA-Moleküle in
der Vorbereitung führen kann. Die Bibliothekskomplexität kann auch durch die Menge an DNA-Ausgangsmaterial oder
die Menge an DNA, die während der Aufreinigungsschritte der Bibliotheksvorbereitung verloren geht, beeinflusst
werden. Die Komplexität von Bibliotheken kann mit dem Verfahren von Daley und Smith geschätzt werden [2].
Besteht die Möglichkeit, dass Bibliotheken wieder verwendet werden, so sind die Bibliotheken nach den
Empfehlungen des Herstellers aufzubewahren. Das Labor muss das verwendete Rückverfolgbarkeits-
verfahren (d. h. Barcode oder gleichwertig), die verwendete Sequenzierungsplattform, den Betreiber, der die
Bibliothek hergestellt hat, das Datum der Herstellung der Bibliothek und die Chargeninformationen für
den/die verwendeten Kit(s) dokumentieren. Das Multiplexen von Proben erfordert die Auswahl und
Zuweisung von Barcodes zur Identifizierung einzelner Proben und wird üblicherweise in einem Arbeitsblatt
dokumentiert, um die Zuordnung von Sequenzdaten zu den richtigen Metadaten zu ermöglichen. Wenn alle
gemultiplexten Proben derselben Bakteriengattung angehören (z. B. alle Salmonellen), sollten Schritte
unternommen werden, um sicherzustellen, dass äquimolare DNA-Eingaben verwendet werden (d. h.
Bibliotheksnormalisierung) und dass die korrekte Sequenz mit den entsprechenden Metadaten verknüpft
ist. Wenn die gemultiplexten Proben mehrere Gattungen repräsentieren, müssen die geschätzte Erfassung,
die Genomgröße und die Größe der Bibliotheksfragmente bei der Schätzung der für jede Probe
aufzunehmenden DNA-Menge berücksichtigt werden.
6.4.1 DNA-Sequenzierung
Sequenzierinstrumente müssen nach den Empfehlungen des Herstellers oder anderer Experten betrieben
und gewartet werden, und die Dokumentation der Instandhaltungsverfahren muss gepflegt werden.
Plattformspezifische Sequenzierungsmetriken (z. B. Clusterdichte, Anzahl der Reads, durchschnittliche
Basenqualität usw.) müssen für jeden Sequenzierungslauf aufgezeichnet und überwacht werden.
ANMERKUNG Plattformspezifische Empfehlungen zur Minimierung der carry-over-Kontamination sind in

Anhang A1 enthalten.
16
prEN ISO 23418:2020 (D)
6.4.2 Verwendung von Kontrollen
Beim Umgang mit einem Bakterienisolat und einem DNA-Extrakt sollte das Labor eine Wasserleerprobe
oder eine unbeimpfte Bouillon als Negativkontrolle während der DNA-Extraktion verwenden, um eine
mögliche Kreuzkontamination zu beurteilen. Eine positive Extraktionskontrolle zur Beurteilung der Effizienz
des Verfahrens kann nach Bedarf einbezogen werden. Wenn die Vorbereitung der Bibliothek Multiplexing
und PCR-Amplifikationsschritte umfasst, wird dringend empfohlen, sowohl Positiv- als auch
Negativkontrollen einzuschließen. Es wird auch empfohlen, stets denselben DNA-Extrakt für die
Positivkontrolle zu verwenden, um Vergleiche der Sequenzierungsqualität von Lauf zu Lauf zu ermöglichen.
ANMERKUNG Empfehlungen für die Verwendung von Positiv- und Negativkontrollen sind in Anhang A3 enthalten.
6.4.3 Beurteilung der Qualität von Read-Rohdaten
Der Basenaufruf sollte mit einer für das Instrument und die Sequenzierchemie spezifischen Software
durchgeführt werden. Metriken können auf Laufebene und auf Probenebene definiert werden. Metriken
müssen dokumentiert werden, um die Qualität der Sequenzrohdaten zu bewerten. Dazu könnten das
Einsatzformat, die Verteilung der Sequenzlänge, die Anzahl der Reads und eine Beurteilung der Basen-
zusammensetzung (d. h. AT/GC-Bilanz oder TAGC (taxon annotated GC-coverage)-Plot oder -Äquivalent)
gehören. Qualitätswerte, Read-Länge und Taxonomieprüfung sollten als erste Überprüfung der
Sequenzierungsleistung verwendet werden (siehe auch Teil 7.3). Die durch Mapping errechnete Erfassung,
die auf eine de novo-Assemblierung oder ein geeignetes Referenzgenom zurückgelesen wird, sollte ebenfalls
bewertet werden.
Die Qualität und Quantität der DNA-Sequenz-Lesequalität und -quantität wirkt sich auf die nachgelagerte
Assemblierung, die Lesekartierung und die Fähigkeit zur Nutzung von WGS-Daten für die bakterielle
Herkunftsverfolgung und Genomcharakterisierung aus. Zu den Sequenzierungsartefakten, die sich auf
nachgelagerte Analysen auswirken können, gehören unter anderem plattformspezifische Fehlerprofile,
Schwankungen in den Qualitätswerten über die Sequenzabschnitte, Verzerrungen der Sequenzdaten
aufgrund der Basenzusammensetzung, Abweichungen von der optimalen Größe der Bibliotheksfragmente
und Kontamination durch bekannte und unbekannte Spezies, die nicht das Sequenzierungsziel darstellen.
ANMERKUNG Allgemeiner Leitfaden für die Entwicklung von Qualitätsmetriken sind in den Anhängen A1 und A2
enthalten.
6.4.4 Speicherung und Aufbewahrung von Proben und Daten
Das Labor muss eine Richtlinie für die Lagerung und Aufbewahrung von Prüfkörpern, DNA-Proben,
DNA-Bibliotheken und Sequenzierungsdaten dokumentieren.
7 Bioinformatische Datenanalyse
7.1 Anforderungen an Software und/oder bioinformatische Pipelines, die für die

Datenanalyse verwendet werden
Bioinformatische Pipelines sollten vor der Verwendung für die Datenanalyse validiert werden (siehe
Abschnitt 10.1.2). Pipeline-Entwickler sollten Prüfdatensätze mit ihrer Software vertreiben. Anwender
sollten sicherstellen, dass die Pipelines korrekt installiert sind, indem sie die Prüfdatensätze analysieren und
prüfen, ob die erwarteten Ergebnisse erzeugt werden. Die Hauptkomponenten von bioinformatischen
Pipelines (z. B. Aligner, Variantenaufrufer, Open-Reading-Frame-Nachweis) sollten vorzugsweise in Arbeiten
beschrieben werden, die in wissenschaftlichen Fachzeitschriften veröffentlicht werden. Die intern
entwickelten Verfahren sollten vollständig validiert werden. Software sollte unter Anwendung von
Verfahren der Software-Qualitätskontrolle und -Qualitätssicherung entwickelt und gewartet werden.
17
prEN ISO 23418:2020 (D)
7.2 Protokollierung und Dokumentation
Alle datenanalytischen Schritte und Analysen sollten protokolliert und dokumentiert werden. Es sollte ein
Plan zur Aktualisierung der bioinformatischen Pipeline entwickelt und umgesetzt werden, sobald
Aktualisierungen der Software-Komponenten verfügbar werden. Die Auswirkungen der Aktualisierung der
Softwarekomponenten sollten evaluiert und dokumentiert werden. Möglicherweise ist eine erneute
Validierung erforderlich (siehe Abschnitt 10.1.2). Wenn Datensätze übertragen werden, sollte die
Datenintegrität vor und nach der Übertragung überprüft werden (z. B. anhand der MD5-Prüfsumme).
Ausnahmeprotokolle sollten verwendet werden, um Abweichungen von SOPs während einzelner
bioinformatischer Analysen zu dokumentieren, z. B. dass die SOP nicht wie beschrieben befolgt wurde.
7.3 Qualitätsbeurteilungen
Die Qualität der Sequenzdaten sollte nach Abschluss des Sequenzierungslaufs beurteilt und dokumentiert
werden. Qualitätsmetriken sollten plattformspezifisch sein (siehe Anhang A1 und A2). Die Anwender sollten
ihre Spezifikationen für die Qualitätsbeurteilungsparameter festlegen und aufzeichnen. Zu den Kriterien, die
zur Beurteilung der Sequenzqualität für ein Isolat verwendet werden, können gehören:
— durchschnittlicher Qualitätswert und Anzahl der Basen, die über einem bestimmten Qualitätsschwellen-
wert liegen;
— Anzahl der Reads und deren durchschnittlicher Phred-Wert;
— Es sollten Kontaminationsprüfungen durchgeführt und annehmbare Grenzwerte für Kontaminationen

(z. B. Sequenzierung carry-over- oder Kreuzkontamination aus der Probenvorbereitung) festgelegt
werden, die für bioinformatische Analysen geeignet sind.
Bei bioinformatischen Pipelines zur Assemblierung sollte die Qualität der Assemblierung vor Beginn der
Analysen bewertet werden. Als allgemeine Indikatoren für die Qualität der Assemblierung werden die
folgenden Maßnahmen empfohlen:
— Die Lesetiefe muss ausreichend sein, um sicherzustellen, dass Varianten in der Assembly zuverlässig
nachgewiesen werden können.
— Anzahl der Contigs. Bei Draft-Assemblierungen kann es unter Umständen erforderlich sein, eine
niedrige Abdeckung und/oder kleine Contigs zu entfernen, bevor die Anzahl der Contigs angegeben
wird.
— N50 und/oder NG50 und Länge des längsten Contigs.
— Die Gesamtlänge aller Contigs oder Scaffolds sollte in etwa der bekannten Genomgröße des
Zielorganismus entsprechen.
— Vorhandene artspezifische konservierte Elemente (z. B. Kerngenom).
Labore sollten in Sequenzierungsdaten auf Kontamination prüfen und Grenzwerte festlegen, die für
spezifische Anwendungen geeignet sind. Diese Kontaminationen können von einer anderen Spezies/Gattung
oder von der gleichen Art stammen. Zu den empfohlenen Verfahren gehören unter anderem eine oder
mehrere der folgenden Verfahren:
— k-mer-Hashing im Vergleich zu einer eine Referenzsequenz-Datenbank;
— Berechnung der durchschnittlichen Nukleotididentität (ANI, en: average nucleotide identity) von
Sequenzdaten;
— Überprüfung der Anzahl von rDNA-Allelen in Reads oder Assemblys;
18
prEN ISO 23418:2020 (D)
— Verifizierung von Serotypen mit bioinformatischen Serotyp-Vorhersagetools und
— Vergleich von Assemblys mit Referenzdatenbanken.
Wenn Ergebnisse von nicht-WGS-phänotypischen oder molekularen Prüfungen für ein bakterielles Isolat
vorliegen, dürfen sie mit WGS-Befunden verglichen werden, um die Konsistenz der genomischen
Vorhersagen zu bewerten. Beispiele hierfür sind u. a.
— vorhandene oder fehlende bekannte Resistenzelemente bei Isolaten mit antimikrobiellen

Suszeptibilitätsprofilen,
— Serotyp,
— antigenische Loci und
— vorhandene oder fehlende Virulenz oder pathogene Elemente.
7.4 SNP-Analysen
Für SNP-Analysen kann entweder eine genetisch ähnliche Draft-Assemblierung oder eine fertige
Genomsequenz als Referenz verwendet werden [3]. Referenzsequenzen sollten vor der Analyse kuratiert
werden (z. B. durch Entfernen kleiner Contigs oder Contigs mit geringer Abdeckungstiefe), wie es für
bestimmte Anwendungen erforderlich ist. SNVs sollten mit Hilfe von Qualitätswerten, Abdeckungstiefe,
Dichte und Maskierung hochvariabler Regionen gefiltert werden, je nach Anwendung, um Fehler zu
reduzieren, die durch Sequenzierungs- und Alignment-Artefakte, InDels (Insertionen/Deletionen),
Strukturvarianten, Rekombination und mobile genetische Elemente verursacht werden. Die zur
Identifizierung der SNP-Positionen verwendeten Filterbedingungen sollten dokumentiert werden.
ANMERKUNG Die Analyse von Vergleichs- und simulierten Datensätzen kann dazu beitragen, falsch-positive und
falsch-negative Ergebnisse für SNP-Pipelines zu ermitteln.
Das Referenzgenom sollte den Sequenzen der Prüfpersonen genetisch ähnlich sein, da die Falsch-Positiv-
Rate für die SNP-Identifizierung mit zunehmendem genetischen Abstand zur Referenz tendenziell
zunimmt [13]. Anwender sollten angeben, was als „genetisch ähnlich“ betrachtet wird.
7.5 MLST-Analysen (cgMLST und wgMLST)
Die Kriterien für das Hinzufügen oder Entfernen von Allelen oder Loci aus cgMLST- oder wgMLST-
Datenbanken sollten klar definiert werden. Wenn MLST-Allelen-Bestimmungen mit assemblierten Genomen
durchgeführt werden:
— dasselbe Genom-Annotationsverfahren sollte bei der Generierung von Datenbanken und bei
nachfolgenden Analysen verwendet werden; und
— es sollten Mindestqualitätsstandards für die Assemblierung festgelegt werden, wie z. B. der Prozentsatz
der detektierten Kernloci.
Wenn MLST-Allelen-Bestimmungen mit Read-Mapping durchgeführt werden:
— Kriterien für die SNP- und InDel-Identifizierung (z. B. Alignment-Tiefe, minimale prozentuale
Abdeckung der Loci, Anzahl der zulässigen Diskrepanzen usw.) sollten dokumentiert werden; und
— es sollten Mindestqualitätsstandards für WGS-Datensätze festgelegt werden, wie z. B. der Prozentsatz

der detektierten Kernloci.
19
prEN ISO 23418:2020 (D)
— Die Qualitätskriterien hängen von der Gattung ab. Bei der Erstellung eines proprietären Schemas ist
Vorsicht geboten. Loci mit einzelnen Allelen und solche mit hoher Längenvariabilität sollten entfernt
werden.
7.6 Detektion von Zielgenen
Datenbanken, die zur Detektion von Zielgenen verwendet werden, z. B. Virulenzgen, Antibiotikaresistenzgen,
Serotyp usw., sollten unter Angabe der Versionsnummer dokumentiert werden. Die Kriterien, anhand derer
entschieden wird, ob das Zielgen vorhanden ist oder nicht, sollten klar definiert werden (z. B. prozentuale
Abdeckung und prozentuale Identität).
7.7 Phylogenetische Baum- oder Dendrogramm-Generierung
Distanz-, Parsimonie- und Maximal-Kompatibilitäts-Analyseverfahren können zum schnellen Screening von

WGS-Datensätzen und zur Identifizierung von Clustern eng verwandter Isolate verwendet werden. Die
Ergebnisse werden üblicherweise als Dendrogramm oder paarweise Distanzmatrix dargestellt. Bäume oder
Dendrogramme können je nach Anwendung aus der paarweisen Distanzmatrix, gemeinsamen Loci, Genen
oder Varianten aufgebaut werden. Bayes'sche und Maximum-Likelihood-Verfahren der phylogenetischen
Baumkonstruktion werden den distanzbasierten Verfahren vorgezogen, da sie statistisch konsistent sind
(d. h. sie konvergieren auf die richtige Topologie, je mehr Daten erfasst werden). Bootstrapping sollte
verwendet werden, um die statistische Unterstützung für Topologien unter distanzbasierten,
parsimonischen, maximal kompatiblen und maximal wahrscheinlichen Analyseverfahren zu schätzen. „A
posteriori“-Wahrscheinlichkeiten sollten verwendet werden, wenn Bäume durch Bayes'sche Verfahren
erzeugt werden.
7.8 Metriken und Protokolldateien
Metriken und Protokolldateien sollten aufbewahrt werden und Text enthalten, der Folgendes beschreibt:
a) die Identitäten der analysierten Isolate;
b) die Identitäten von beliebigen Referenzsequenzen (für SNP);
c) Version der Datenbank (für MLST);
d) die Version der verwendeten bioinformatischen Pipeline, Parametereinstellungen und Benutzer-

identifikation;
e) Zeitstempel; und
f) beliebige Filter- oder Maskierungsbedingungen.
Gegebenenfalls sollten Metriken angegeben werden, die Folgendes beschreiben:
a) Anzahl der Reads;
b) Prozent der abgebildeten Reads;
c) durchschnittliche Insertionsgröße und
d) durchschnittliche Alignmenttiefe.
20
prEN ISO 23418:2020 (D)
7.9 Interpretation und Meldung der Ergebnisse bioinformatischer Analysen
7.9.1 Interpretation der Ergebnisse aus bioinformatischen Pipelines
Ergebnisse aus bioinformatischen Pipelines sollten im Zusammenhang mit Informationen zu Metadaten über
die Herkunft von Isolaten und zur Epidemiologie (d. h. Rückverfolgungsinformationen) interpretiert werden.
Schwellenwerte, die für einen Zweck (z. B. Klonausbrüche) festgelegt wurden, sollten nicht für die
Interpretation verschiedener Zwecke (z. B. persistente oder residente Krankheitserreger) verwendet
werden [14].
Die Diversität der Isolate sollte bei der Interpretation von Dendrogrammen oder Allel-/SNP-Unterschieden
berücksichtigt werden. Einige Abstammungslinien dürfen geklont sein. In diesen Fällen können wenige
Unterschiede Ausbrüche/Cluster führen. Andere Abstammungslinien haben eine größere Vielfalt. Im
Allgemeinen ist bei Kontaminationsereignissen mit einer einzigen Punktquelle, die über einen kurzen
Zeitraum auftreten, nur mit sehr wenigen genetischen Veränderungen zu rechnen. Bei großflächigen
Kontaminationsereignissen können größere Unterschiede beobachtet werden.
7.9.2 Angabe über die Ergebnisse der Genomanalyse
Die folgenden Informationen sollten in den Berichten enthalten oder auf Anfrage erhältlich sein:
a) Version der Pipeline;
b) Identität der Eingabedaten;
c) verwendete Referenzgenom- oder MLST-Datenbank und ggf. Version;
d) analytische Einstellungen, falls Optionen verfügbar sind (z. B. Mindestabdeckungseinstellungen für

Aufrufe, Filterung oder Maskierung) und
e) Interpretation und Schlussfolgerungen der Ergebnisse des genomischen Vergleichs, falls Teil des
Antrags.
8 Metadaten
8.1 Allgemeines
Die Organisation muss eine Richtlinie für die Erfassung von Metadaten verabschieden. Metadaten in privaten
Repositorien sollten so detailliert wie möglich sein, aber der Grad der Detailliertheit liegt im Ermessen des
Anwenders. Wenn es gestattet ist, dürfen Metadaten mit Partnern geteilt werden und bis zu einer
Granularitätsebene abstrahiert werden, die den Richtlinien der Organisation für den Datenaustausch
entspricht.
8.2 Interoperabilität und Zukunftssicherheit von Metadaten
Die Empfehlungen zu Struktur und Inhalt der Metadaten in diesem Standard sollen die Interoperabilität und
den Nutzen von Metadaten bei Vergleichen zwischen verschiedenen Datenbanken gewährleisten. Die
Empfehlungen zu Metadaten sollen auch dazu dienen, die Daten so zu strukturieren, dass sie für
unvorhergesehene Nutzungen zugänglich sind (Zukunftssicherheit). Der hier definierte Ansatz zur Normung
von Metadaten erfasst Informationen über Labore und Laborprozesse, Produktionsumgebungen,
Lebensmittelerzeugnisse und Lebensmittelverarbeitung sowie bioinformatische Prozesse und Qualitäts-
kontrollmetriken. Die Norm ist flexibel gestaltet, da einige interessierte Parteien mehr, andere weniger
spezifische Informationen erfassen werden.
21
prEN ISO 23418:2020 (D)
Genomsequenz-Metadaten, die in privaten Repositorien gespeichert sind, können Informationen zur

Beschreibung der Probe, des Isolats und der Sequenz enthalten. Metadatenfelder und -werte können in dem
in den Tabellen 2, 3 und 4 und den Anhängen B bis H beschriebenen Format geliefert werden. Metadaten, die
nach dieser Norm erfasst wurden, können je nach Probenart geliefert werden (siehe Abschnitt 8 und
Anhänge). Ein Nullwert, z. B. „fehlt“, „nicht erhoben“, „nicht bereitgestellt“ oder „eingeschränkter Zugang“, ist
jedoch auch annehmbar, wenn Informationen nicht bekannt oder verfügbar sind. Die ISO WGS-Slim und
andere Ontologien können zur Formatierung und Bereitstellung von Werten für beschriebene Metadaten-
felder verwendet werden.
8.2.1 Ontologien
Ontologien kodieren die Berechnungslogik, die von Softwaresystemen verwendet werden kann, um die
Automatisierung und komplexere Abfragen zu verbessern [4], [5]. Die hierarchische Struktur der Ontologien
ermöglicht bessere Vergleiche von Informationen auf verschiedenen Granularitätsebenen [4], [5].
8.2.2 ISO WGS-Slim
Die ISO WGS-Slim enthält genormte Felder und Begriffe, die von bestehenden Ontologien und anderen
Gemeinschaftsstandards abgeleitet sind (z. B. INSDC Minimal Data for Matching (MDM) und Antibiogramm-
Standards) [6]. Die Felder geben die für die Erfassung empfohlenen Informationsarten an, während die
Begriffe als mögliche Werte dienen, die zum Befüllen der Felder verwendet werden können. Die
ISO WGS-Slim enthält auch synonyme Begriffskennzeichnungen verschiedener Organisationen (z. B.
FoodEx2 [7]), um eine bevorzugte Verwendung von Vokabular zu vermeiden und die Interoperabilität und
Datenharmonisierung zu erleichtern.
Die ISO WGS-Slim kann zur Formatierung und Bereitstellung von Werten für die in den Tabellen 2, 3 und 4
und den Anhängen B bis H beschriebenen Metadatenfelder verwendet werden. Geographische,
taxonomische, Lebensmittel- und Verarbeitungs-, Umwelt- und Arzneimittelfelder in dieser Norm, die ein
umfangreicheres Vokabular erfordern, können mit FoodEx2 und den Ontologien GAZ, NCBITaxon, FoodOn,
EnvO und CheBI [5], [6], [7] bereitgestellt werden.
Die ISO WGS Slim kann in Tabellenkalkulationen mit Metadaten und Informationsmanagementsystemen
implementiert werden. Weitere Anweisungen sind in Anhang I enthalten.
8.3 Formatierung von Metadaten mit der Norm
Die Metadatenfelder in den Tabellen 2, 3 und 4 sind allgemein, und einige erfordern zusätzliche detaillierte
Felder, um die Informationen zu strukturieren und die Verwendung von Freitext zu minimieren. Diese
zusätzlichen Felder werden in den Anhängen B bis H beschrieben.
Jedes Feld in den Tabellen und Anhängen enthält eine Definition, eine bestimmte Rolle bei der Datenanalyse
oder -harmonisierung und spezifische Formatierungsempfehlungen. Werte für einige Felder (z. B. Lebens-
mittelerzeugnis) können durch die Implementierung der ISO WGS-Slim bereitgestellt werden, Werte für
andere Felder (z. B. Datum) können durch eine validierte Eingabe eingeschränkt werden, während andere
Felder als Freitext bereitgestellt werden können.
Die mit dieser Norm formatierten Metadaten sind mit den INSDC-Datenstandards kompatibel. Ein Leitfaden
zur Vorbereitung von Metadaten für die Einreichung bei öffentlichen INSDC-Repositorien ist in Anhang H
(siehe Abschnitt 9) enthalten.
8.4 Metadaten im Zusammenhang mit der Probenahme
Die Felder in Tabelle 2 können zur Erfassung von Metadaten im Zusammenhang mit der Probenahme
verwendet werden. Zusätzliche Felder sind in Anhang B und C enthalten.
22
prEN ISO 23418:2020 (D)
8.5 Metadaten im Zusammenhang mit dem Isolat
Die Felder in Tabelle 3 können zur Erfassung von Metadaten im Zusammenhang mit dem Isolat verwendet
werden. Zusätzliche Felder sind in Anhang B, D, E und F enthalten.
8.6 Mit der Sequenz verbundene Metadaten
Die Felder in Tabelle 4 können zur Erfassung von Metadaten im Zusammenhang mit der Sequenz verwendet
werden. Zusätzliche Felder sind in Anhang B und G enthalten.
9 Sequenz-Repositorien
Genomische Sequenzdaten müssen in einem genormten bioinformatischen Dateiformat zur Verwendung in
bioinformatischen Pipelines verfügbar sein. Die Betreiber müssen Verfahren implementieren, um zu
überprüfen, ob die Metadaten und die Sequenz korrekt zugeordnet sind, um die referentielle Integrität zu
erhalten. Die Betreiber privater Repositorien müssen Fehler korrigieren, wenn sie erkannt werden, die
Datensätze mit diesen Fehlern in öffentlichen Repositorien aktualisieren und WGS-Datensätze entfernen,
wenn die referentielle Integrität nicht überprüft werden kann.
WGS-Daten und ausgewählte Metadaten dürfen in eine öffentlich zugängliche Datenbank übertragen
(hochgeladen) werden. Organisationen müssen unter Umständen Metadaten vor der Einreichung bei
öffentlichen Repositorien transformieren, damit keine Details oder identifizierbare Informationen
preisgegeben werden. Metadaten, die nach den Tabellen und Anhängen dieser Norm bereitgestellt werden,
können so formatiert werden, dass sie die MDM-Anforderungen für die Übermittlung mikrobieller
Sequenzen an öffentliche INSDC-Repositorien erfüllen. Weitere Anweisungen sind in Anhang H enthalten.
10 Validierung und Verifizierung
10.1 Validierung
Die Leistungsmerkmale von WGS-basierten Verfahren sind für den bestimmungsgemäßen Gebrauch
festzulegen. Die Validierung des WGS-Workflows kann für die verschiedenen Komponenten getrennt
durchgeführt werden (siehe Tabelle 1). Letztendlich muss jedoch der gesamte Workflow validiert worden
sein. Die Validierung wird den Nachweis erbringen, dass das Verfahren wiederholbar, reproduzierbar und
genau ist.
10.1.1 Validierung des Laborbetriebs
Die Validierung des Laborbetriebs kann je nach Arbeitsablauf im Labor von der Kultur bis zur
DNA-Sequenzierung und allen Phasen dazwischen reichen. Validierungsparameter und Annahmekriterien
für verschiedene Phasen sind in Tabelle 1 beschrieben.
10.1.2 Validierung der bioinformatischen Pipeline
Die Leistung von bioinformatischen Pipelines sollte auf jeder geeigneten Ebene der Analyse beurteilt werden
(Tabelle 1). Bioinformatische Pipelines dürfen unter Verwendung verschiedener Arten von Datensätzen
evaluiert und/oder validiert werden. Die Validierung kann Probendaten umfassen, die im Ursprungslabor
unter Verwendung eines spezifischen WGS-Workflows zusammen mit Standard-(Benchmark)-Datensätzen
und/oder simulierten Datensätzen erzeugt wurden.
a) Standarddatensätze (oder Benchmark-Sätze) sind Fälle, in denen die Herkunft, der Phänotyp und/oder
die epidemiologische Beziehung der Isolate bekannt sind und die Sequenzdaten öffentlich zugänglich
gemacht wurden. Standarddatensätze können für den Vergleich der Ergebnisse verschiedener
bioinformatischer Pipelines nützlich sein. Der Nutzen von Standarddatensätzen bei der Erstellung
gebrauchstauglicher Arbeitsabläufe kann begrenzt sein, es sei denn, sie wurden mit demselben
23
prEN ISO 23418:2020 (D)
Verfahren der Laborvorbereitung einschließlich der Sequenziertechnologie erzeugt. Beispiele für

Standarddatensätze umfassen:
i) Gen-FS Project - L. monocytogenes, S. enterica ser. Bareilly, E. coli, und C. jejuni sind verfügbar unter
https://github.com/WGS-standards-and-analysis/datasets
ii) BioProject PRJNA252728 (NCBI) vom National Institute of Standards and Technology (NIST)
iii) FDA-ARGOS project - BioProject PRJNA231221 (NCBI)
b) Simulierte Daten – Anwendungen können verwendet werden, um synthetische Sequenz-Lesedaten aus

realen Genomsequenzdaten zu erzeugen. Simulierte Datensätze können einen größeren Bereich von
Parameterwerten und Fehlern prüfen, als dies in der Regel bei realen Sequenzdaten der Fall ist.
Simulierte Daten sind äußerst nützlich, da bekannte Unterschiede (z. B. Nukleotid-Polymorphismen,
InDels und Strukturvarianten) eingeführt werden können, was Vertrauen in die endgültigen Messungen
schafft. Aufgrund von Schwierigkeiten bei der Modellierung der molekularen Evolution können
Simulationen jedoch zu unrealistischen Ergebnissen führen; Pipelines schneiden mit simulierten Daten
oft besser ab als mit echten Datensätzen.
c) Probendatensätze (d. h. echte Sequenzierungsdaten) sollen die in einem bestimmten Labor

verwendeten Organismenarten und mikrobiologischen Verfahren widerspiegeln. Probendatensätze
werden unter Verwendung eines spezifischen durchgehenden Workflows generiert, der DNA-Isolierung,
Bibliotheksvorbereitung, Sequenzierung und bioinformatische Analyse umfasst. Probendatensätze
werden in der Regel aus Standard- oder Referenzsammlungen mit bekannten Merkmalen oder aus
Sammlungen von Isolaten im Zusammenhang mit einem Ausbruch mit bekannten epidemiologischen
Informationen abgeleitet, je nach dem zu validierenden Workflow der Anwendung.
Validierungsdatensätze sollten aus Daten von Zielbakterienarten bestehen, die die Komplexität und Fehler
repräsentieren, die üblicherweise bei bestimmungsgemäßem Gebrauch auftreten. Validierungsdatensätze
sollten potentiell konfundierende Isolate enthalten, wie z. B. Genomsequenzen, die entweder sehr eng oder
entfernt mit dem Zielbakterium verwandt sind. Die Datensätze dürfen auch mehrere Arten umfassen.
Zusätzlich können Daten mehrerer Arten oder Stämme in einer einzigen Datei verwendet werden, um die
Fähigkeit zur Detektion von Kreuzkontaminationen zu validieren. Annehmbare Bedingungen müssen auf der
Grundlage von Leistungszielen festgelegt und je nach Anwendung dokumentiert werden, z. B:
— Genauigkeit der Annotation und Merkmalsvorhersage und/oder
— Genauigkeit der Stamm- oder Artvorhersagen, Bewertung der Verwandtschaft in Übereinstimmung mit
bekannten epidemiologischen Informationen.
Validierungsdatensätze müssen mit der bioinformatischen Pipeline analysiert und die Ergebnisse anhand
der festgelegten Leistungsziele und Annahmekriterien beurteilt werden (siehe Tabelle 1). Berichte, die die
Validierungsergebnisse beschreiben, sollten ausreichen, um die Analysen zu replizieren. Jede größere
Änderung in den bioinformatischen Pipelines muss evaluiert und dokumentiert werden. Wenn eine größere
Auswirkung beobachtet wird, muss möglicherweise eine erneute Validierung durchgeführt werden.
10.1.3 Validierung des durchgehenden Workflows
Für jede WGS-Anwendung muss eine durchgehende Validierung erfolgen, wenn die Validierung eines der
Schritte innerhalb des WGS-Workflows (Tabelle 1) für die beabsichtigte Anwendung fehlt oder wenn die
Validierung des Laborbetriebs oder der bioinformatischen Analyse keine Probendaten umfasste
(siehe 10.1.2). Die Validierung des durchgehenden WGS-Workflows hilft bei der Festlegung von
Schwellenwerten für biologisch relevante Unterschiede gegenüber Unterschieden, die mit dem Kultur- und
Sequenzierungsprozess zusammenhängen. Die Validierung von WGS-Workflows durch Vergleich mit
historischen Goldstandards (Pulsfeld-Gelelektrophorese, 7-Gen-MLST, Phagentypisierung usw.) stellt eine
Herausforderung dar, da WGS eine höhere Auflösung der Daten bietet. Bakterienisolate, die früher identisch
24
prEN ISO 23418:2020 (D)
oder nicht unterscheidbar waren, können jetzt messbare Unterschiede aufweisen. Je nach Anwendung
sollten geeignete Probengenomsequenz-Datensätze erstellt werden, d. h. es sollten Isolate ausgewählt
werden, die die Variabilität der Organismen repräsentieren, die für spezifische Anwendungen analysiert
werden sollen.
ANMERKUNG Metriken, die mit der Methodik verbunden sind und von Van Belkum et al. (2007) beschrieben
werden, können bei der Charakterisierung von Unterschieden zwischen eng verwandten Genomen nützlich sein [1]. Ein
Beispiel für die Validierung der Quellennachverfolgung auf der Grundlage dieser Metriken ist in Portmann et al.
(2018) [8] dargestellt. Ein Beispiel für die Validierungsstrategie, die sich speziell auf die erschöpfende
Charakterisierung der bioinformatischen Analyse eines WGS-Workflows konzentriert, wird in Bogaerts et al. 2019 [9]
dargestellt. Jede Stufe des Arbeitsablaufs sollte wie in Tabelle 1 beschrieben validiert werden.
10.2 Verifizierung
Die Verifizierung muss nachweisen, dass das ausführende Labor in der Lage ist, das validierte Verfahren für
eine bestimmte WGS-Anwendung korrekt einzusetzen. Die Verifizierung muss für den gesamten
Arbeitsablauf oder einen der Schritte innerhalb des Arbeitsablaufs durchgeführt werden (das Labor, das die
Laborvorgänge durchführt und/oder die Einheit, die die bioinformatische Analyse durchführt).
10.2.1 Verifizierung des Laborbetriebs
Das ausführende Labor muss innerhalb des Anwendungsbereichs objektiv nachweisen, dass das validierte
Verfahren in seinem Anwendungsbereich eingesetzt wird und dass die festgelegten Anforderungen erfüllt
sind. Bei anerkannten/normalisierten Verfahren (z. B. Verfahren, die in maßgeblichen Büchern,
wissenschaftlichen Fachzeitschriften, publizierten Normen, Anweisungen des internationalen Konsens oder
Vorschriften veröffentlicht wurden) ist keine Validierung, sondern nur eine Verifizierung erforderlich.
Tabelle 1 — Validierung der Workflow-Stufen
Validierungs- Wiederholpräzision Vergleichpräzision Übereinstimmung mit anderen

stufe (Genauigkeit/Präzision) (Genauigkeit/Präzision) Verfahren (Genauigkeit/Richtigkeit)
1. Reinkultur Einbeziehen verschiedener Einbeziehen verschiedener Einbeziehen verwandter und nicht
Subkulturen am selben Tag Subkulturen an verwandter Stämme (z. B. Ausbruch und
durch denselben Bearbeiter verschiedenen Tagen durch Nichtausbruch) oder von Stämmen, die
verschiedene Bearbeiter den/die zu betrachtenden Marker nicht
enthalten
2. DNA- Einbeziehen verschiedener Einbeziehen verschiedener Einbeziehen von DNA verwandter und
Extraktion DNA-Extraktionen aus DNA-Extraktionen aus nicht verwandter Stämme (z. B.
derselben Subkultur am derselben Subkultur durch zugehöriger Ausbruch und Nichtaus-
selben Tag durch denselben verschiedene Bearbeiter an bruch) oder von Stämmen, die den/die
Bearbeiter und unter verschiedenen Tagen unter zu betrachtenden Marker nicht
Verwendung derselben Verwendung verschiedener enthalten
Reagenzienchargen Reagenzienchargen
3. DNA- Einbeziehen von Bibliothe- Einbeziehen von Bibliothe- Einbeziehen von Bibliotheken
Sequen- ken desselben Stammes ken, die von verschiedenen verwandter und nicht verwandter
zierung (z. B. in dreifacher Ausfer- Bearbeitern an verschie- Stämme (z. B. zugehöriger
tigung), die von demselben denen Tagen (zwischen Nichtausbruch) oder von Stämmen, die
Bearbeiter am selben Tag Laufgenauigkeit) auf den/die zu betrachtenden Marker nicht
und im selben Lauf verschiedenen Instrumenten enthalten
(innerhalb der Laufge- erzeugt wurden
nauigkeit) erzeugt wurden
25
prEN ISO 23418:2020 (D)
Validierungs- Wiederholpräzision Vergleichpräzision Übereinstimmung mit anderen

stufe (Genauigkeit/Präzision) (Genauigkeit/Präzision) Verfahren (Genauigkeit/Richtigkeit)
4. Bioinfor- Nachweis identischer Nachweis vergleichbarer Nachweisen, dass Ergebnisse mit
matische Ergebnisse aus demselben Ergebnisse aus demselben anderen Pipelines für dieselbe
Pipeline Datensatz mindestens Datensatz mindestens Anwendung vergleichbar sind und
zweimal auf demselben zweimal auf verschiedenen Festlegen aller bekannten Unterschiede
Computer/derselben IT- Computern/unterschied- zwischen Pipelines, die das Ergebnis
Infrastruktur unter licher IT-Infrastruktur unter beeinflussen können, z. B. eingebaute
Verwendung derselben Verwendung derselben Referenzdatenbanken. Wenn keine
Version der Software mit Version der Software mit solche Pipeline zur Verfügung steht,
denselben denselben sollten simulierte Daten, bei denen die
Optionen/Parametern Optionen/Parametern evolutionären Beziehungen der Isolate
bekannt sind und die die in realen Daten
erwartete Variabilität widerspiegeln,
verwendet werden, um die Fähigkeit
der Pipeline, die richtige Antwort zu
geben, nachzuweisen.
Annahme- Die Interpretation der Die Interpretation der Der WGS-Workflow muss in der Lage
kriterien Ergebnisse sollte sich nicht Ergebnisse sollte sich nicht sein, dieselben Schlussfolgerungen zu
ändern, d. h. es sollten ändern, d. h. es sollten keine ziehen wie andere Goldstandard-
keine signifikanten signifikanten Unterschiede Typisierungs- und/oder
Unterschiede beobachtet bei der Reproduktion des Charakterisierungsverfahren (z. B.
werden, wenn der WGS- WGS-Workflows in verschie- epidemiologische Inferenz/Konkordanz,
Workflow im gleichen denen Laboren, mit verschie- Differenzierung nicht verwandter
Labor mit den gleichen denen Bearbeitern oder Stämme bei der Gruppierung eng
Bearbeitern, die das gleiche verschiedenen Instrumenten verwandter Isolate, andere
Instrument verwenden, erzielt werden. Es werden genotypische Verfahren, vergleichbare
wiederholt wird. geringfügige Unterschiede Daten mit geschlossenen
erwartet, die durch metho- Referenzgenomen).
dische Schritte bedingt sind.
Auch Genominhalte wie Plas-
mide können verloren gehen.
Sie sollten nicht als signifi-
kant angesehen werden.
10.2.2 Verifizierung der bioinformatischen Pipeline
Wenn handelsübliche oder bioinformatische Open-Source-Pipelines verwendet werden, die von ihren
Entwicklern validiert wurden, die Validierungsprüfungen veröffentlicht werden und die Validierungs-
datensätze öffentlich zugänglich sind, muss die Validierungsprüfung möglicherweise erst nach der
Installation der Software (teilweise) wiederholt werden. Hier können Prüfdatensätze verwendet werden, die
von den Pipeline-Entwicklern vertrieben werden. Die erfolgreiche Ausführung eines Prüfdatensatzes
bedeutet jedoch nicht notwendigerweise, dass eine bioinformatische Pipeline validiert oder einsatzbereit ist.
Mit Prüfdatensätzen kann überprüft werden, ob bioinformatische Pipelines und die damit verbundenen
Abhängigkeiten korrekt installiert sind und erwartungsgemäß funktionieren. Der Anwender muss die
Funktionalität der Pipeline nach den vorher festgelegten Parametern aufzeigen. Die Prüfdaten werden als
Eingabe für eine bioinformatische Pipeline verwendet, und die Ausgabe wird mit den erwarteten
Ergebnissen verglichen. Prüfdatensätze sind in der Regel klein (z. B. Lambda-Phagengenom) und werden mit
der Software oder Pipeline vertrieben. Wenn die Daten zu groß sind, um mit der Software gebündelt zu
werden, können die Zugangsnummern von Datenspeichern angegeben werden.
26
prEN ISO 23418:2020 (D)
Tabelle 2 — Empfohlene Metadatenfelder und mit der Probenahme verbundene Werte
Rolle bei Datenanalysen/

Metadatenfelder und Definition ISO-Empfehlungen
Harmonisierung
Kontaktinformationen des Labors zur Einrichtung der Über- Kontaktinformationen können
Probenahme wachungskette und durch die Informationsfelder in
Bereitstellung von Anhang B angegeben werden.
Der Name des Labors, das die zu analysierende Kontaktinformationen für
Probe genommen hat, sowie der Name und die Folgeanalysen.
Kontaktinformationen einer Person, die
weitere Einzelheiten zu dem Projekt oder der
Probe angeben kann, sollten ebenfalls
bereitgestellt werden.
Geographischer Standort der Probenahme INSDC-Datenstandard Beispiele für geographische
(erfüllt das MDM-Feld Standortinformationen können
Die geographische Herkunft der Probe. „geo_loc“). durch die Informationsfelder in
Anhang C festgelegt werden.
Probenahmedatum INSDC-Datenstandard Das Probenahmedatum kann als

(erfüllt das MDM-Feld JJJJJ-MM-TT nach ISO 8601 unter
Datum, an dem die Probe genommen wurde. „collection_date“). Verwendung einer validierten
Dateneingabe aufgezeichnet
werden.
Probenart Rückverfolgung und andere Probearten können aus der

Analysen. ISO WGS-Slim ausgewählt werden.
Die Art des Materials, aus dem das Isolat
gewonnen wurde. Proben werden in der Regel
als Lebensmittelerzeugnisse, Körperprodukte
oder Gewebe kategorisiert, oder Umwelt-
proben, die aus dem Bereich der Lebensmittel-
produktion und Lebensmittelhandhabung
entnommen werden.
Lebensmittelerzeugnis INSDC-Datenstandard Lebensmittelerzeugnisse und
(erfüllt das MDM-Feld Inhaltsstoffe können sowohl für
Produkte, die für den menschlichen Verzehr „isolation_source“). menschliche Nahrung als auch für
und als Futtermittel bestimmt sind Tiernahrung gelten. Wenn Lebens-
mittelerzeugnisse zutreffen,
können Deskriptoren aus der
ISO WGS-Slim ausgewählt werden.
Lebensmittelverarbeitung INSDC-Datenstandard Wenn Lebensmittelverarbeitung

(erfüllt das MDM-Feld zutrifft, können Deskriptoren aus
Verarbeitung, die für ein Lebensmittel gilt, z. B. „isolation_source“). der ISO WGS Slim ausgewählt
Entbeinen, Enthäuten, Pasteurisieren. werden.
Umweltmaterial INSDC-Datenstandard Lebensmittel werden als ein vom

(erfüllt das MDM-Feld Umweltmaterial getrennter
Ein Stoff, der aus der natürlichen oder vom „isolation_source“). Bereich betrachtet.
Menschen geschaffenen Umwelt gewonnen
wird, z. B. Boden, Wasser, Stalldung. Wenn Umweltmaterialien zutref-
fen, können Deskriptoren aus der
ISO WGS Slim ausgewählt werden.
27
prEN ISO 23418:2020 (D)

Harmonisierung
Umweltstandort INSDC-Datenstandard Lebensmittelbezogene Umwelt-
(erfüllt das MDM-Feld standorte können unter anderem,
Ein Umweltstandort kann einen Standort in der „isolation_source“). aber nicht ausschließlich,
natürlichen oder bebauten Umgebung Lebensmittelproduktion, -verarbei-
beschreiben, z. B. Schlachthof, Einzelhandel, tung, -verteilung und Einzel-
Futtermittelbetrieb, Nahrungsmittelmaschinen, handelsumgebungen umfassen, die
Flächen, die zur Verarbeitung und Zubereitung beprobt wurden. Wenn Umwelt-
von Lebensmitteln verwendet werden. standorte zutreffen, können
Deskriptoren aus der ISO WGS Slim
ausgewählt werden.
Sammelbehälter INSDC-Datenstandard Die Sammelbehälter sind nicht
(erfüllt das MDM-Feld immer bekannt, aber wenn sie
Das Instrument oder der Behälter, das/der zur „isolation_source“). angegeben werden, können sie aus
Probenahme verwendet wird, z. B. steriler der ISO WGS Slim ausgewählt
Plastikbeutel, Plastikbehälter, Tupfer (mit oder werden.
ohne Transportmedium), Schlauch.
Probenahmeverfahren INSDC-Datenstandard MDM, Die Probenahmeverfahren sind
wenn das für die Probe- nicht immer bekannt, aber wenn
Das zur Probenahme verwendete Verfahren nahme verwendete sie angegeben werden, können sie
Verfahren bekannt ist aus der ISO WGS Slim ausgewählt
(erfüllt das MDM-Feld werden.
„isolation_source“).
Tabelle 3 — Empfohlene Metadatenfelder und mit dem Isolat verbundene Werte

Harmonisierung
Kontaktinformationen des mikro- Einrichtung der Kontaktinformationen können
biologischen Labors Überwachungskette und durch die Informationsfelder in
Der Name des Labors, das den zu sequenzie- Kontaktinformationen für
renden Organismus isoliert hat, sowie der Folgeanalysen.
Name und die Kontaktinformationen einer
Person, die weitere Einzelheiten zu dem
Projekt oder Isolat angeben kann, sollten
ebenfalls bereitgestellt werden.
Organismus INSDC-Datenstandard Der wissenschaftliche Name für die
(erfüllt das MDM-Feld Art kann unter Verwendung
Die Spezies des zu sequenzierenden Isolats. „organism“). genormter taxonomischer
Bezeichnungen von NCBITaxon
angegeben werden.
Stamm INSDC-Datenstandard Der Stammidentifikator kann als

(erfüllt das MDM-Feld Freitext zur Verfügung gestellt
Der Name oder Identifikator des Stammes. „strain or isolate“). werden.
Isolat INSDC-Datenstandard Der Isolatidentifikator kann als
(erfüllt das MDM-Feld Freitext zur Verfügung gestellt
Der Name oder Identifikator des Isolats. „strain or isolate“). werden.
28
prEN ISO 23418:2020 (D)

Harmonisierung
Serotyp MDM des öffentlichen Die Ergebnisse des Serotyps
Repositorys (erforderlich für können, falls verfügbar, als Freitext
Der Serotyp des Isolats oder Stammes, wie er das EBI-Feld „Serotyp“). zur Verfügung gestellt werden.
durch In-vitro- oder In-silico-Verfahren (z. B.
WGS, PCR oder immunologische Verfahren)
bestimmt wird.
Isolierungsmedium Berechenbare Vergleiche Deskriptoren dieses Materials
von Methodiken. können aus der ISO WGS Slim
Die Nährmedien, die zur Isolierung des zu ausgewählt werden.
sequenzierenden Organismus von anderen
Organismen in der Probe verwendet werden.
Verlauf der Isolatpassage Berechenbare Vergleiche Details zur Isolatpassage können
von Methodiken. Eine durch die Informationsfelder in
Die Anzahl, wie oft ein Isolat nach einem Erhöhung der Anzahl der Anhang D angegeben werden.
bestimmten Verfahren seriell subkultiviert Passierungen eines Isolats
wird. kann unter Umständen zur
Anhäufung zusätzlicher
Mutationen führen.
Ergebnisse des Antibiogramms Berechenbare Vergleiche Wenn die Ergebnisse der Antibio-
von Antibiogrammen. gramme vorliegen, können die
Die minimalen Hemmkonzentrationen (Wert, Informationen entsprechend den
Einheit, Zeichen (<,>, =)) und die Feldern in Anhang E festgelegt
Resistenzphänotypen (resistent, sensitives werden.
Zwischenprodukt oder unbestimmt) des
sequenzierten Isolats im Vergleich zu Die Quelle der Breakpoints (und
verschiedene geprüfte Antibiotika. die Version), die für die Inter-
pretation/Klassifizierung der
MHK-Werte verwendet werden,
kann angegeben werden.
Verfahren der Antibiogramme Berechenbare Vergleiche Antibiogramm-Verfahren (falls
von Antibiogrammen. zutreffend) können entsprechend
Das Laborprotokoll zur Bestimmung von den Feldern in Anhang E festgelegt
Resistenzphänotypen und minimalen werden.
Hemmkonzentrationen von Antibiotika, die im
Vergleich zu ein Isolat geprüft werden. Das
Protokoll sollte die geprüften Antibiotika, die
Laborprüfverfahren und die Prüfnorm sowie
die für die Prüfung verwendeten
Kontroll-/Referenzstämme enthalten.
Ergebnisse des Virulenzfaktors Berechenbare Vergleiche Wenn die Ergebnisse der Virulenz
der Virulenz. vorliegen, können die
Die Virulenzfaktoren, deren Vorhandensein im Informationen nach den Feldern in
sequenzierten Isolat durch phänotypische oder Anhang F festgelegt werden.
Zielamplifikationsverfahren bestimmt wird,
z. B. Shiga-Toxine, Hämolysine.
Verfahren zur Prüfung des Virulenzfaktors Berechenbare Vergleiche Verfahren zur Virulenzprüfung
der Virulenz. (falls zutreffend) können
Das Laborprotokoll zur Bestimmung von entsprechend den Feldern in
Virulenzphänotypen und Markern. Anhang F festgelegt werden.
29
prEN ISO 23418:2020 (D)
Tabelle 4 — Empfohlene Metadatenfelder und mit der Sequenz verbundene Werte

Harmonisierung
Kontaktinformationen der Einrichtung der Kontaktinformationen können
Sequenzierungseinrichtung Überwachungskette und durch die Informationsfelder in
Der Name der Einrichtung, die den isolierten Kontaktinformationen für
Organismus sequenziert hat, sowie der Name Folgeanalysen.
und die Kontaktinformationen einer Person,
die weitere Einzelheiten zum Projekt und zur
Sequenzierung angeben kann, sollten
bereitgestellt werden.
Sequenzierungsdatum Verfolgen von Die Sequenzierung kann als JJJJJ-
Sequenzierungsläufen. MM-TT nach ISO 8601 unter
Das Datum, an dem der Sequenzierungslauf Verwendung einer validierten
initiiert wurde. Dateneingabe aufgezeichnet
werden.
Nährmedien Berechenbare Vergleiche Deskriptoren dieses Materials

von Methodiken. können aus der ISO WGS Slim
Formulierung von Stoffen in flüssiger, ausgewählt werden.
halbfester oder fester Form, die natürliche
und/oder synthetische Bestandteile enthalten,
die die Vermehrung (mit oder ohne Hemmung
bestimmter Mikroorganismen), die
Identifizierung oder die Erhaltung der
Lebensfähigkeit von Mikroorganismen
unterstützen sollen
DNA-Extraktionsverfahren Berechenbare Vergleiche Der Name des handelsüblichen Kits
von Methodiken und und die Versionsnummer oder das
Das Verfahren, mit dem genomische DNA aus Qualitätslenkung. Laborprotokoll sind einzufügen,
einer Probe durch chemische, physikalische das zur Extraktion der
oder mechanische Mittel gewonnen wird. genomischen DNA des isolierten
Organismus unter Verwendung
von Freitext verwendet wurde.
Sequenzierung von Parallelproben Verfolgen von Parallelproben innerhalb einer

Sequenzierungsläufen und Reihe von Sequenzierungsläufen
Eine technische Sequenzierungswiederholung Analysieren der Variabilität können entweder als technisch
stellt die Resequenzierung der gleichen von Reads und Sequenzen. oder biologisch beschrieben
biologischen Probe dar, um die experimentelle werden. Wenn Sequenzierungs-
Variation zu beurteilen. wiederholungen zutreffen, können
Eine biologische Sequenzierung stellt Deskriptoren aus der ISO WGS Slim
biologisch ein Sequenzierungsexperiment dar, ausgewählt werden.
das auf einer anderen Kolonie desselben Isolats
basiert, die aus demselben Probenmaterial
gewonnen wurde, um die biologische Variation
zu beurteilen.
Verfahren zur Vorbereitung der Berechenbare Vergleiche Der Name des handelsüblichen Kits
Sequenzbibliothek von Methodiken und und die Versionsnummer oder das
Qualitätslenkung. Laborprotokoll sind einzufügen,
Das Verfahren zur Erstellung einer Bibliothek das für die Vorbereitung der
aus DNA-Fragmenten unter Verwendung von Bibliotheken zur Sequenzierung als
Oligonukleotiden mit der Rolle von Adaptern. Freitext verwendet wurde.
30
prEN ISO 23418:2020 (D)

Harmonisierung
Sequenzierende Instrumentierung Berechenbare Vergleiche Arten von Sequenzierungs-
von Methodiken. instrumenten können aus der
Die Art des zur Automatisierung des Prozesses ISO WGS Slim ausgewählt werden.
verwendeten Instruments.
Kontaktinformationen des Bioinformatik- Einrichtung der Kontaktinformationen können
unternehmens Überwachungskette und durch die Informationsfelder in
Der Name der Organisation, die die bioinforma- Kontaktinformationen für
tische Verarbeitung und Analyse durchführt, Folgeanalysen.
sowie der Name und die Kontaktinformationen
einer Person, die weitere Einzelheiten zu den
bioinformatischen Analysen angeben kann,
sollten bereitgestellt werden.
Verarbeitung von Rohdaten der Sequenz Berechenbare Vergleiche Einbeziehen des Namens und der
von Methodiken und Version des Trimmwerkzeugs und
Das Verfahren, das verwendet wird, um Qualitätslenkung. ggf. des Programms für die
Adaptersequenzen aus Rohsequenz-Reads zu Zusammenführung der beiden
entfernen, Basen niedriger Qualität zu trimmen Enden. Es wird empfohlen, dass
und gegebenenfalls Paired-End Reads auch die Parameter aufgezeichnet
zusammenzuführen. werden. Diese Informationen
können als Freitext zur Verfügung
gestellt werden.
Verfahren zur Filterung von Sequenzdaten Berechenbare Vergleiche Einbeziehen des Namens und der
von Methodiken und Version des/der Filterwerk-
Das Verfahren, mit dem Reads niedriger Qualitätslenkung. zeuge(s) und der angewandten
Qualität und nicht alignierbare Sequenzen aus Prozesse. Es wird empfohlen, dass
den Rohdaten der Sequenz entfernt werden. auch die Parameter aufgezeichnet
werden. Diese Informationen
gestellt werden.
Verfahren der Sequenzassemblierung Berechenbare Vergleiche Beschreiben der verwendeten

von Methodiken und bioinformatischen Pipeline, ein-
Das Verfahren oder der Algorithmus, das bzw. Qualitätslenkung. schließlich des Namens und der
der für die Assemblierung einzelner Version der Assembler-Software
Sequenzabschnitte (Reads) zu größeren und der Zugangsnummer des
zusammenhängenden Sequenzen (Contigs) Referenzgenoms, das im Falle der
verwendet wird. referenzbasierten Assemblierung
verwendet wird. Es wird
empfohlen, dass auch die Para-
meter zusammen mit allen
Änderungen nach der Assemblie-
rung aufgezeichnet werden. Diese
Informationen können als Freitext
zur Verfügung gestellt werden.
Verfahren der Sequenzannotation Berechenbare Vergleiche Einbeziehen des Namens und der
von Methodiken und Version des Annotationswerk-
Das Verfahren oder der Algorithmus, das bzw. Qualitätslenkung. zeugs. Es wird empfohlen, dass
der verwendet wird, um Sequenzmerkmale auch die Parameter aufgezeichnet
(z. B. proteincodierende Regionen) in Sequenz- werden. Diese Informationen
daten zu identifizieren und zu erfassen. können als Freitext zur Verfügung
gestellt werden.
31
prEN ISO 23418:2020 (D)

Harmonisierung
Qualitätsmetriken der Sequenz- Berechenbare Vergleiche Metriken zur Sequenzqualitäts-
assemblierung von Methodiken und kontrolle können durch die
Qualitätslenkung. Informationsfelder in Anhang G
Messungen oder berechnete Größen, die festgelegt werden.
verwendet werden, um das Ausmaß und den
Erfolg des Sequenzassemblierungsprozesses zu
beurteilen. Metrische Schwellenwerte sind
artspezifisch.
32
prEN ISO 23418:2020 (D)
Anhang A
(informativ)
A.1 Leitfaden für die Entwicklung von Qualitätsmetriken für

Sequenzierungstechnologien mit kurzer und langer Read-Länge
Tabelle A.1 — Leitfaden für die Entwicklung von Qualitätsmetriken für Sequenzierungstechnologien
mit kurzer und langer Read-Länge
Leitfaden
Prozess Bedenken Short-Read-Technologie Long-Read-Technologie
DNA- Kreuzkontamination, Bouillonkulturen sollten aus einer einzigen Kolonie des zu prüfenden Isolats
Extraktion Integrität der Proben begonnen werden.
Die DNA-Integrität ist entscheidend, insbesondere bei Long-Read-Technolo-
gien. Es sollte darauf geachtet werden, dass eine Fragmentierung der
genomischen DNA während der Vorbereitung und Lagerung (z. B. durch
Einfrieren/Auftauen) vermieden wird.
DNA- vorhandene Verunreini- Das Verhältnis der optischen Dichte (OD260/280) sollte 1,75 bis 2,05 und das
Qualität gungen, die den Aufbau Verhältnis (OD260/230) 2,0 bis 2,2 betragen.
der Bibliothek negativ
auswirken können
DNA mit niedrigem Mole- Extraktionsverfahren für genomische DNA sollten an die verwendete
kulargewicht kann sich Sequenzierplattform angepasst werden; die DNA-Integrität kann auf
negativ auf den Aufbau der Agarosegel oder durch Kapillarelektrophorese mit geeigneten
Bibliothek auswirken Größenstandards überprüft werden
DNA- eine unzureichende Ein- Die Eingabe der DNA-Menge sollte vor der weiteren Verdünnung sorgfältig
Quantität gabe genomischer DNA mit einem DNA-spezifischen, auf interkalierenden Farbstoffen basierendem
kann zu einer Sequenz- Fluoreszenz-Quantifizierungsverfahren bestimmt werden. Die Mindestmenge
bibliothek führen, die nicht hängt vom verwendeten Bibliothekskit/von der verwendeten Sequenzier-
der Norm entspricht technologie ab. Bei Änderungen sollte dies durch eine Validierung unterstützt
werden.
DNA-Frag- Eine suboptimale Die Größenverteilung von gescherten DNA-Proben sollte mit auf
mentierung Fragmentierung kann zu Kapillargelelektrophorese basierenden Systemen überprüft werden.
einer verringerten
Bibliotheksausbeute/ Die Probenbibliothek sollte Fragmente zwi- Die optimalen Fragmentgrößen
reduzierten Abdeckung schen 200 bp und 3 000 bp enthalten. Beim variieren je nach Long-Read-
führen. transposonbasierten Bibliotheksaufbau Sequenzierplattform und
kann die Fragmentverteilung nach der PCR Anwendung.
durch Kapillarelektrophorese verifiziert
werden.
DNA- Nach der Fragmentierung Dies kann mit Hilfe von Gelelektrophoreseansätzen oder perlenbasierten
Größen- kann die Auswahl eines Ansätzen erfolgen. Jede Größenauswahl sollte durch eine Validierung für jede
auswahl bestimmten Bereichs von der Arten, auf die sie angewandt wird, unterstützt werden.
Fragmenten wünschens-
wert sein, um die Quali- Die Größenauswahl erhöht die Qualität der Die Größenauswahl erhöht die
tät/Effizienz der Sequenz Sequenzierung, kann aber zu Lücken in der Qualität der Sequenzierung,
zu verbessern. Die Selek- Abdeckung des bakteriellen Genoms führen. könnte aber zu einem Verlust
tion kann unter Umstän- von kleinen Plasmiden führen.
den zum Verlust kleiner
Plasmide oder zu einer
Verzerrung der Sequenz-
abdeckung führen.
33
prEN ISO 23418:2020 (D)
Leitfaden
Prozess Bedenken Short-Read-Technologie Long-Read-Technologie
Ligation korrekte Zuordnung von Sicherstellen, dass die verwendeten Barcode-Indizes nur einmal im Sequen-
von Indizes Adaptersequenzen zu zierungslauf verwendet werden. Die verwendeten Indizes sind so abzu-
und geeigneten Proben wechseln, dass das gleiche eindeutige Indexpaar nicht in zwei aufeinander
Adaptern (Probenverwechslungen) folgenden Läufen verwendet wird. Nach jedem Gebrauch sind die Kappen der
Indexröhrchen auszutauschen oder die Indexplatte abzudichten, um eine
Kreuzkontamination der Indizes zu verhindern.
Amplifi- reduzierte Komplexität der Die Anweisungen des Herstellers bezüglich nicht zutreffend
kation Bibliothek der Anzahl der Zyklen sind zu befolgen -
wenn Änderungen erforderlich sind (z. B.
um Primer-Dimere zu vermeiden), muss
dies validiert werden (z. B. 12 Zyklen
können bei den meisten Spezies
funktionieren, aber 15 Zyklen können bei
Mykobakterien besser funktionieren). Falls
erforderlich, ist ein PCR-freies Verfahren zur
Vorbereitung der Bibliothek zu verwenden.
Kreuzkontamination mit Es ist ratsam, Vor-PCR- und Nach-PCR- nicht zutreffend
Amplikon Schritte in verschiedenen Räumen
durchzuführen, um eine Amplikon-
Kreuzkontamination zu vermeiden.
Beurteilung erwartete Die Größenverteilung der Bibliothek sollte mit einem auf Kapillarelektro-
der Biblio- DNA-Konzentration und phorese basierenden System überprüft werden. Die Konzentration kann mit
theks- Einsatzgrößenverteilung einem auf Kapillarelektrophorese basierenden System oder mit einem auf
qualität Fluoreszenz basierenden Quantifizierungssystem bestimmt werden.
Kontamination während Bei der Vorbereitung der Bibliothek sollte darauf geachtet werden, dass
der Bibliotheks- Kreuzkontaminationen vermieden werden. Aerosolbeständige Filter-
vorbereitung pipettenspitzen sind zu verwenden, die Handschuhe sind häufig zu wechseln.
DNA- Normalisierung von Ein äquimolares Pooling auf der Grundlage Äquimolares Pooling auf der
Sequen- Multiplex-Proben des Bibliotheksprofils und der Quantifizie- Grundlage des Bibliotheks-
zierung rung kann wünschenswert sein, um eine profils und der Quantifizierung.
angemessene Abdeckung aller im Lauf Vor Ablauf der Größenauswahl
enthaltenen Proben zu gewährleisten. und den letzten Schritten zur
Alternativ darf ein auf Perlen basierendes Reparatur von DNA-Schäden.
Verfahren der Normalisierung verwendet
werden. Eine Quantifizierung der gepoolten
Bibliothek kann auch wünschenswert sein,
um sicherzustellen, dass die Menge der
geladenen Bibliothek für die
Sequenzierplattform geeignet ist.
carry-over-Kontamination Zur Minimierung der carry-over-Kontami- nicht zutreffend
zwischen den Läufen nation sind geeignete Instrumentenwasch-
mittel zu verwenden und ein Index-
Rotationsschema einzurichten, um
sicherzustellen, dass nicht dasselbe
Indexpaar in aufeinander folgenden Läufen
verwendet wird.
Geräteleistung Eine interne Kontrolldotierung ist mit der Eine interne Kontrolldotierung
Probe durchzuführen. Die Sequenzierung ist mit der Probe
derselben DNA (Positivkontrolle) zur durchzuführen.
Überwachung der Sequenzqualität wird
empfohlen.
34
prEN ISO 23418:2020 (D)
A.2 Empfehlung für die Qualitätsbeurteilung von Short-Read-Daten

Die Beurteilung der Sequenzierdaten wird je nach Sequenzierplattform und des bestimmungsgemäßen
Gebrauchs der Daten in nachgelagerten Analysen variieren. Im Folgenden sind Leitlinien enthalten, die auf
einige Plattformen für die Sequenzierung kurzer Lesevorgänge anwendbar sind. Sie sollen als eine erste
Qualitätsbeurteilung vor Beginn der bioinformatischen Analyse verwendet werden, die eine eingehendere
Qualitätsbeurteilung, wie in Punkt 7.3 ausgeführt, beinhaltet.
Tabelle A.2 — Empfehlung zur Qualitätsbeurteilung von Illumina Short-Read-Daten vor der
bioinformatischen Analyse (siehe Abschnitt 7.3)
Prozess Bedenken Leitfaden

Qualität der Rohdaten der Sequenz in Sequenzen im FASTQ-Format können mit dem FastQC-Tool
Sequenzdaten ausreichender Qualität, überprüft werden. Alle Sequenzen sollten entweder als
Read-Länge und Abdeckung „[WARNING] Per base“ oder als „[PASS] Per base“ Sequenz-
für den bestimmungs- qualität gekennzeichnet werden. Die geschätzte Mindestab-
gemäßen Gebrauch deckung liegt in der Regel zwischen dem 20- und 60-fachen.
Parameter für die Q30-Abdeckung insgesamt 2 × 300 bp: 70 %
Laufannahme*
2 × 250 bp: 75 %
* Man kann sich dafür
entscheiden, einzelne 2 × 150 bp: 80 %
Sequenzen anstelle
PhiX-Fehlerrate <6%
eines ganzen Laufs
anzunehmen, basierend Passierfilter für Reads > 44 M (Anmerkung: Die Anzahl der Lesevorgänge kann je nach
auf den unten aufge- Plattform und Chemie variieren.)
führten Parametern für
die Probenannahme. Negativkontrolle der < 10 000
Lesevorgänge
Parameter für die geschätzte Abdeckung 20X (je nach Anwendung und sequenziertem
Probenannahme Mikroorganismus)
mittlerer Phred-Wert 30
Kontamination Prüfung auf erwartete Arten und fehlende nicht erwartete
Arten/Stämme (<5 % werden als Nicht-Zielarten identifiziert)
Laufkriterien Clusterdichte 600-1 400 K/mm2 für MiSEQ, 170-200 für iSEQ
(informativ)
Passierfilter für Cluster > 75 %
PhiX-Alignment 1%
Phasierung/Vorphasierung < 0,5 %
Read-1
Phasierung/Vorphasierung < 0,5 %
Read-4
35
prEN ISO 23418:2020 (D)
Prozess Bedenken Leitfaden

Probenkriterien GC-Wert < 4 % Abweichung
(informativ, kann
artabhängig sein, Abfall des medianen Phred- 150
sollte bei der Werts Q30
Validierung bewertet Reads je Probe > 20 000 (kann je nach Anwendung und erforderlicher
werden) Abdeckung variieren)
maximaler N-Anteil < 0,10 %
Gehalt je Basensequenz < 6 % Differenz
AT-Proportionsprüfung < 30 %
Verteilung der z. B. < 5 % der Reads sind < 120 bp, wenn die Lesevorgänge der
Sequenzlänge Roheingaben 300 bp lang sind; >50 % der Reads sind >150 bp,
wenn die Lesevorgänge der Roheingaben 300 bp lang sind
A.3 Empfohlene Verwendung von Kontrollen

Tabelle A.3 — Empfohlene Verwendung von Kontrollen
Kontrolle Häufigkeit der

Prozess Zweck Leitfaden
Beschreibung Nutzung
DNA- Positivkontrolle/Re- Beurteilung der Eine misslungene Extraktion Kann nach Bedarf
Extraktion ferenzstamm, der die Effizienz des der genomischen DNA von aufgenommen
Spezies in den Verfahrens geeigneter Qualität für nach- werden. Eine
Untersuchungs- gelagerte Analysen aus der Sequenzierung der
proben repräsentiert Positivkontrolle deutet positiven Extraktions-
darauf hin, dass es ein Pro- kontrollen ist nicht
blem mit dem Extraktions- erforderlich.
verfahren gibt; wenn die
Untersuchungsproben jedoch
funktionieren, können sie
verwendet werden.
Negativkontrolle (z. B. Sicherstellen, dass es Die Negativkontrolle kann Empfohlen für jede
Wasserleerprobe, während des sequenziert werden, um die Extraktion, darf aber
unbeimpfte Bouillon) DNA-Extraktions- während der DNA-Extraktion nur dann sequenziert
verfahrens nicht zu auftretende Kontamination werden, wenn dies für
einer Kreuz- zu bewerten. Wenn die Nega- notwendig erachtet
kontamination tivkontrolle kontaminiert ist, wird.
kommt. sollte die gesamte DNA sorg-
fältig evaluiert werden, um
festzustellen, ob der Grad der
Kontamination die nachfol-
genden Analysen beeinflusst.
36
prEN ISO 23418:2020 (D)
Kontrolle Häufigkeit der

Prozess Zweck Leitfaden
Beschreibung Nutzung
Vorbereitung DNA aus einem gut Wird zur Positivkontrollen sollten Eine Positivkontrolle
der charakterisierten Überwachung der Fragmente in einem Bereich ist nicht für jeden Lauf
Bibliothek Stamm sollte als Sequenzqualität bei aufweisen, der für die erforderlich. Die
Positivkontrolle verschiedenen Läufen verwendete Technologie Häufigkeit der
verwendet werden. Es verwendet, um typisch ist, und die Verwendung von
wird auch empfohlen, Probleme mit der Ergebnisse der Positivkontrollen zur
stets den gleichen Sequenzierungs- Sequenzierung sollten Überwachung der
DNA-Extrakt zu chemie zu identifi- zwischen den Läufen Qualität im Laufe der
verwenden. zieren. Wird zur konsistent sein. Zeit sollte festgelegt
Evaluierung und werden.
Validierung der Bib-
liotheksvorbereitung
verwendet
Negativkontrolle (z. B. wird zur Evaluierung Negativkontrollen sollten Eine Negativkontrolle
Wasser) von Kreuzkontamina- keine detektierbaren Peaks ist nicht für jeden Lauf
tionen während der und damit verbundene erforderlich. Die
Bibliotheks- minimale Sequenzierungs- Häufigkeit der Ver-
vorbereitung werte aufweisen. Die wendung von Negativ-
verwendet Kontamination der kontrollen zur Über-
Negativkontrolle sollte wachung der Qualität
unterhalb der festgelegten im Laufe der Zeit
Grenzwerte liegen. sollte festgelegt
werden.
DNA-Sequen- eine klar gekenn- Evaluierung der Die Fehlerraten je Base Falls praktisch durch-
zierung/Gerä- zeichnete Bibliothek Qualität des Laufs sollten innerhalb der führbar, sollten
teleistung zur internen festgelegten Grenzen liegen. Kontrollbibliotheken
Kontrolle (Dotierung) bei jedem Lauf
einbezogen werden.
Beim Demultiplexen Evaluieren des Grads Die Anzahl der Lesevorgänge Kann nach Bedarf
des Laufs die im der carry-over-Konta- mit Indizes, die früheren aufgenommen
vorherigen Lauf mination für Sequen- Läufen zugeordnet sind, sollte werden.
verwendeten Indizes zierplattformen, bei die festgelegten Grenzen
einbeziehen denen dieses Problem nicht überschreiten.
bekannt ist, und Eva-
luieren der Kreuzkon-
taminationen (z. B.
mit Amplikons aus
früheren Läufen), die
während der
Vorbereitung der
Bibliothek auftreten
37
prEN ISO 23418:2020 (D)
Anhang B
(informativ)
Felder für Labor-Kontaktinformationen
Tabelle B.1 — Felder für Labor-Kontaktinformationen

Harmonisierung
Rolle der Organisation Einrichtung der Überwachungskette Die Rolle der Organisation kann aus
und Bereitstellung von Kontakt- der ISO WGS Slim ausgewählt
Die Rolle, die eine Organisation in informationen für Folgeanalysen. werden.
einem Prozess spielt, z. B. Kontaktinformationen können
Probenahme, mikrobielle Isolierung, innerhalb einer Organisation je nach
Sequenzierung, Bioinformatik. den Prozessen oder Analysen, die
durchgeführt werden, variieren.
Organisationsname Einrichtung einer Überwachungs- Der Organisationsname kann als

kette und Bereitstellung von Kontak- Freitext zur Verfügung gestellt
Der Name der Organisation. tinformationen für Folgeanalysen, werden.
wenn Daten an öffentlich zugäng-
liche Datenbanken (Repositorien)
oder Partner weitergegeben werden
können.
Vorname Einrichtung einer Produktkette und Wenn die Personalfluktuation die

Bereitstellung von Kontakt- mögliche Nachverfolgung beein-
Ein Vorname ist ein Name, der eine informationen für Folgeanalysen. trächtigen könnte, können die
bestimmte Person unter Mitgliedern Kontaktinformationen für eine
einer Gruppe von Personen bestimmte Arbeitsstelle und nicht
bezeichnet, deren Mitglieder in der für eine bestimmte Person ange-
Regel den gleichen Nachnamen geben werden. Diese Informationen
tragen. können als Freitext zur Verfügung
gestellt werden.
Nachname Einrichtung der Überwachungskette Wenn die Personalfluktuation die

und Bereitstellung von Kontakt- mögliche Nachverfolgung beein-
Ein Nachname (Familienname) ist informationen für Folgeanalysen. trächtigen könnte, können die
ein zu einem Vornamen hinzuge- Kontaktinformationen für eine
fügter Name, der Teil eines bestimmte Arbeitsstelle und nicht
Personennamens und oft der für eine bestimmte Person ange-
Familienname ist. geben werden. Diese Informationen
gestellt werden.
Stellenbezeichnung Einrichtung der Überwachungskette Wenn die Personalfluktuation die

und Bereitstellung von Kontakt- mögliche Nachverfolgung beein-
Die Benennung der Stelle, die der informationen für Folgeanalysen. trächtigen könnte, können die
Ansprechpartner innehat. Kontaktinformationen für eine
bestimmte Arbeitsstelle und nicht
für eine bestimmte Person ange-
geben werden. Diese Informationen
gestellt werden.
38
prEN ISO 23418:2020 (D)

Harmonisierung
Straße und Hausnummer Einrichtung der Überwachungskette Straße und Hausnummer können die
und Bereitstellung von Kontakt- Gebäudenummer und den
Straße und Hausnummer informationen für Folgeanalysen. Straßennamen enthalten.
beschreiben den physischen
(geographischen) Standort der Format: validierte Dateneingabe
Laboreinrichtung.
Gemeinde Einrichtung der Überwachungskette Die Gemeinde kann aus dem
und Bereitstellung von Kontakt- ontologischen Ortsverzeichnis
Der Name der Stadt, des Ortes oder informationen für Folgeanalysen. ausgewählt werden.
des Dorfes, in der/dem die
Organisation ihren Sitz hat.
Provinz/Bundesland/Gebiet Einrichtung der Überwachungskette Die Provinz, das Bundesland oder
und Bereitstellung von Kontakt- das Gebiet können aus dem
Der Name der Provinz (P), des informationen für Folgeanalysen. ontologischen Ortsverzeichnis
Bundeslandes (B) oder des Gebiets ausgewählt werden.
(G), in der/dem die Organisation
ihren Sitz hat.
Land Einrichtung der Überwachungskette Das Land kann aus dem
und Bereitstellung von Kontakt- ontologischen Ortsverzeichnis
Der Name des Landes, in dem die informationen für Folgeanalysen. ausgewählt werden.
E-Mail-Adresse Einrichtung der Überwachungskette Die E-Mail-Adresse kann mittels
und Bereitstellung von Kontakt- validierter Dateneingabe angegeben
Eine E-Mail-Adresse ist eine informationen für Folgeanalysen. werden.
Kennung, um Post an eine bestimmte
elektronische Mailbox zu senden.
Telefonnummer Einrichtung der Überwachungskette Eingabe der Landes- und Ortsvor-
und Bereitstellung von Kontakt- wahl zusammen mit der bestimmten
Eine Telefonnummer ist eine informationen für Folgeanalysen. Nummer für den Ansprechpartner
Kennung, die verwendet wird, um (die eine Durchwahlnummer
eine Verbindung zu einem physika- enthalten kann). Die Telefonnummer
lischen Gerät herzustellen, das in der kann mittels validierter
Lage ist, Sprache oder Daten über ein Dateneingabe angegeben werden.
Netzwerk zu übertragen.
39
prEN ISO 23418:2020 (D)
Anhang C
(informativ)
Geographischer Standort der Probenahmefelder
Tabelle C.1 — Geographischer Standort der Probenahmefelder

Harmonisierung
geographische Breite INSDC-Datenstandard (erfüllt Der Breitengrad kann mit Hilfe einer
das MDM-Feld „lat_lon“ bei validierten Dateneingabe angegeben
Eine Messung, die ein Maß für die NCBI/DDBJ; „lat_lon“ ODER werden und sollte nicht auf das Zentrum
Breitenkoordinaten eines Standortes Land bei EBI). einer Stadt, einer Provinz/eines Bundes-
ist. landes oder eines Landes abstrahiert
werden, da dies fälschlicherweise einen
bestehenden Standort implizieren könnte.
„Fehlt“ ist ein gültiger Wert, wenn die
Informationen nicht verfügbar sind oder
nicht weitergegeben werden können.
Falls verfügbar, können die Breitengrade
als d[d.d.dddd] N|S angegeben werden,
z. B. 38,98 N.
geographische Länge INSDC-Datenstandard (erfüllt Eine validierte Dateneingabe ist für die
das MDM-Feld „lat_lon“ bei Bereitstellung der geographischen Länge
Eine Messung, die ein Maß für die NCBI/DDBJ; „lat_lon“ ODER zu verwenden, die nicht auf das Zentrum
Längenkoordinate eines Standortes Land bei EBI). einer Stadt, einer Provinz/eines Bundes-
ist. landes oder eines Landes abstrahiert
werden sollte, da dies fälschlicherweise
einen bestehenden Standort implizieren
könnte. „Fehlt“ ist ein annehmbarer Wert,
wenn die Informationen nicht verfügbar
sind oder nicht weitergegeben werden
können.
Falls verfügbar, können die Längengrade
als d[d.d.dddd] W|E angegeben werden,
z. B. 77,11 W.
Gemeinde INSDC-Datenstandard (erfüllt Die Gemeinde kann aus dem ontolo-
das MDM-Feld „geo_loc“). gischen Ortsverzeichnis ausgewählt
Der Name der Stadt, des Ortes oder werden.
des Dorfes, in der/dem die
Provinz/Bundesland/Gebiet INSDC-Datenstandard (erfüllt Die Provinz, das Bundesland oder Gebiet
das MDM-Feld „geo_loc“). können aus dem ontologischen
Die Provinz (P), das Bundesland (B) Ortsverzeichnis ausgewählt werden.
oder Gebiet (G), in der/dem die
Probe genommen wurde.
Land MDM der öffentlich Das Land kann aus dem ontologischen
zugänglichen INSDC-Datenbank Ortsverzeichnis ausgewählt werden.
Das Land, in dem die Probe (Feld „geo_loc“).
genommen wurde.
40
prEN ISO 23418:2020 (D)
Anhang D
(informativ)
Verlaufsfelder der Isolat-Passage
Tabelle D.1 — Verlaufsfelder der Isolat-Passage

Harmonisierung
Anzahl der Passagen Eine Erhöhung der Anzahl der Die Anzahl der Passagen kann als
Passierungen eines Isolats kann zur numerischer Wert (positive ganze
Die Anzahl der seriellen Subkulturen, Anhäufung zusätzlicher Mutationen Zahl) unter Verwendung einer
die ein Isolat in einer Umgebung führen validierten Dateneingabe
gezüchtet wird. ausgedrückt werden.
Passagenprotokoll Erleichtert den Vergleich von Das Passagenprotokoll kann, falls

Methodiken sowie von Analysen. zutreffend, Inokulumgröße,
Das Verfahren zur seriellen Medienart, Temperatur und Dauer
Ausbreitung eines Isolats in einer der Inkubation enthalten. Das
Umgebung. Passagenprotokoll kann als Freitext
zur Verfügung gestellt werden.
41
prEN ISO 23418:2020 (D)
Anhang E
(informativ)
Ergebnisse des Antibiogramms und Verfahrensfelder
Tabelle E.1 — Ergebnisse des Antibiogramms und Verfahrensfelder

Harmonisierung
Name des Medikaments Antibiogramm-Datenstandards Chemische Standardnamen oder
(erfüllt NCBI Antibiogramm generische Arzneimittelnamen
Der chemische Standardname für ein „Antibiotikum“-Feld). können anstelle von allgemeinen oder
Arzneimittel. Markennamen aus der ISO WGS Slim
oder der ChEBI-Ontologie ausgewählt
werden.
MHK-Wert Antibiogramm-Datenstandards Der MHK-Wert kann mittels
(erfüllt Feld des NCBI Antibiogramms validierter Dateneingabe angegeben
Der numerische Wert der MHK, z. B. 4. „Messung“). werden.
MHK-Einheit Antibiogramm-Datenstandards Die MHK-Einheit kann mit der
(erfüllt Feld des NCBI Antibiogramms ISO WGS Slim bereitgestellt werden.
Die Standardeinheit der MHK,
„Messeinheit“).
z. B. g/mL.
MHK-Zeichen Antibiogramm-Datenstandards Das MHK-Zeichen kann mit der
(erfüllt Feld des NCBI Antibiogramms ISO WGS Slim bereitgestellt werden.
Das Zeichen der MHK gibt an, ob die
„Messzeichen“).
Konzentration genau bestimmt
werden kann (gekennzeichnet durch
Gleichheitszeichen), oder ob sie im
Bereich unterhalb (<) oder oberhalb
(>) des angegebenen Wertes liegt.
Phänotypische Resistenz Antibiogramm-Datenstandards Die phänotypische Resistenz hängt
(erfüllt Feld des NCBI Antibiogramms von den angewendeten Breakpoint-
Die phänotypische Resistenz eines
„Resistenzphänotyp“). Schwellenwerten ab, die wiederum
Isolats stellt die Interpretation eines
von dem zur Interpretation verwen-
MHK-Wertes in Bezug auf einen
deten Vergleichsnormal abhängen.
bestimmten klinischen Grenzwert
Breakpoints können auch wirts-,
(Breakpoint) dar, z. B. resistent (R),
organismen-, arzneimittel- und
sensibel bei Standardexposition(S),
infektionsstellenspezifisch sein. In
sensibel bei erhöhter Exposition(I),
Fällen, in denen eine Norm Angaben
Wildtyp (WT) oder Nicht-Wildtyp
zu Wirt, Organismus, Arzneimittel-
(NWT).
name und Gewebespezifität (AST-
Breakpoint) für die geeignete Auswahl
von Breakpoints verlangt, sollten
diese mit Hilfe der ISO WGS Slim
angegeben werden.
Gewebespezifität (AST-Breakpoint) Festlegen von Kriterien für die Die Gewebespezifität (AST-Break-
Breakpoint-Auswahl. Berechenbare point) muss nur dann angegeben
Der Name der Gewebeart, der zur
Vergleiche von Methodiken. werden, wenn die zur Interpretation
Auswahl von klinischen Grenzwerten
der MHK verwendete Norm diese
aus einer bestimmten Norm für die
Information erfordert, z. B. bei der
Interpretation der MHK-Ergebnisse
Auswahl von CLSI-Breakpoints für
verwendet wird.
Tierärzte. Die Gewebespezifität kann
mit der ISO WGS Slim festgelegt
werden.
42
prEN ISO 23418:2020 (D)

Harmonisierung
Geprüfte minimale Festlegen des Bereichs des geprüften Die geprüfte minimale Arzneimittel-
Arzneimittelkonzentration Medikaments. Berechenbare konzentration kann als numerischer
Vergleiche von Methodiken. Wert angegeben werden, indem die
Der niedrigste Wert des geprüften
Dateneingabe validiert wird. Es wird
Medikaments, z. B. 0.
davon ausgegangen, dass es sich bei
den Einheiten um dieselben wie bei
der MHK handelt.
Geprüfte maximale Festlegen des Bereichs des geprüften Die geprüfte maximale Arzneimittel-
Arzneimittelkonzentration Medikaments. Berechenbare konzentration kann als numerischer
Vergleiche von Methodiken. Wert angegeben werden, indem die
Der höchste Wert des geprüften
Dateneingabe validiert wird. Es wird
Medikaments, z. B. 128.
davon ausgegangen, dass es sich bei
den Einheiten um dieselben wie bei
der MHK handelt.
Labor-Prüfverfahren Antibiogramm-Datenstandards Das Labor-Prüfverfahren kann mit der
(erfüllt Feld des NCBI Antibiogramms ISO WGS Slim festgelegt werden.
Die Art des Assays, das zur
„Laboratory Typing Method“ (Labor-
Bestimmung der MHK verwendet
Typisierungsverfahren)).
wird, z. B. Bouillonverdünnung.
Labor-Prüfreagenz Antibiogramm-Datenstandards Das Laborprüfreagenz kann mit
(erfüllt Feld des NCBI Antibiogramms Freitext beschrieben werden.
Das handelsübliche Kit oder Produkt,
„Laboratory Typing Method or
das zur Bestimmung der MHK
Reagent“ (Labor-Typisierungs-
verwendet wird, z. B. E-Test. Wenn
verfahren oder Reagenz)).
kein handelsübliches Produkt
verwendet wurde, ist die Art des
verwendeten Mediums anzugeben.
Laborprüfnorm Antibiogramm-Datenstandards Die Labor-Prüfnorm kann mit der
Die klinischen und labortechnischen „Testing Standard“ (Prüfnorm)).
Leitlinien oder Normen, die die
Schwellenwerte für die Bestimmung
von Resistenzphänotypen
vorschreiben, z. B. CLSI.
Labor-Prüfplattform Antibiogramm-Datenstandards Die Labor-Prüfplattform kann mit der

Die zur Bestimmung der MHK-Werte „Laboratory Typing Platform“ (Labor-
verwendete Instrumentierung, z B. Typisierungsplattform)).
Vitek.
43
prEN ISO 23418:2020 (D)
Anhang F
(informativ)
Detektion von Virulenzfaktoren und Verfahrensfelder
Tabelle F.1 — Detektion von Virulenzfaktoren und Verfahrensfelder

Harmonisierung
Name des Virulenzfaktors Angabe von Virulenzdaten. Der Name des Virulenzfaktor-Gens
kann im Freitext angegeben werden.
Der Name des Virulenzfaktor-Moleküls,
das von einem Erreger produziert wird,
der spezifisch Krankheiten verursacht
oder die Funktion des Wirts beeinflusst,
damit der Erreger gedeihen kann.
Virulenz-Prüfprotokoll Berechenbare Vergleiche von Dazu gehören, falls zutreffend, die
Methodiken. Vorbereitung des Inokulums,
Das zur Bestimmung der Virulenz Plattformen und Instrumente,
verwendete Verfahren. Bedingungen, Zelllinien und
Tiermodelle. Diese Informationen
können im Freitext zur Verfügung
gestellt werden.
Nachweisgrenze Erleichtert den Vergleich von Der numerische Grenzwert

Methodiken sowie von Analysen. (Schwellenwert) und Einheiten zur
Die Nachweisgrenze bezeichnet das Bestimmung positiver Ergebnisse,
kleinste Maß, das mit hinreichender z. B. qPCR-Wert, CFUs, sind
Sicherheit für ein bestimmtes Analyse- anzugeben. Diese Informationen
verfahren nachgewiesen werden kann. können im Freitext zur Verfügung
gestellt werden.
44
prEN ISO 23418:2020 (D)
Anhang G
(informativ)
Metriken zur Qualitätskontrolle der Sequenz
Tabelle G.1 — Metriken zur Qualitätskontrolle der Sequenz

Harmonisierung
N50 Bietet ein Maß für die Kontiguität N50 kann als numerischer Wert in
der Assemblierung zur Mb (z. B. 0,75 Mb) unter
Die Länge, so dass Contigs dieser Länge Beurteilung der Qualität. Verwendung einer validierten
oder länger die Hälfte der Basen in der Dateneingabe angegeben werden.
Assembly umfassen.
Sequenzierungstiefe Beurteilung der Qualität und Die Sequenzierungstiefe kann als
Bereitstellung eines Maßes für numerischer Wert als X-fache
Die Sequenzierungstiefe ist die durch- das Vertrauen in eine Sequenz. Faltung angegeben werden
schnittliche Anzahl der Lesevorgänge,
die ein bestimmtes Nukleotid in der (z. B. 30x) mit validierter
rekonstruierten Sequenz Dateneingabe.
repräsentieren.
Breite der Abdeckung Beurteilung der Qualität und Die Breite der Abdeckung kann als
Bereitstellung eines Maßes für prozentualer Wert (z. B. 95 %) bis zu
Die Breite der Abdeckung ist der das Vertrauen in eine Sequenz. einer Falte der Abdeckung (z. B. 10X)
Prozentsatz des Genoms, der bis zu unter Verwendung einer validierten
einer vorgeschriebenen Abdeckungs- Eingabe angegeben werden.
tiefe sequenziert wurde (berechnet
durch Kartierung auf ein
Referenzgenom).
Mittlere Contig-Länge Bietet ein Maß für die Kontiguität Die mittlere Contig-Länge kann als
der Assemblierung zur numerischer Wert in Mb (z. B.
Die mittlere Contig-Länge ist die Anzahl Beurteilung der Qualität. 0,5 Mb) unter Verwendung einer
der Basenpaare in der durchschnitt- validierten Dateneingabe angegeben
lichen Contig-Größe der werden.
Sequenzassemblierung.
Anzahl der Contigs Bietet ein Maß für die Kontiguität Die Anzahl der Contigs kann mittels
der Assemblierung zur validierter Dateneingabe als
Die Gesamtzahl der zusammen- Beurteilung der Qualität. numerischer Wert (z. B. 5)
hängenden Sequenzen, die alle angegeben werden.
assemblierten Sequenzdaten enthalten.
Größe des assemblierten Genoms Analysen und Angabe der Die Größe des assemblierten Genoms
Sequenzmerkmale. kann als numerischer Wert in Mb
Die Gesamtzahl der Basenpaare, die in (z. B. 5,2 Mb) mittels validierter
assemblierten Contigs enthalten ist. Dateneingabe angegeben werden.
45
prEN ISO 23418:2020 (D)
Anhang H
(informativ)
Spezifikation der Metadaten
H.1 Spezifikation der Metadaten für Einreichungen bei NCBI/DDBJ

ANMERKUNG Der Global Microbial Identifier Minimal Data for Matching (MDM) ist ein international vereinbarter
Metadatenstandard und informiert über die Mindestanforderungen an Metadaten für die Einreichung von
Pathogensequenzen bei den öffentlichen INSDC-Repositorien (d. h. GenBank, ENA, DDBJ) [10]. Aufgrund von Altlasten
variiert die Metadaten-Implementierung unter den INSDC-Repositorien leicht. Als solche sollten die Auftraggeber die
Anweisungen der Datenbank befolgen. MDM-Anforderungen können durch Formatierung der vorgeschriebenen
Metadaten dieser ISO-Spezifikation erfüllt werden. MDM-Felder, wie von EBI und NCBI/DDBJ definiert, und ihre
Implementierungen werden im Folgenden beschrieben. Vorlagen für die Einreichung von Metadaten können den
BioSample-Richtlinien von EBI (https://www.ebi.ac.uk/ena/submit/checklists) und NCBI
(https://www.ncbi.nlm.nih.gov/biosample/docs/packages/) entnommen werden. Wenn irgendwelche
Informationsfelder aufgrund von Einschränkungen bei der gemeinsamen Nutzung von Daten oder aus anderen Gründen
nicht gemeinsam genutzt werden können, sollte „Missing“ (fehlt) für Einreichungen bei NCBI/DDBJ eingegeben werden.
„Not included“ (nicht enthalten), „Not provided“ (nicht bereitgestellt) oder „Restricted access“ (beschränkter Zugang)
sind zulässige Nullwerte für EBI-Einreichungen.
Tabelle H.1 — NCBI/DDBJ MDM-Felder und NCBI-Definitionen
Formatierungsanweisungen für
NCBI/DDBJ MDM-Felder und NCBI-Definitionen
ISO-Metadaten
sample_name Keine besonderen Anweisungen.
Sample Name ist ein Name, der für die Probe gewählt wird. Er kann jedes
Format haben, aber wir schlagen vor, dass Sie ihn prägnant, eindeutig und
konsistent in Ihrem Labor und so informativ wie möglich vergeben. Jeder
Probenname (Sample Name) von einem einzelnen Einsender muss
eindeutig sein.
attribute_package Dieses Feld ist spezifisch für
NCBI/DDBJ-Einreichungen, und die
Die Art des Krankheitserregers ist anzugeben. Erlaubte Werte sind Optionen können innerhalb der
„Pathogen.cl“ (für klinische oder wirtsassoziierte Pathogene) oder Einreichungsvorlage ausgewählt
„Pathogen.env“ (für Umwelt-, Lebensmittel- oder andere Pathogene). Der werden.
in diesem Feld angegebene Wert steuert die Validierung anderer Felder.
collected_by* Diese Informationen können genau aus
dem Feld des ISO-Labors für
Name der Personen oder des Instituts, die/das die Probe genommen Mikrobiologie abgeleitet werden.
haben/hat.
collection_date* Diese Informationen können aus dem
ISO-Feld Probenahmedatum (Collection
Datum der Probenahme, in Date) abgeleitet werden. Wenn die
„TT-Mmm-JJJJJ“, „Mmm-JJJJ“ interessierte Partei aufgrund von
Beschränkungen bei der gemeinsamen
oder „JJJJJ“-Format (z. B. 30-Okt Nutzung von Daten eine gekürzte
Version einfügen muss, ist nur das Jahr
-1990, Okt-1990 oder 1990) oder ISO
anzugeben (Format JJJJ).
8601-Norm „JJJJJ-mm-tt“, „JJJJJ-mm“ oder „JJJJJ-mm-ttThh:mm:ss" (z. B.
1990-10-30, 1990-10 oder
1990-10-30T14:41:36)
46
prEN ISO 23418:2020 (D)
Formatierungsanweisungen für
NCBI/DDBJ MDM-Felder und NCBI-Definitionen
ISO-Metadaten
Organismus Diese Informationen können genau aus
dem ISO-Feld Organismus abgeleitet
Der beschreibendste Organismenname für diese Probe (ggf. für die Art). werden.
Stamm Diese Informationen können genau aus
dem ISO-Feld Stamm abgeleitet werden.
Name des mikrobiellen oder eukaryotischen Stammes.
Isolat Diese Informationen können genau aus
dem ISO-Feld Isolat abgeleitet werden.
Identifizierung oder Beschreibung der spezifischen Person, von der diese
Probe entnommen wurde.
geo_loc_name* Diese Informationen können durch Ver-
kettung einer Teilmenge der ISO-Felder
Geographische Herkunft der Probe; der entsprechende Name ist aus für die geographische Lage der Probe-
dieser Liste http://www.insdc.org/documents/country-qualifier- nahme nach Anhang C abgeleitet
vocabulary zu entnehmen. Ein Doppelpunkt ist zu verwenden, um das werden. Insbesondere sollten die Infor-
Land oder den Ozean von detaillierteren Informationen über den Ort zu mationen zu Stadt, Provinz/Bundes-
trennen, z. B. „Kanada: Vancouver“ oder „Deutschland: auf halber Höhe land/Gebiet und Land verkettet und
der Zugspitze, Alpen“. durch Doppelpunkte getrennt werden.*
lat_lon* Diese Informationen können durch

Verkettung einer Teilmenge der
Die geographischen Koordinaten des Ortes, an dem die Probe genommen ISO-Felder für die geographische Lage
wurde. Festlegen als Breiten- und Längengrad im Format „d[d.d.dddd] N|S der Probenahme nach Anhang C
d[dd.ddddd] W|E“, z. B. 38,98 N 77,11 W. abgeleitet werden. Insbesondere sollten
Breiten- und Längengradinformationen
verkettet und durch ein Leerzeichen
getrennt werden.
isolation_source* Diese Informationen können abgeleitet

werden durch Verkettung der Infor-
Beschreibt die physikalische, ökologische und/oder lokale geographische mationen für Probenart und Bezugs-
Quelle der biologischen Probe, aus der die Probe stammt. felder, getrennt durch einen
Doppelpunkt.
host* Diese Informationen können genau aus

dem ISO-Feld Wirt (Host) abgeleitet
Der natürliche (im Gegensatz zum Labor) Wirt des Organismus, aus dem werden.
die Probe entnommen wurde. Der vollständige taxonomische Name, z. B.
„Homo sapiens“ ist zu verwenden.
host_disease* Diese Informationen können genau aus
dem ISO-Feld Wirtskrankheit (Host
Name der relevanten Erkrankung, z. B. Salmonella gastroenteritis. Disease) abgeleitet werden.
Kontrolliertes Vokabular,
http://bioportal.bioontology.org/ontologies/1009 oder
https://www.ncbi.nlm.nih.gov/mesh.
* Wenn die interessierte Partei aufgrund von Einschränkungen bei der gemeinsamen Nutzung von Daten
eine gekürzte Version einfügen muss, sind nur Informationen entsprechend der zulässigen Granularität
einzufügen. „Fehlt“ ist ein zulässiger Wert.
47
prEN ISO 23418:2020 (D)
H.2 Spezifikation der Metadaten für Einreichungen bei EBI

Tabelle H.2 — Spezifikation der Metadaten für Einreichungen bei EBI
EBI MDM-Felder und EBI-Definitionen Formatierungsanweisungen für ISO-Metadaten

collected_by* Diese Informationen können genau aus dem Feld des
ISO-Labors für Mikrobiologie abgeleitet werden.
Name der Personen oder des Instituts, die/das die Probe
genommen haben/hat.
collection_date* Diese Informationen können aus dem ISO-Feld
Probenahmedatum (Collection Date) abgeleitet
Das Datum der Probenahme, entweder als Zeitspanne (einze- werden. Wenn die interessierte Partei aufgrund von
lner Zeitpunkt) oder als Intervall. Für den Fall, dass keine Beschränkungen bei der gemeinsamen Nutzung von
genaue Uhrzeit verfügbar ist, kann das Datum/die Uhrzeit Daten eine gekürzte Version einfügen muss, ist nur
richtig gekürzt werden, d. h. es handelt sich um gültige das Jahr anzugeben (Format JJJJ).
ISO 8601-konforme Zeiten: 2008-01-23T19:23:10+00:00;
2008-01-23T19:23:10; 2008-01-23; 2008-01; 2008.
isolate* Diese Informationen können genau aus dem ISO-Feld
Isolat abgeleitet werden.
Individuelles Isolat, aus dem die Probe gewonnen wurde.
geographic location (country and/or sea)* Diese Informationen können aus dem in Anhang C
vorgeschriebenen ISO-Länderfeld abgeleitet werden.
Die geographische Herkunft der Probe, wie sie durch das Land Für Ozean-Namen sind die Begriffe aus der INSDC-
oder das Meer definiert ist. Länder- oder Meeresnamen sollten Länderliste (http://insdc.org/country.html) zu
aus der INSDC-Länderliste (http://insdc.org/country.html) verwenden.
ausgewählt werden.
geographic location (latitude)*geographische Herkunft der Diese Informationen können genau aus dem in
Probe, wie durch Längen- und Breitengrad definiert. Die Werte Anhang C vorgeschriebenen ISO-Feld Breitengrad
sollten in Dezimalgraden und im WGS 84-System angegeben (Latitude) abgeleitet werden.
werden.
geographic location (longitude)* Diese Informationen können genau aus dem in
Anhang C vorgeschriebenen ISO-Feld Längengrad
Die geographische Herkunft der Probe, wie durch Längen- und (Longitude) abgeleitet werden.
Breitengrad definiert. Die Werte sollten in Dezimalgraden und
im WGS 84-System angegeben werden.
is the sequenced pathogen host associated? Dieses Feld ist spezifisch für Einreichungen bei EBI.
Wenn der Organismus wirtsassoziiert war, „Ja“
Ist der sequenzierte Erregerwirt assoziiert? (‚Ja‘ oder ‚Nein‘.) eingeben. Wenn der Organismus nicht wirtsassoziiert
war und aus einer Umgebungsprobe gewonnen
wurde, „Nein“ eingeben.
environmental_sample Dieses Feld ist spezifisch für Einreichungen bei EBI.

Wenn der Organismus wirtsassoziiert war, „Nein“
Identifiziert Sequenzen, die durch direkte molekulare eingeben. Wenn der Organismus nicht wirtsassoziiert
Isolierung aus einer Massen-DNA-Umgebungsprobe (durch war und aus einer Umgebungsprobe gewonnen
PCR mit oder ohne anschließende Klonierung des Produkts, wurde, „Ja“ eingeben.
DGGE oder andere anonyme Verfahren) ohne zuverlässige
Identifizierung der Quelle des Organismus gewonnen wurden.
48
prEN ISO 23418:2020 (D)
EBI MDM-Felder und EBI-Definitionen Formatierungsanweisungen für ISO-Metadaten

specific_host* Diese Informationen können genau aus dem ISO-Feld
Wirt abgeleitet werden, wenn ein Wirt bekannt ist.
Natürlicher (im Gegensatz zum Labor) Wirt des Organismus, Wenn es sich bei dem Organismus um einen
von dem die Probe gewonnen wurde (oder „freilebend“, wenn Umgebungsorganismus handelt „freilebend“ eingeben.
nicht wirtsassoziiert). Wenn die Informationen unbekannt oder nicht
verfügbar sind, „nicht erfasst“ eingeben.
host_disease_status* Dieses Feld ist spezifisch bei EBI. Wenn der Wirt mit
einer Krankheit im ISO-Feld Wirtskrankheit assoziiert
Gesundheitszustand des Wirts zum Zeitpunkt der war, ist „krank“ zu wählen, wenn der Wirt keine
Probenahme. Krankheit aufwies, ist „gesund“ zu wählen. Wenn
beides nicht zutrifft, ist „nicht zutreffend“ einzusetzen.
* Wenn die interessierte Partei aufgrund von Einschränkungen bei der gemeinsamen Nutzung von Daten
eine gekürzte Version einfügen muss, sind nur Informationen entsprechend der zulässigen Granularität
einzufügen. „Not included“ (nicht enthalten), „Not provided“ (nicht bereitgestellt) oder „Restricted access“
(beschränkter Zugang) sind zulässige Nullwerte.
49
prEN ISO 23418:2020 (D)
Anhang I
(informativ)
Anweisungen für die Integration der Ontologie Slim durch

Softwareentwickler
I.1 Einleitung
Die Standardisierung digitaler Daten unter Verwendung kontrollierter Vokabulare und Ontologien gilt als
bewährtes Verfahren für die Datenverwaltung [11], [12]. Die ISO WGS-Slim wurde geschaffen, um relevante
Felder und Werte aus bestehenden, von der Gemeinschaft unterstützten Ontologien, z. B. GenEpiO und
FoodOn, zusammenzutragen, die für die WGS-basierte Mikrobiologie von Lebensmitteln relevant sind.
GenEpiO ist eine Anwendungsontologie, die Felder und Werte für Genomik-, Labor-, klinische, Umwelt- und
epidemiologische Daten und Prozesse enthält [4]. Die Lebensmittel-Ontologie (FoodOn) ist eine Domänen-
ontologie, die sowohl Lebensmittelprodukte als auch Verfahren zum Kochen, Konservieren,
Verpacken/Einpacken von Lebensmitteln, anatomische Quellen, kulturelle und geographische Herkunft,
Verbrauchergruppen und mehr beschreibt [5]. FoodOn enthält auch höherwertige Lebensmittelkategorien,
die aus vielen bestehenden Lebensmittelklassifizierungssystemen importiert wurden, z. B. FoodEx2, USDA
National Nutrient SR Legacy database, European Food Information Resource (Eurofir), FDA Code of Federal
Regulations (CFR) Produktliste usw. [5], [6], [7]. GenEpiO und FoodOn sind von einer Expertengemeinschaft
entwickelt worden. Weitere Angaben sind erhältlich bei http://foodon.org/.
Von der Ontologie abgeleitete Felder und Werte erleichtern die Integration, die Wiederverwendung und den
Austausch von Metadaten durch die Bereitstellung genormter Begriffe, Definitionen und universeller IDs
(URIs), die eine bessere Verarbeitung von Informationen sowohl durch Menschen als auch durch Computer
ermöglichen. Ontologien kodieren außerdem die Berechnungslogik, die von Softwaresystemen verwendet
werden kann, um die Automatisierung und komplexere Abfragen zu verbessern. Die hierarchische Struktur
der Ontologien ermöglicht auch eine bessere Aggregation von Daten und Vergleiche von Informationen auf
verschiedenen Granularitätsebenen. Als solche kann die ISO WGS Slim zur Bereitstellung von Metadaten-
Deskriptoren verwendet werden, wie in den Tabellen 1, 2 und 3 beschrieben.
In einigen Fällen enthält die ISO WGS Slim möglicherweise nicht das erforderliche Vokabular. In diesem Fall
werden andere Ontologien empfohlen. Insbesondere geographische, taxonomische, umweltbezogene
(erstellte und natürliche) und Arzneimittelnamensfelder in dieser Norm erfordern möglicherweise ein
umfangreicheres Vokabular, das direkt in den Ontologien Gazetteer (GAZ), NCBITaxon, Environment
Ontology (EnvO) und Chemical Entities of Biological Interest (CheBI) verfügbar ist. Das GenEpiO-Vokabular
wurde weitgehend aus diesen Ontologien bezogen, so dass die URIs kompatibel sein werden. Weitere
Angaben sind erhältlich bei www.obofoundry.org. Die Ontologien von GAZ, NCBITaxon, FoodOn, EnvO und
CheBI können von GitHub heruntergeladen werden:
https://github.com/EnvironmentOntology/gaz
https://github.com/obophenotype/ncbitaxon
https://github.com/FoodOntology/foodon
https://github.com/EnvironmentOntology/envo
https://github.com/ebi-chebi/ChEBI
50
prEN ISO 23418:2020 (D)
I.2 Ratschläge für die Implementierung der ISO WGS Slim

Die ISO WGS Slim kann von GitHub (https://github.com/GenEpiO/iso2017) im tabulatorgetrennten
JSON- und YAML-Format heruntergeladen werden. Die Formatoptionen plain-text.tsv (tabellarisch) dürften
für Softwareentwickler am zugänglichsten sein, da sie die einfachste Struktur aufweisen. Alle ISO WGS Slim-
Formate enthalten die Beschriftung und Definition jedes Begriffs, Synonyme, optionale Feldinformationen
oder Hilfetext und in einigen Fällen numerische und textuelle Feldvalidierungsbeschränkungen. Falls
Begriffe zusätzlich zu den im Slim enthaltenen benötigt werden, können die Ontologien GAZ, NCBITaxon,
FoodOn, EnvO und CheBI auch von GitHub heruntergeladen werden.
Es ist nicht praktikabel, Anweisungen für eine schlanke ISO WGS-Implementierung für alle Computer-
infrastruktur-Szenarien bereitzustellen. Da tabellarische Daten jedoch häufig in einer SQL-Datenbank oder in
einem Tabellenkalkulationsformat gemeinsam genutzt werden, bietet dieser Abschnitt einen Überblick
darüber, wie diesen Situationen begegnet werden kann.
I.2.1 Datentabellen für die Integration von Ontologien
Es gibt Tools, die die Erstellung von Datentabellen mit Dropdown-Menüs für Vokabular ermöglichen.
Beispiele für solche Tools, die Ontologiebegriffe und IDs integrieren können, sind: Webulous
(https://www.ebi.ac.uk/spot/webulous/), Populous (http://www.e-lico.org/?q=populous) und Kusp
(https://www.scibite.com/platform/scibite-apps/kusp/). Diese Tools bieten eine Schritt-für-Schritt-
Anleitung zur Erstellung tabellarischer Datenerfassungsinstrumente.
Obwohl es derzeit keine dominierenden Normen für die Ontologie-Annotation tabellarischer Daten gibt,
werden im Folgenden Ratschläge erteilt.
1) Jede Datenspalte sollte mit einer Ontologie-ID verknüpft sein, die die Art der Informationen in diesem
Feld angibt. Die Verwendung sowohl der Kennzeichnung als auch der Ontologie-ID ermöglicht die
automatische Zuordnung zu den Feldern anderer Datenbanken, die alternative Kennzeichnungen, aber
denselben Ontologie-Identifikator verwenden dürfen. Es ist zu beachten, dass Felder, die numerische
Werte mit zugehörigen Einheiten beschreiben, ebenfalls Ontologie-Identifikatoren für Einheiten
erfordern und möglicherweise eine zusätzliche Spalte zur Erfassung von Einheiten, wenn diese
zwischen den Werten in einer Spalte variieren (z. B. MHK-Einheiten wie ug/ML, mm usw.). Ein
funktionierendes Beispiel ist in Abschnitt I.1.3.1 unten aufgeführt.
2) Die Implementierung tabellarischer Daten hängt von der zuverlässigen Zuordnung von
Datenbankfeldern und/oder kategorialen Feldwerten zu Ontologie-Begriffsidentifikatoren ab, die online
als IRIs verfügbar sind, z. B. „http://purl.obolibrary.org/obo/HP_0012735“. Innerhalb einer bestimmten
Datenbank kann eine Verweisung auf einen Begriffsidentifikator üblicherweise auf ein Präfix:Suffix-
Format abgekürzt werden, z. B. „HP:0012735“, wobei das Präfix die führende oder „Namensbereich“-
Komponente der Begriffs-URL abkürzt, wenn „HP:“ z. B. den Ontologiebereich für den menschlichen
Phänotyp abkürzt, „http://purl.obolibrary.org/obo/HP“. Dabei werden die tabellarischen Daten mit
einer Liste von (zulässigen) Ontologie-Präfixen und den zugehörigen Namensbereich-IRI-Komponenten
verknüpft. Es ist zu beachten, dass das JSON-LD-Format (JSON Linked Data) diese „kompakte IRI“-
Funktionalität enthält.
3) Bei der Erstellung von Auswahllisten aus Ontologiebegriffen müssen vom Softwareentwickler eventuell
negative Werte hinzugefügt werden, da Slim Begriffe wie „fehlt“, „nicht erfasst“, „nicht anwendbar“ usw.
nicht als Optionen enthält. Bei Anwendungen, die die Transformation von Metadaten für die
gemeinsame Nutzung (mit anderen öffentlichen oder privaten Repositorien) automatisieren, sollte
jedoch die Verkettung mehrerer „fehlender“ Begriffe in einem einzigen Feld vermieden werden. Wenn
beispielsweise im Fall der NCBI-Einreichung die Metadaten Informationen zum Probentyp wie den
Begriff „Lebensmittel“ enthalten, aber Informationen zu Lebensmitteln und zur
Lebensmittelverarbeitung fehlen, sollten die Datenübermittler einfach „Lebensmittel“ im Feld
„isolation_source“ anstelle von „Lebensmittel: fehlt: fehlt“ angeben. In ähnlicher Weise sollte
51
prEN ISO 23418:2020 (D)
„Lebensmittel: frittierte Hähnchenstücken: fehlt“ einfach als „Lebensmittel: frittierte Hähnchenstücken“

eingereicht werden. Wenn jedoch keine Informationen über die Quelle der Probe verfügbar sind, sollten
die Einreicher einen einzigen „fehlenden“ Begriff für „isolation_source“ angeben. Diese Leitlinien gelten
auch für die Verkettung anderer Metadatenfelder.
Ein Beispiel für die Darstellung der ISO WGS-Spezifikation ist zu finden unter
https://watson.bccdc.med.ubc.ca/geem/form.html#GENEPIO:0002083. Der Ontologie-Identifikator
GENEPIO:0002083 verweist auf den GenEpiO-Begriff „draft sequence repository contextual data standard“
(kontextbezogener Datenstandard für ein Draft-Sequenz-Repository), ein Begriff, unter dem die folgenden
Komponenten organisiert sind: Kontaktinformationen des Labors, Probenahme, Isolierung und Verlauf der
Isolatpassage, Lebensmittelprobe, Antibiogramm, Sequenzierung und Qualitätsmetriken der
Sequenzassemblierung. Weitere Beispiele für die Integration einer Ontologie in die IT-Infrastruktur oder für
die Speicherung ontologiefähiger Daten sind verfügbar auf der Website des Projekts High-Throughput
Sequencing Computational Standards for Regulatory Sciences (HTS-CSRS)
(https://hive.biochemistry.gwu.edu/htscsrs/biocompute), Datenmanagementsystem REDCap der
Vanderbilt University (https://www.project-redcap.org/), Stanford-Projekt CEDAR
(https://metadatacenter.org), Stiftung Allotrope Foundation (https://www.allotrope.org/) Datenmodelle
und in anderen tabellarischen Datenverwaltungstools wie Karma (https://usc-isi-i2.github.io/karma/).
Es ist zu beachten, dass die Ontologieressourcen mit der Zeit wachsen und verfeinert werden. Bei der
Implementierung der ISO Ontology Slim in verschiedenen Systemen innerhalb einer Organisation kann unter
Umständen eine zusätzliche Schulung durch IT-Supportmitarbeiter erforderlich sein, um zu verstehen, wie
auf Ontologiebegriffe zugegriffen werden kann und wie Begriffe aus Ontologie-Quelldateien verwaltet oder
aktualisiert werden können.
I.2.2 Integration von Ontologien in einer SQL-Datenbank
SQL ist eine domänenspezifische Sprache, die in der Programmierung verwendet wird und für die
Verwaltung von Daten in einem relationalen Datenbankmanagementsystem (Daten, die in Tabellen
organisiert und durch definierte Beziehungen verknüpft sind) entwickelt wurde. Es gibt zwei grundlegende
Strategien zum Annotieren und Harmonisieren von Informationen, die in SQL-Datenbanken unter
Verwendung der ISO WGS Slim gespeichert sind. Die erste Strategie besteht darin, Informationen zur
gemeinsamen Nutzung als Datentabelle(oder csv-Datei) zu exportieren und entsprechend den oben
diskutierten Vorschlägen zu kommentieren.
Die zweite Strategie beinhaltet die Zuordnung von Informationen zu Ontologien direkt in der Datenbank.
Feldnamen (Kennzeichnungen) können durch Ontologie-IDs ersetzt werden, und Ontologie-IDs können in
einer Nachschlagetabelle gespeichert werden. Möglicherweise existiert bereits eine SQL-Datenbank-
Nachschlagetabelle mit numerischen Schlüsseln, die in Ontologie-URIs konvertiert werden können. Daher
kann die Nachschlagetabelle mit ISO WGS Slim-Inhalt gefüllt werden. Alternativ kann der ISO WGS Slim-
Inhalt über ein Skript implementiert werden, das auf eine API des Ontologie-Nachschlagedienstes zugreift.
Ein funktionierendes Beispiel ist in Abschnitt I.1.3.2 unten aufgeführt.
I.3 Ansätze zur Integration von Ontologien in Systeme zur Erfassung und
Verwaltung von Metadaten
I.3.1 Datentabellen
Das Annotieren von Tabellendaten mit genormten Ontologiebegriffen kann durch ein separates Blatt
„Ontologieansicht“ erreicht werden, das eine 1-1-Zellen-Entsprechung zum Originalblatt aufweist. Ein
Beispiel zur Veranschaulichung von Originalwerten, die Ontologie-IDs zugeordnet sind, ist in Bild I.1
dargestellt. Es ist zu beachten, dass die Spaltenüberschriften ebenfalls durch Ontologie-Identifikatoren
ersetzt werden (numerische und Freitextwerte bleiben unverändert). Im Beispiel im nachfolgenden
Diagramm sollte das Feld „First name" (Vorname) mit dem ontologischen Begriff der ISO WGS-Begriff
assoziiert werden http://purl.obolibrary.org/obo/NCIT_C40974. In ähnlicher Weise ist das
52
prEN ISO 23418:2020 (D)
Vergleichsnormal für antimikrobielle Resistenz „CLSI“ in den Originaldaten dem ontologischen Begriff der
ISO WGS Slim ID ARO:3004366 zugeordnet, während der Arzneimittelname „Penicillin“ in der Tabelle der
Ontologie ID CHEHI:17334 zugeordnet ist.
Bild I.1 — Beispiel für Originalwerte, die Ontologie-IDs zugeordnet sind
I.3.2 Integration von Ontologien in einer SQL-Datenbank
Tabelle I.1 zeigt ein Beispiel für eine Tabelle aus der relationalen Datenbank einer Organisation, die Labor-
dienste mit der Datenbank-ID und der Ontologie-ID verknüpft. Die Art der von
„ACME Labordienstleistungen“ angebotenen Dienstleistungen wird durch den Ontologie-Begriff
„bioinformatischer Analysedienst“ definiert, der durch die Ontologie-ID GENEPIO:0002223 ersetzt wird, ein
Begriff aus der ISO WGS Slim. Es ist zu beachten, dass die Kennzeichnung in dieser Tabelle durch die
Ontologie-ID ersetzt wurde.
Tabelle I.1 — Beispiel für eine Organisationstabelle
ID der Organisation Name Labordienstleistung

123 ACME-Labordienstleistungen GENEPIO:0002223
usw.
Die Ontologie-ID GENEPIO:0002223 kann über eine Begriffsnachschlagetabelle, wie in Tabelle I.2 dargestellt,
mit ihrer Kennzeichnung verknüpft werden. Der Begriff „übergeordnete ID“ bezieht sich auf den
allgemeineren Begriff „Labordienst“, der die Ontologie-ID GENEPIO:0002225 hat, wobei „bioinformatischer
Analysedienst“ ein bestimmter Typ/Wert für das Feld „Labordienst“ ist. Es werden auch andere Arten von
Labordienstleistungen aufgeführt - alle mit derselben übergeordneten Ontologie-ID, aber mit
unterschiedlichen Ontologie-Begriffs-IDs.
Tabelle I.2 — Beispiel für eine „term_lookup table“ (Begriffsnachschlagetabelle)
Ontologie-ID ID der übergeordneten Ontologie Kennzeichnung

GENEPIO:0002225 probenbezogene Dienstleistung
GENEPIO:0002223 GENEPIO:0002225 bioinformatische Analysedienstleistung
GENEPIO:0002224 GENEPIO:0002225 Dienstleistung zur Vorbereitung von Isolaten
OBI:0001904 GENEPIO:0002225 Sequenzierungsdienstleistung
usw.
53
prEN ISO 23418:2020 (D)
Andere Assoziationen zwischen Ontologiebegriffen (anstelle von Feldwerten/Inhalten) können in einer

separaten Ontologiebegriffstabelle erfasst werden, wie z. B. in Tabelle I.3, die Verbindungen zwischen
„ontologisierten“ Organisationsnamen und zugehörigen Diensten, IDs usw. veranschaulicht.
Tabelle I.3 — Beispiel für eine Tabelle „ontology_metadata“ (Metadaten der Ontologie)
table_name field_name ontology_id ontology_label

Organisation ID NCIT:C93401 Kennung der Organisation
Organisation Dienstleistung GENEPIO:0002225 probenbezogene Dienstleistung
Organisation Name NCIT:C93874 Organisationsname
Organisation usw. usw.
usw.
54
prEN ISO 23418:2020 (D)
Literaturhinweise
[1] VAN BELKUM A., Associates. Guidelines for the validation and application of typing methods for use
in bacterial epidemiology [online]. Clin Microbiol Infect 13(Suppl 3). 1-46. [viewed 30 July 2018].
Available from https://doi.org/10.1111/j.1469-0691.2007.01786.x
[2] DALEY T. and AD SMITH. Predicting the molecular complexity of sequencing libraries [online]. Nat
Methods 10(4):325-7. [viewed 30 July 2018]. ISSN 1548-7091. Available at doi: 10.1038/nmeth.2375
[3] CHAIN PSG. and others. Genome Project Standards in a New Era of Sequencing. Science. 2009,
326(5950). [viewed 30 July 2018]. ISSN 0036-8075. Available from doi: 10.1126/science.1180614
[4] GRIFFITHS E, and others. Context Is Everything: Harmonization of Critical Food Microbiology
Descriptors and Metadata for Improved Food Safety and Surveillance [online]. Front Microbiol. 8:
1068. [viewed 30 July 2018]. Available at doi: 10.3389/fmicb.2017.01068
[5] DOOLEY DM and others. FoodOn: a harmonized food ontology to increase global food traceability,
quality control and data integration. npj Science of Food. 2018, 2 (article 23). Available at
doi.org/10.1038/s41538-018-0032-6
[6] ISO WGS SLIM. https://github.com/GenEpiO/iso2017
[7] FoodEx2: https://www.efsa.europa.eu/en/data/data-standardisation
[8] PORTMANN A-C, and others. A Validation of an End-to-End Whole Genome Sequencing Workflow for
Source Tracking of Listeria monocytogenes and Salmonella enterica. Frontiers in Microbiology 9
(article 446). Available at doi 10.3389/fmicb.2018.00446
[9] BOGAERTS B, and others. Validation of a Bioinformatics Workflow for Routine Analysis of Whole-
Genome Sequencing Data and Related Challenges for Pathogen Typing in a European National
Reference Center: Neisseria meningitidis as a Proof-of-Concept. Frontiers in Microbiology 10 (article
362). Available at doi: 10.3389/fmicb.2019.00362
[10] WIELINGA P.R., Associates. Global Microbial Identifier. In: Applied Genomics of Foodborne
Pathogens. Food Microbiology and Food Safety, (DENG X., DEN BAKKER H., HENDRIKSEN R., eds.).
Springer, Cham. [viewed 30 July 2018]
[11] LAMBERT D. Associates. Baseline Practices for the Application of Genomic Data Supporting
Regulatory Food Safety [online]. J AOAC. 2017, 100(3), 1-11. [viewed 30 July 2018] ISSN 1060-3271.
Available from doi: 10.5740/jaoacint.16-0269
[12] WILKINSON MD. and others. The FAIR Guiding Principles for scientific data management and
stewardship [online]. Scientific Data. 2016, 3:160018. ISSN 2052-4463. [viewed 30 July 2018].
Available at doi: 10.1038/sdata.2016.18
[13] PIGHTLING AW, PETRONELLA N, and PAGOTTO F. Choice of Reference Sequence and Assembler for
Alignment of Listeria monocytogenes Short-Read Sequence Data Greatly Influences Rates of Error in
SNP Analyses PLoS One. 2014 Aug 21; 9(8):e104579. [viewed 08 January 2020]. Available at doi:
10.1371/journal.pone.0104579
[14] PIGHTLING AW, and others. Interpreting Whole-Genome Sequence Analyses of Foodborne Bacteria
for Regulatory Applications and Outbreak Investigations. Frontiers In Microbiology 2018 Vol 9
pg. 1482. [viewed 03 March 2020] Available at doi: 10.3389/fmicb.2018.01482
55
– Entwurf –
ISO/DIS 23418:2020(E)
Contents Page
Foreword ..........................................................................................................................................................................................................................................v
Introduction................................................................................................................................................................................................................................ vi
1 Scope ................................................................................................................................................................................................................................. 1
2 Normative references ...................................................................................................................................................................................... 1
3 Terms and definitions ..................................................................................................................................................................................... 1
4 Principle ........................................................................................................................................................................................................................ 6
4.1 General ........................................................................................................................................................................................................... 6
4.2 Laboratory operation: sample preparation and sequencing .......................................................................... 6
4.3 Bioinformatics analysis ................................................................................................................................................................... 6
4.4 Metadata formats and sequence repository deposition...................................................................................... 7
4.5 Validation and veri ication of WGS Work low .............................................................................................................. 7
5 General laboratory guidance ................................................................................................................................................................... 7
5.1 Bacterial isolation and DNA extraction .............................................................................................................................. 7
5.2 Laboratory environment ................................................................................................................................................................ 7
5.3 Standard Operating Procedures (SOPs) and non-conforming work ........................................................ 7
5.4 Laboratory information management system (LIMS) .......................................................................................... 8
5.5 Laboratory competence .................................................................................................................................................................. 8
6 Laboratory operations ................................................................................................................................................................................... 8
6.1 Sample preparation and storage ............................................................................................................................................. 8
6.2 Bacterial isolates ................................................................................................................................................................................... 8
6.3 DNA Isolation ........................................................................................................................................................................................... 8
6.4 Library preparation ............................................................................................................................................................................ 9
6.4.1 DNA sequencing ............................................................................................................................................................... 9
6.4.2 Use of controls ................................................................................................................................................................... 9
6.4.3 Assessing raw read data quality ......................................................................................................................... 9
6.4.4 Sample and data storage and retention .................................................................................................... 10
7 Bioinformatic data analysis ................................................................................................................................................................... 10
7.1 Requirements for software and/or bioinformatic pipelines used for data analysis................ 10
7.2 Logging and documentation..................................................................................................................................................... 10
7.3 Quality assessments ........................................................................................................................................................................ 10
7.4 SNP analyses .......................................................................................................................................................................................... 11
7.5 MLST analyses (cgMLST and wgMLST) .......................................................................................................................... 12
7.6 Target gene detection ..................................................................................................................................................................... 12
7.7 Phylogenetic tree or dendrogram generation ........................................................................................................... 12
7.8 Metrics and log iles ......................................................................................................................................................................... 12
7.9 Interpreting and reporting the results of bioinformatics analyses ........................................................ 13
7.9.1 Interpreting results from bioinformatics pipelines ........................................................................ 13
7.9.2 Reporting genomic analysis results.............................................................................................................. 13
8 Metadata .................................................................................................................................................................................................................... 13
8.1 General ........................................................................................................................................................................................................ 13
8.2 Metadata Interoperability and Future-Proo ing ..................................................................................................... 13
8.2.1 Ontologies ........................................................................................................................................................................... 14
8.2.2 ISO WGS Slim.................................................................................................................................................................... 14
8.3 Formatting Metadata Using the Standard..................................................................................................................... 14
8.4 Metadata associated with sample collection ............................................................................................................. 14
8.5 Metadata associated with the isolate ............................................................................................................................... 14
8.6 Metadata associated with the sequence ........................................................................................................................ 14
9 Sequence repositories ................................................................................................................................................................................. 14
10 Validation and verification ..................................................................................................................................................................... 15
10.1 Validation .................................................................................................................................................................................................. 15
iii
ISO/DIS 23418:2020(E)
10.1.1 Validation of laboratory operations ............................................................................................................. 15

10.1.2 Validation of the bioinformatics pipeline ................................................................................................ 15
10.1.3 Validation of the end-to-end work low ..................................................................................................... 16
10.2 Veri ication .............................................................................................................................................................................................. 16
10.2.1 Veri ication of laboratory operations.......................................................................................................... 16
10.2.2 Veri ication of the bioinformatics pipeline............................................................................................. 17
Annex A (informative) ..................................................................................................................................................................................................... 23
Annex B (informative) Laboratory Contact Information Fields ............................................................................................27
Annex C (informative) Geographic Location of Sample Collection Fields ...................................................................29
Annex D (informative) Isolate passage history fields ...................................................................................................................... 30
Annex E (informative) Antibiogram Results and Methods Fields........................................................................................31
Annex F (informative) Virulence Factor Detection and Methods Fields .......................................................................33
Annex G (informative) Sequence Quality Control Metrics...........................................................................................................34
Annex H (informative) Metadata specification ....................................................................................................................................... 35
Annex I (informative) Instructions for Ontology Slim Integration by Software Developers ...................38
Bibliography ............................................................................................................................................................................................................................. 42
iv
ISO/DIS 23418:2020(E)
Foreword
ISO (the International Organizations for Standardization) is a worldwide federation of national
standards bodies (ISO member bodies). The work of preparing International Standards is normally
carried out through ISO technical committees. Each member body interested in a subject for which
a technical committee has been established has the right to be represented on that committee.
International organizations, governmental and non-governmental, in liaison with ISO, also take part
in the work. ISO collaborates closely with the International Electrotechnical Commission (IEC) on all
matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identi ied during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO speci ic terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/
iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 34, Food Products, Subcommittee SC 9,
Microbiology.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.
v
ISO/DIS 23418:2020(E)
Introduction
Next generation sequencing (NGS) provides rapid, economical and high-throughput access to microbial
whole genome sequences (WGS) and is being applied to an expanding number of problems in food
microbiology. WGS are digital representations of the biological potential of the sequenced organism
at single base resolution. The digital nature of WGS data is a departure from the continuous nature of
phenotypes routinely analyzed in food microbiology. Therefore, WGS offers signi icant advantages over
existing technologies (e.g., serology, pulsed ield gel electrophoresis, antibiotic resistance phenotype).
WGS-based analyses are used by public health laboratories to detect outbreaks, and to detect mutations,
genes and other genetic features to characterize virulence and survival potential. Within the food
industry, there is interest in WGS to characterize bacterial isolates from outsourced ingredients and
environmental surfaces, to better understand their origin and ecology, and to update procedures to
reduce risk. Some companies have developed, or are developing, the capacity to collect and analyze
WGS data. Others will turn to third party laboratories to perform these services, as they currently do
for other microbiological analyses.
Removed text
This standard is intended to provide guidance for both the laboratory and bioinformatic components
of WGS and associated metadata for foodborne microorganisms. This standard is intended to be
applicable to all currently available short- and long-read DNA sequencing technologies. It may be
applied to analysis of WGS data with proprietary, open-source, and custom software. It is not intended
to specify sequencing chemistries, analytical methods, or software. The standard de ines laboratory,
data, and metadata stewardship practices to ensure that analyses are clearly reported, transparent,
open to inquiry, and available for unanticipated uses. This standard is for use by laboratories to develop
their management systems for quality and technical operations. Laboratory customers and regulatory
authorities may also use it in con irmation or recognizing the competence of laboratories.
vi
DRAFT INTERNATIONAL STANDARD ISO/DIS 23418:2020(E)
Microbiology of the food chain — Whole genome

sequencing for typing and genomic characterization of
foodborne bacteria — General requirements and guidance
1 Scope
This international standard speci ies minimum requirements for generating and analyzing whole-
genome sequencing (WGS) data obtained from foodborne bacteria. These requirements are applicable
to any sequencing platform or chemistry. This process may include the following stages:
a) Handling of bacterial cultures;
b) Genomic DNA isolation;
c) Library preparation, sequencing, and assessment of raw DNA sequence read quality and storage;
d) Bioinformatics analysis for determining genetic relatedness, genetic content and predicting
phenotype, and bioinformatics pipeline validation;
e) Metadata capture and sequence repository deposition; and
f) Validation of the end-to-end WGS work low ( it for purpose for intended application).
2 Normative references
There are no normative references in this document.
3 Terms and definitions

For the purposes of this document, the following terms and de initions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https://www.iso.org/obp
— IEC Electropedia: available at http://www.electropedia.org/
3.1
adapter sequence
DNA with a known sequence, which is added to the end of a DNA library fragment, to facilitate the
sequencing process (e.g., annealing to a low cell)
3.2
annotation
process of identifying genes and other features on genome assemblies
3.3
antibiogram
summary of antimicrobial susceptibility testing results performed for a speci ic microorganism,
usually represented in tabular form
3.4
assembly
output from process of aligning and merging sequencing reads into larger contiguous sequences
(contigs)
1
ISO/DIS 23418:2020(E)
3.5
base calling
process of assigning nucleotides and quality scores to positions in sequencing reads
3.6
bioinformatics
collection, storage, and analysis of biological sequence data
3.7
bioinformatics pipeline
individual programs, scripts, or pieces of software linked together, where output from one program is
used as input for the next step in data processing
3.8
carryover-contamination
samples contaminated with DNA from previously sequenced samples, or substances, including EDTA,
phenol-chloroform, protein, excess salts
3.9
Chemical Entities of Biological Interest Ontology
ChEBI
ontology for describing small chemical compounds
3.10
contig
contiguous stretch of DNA sequence that results from the assembly of smaller, overlapping DNA
sequence reads
3.11
controlled vocabulary
inite set of values that represent the only allowed values for a data item
[SOURCE: ISO 11238:2018(en)]
3.12
coverage
average number of times each base in a genome is sequenced
3.13
cross-contamination
contamination of a sample (bacterial isolate or DNA) with other samples
3.14
DNA quality
indication of DNA purity (free of polysaccharides, contaminants and enzyme inhibitors) and integrity
(high molecular weight with little to no evidence of degradation)
3.15
DNA Sample
portion of DNA extracted from some material
3.16
draft assembly
de novo genome assembly consisting of contigs with no implied order, typically generated using whole-
genome shotgun sequencing with a short-read technology
3.17
Environment Ontology
EnvO
ontology for describing environmental features and habitats
2
ISO/DIS 23418:2020(E)
3.18
FoodEx2 Ontology
FoodEx2
standardised food classi ication and description system developed by the European Food Safety
Authority (EFSA)
3.19
Food Ontology
FoodOn
ontology for describing food products, animal feed and food processing
3.20
Gazetteer Ontology
GAZ
ontology for describing geographical locations
3.21
index
oligonucleotide sequences used in the process of library preparation to tag or barcode DNA from
speci ic samples, so that multiple samples may be combined (multiplexed) in a sequencing reaction
3.22
International Nucleotide Sequence Database Collaboration
INSDC
initiative operated by the DNA Database of Japan (DDBJ), the European Molecular Biology Laboratory,
European Bioinformatics Institute (EMBL-EBI) and the National Center for Biotechnology
Information (NCBI)
3.23
ISO WGS Slim
ontology Slim containing interoperable ields and terms pertaining to the use of WGS for food
microbiology
3.24
isolate
population of bacterial cells in pure culture derived from a single colony
3.25
kmers
all possible sequences of length k that are contained in a whole genome sequence
3.26
library
collection of genomic DNA fragments from a single isolate intended for determining genome sequence
3.27
management system
quality, administrative and technical systems that govern the operations of an organization
Note 1 to entry: For the purposes of this document organization refers to the laboratory
3.28
mapping
use of software to align sequencing reads to reference sequences
3.29
metadata
data that describes and de ines other data
[SOURCE: ISO/IEC 11179-1:2015, 3.2.16]
3
ISO/DIS 23418:2020(E)
3.30
minimal data for matching
MDM
information required to describe the sample source and provenance of a genomic sequence, as de ined
by the Global Microbial Identi ier[10], and implemented by the International Nucleotide Sequence
Database Collaboration
3.31
minimum inhibitory concentration
MIC
lowest concentration that, under de ined in vitro test conditions, reduces growth by an agreed amount
within a de ined period of time.
Note 1 to entry: to entry The MIC is expressed in mg/l.
[SOURCE: ISO 16256:2012(en)]

3.32
multi-locus sequence typing
MLST
method of genomic analysis in which nucleotide variants within prede ined sets of loci, either core
genome loci for cgMLST or whole genome loci for wgMLST, are identi ied
3.33
N50
length (N) such that sequence contigs of N or longer include half the bases in the assembly
3.34
NCBITaxon Ontology
NCBITaxon
automatic translation of the NCBI taxonomy database
3.35
NG50
length (N) of DNA such that sequence contigs of N or longer include half the bases in the genome
3.36
Open Biological and Biomedical Ontology Foundry
OBO Foundry
collection of ontologies created by a collective of ontology developers that are committed to
collaboration and adherence to shared principles
3.37
ontology
controlled vocabulary arranged in a hierarchy, where the terms are connected by logical relationships
3.38
ontology Slim
set of ontology ields and terms annotated as part of a particular collection, often for a speci ic purpose,
which can be extracted to create a ile distinct from the original ontology
3.39
Phred (Q) sequence quality score
measure of the probability that a base is incorrectly assigned at a given position in the sequence
expressed as:
Q = −10 log10 P
Note 1 to entry: to entry A score of Q30 indicates that there is a 1 in 1000 chance that a base is incorrectly
assigned (i.e. the base call is 99.9 % accurate)
4
ISO/DIS 23418:2020(E)
3.40
read
Nucleotide sequence inferred from a fragment of DNA or RNA
3.41
sequence repository
database in which WGS datasets are stored and managed
Note 1 to entry: to entry A public repository allows unrestricted access to the data, while a private or federated
repository restricts access to the data
3.42
sequencing replicate, biological
sequencing a different colony from the same isolate obtained from the same sample material, to assess
biological variation
3.43
sequencing replicate, technical
resequencing of the same biological sample or library to assess sequence variation due to
instrumentation and protocol
3.44
serotype
classi ication scheme based on the antigenic detection or sequence-based detection of genes encoding
bacteria surface molecules
3.45
Single Nucleotide Polymorphism
SNP
a SNV that passes a particular quality and/or frequency threshold
3.46
Single Nucleotide Variant
SNV
differences between the nucleotide states at the same genomic position of two or more isolates
3.47
strain
the descendants of a single isolation in pure culture, usually derived from a single initial colony on a
solid growth medium[1]
Note 1 to entry: to entry A strain may be considered an isolate or group of isolates that can be distinguished
from other isolates of the same genus and species by phenotypic and genotypic characteristics
3.48
validation
establishment of the performance characteristics of a method and provision of objective evidence that
the performance requirements for a speci ied intended use are ful illed
[SOURCE: ISO 16140-1:2016(en)]
3.49
validated data entry
automated process ensuring that data entered into a repository is correct
3.50
verification
demonstration that a validated method functions in the user's hands according to the method's
speci ications determined in the validation (3.48) study and is it for its purpose
[SOURCE: ISO 16140-1:2016(en)]
5
ISO/DIS 23418:2020(E)
3.51
whole genome sequencing
WGS
process of determining the DNA sequence of an organism’s genome using total genomic DNA as input
4 Principle
4.1 General
Any organization that handles samples, performs sequencing, or performs bioinformatics analyses for
WGS analysis shall demonstrate, through provision of evidence, that proper documentation of sample
provenance, methods and quality control is collected and maintained for follow-up.
WGS analysis of foodborne bacteria consist of bacterial culture, DNA isolation performed in a
microbiological laboratory, sequencing steps conducted at a sequencing facility, and bioinformatics
analysis performed in a distinct computational environment.
4.2 Laboratory operation: sample preparation and sequencing

Sample preparation and sequencing should include the following steps:
a) Information about the isolates being sequenced, including barcodes for multiplexed samples, is
entered into the appropriate record systems, such as a laboratory information management system
(LIMS) and/or sample description worksheets.
b) Genomic DNA is extracted from pure cultures and ideally the species identity is con irmed.
c) DNA libraries are prepared from the genomic DNA extraction. This process should include:
i. DNA fragmentation;
ii. ligation of indices and adapters;
iii. quanti ication, normalization, and quality control of the resulting library and
iv. pooling of libraries for multiplexed sequencing runs.
d) The libraries are sequenced
e) Quality metrics produced by the sequencing instrument are recorded for each run.
4.3 Bioinformatics analysis

Pipelines for bioinformatics analysis may focus on in silico predictions of phenotype (e.g. virulence) or
detecting clusters of genetically similar isolates (i.e. same strain, sequence type, or serotype). Pipelines
based on comparative approaches can be used to detect the presence and states of markers in raw and
assembled sequencing data to make in silico strain (e.g., sequence type) and phenotype predictions.
Sequence data for multiple isolates can be analyzed using SNP, MLST or kmer distance analysis
methods to identify clusters of closely related bacteria. Results from these analyses can be used to infer
relationships between isolates which may be illustrated with phylogenetic trees and dendrograms.
a) SNP Analyses
For SNP analyses, reads are mapped to a reference sequence or reads are assembled into contigs that
are compared. To determine SNPs, SNVs are quality- iltered to identify SNP positions.
b) MLST Analyses
6
ISO/DIS 23418:2020(E)
For MLST analyses, reads are assembled or mapped. Target loci are identi ied, quality- iltered, and
compared to a curated cgMLST or wgMLST database.
c) Kmer distance analysis
Sequence data for multiple isolates can be analyzed using kmer distance methods to identify clusters
of related bacteria. Kmer analyses have the advantage of being very fast but have some limitations
notably in terms of precision. (i.e., they are applicable in species determination, but not recommended
for detailed source tracking analysis of closely related strains).
4.4 Metadata formats and sequence repository deposition

Metadata records shall be created and safely stored for all sequences. Sequence data and corresponding
metadata should be consistently formatted and documented. These metadata can be shared solely at
the discretion of the metadata owner. Data and its corresponding metadata shall be subject to security
considerations, cost and bene its, legal liability, intellectual property rights, con idential business
information, contract restriction or other binding written agreements.
To promote data stewardship best practices[3], this standard provides optional metadata reporting
formats which are harmonized to a community data standard (e.g., MDM or OBO Foundry ontologies).
These formats and standards facilitate reproducibility and common understanding of terminology. An
ISO WGS Slim was created to format and provide values for the recommended metadata ields. WGS and
selected metadata can be transferred (uploaded) to a publicly accessible database.
4.5 Validation and verification o WGS Workflow

The entire WGS work low shall be validated to provide assurance that the methods are it for
intended use.
5 General laboratory guidance
5.1 Bacterial isolation and DNA extraction

Bacterial isolation and DNA extraction should be performed in a general microbiological laboratory
adapted to work with the speci ic bacteria, including pathogens. For sequencing library preparation
that involves DNA ampli ication using polymerase chain reaction (PCR), pre- and post-PCR steps should
be carried out in different or segregated areas of the laboratory to avoid carryover-contamination.
5.2 Laboratory environment

Air movements, vibration, temperature and humidity can interfere with the performance of many
sequencers and should be considered in the placement of the equipment in the laboratory. Laboratories
should consult the sequencer manufacturer’s site preparation guide for speci ic guidance.
5.3 Standard Operating Procedures (SOPs) and non-conforming work

Laboratories should maintain and adhere to standardized operating procedures (SOPs), work low
documents, reagent inventory controls, and equipment maintenance logs. SOPs should include
procedures for using positive and negative controls for the DNA extraction, sequence library
preparation and sequencing steps. SOPs should include procedures for monitoring operations for run
quality and errors (sample misidenti ication or cross-contamination).
In the case of sample misidenti ication or contamination the root cause of errors in sequencing shall be
investigated;
i. ensuring that runs containing misidenti ied samples, or samples contaminated with multiple
strains, are not used for bioinformatics analysis or uploaded to databases; and
7
ISO/DIS 23418:2020(E)
ii. implementing measures to maintain quality and prevent recurrence of errors.

NOTE Sample misidenti ication and/or contamination above thresholds determined to affect results of
bioinformatic analyses are critical errors that should prohibit further use of the affected data.
5.4 Laboratory information management system (LIMS)

Sample information shall be captured using a LIMS or similar system of documenting and tracking
information.
5.5 Laboratory competence

Laboratories should maintain records documenting training, education, and pro iciency for individuals
performing sequencing and bioinformatics analysis, and sample retention policy.
The laboratory should monitor its performance by comparison with results of other laboratories, where
available and appropriate. This monitoring should be planned and reviewed and include, but not be
limited to, one of the following:
i. annual participation in a pro iciency testing program
ii. annual participation in interlaboratory comparisons other than pro iciency testing
iii. annual veri ication of the analysis process by introducing "blind" samples or samples whose
characteristics are not known by the operator
Data from these monitoring activities should be analysed, used to control, and if applicable, improve the
laboratory’s activities. If the results of the analysis of data from these monitoring activities are found
to be outside prede ined criteria, appropriate actions should be taken to prevent incorrect results from
being used.
6 Laboratory operations
6.1 Sample preparation and storage

Any material to be sequenced (bacterial isolate or extracted genomic DNA) should be handled and stored
in a way that minimizes the risk of sample degradation, misidenti ication, and cross-contamination.
6.2 Bacterial isolates

Bacterial isolates should be stored and cultured by processes that minimize the potential for introducing
genetic changes (e.g. loss of plasmids or polymorphisms introduced through culture and passaging).
Bacterial isolates should not be stored on agar plates or in stab format (at 4°C to 25°C) for longer than
two weeks due to the possibility of introducing genetic changes. If samples are stored in this form
for longer than two weeks, this should be noted in the sample metadata. If the laboratory receives a
bacterial isolate the laboratory shall ensure the purity of the isolate and ideally con irm species before
subsequent steps are performed. Each sample should not be subject to more than ive single colony
passages to avoid introduction of genetic changes and bottlenecks. If there is concern that potentially
unstable elements (e.g. plasmids) might be lost from a sample during passage, then sequences should be
collected from two or three biological replicates. The number of single colony passages should be noted
if greater than ive in the sample metadata. Bacterial isolates should be archived using methods such as
freezing as a glycerol stock at -80°C.
6.3 DNA Isolation

If bacterial DNA isolation is required, the extraction procedure should be appropriate for production
of DNA suitable for the organisms and the sequencing platform being used. Bacterial DNA isolation is
in luenced by a number of factors including cell type (Gram positive or negative), growth phase (early,
8
ISO/DIS 23418:2020(E)
mid, late log, or stationary) and culture medium. The quantity and quality of DNA should be assessed
and documented.
NOTE Storage conditions will in luence DNA integrity and library preparation for certain sequencing
technologies. Different sequencing platforms have different requirements for DNA quantity, quality and integrity.
If an isolation kit is used DNA can be stored until analysis is complete in accordance with the manufacturer’s
instructions. Preparation of single-use DNA aliquots can aid in preventing cross-contamination and repeated
freeze-thaw of the sample.
6.4 Library preparation

The laboratory should follow the manufacturer’s recommended protocol. Procedures may be adapted
for speci ic needs, but all modi ications shall be fully documented and validated.
NOTE 1 Size-selection procedures used in some library preparation methods (for example in construction of
large insert size (> 2 kb) single molecule real time libraries) can result in the loss of small plasmids.
NOTE 2 Caution should be taken with PCR enrichment of libraries, as this may result in reduced library
complexity and a reduction in the number of distinct DNA molecules in the preparation. Library complexity can
also be affected by the amount of DNA starting material or the amount of DNA lost during library preparation
clean-up steps. Library complexity can be estimated using the method of Daley & Smith[2].
If there is a possibility that libraries will be used again, libraries shall be stored according to the
manufacturer’s recommendations. The laboratory shall document the sample tracking method used
(i.e. barcode or equivalent); the sequencing platform used; the operator who made the library; the date
the library was made; the lot information for the kit(s) used. Multiplexing samples requires selection
and assignment of barcodes to identify individual samples and is typically documented in a worksheet
to allow association of sequence data with the correct metadata. If all multiplexed samples are of the
same bacterial genus (e.g., all Salmonella), steps should be taken to ensure that equimolar DNA inputs
are used (i.e. library normalization) and that the correct sequence is associated with its corresponding
metadata. If the multiplexed samples represent multiple genera then estimated coverage, genome size
and library fragment size need to be considered when estimating the amount of DNA to be included for
each sample.
6.4.1 DNA sequencing
Sequencing instrumentation shall be operated and maintained as per the recommendations of the
manufacturer or other experts, and documentation of maintenance procedures shall be maintained.
Platform-speci ic sequencing metrics (e.g. cluster density, number of reads, average base quality, etc.)
shall be recorded and monitored for each sequencing run.
NOTE Platform-speci ic recommendations to minimize carryover contamination are provided in Annex A1.
6.4.2 Use of controls
When handling a bacterial isolate and DNA extract, the laboratory should use a water blank or non-
inoculated broth as negative control during DNA extraction to assess possible cross-contamination.
A positive extraction control to assess method ef iciency can be included as deemed necessary. If the
library preparation involves multiplexing and PCR ampli ication steps then it is highly recommended to
include both positive and negative controls. It is also recommended to consistently use the same DNA
extract for the positive control to allow for comparisons of sequencing quality from run to run.
NOTE Recommendations for using positive and negative controls are provided in Annex A3.
6.4.3 Assessing raw read data quality
Base calling should be performed using software speci ic to the instrument and sequencing chemistry.
Metrics can be de ined at run level and at sample level. Metrics shall be documented to evaluate the
quality of raw sequence data. These could include insert size, sequence length distribution, number
of reads, and an assessment of base composition (i.e. AT/GC balance or TAGC (taxon annotated GC-
9
ISO/DIS 23418:2020(E)
coverage) plot or equivalent). Quality scores, read length, and taxonomy check should be used as initial
check of sequencing performance (see also part 7.3). Coverage, as calculated by mapping reads back to a
de-novo assembly or to an appropriate reference genome, should also be evaluated.
DNA sequence read quality and quantity impact downstream assembly, read mapping and the ability to
use WGS data for bacterial source tracking and genome characterization. Sequencing artifacts that can
impact downstream analyses include sequencing platform speci ic error pro iles, variation in quality
scores across the sequence read, biases in sequence data driven by base composition, departure from
optimal library fragment sizes, and contamination from known and unknown species other than the
sequencing target.
NOTE General guidance for developing quality metrics are provided in Annexes A1 and A2.
6.4.4 Sample and data storage and retention
The laboratory shall document a policy for the storage and retention of specimens, DNA samples, DNA
libraries and sequencing data.
7 Bioinformatic data analysis
7.1 Requirements for software and/or bioinformatic pipelines used for data analysis
Bioinformatic pipelines should be validated before use for data analysis (see section 10.1.2). Pipeline
developers should distribute test data sets with their software. Users should ensure that pipelines are
installed correctly by analyzing the test datasets and checking that the expected results are generated.
The major components of bioinformatics pipelines (e.g. aligners, variant callers, open-reading frame
detection) should preferably be described in papers published in peer-reviewed journals. Methods
developed in-house should be fully validated. Software should be developed and maintained using
software quality control and quality assurance procedures.
7.2 Logging and documentation

All data analytic steps and analyses should be logged and documented. A plan for updating the
bioinformatics pipeline as updates to software components become available should be developed
and implemented. The impact of the update of the software components should be evaluated and
documented. A re-validation might be needed (see section 10.1.2). If data sets are transferred, data
integrity before and after transfer should be checked (e.g. using md5checksum). Exception logs should
be used to document any deviations from SOPs during individual bioinformatics analyses, e.g. that the
SOP was not followed as described.
7.3 Quality assessments

The quality of sequence data should be assessed and documented at the completion of the sequencing
run. Quality metrics should be platform-speci ic (see Annex A1 and A2). Users should determine and
record their speci ications for the quality assessment parameters. Criteria used for assessing sequence
quality for an isolate can include:
— Average quality score and number of bases greater than a speci ic quality threshold
— Number of reads and average read Phred score
— Tests for contamination should be implemented and acceptable limits for contaminants (e.g.
sequencing carryover or cross-contamination from sample preparation) should be determined that
are appropriate for bioinformatics analyses.
10
ISO/DIS 23418:2020(E)
For bioinformatic pipelines using assemblies the quality of the assemblies should be assessed prior to
starting analyses. The following measures are recommended as general indicators of assembly quality:
— Read depth needs to be suf icient to ensure variants can be reliably detected in the assembly.
— Number of contigs. For draft assemblies, low coverage and/or small contigs may need to be removed
prior to reporting the number of contigs.
— N50 and/or NG50 and length of the longest contig.
— The total length of all contigs or scaffolds should approximate the known genome size of the target
organism.
— Presence of species-speci ic conserved elements (e.g. core genome)
Laboratories should test for contamination in sequencing data and determine limits appropriate for
speci ic applications. These contaminations can originate from a different species/genus or from the
same species. Recommended methods include, but are not limited to, one or more of the following:
— Kmer hashing against a reference sequence database;
— Calculating the average nucleotide identity (ANI) of sequence data;
— Checking for numbers of rDNA alleles in reads or assemblies;
— Verifying serotypes with bioinformatic serotype prediction tools; and
— Comparing assemblies to reference databases.
If results from non-WGS phenotypic or molecular tests for a bacterial isolate are available, they may be
compared to WGS indings to evaluate consistency of genomic predictions. Examples include but are
not limited to:
— Presence or absence of known resistance elements for isolates with antimicrobial susceptibility
pro iles;
— Serotype;
— Antigenic loci; and
— Presence or absence of virulence or pathogenic elements.
7.4 SNP analyses

For SNP analyses, either a genetically similar draft assembly or a inished genome sequence can be
used as a reference [3]. Reference sequences should be curated prior to analyses (e.g., by removing
small contigs or contigs with low depth of coverage), as necessary for given applications. SNVs should
be iltered using quality scores, depth of coverage, density and masking of highly variable regions, as
appropriate for a given application, to reduce errors caused by sequencing and alignment artifacts,
indels (insertions/deletions), structural variants, recombination, and mobile genetic elements. Filtering
conditions used to identify SNP positions should be documented.
NOTE Analysis of benchmark and simulated data sets can help to establish false positive and false negative
rates for SNP pipelines.
The reference genome should be genetically similar to subject sequences as the false positive rate for
SNP identi ication tends to increase with increasing genetic distance to the reference [13]. Users should
specify what is considered as ‘genetically similar’.
11
ISO/DIS 23418:2020(E)
7.5 MLST analyses (cgMLST and wgMLST)

Criteria for adding or removing alleles or loci from cgMLST or wgMLST databases should be clearly
de ined. If MLST allele determinations are made using assembled genomes:
— The same genome annotation method should be used when generating databases and during
subsequent analyses; and
— Minimum quality standards for assemblies, such as percentage of core loci detected, should be
established.
If MLST allele determinations are made using read mapping:
— Criteria for SNP and indel identi ication (e.g. alignment depth, minimum percentage coverage of loci,
number of mismatches allowed, etc.) should be documented; and
— Minimum quality standards for WGS datasets, such as percentage of core loci detected, should be
established.
— The quality criteria will depend on the genus. Caution should be taken when creating a proprietary
schema. Loci with single alleles and those with high length variability should be removed.
7.6 Target gene detection

Databases used for target gene detection, e.g. virulence gene, antimicrobial resistance gene, serotype,
etc. should be documented, including the version number. The criteria used to decide the target gene is
present or not, should be clearly de ined (e.g. % coverage and % identity).
7.7 Phylogenetic tree or dendrogram generation

Distance, parsimony, and maximum compatibility methods of analysis can be used to rapidly screen
WGS data sets and identify clusters of closely related isolates. Results are typically presented as
a dendrogram or pairwise distance matrix. Trees or dendrograms can be built from the pairwise
distance matrix, shared loci, genes, or variants depending on the application. Bayesian and Maximum
Likelihood methods of phylogenetic tree construction are preferred to distance-based methods as
they are statistically consistent (i.e. converging on the correct topology as more data is acquired).
Bootstrapping should be used to estimate statistical support for topologies under distance-based,
parsimony, maximum compatibility, and maximum likelihood methods of analysis. “A posteriori”
probabilities should be used when trees are generated through Bayesian methods.
7.8 Metrics and log files

Metrics and log iles should be kept and include text that describes the following:
a) The identities of isolates analyzed;
b) The identities of any reference sequences (for SNP);
c) Version of the database (for MLST);
d) The version of the bioinformatics pipeline used, parameter settings, and user identi ication;
e) Timestamps; and
f) Any iltering or masking conditions.
Metrics should be reported, as applicable, that describe:
a) Numbers of reads;
b) Percent of reads mapped;
12
ISO/DIS 23418:2020(E)
c) Average insert size; and

d) Average alignment depth.
7.9 Interpreting and reporting the results of bioinformatics analyses
7.9.1 Interpreting results from bioinformatics pipelines
Results from bioinformatics pipelines should be interpreted in the context of information regarding
metadata about the origins of isolates and epidemiology (i.e. traceback information). Thresholds
established for one purpose (e.g., clonal outbreaks) should not be used for interpretation of different
purpose (e.g., persistent or resident pathogens)[14].
Diversity of isolates should be considered when interpreting dendrograms or allelic/SNP differences.
Some lineages may be clonal. In these cases, few differences may de ine outbreaks/clusters. Other
lineages have greater diversity. In general, for contamination events with a single point source that
occur over a short period of time very few genetic changes are expected to occur. For large-scale
contamination events greater differences can be observed.
7.9.2 Reporting genomic analysis results
The following information should be included in reports or available upon request:

a) Version of pipeline;
b) Identity of input data;
c) Reference genome or MLST database used and version if appropriate;
d) Analytic settings if options are available (e.g., minimum coverage settings for calls, iltering, or
masking); and
e) Interpretation and conclusions of genomic comparison results, if part of the application.
8 Metadata
8.1 General
The organization shall adopt a policy for capturing metadata. Metadata in private repositories should
be as detailed as possible but the level of detail is at the discretion of the user. When permitted,
metadata may be shared with partners, and can be abstracted to a level of granularity that complies
with organizational data sharing policies.
8.2 Metadata Interoperability and Future-Proofing

The metadata structure and content recommendations in this standard are intended to ensure
metadata interoperability and utility when making comparisons between different databases. The
metadata recommendations are also intended to structure data to be amenable to un-anticipated
uses (future-proo ing). The approach to metadata standardization de ined here captures information
about laboratories and laboratory processes, manufacturing environments, food products and food
processing, and bioinformatics processes and quality control metrics. The standard is designed to be
lexible as some stakeholders will collect more speci ic information, others less.
Genomic sequence metadata stored in private repositories can include information describing the
sample, the isolate, and the sequence. Metadata ields and values can be supplied in the format
described in Tables 2, 3 and 4 and Annexes B-H. Metadata captured according to this standard can be
provided according to sample type (see section 8 and annexes). However, a null value e.g. “missing”,
“not collected”, “not provided”, or “restricted access”, is also acceptable if information is not known
13
ISO/DIS 23418:2020(E)
or available. The ISO WGS Slim, and other ontologies can be used to format and provide values for
metadata ields described.
8.2.1 Ontologies
Ontologies encode computational logic that can be used by software systems to improve automation
and more complex querying[4][5]. The hierarchical nature of ontologies enables better comparisons of
information at different levels of granularity[4][5].
8.2.2 ISO WGS Slim
The ISO WGS Slim contains standardized ields and terms derived from existing ontologies and other
community standards (e.g. INSDC Minimal Data for Matching (MDM), and Antibiogram standards)[6].
The ields specify the information types recommended for capture, while the terms act as possible
values, which can be used to populate the ields. The ISO WGS Slim also contains synonymous term
labels from different organizations (e.g. FoodEx2[7]) to avoid preferential use of vocabulary and to
facilitate interoperability and data harmonization.
The ISO WGS Slim can be used to format and provide values for metadata ields described in Tables 2,
3 and 4 and Annexes B-H. Geographic, taxonomic, food product and processing, environment and drug
ields in this standard requiring more extensive vocabulary can be supplied using FoodEx2 and the
GAZ, NCBITaxon, FoodOn, EnvO and CheBI ontologies[5][6][7].
The ISO WGS Slim can be implemented in metadata spreadsheets and information management
systems. Further instruction is provided in Annex I.
8.3 Formatting Metadata Using the Standard

Metadata ields in Tables 2, 3 and 4 are general, and some require additional detailed ields to structure
the information and minimize the use of free text. These additional ields are described in Annexes B-H.
Each ield in the tables and annexes has a de inition, speci ied role in data analyses or harmonization,
and speci ic formatting recommendations. Values for some ields (e.g. Food Product), can be provided
by implementing the ISO WGS Slim, values for other ields (e.g. dates) can be constrained using validated
entry, while other ields can be provided as free text.
Metadata formatted using this standard are compatible with INSDC data standards. Guidance for
preparing metadata for submission to INSDC public repositories is found in Annex H (see section 9).
8.4 Metadata associated with sample collection

Fields in Table 2 can be used to capture metadata associated with sample collection. Additional ields
are provided in Annex B and C.
8.5 Metadata associated with the isolate

Fields in Table 3 can be used to capture metadata associated with the isolate. Additional ields are
provided in Annex B, D, E, and F.
8.6 Metadata associated with the sequence

Fields in Table 4 can be used to capture metadata associated with the sequence. Additional ields are
provided in Annex B and G.
9 Sequence repositories
Genomic sequence data shall be available in a standardized bioinformatics ile format for use in
bioinformatics pipelines. Operators shall implement procedures to verify that the metadata and
14
ISO/DIS 23418:2020(E)
sequence are correctly associated to maintain referential integrity. Operators of private repositories
shall correct errors when identi ied, update the records containing these errors in public repositories,
and remove WGS datasets when referential integrity cannot be veri ied.
WGS data and selected metadata may be transferred (uploaded) to a publicly accessible database.
Organizations may need to transform metadata before submitting to public repositories so that details
or identi iable information is not revealed. Metadata provided according to the tables and annexes of
this standard can be formatted to ful ill MDM requirements for submitting microbial sequences to
INSDC public repositories. Further instruction is provided in Annex H.
10 Validation and verification
10.1 Validation
The performance characteristics of WGS-based methods shall be established for the intended use.
Validation of the WGS work low can be performed separately for the different components (see Table 1).
However, eventually, the complete work low shall have been validated. The validation will provide
evidence that the method is repeatable, reproducible, and accurate.
10.1.1 Validation of laboratory operations
Validation of laboratory operations can go from culture up to DNA sequencing, and all stages in
between, depending upon the laboratory work low. Validation parameters and acceptance criteria for
different stages are described in Table 1.
10.1.2 Validation of the bioinformatics pipeline
Performance of bioinformatics pipelines should be assessed at every appropriate level of analysis

(Table 1). Bioinformatics pipelines may be evaluated and/or validated using different types of data
sets. Validation may include sample data generated in the originating laboratory using a speci ic WGS
work low along with standard (benchmark) data sets and/or simulated data sets.
a) Standard data (or benchmark) sets are cases where the origin, phenotype, and/or epidemiological
relationship of the isolates are known, and the sequence data has been made publicly available.
Standard data sets can be useful for comparing output from different bioinformatics pipelines. The
utility of standard data sets in establishing it-for-purpose work lows may be limited unless they
were generated using the same method of laboratory preparation including sequencing technology.
Examples of standard data sets include:
i. Gen-FS Project - L. monocytogenes, S. enterica ser. Bareilly, E. coli, and C. jejuni are available at
https://github.com/ WGS-standards-and-analysis/datasets
ii. BioProject PRJNA252728 (NCBI) from the National Institute of Standards and Technology (NIST)
iii. FDA-ARGOS project - BioProject PRJNA231221 (NCBI)
b) Simulated Data – Applications can be used to generate synthetic sequence read data from real
genome sequence data. Simulated datasets can test a wider range of parameter values and errors
than are typically observed in real sequence data. Simulated data is extremely useful because
known differences (e.g., nucleotide polymorphisms, indels, and structural variants) may be
introduced, providing con idence in the inal measurements. However, due to dif iculties with
modeling molecular evolution, simulations may yield results that are unrealistic; pipelines often
perform better with simulated data than with real datasets.
c) Sample data sets (i.e. real sequencing data) are intended to re lect the types of organisms and
microbiological procedures used in a particular laboratory. Sample data sets are generated
using a speci ic end-to-end work low, including DNA isolation, library preparation, sequencing,
and bioinformatics analysis. Sample data sets are typically derived from standard or reference
15
ISO/DIS 23418:2020(E)
collections with known characteristics, or on collections of isolates associated with an outbreak

with known epidemiological information, depending on the application work low to be validated.
Validation data sets should be comprised of data from target bacterial species that represent the
complexity and errors typically encountered during intended uses. Validation data sets should include
potentially confounding isolates, such as genome sequences that are either very closely or distantly
related from target bacteria. Data sets may also include multiple species. Additionally, data of multiple
species or strains in a single data ile may be used to validate the ability to detect cross-contamination.
Acceptable conditions shall be established based on performance goals and documented depending on
applications, such as:
— Accuracy of annotation and feature prediction; and/or
— Accuracy of strain or type predictions, assessment of relatedness consistent with known
epidemiological information.
Validation data sets shall be analyzed with the bioinformatics pipeline and the results shall be assessed
using the established performance goals and acceptance criteria (see Table 1). Reports describing the
validation results should be suf icient to replicate the analyses. Any major change in bioinformatics
pipelines needs to be evaluated and documented. If a major impact is observed, a re-validation may
need to be performed.
10.1.3 Validation o the end-to-end workflow
For each WGS application, an end-to-end validation shall be performed if the validation of one of the
steps within the WGS work low (Table 1) for the intended application is missing or if the validation of
the lab operations or bioinformatics analysis did not include sample data (refer to 10.1.2). Validation of
the end-to-end WGS work low helps to establish thresholds for biologically relevant differences versus
differences that are linked to the culture and sequencing process. Validation of WGS work lows through
comparison to historical gold-standards (pulse- ield gel electrophoresis, 7-gene MLST, phage typing,
etc.) poses a challenge because WGS provides a higher level of resolution of data. Bacterial isolates that
were previously identical or indistinguishable now may have measurable differences. Appropriate
sample genome sequence data sets should be created, depending on the application, i.e. isolates should
be selected that represent the variability of organisms that will be analyzed for speci ic applications.
NOTE Metrics that are linked to methodology, and described by Van Belkum et al. (2007), may be useful
when characterizing differences between closely related genomes[1]. An example for the validation of source
tracking based on these metrics is illustrated in Portmann et al. (2018)[8]. An example for the validation strategy
focusing speci ically on the exhaustive characterization of the bioinformatics analysis of a WGS work low is
illustrated in Bogaerts et al. 2019[9]. Each stage of the work low should be validated as described in Table 1.
10.2 Verification
The veri ication shall demonstrate that the executing laboratory is capable of using the validated
method for a speci ied WGS application correctly. Veri ication shall be done for the complete work low
or one of the steps within the work low (the laboratory implementing the lab operations and/or the
entity implementing the bioinformatics analysis).
10.2.1 Verification o laboratory operations
The executing laboratory shall provide objective evidence within the ield of application, that the
validated method is being used in its application area and that the speci ied requirements have been
ful illed. In the case of recognized / normalized methods (e.g. methods that have been published in
authoritative books, journals with peer review, published standards, instructions from international
consensus or regulation), validation is not required but only veri ication.
16
ISO/DIS 23418:2020(E)
Table 1 — Validation o workflow stages

Validation Repeatability Reproducibility Agreement with other methods
Stage (Accuracy/Precision) (Accuracy/Precision) (Accuracy/Trueness)
1. Pure Include different subcul- Include different subcul- Include related and unrelated strains
culture tures on same day by same tures on different days by (e.g. outbreak and non-outbreak), or
operator different operators strains not containing the marker(s)
of interest
2. DNA Include different DNA Include different DNA ex- Include DNA of related and unrelated
extraction extractions from same tractions from subcultures strains (e.g. outbreak and non-out-
subculture on same day by by different operators, on break associated), or of strains not
same operator, using the different days, using differ- containing the marker(s) of interest
same batches of reagents ent batches of reagents
3. DNA Include libraries from the Include libraries generated Include libraries of related and
sequencing same strain (e.g. in tripli- by different operators on unrelated strains (e.g. non-outbreak
cate) generated by same different days (between associated), or strains not containing
operator on the same day, run precision) on different the marker(s) of interest
in the same run (within run instruments
precision)
4. Bioin- Demonstrate identical Demonstrate comparable Demonstrate results are comparable
formatics results from same dataset results from same dataset with other pipelines for the same
pipeline at least twice on same com- at least twice on different application and specify any known
puter/IT infrastructure, computers/IT infrastruc- differences between pipelines that
using the same version of ture, using the same version may affect the outcome, e.g. built-
the software with the same of the software with the in reference databases. If no such
options/parameters same options/parameters pipeline is available then simulated
data, where the evolutionary relation-
ships of the isolates are known and
re lect variability expected in real
data, should be used to demonstrate
the pipelines ability to produce the
correct answer.
Acceptance The interpretation of the The interpretation of the The WGS work low needs to be able
criteria results should not change, results should not change, to produce the same conclusions
i.e. no signi icant differenc- i.e. no signi icant differ- as other gold standard typing and/
es should be observed while ences should be obtained or characterization methods (e.g.
repeating the WGS work- while reproducing the epidemiological inference/concord-
low in the same laboratory, WGS work low in different ance, differentiate unrelated strains
with the same operators laboratories, with differ- while grouping closely related iso-
using the same instrument. ent operators, or different lates, other genotypic methodology,
instruments. Minor differ- comparable data to closed reference
ences are expected, caused genomes)
by methodological steps.
Also, genome content can be
lost such as plasmids. They
should not be considered
signi icant.
10.2.2 Verification o the bioin ormatics pipeline
If commercial or open-source bioinformatics pipelines are used that have been validated by their
developers, the validation tests are published, and the validation datasets are publicly available, then
it may only be necessary to (partially) repeat the validation test once the software has been installed.
Here test data sets distributed by the pipeline developers can be used. However, successful execution of
a test data set does not necessarily imply that a bioinformatics pipeline is validated or it-for-purpose.
Test data sets can be used to verify that bioinformatics pipelines, and their associated dependencies,
are installed correctly and functioning as expected. The user needs to show functionality of the pipeline
according to pre-established parameters. Test data are used as input to a bioinformatics pipeline and
the output is compared against the expected results. Test data sets are typically small (e.g. lambda
17
ISO/DIS 23418:2020(E)
phage genome) and distributed with the software or pipeline. When the data is too large to bundle with
the software, accession numbers of data repositories might be provided.
Table 2 — Recommended metadata fields and values associated with sample collection
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Sample Collection Lab Contact Information Establishing chain of custody Contact information can be
and for providing contact infor- speci ied by the ields of infor-
The name of the laboratory that collected the
mation for follow-up analyses. mation in Annex B.
sample being analyzed, as well as the name
and contact information of an individual who
can provide further details regarding the
project or sample, should also be provided.
Geographic Location of Sample Collection INSDC data standard (ful ills Sample geographic location
MDM “geo_loc” ield). information can be speci ied
The geographical origin of the sample.
by the ields of information in
Annex C.
Collection Date INSDC data standard (ful ills The sample collection date can
MDM “collection_date” ield). be recorded as YYYY-MM-DD
The date the sample was collected.
according to ISO 8601 using
validated data entry.
Sample Type Traceback and other analyses. Sample types can be selected
from the ISO WGS Slim.
The type of material from which the isolate
was obtained. Samples are usually catego-
rized as food products, body products or
tissues, or environmental samples taken from
the area of food production and food handling
Food Product INSDC data standard (ful ills Food products and ingredients
MDM “isolation_source” ield). can apply to both human and
Products intended for human consumption
animal food. Where Food prod-
and the feeding of animals
ucts apply, descriptors can be
selected from the ISO WGS Slim.
Food Processing INSDC data standard (ful ills Where Food Processing ap-
MDM “isolation_source” ield). plies, descriptors can be select-
Processing applied to a food product e.g.
ed from the ISO WGS Slim.
deboning, skinning, pasteurization.
Environmental Material INSDC data standard (ful ills Food is considered to be a sep-
MDM “isolation_source” ield). arate ield from Environmental
A substance obtained from the natural or man-
Material.
made environment e.g. soil, water, manure.
Where Environmental Materi-
als apply, descriptors can be se-
lected from the ISO WGS Slim.
Environmental Location INSDC data standard (ful ills Food-related environmental
MDM “isolation_source” ield). locations may include, but are
An environmental location may describe a
not exclusive to, food produc-
site in the natural or built environment e.g.
tion, processing, distribution
abattoir, retail outlet, feedlot, food process-
and retail environments that
ing machinery, surfaces used to process and
were sampled. Where Envi-
prepare food products.
ronmental Locations apply,
descriptors can be selected
Collection Device INSDC data standard (ful ills Collection Devices are not
MDM “isolation_source” ield). always known, however when
The instrument or container used to collect
speci ied, they can be selected
the sample e.g. sterile plastic bag, plastic
jar, swab (with or without transport medi-
um), tube
18
ISO/DIS 23418:2020(E)
Table 2 (continued)
Harmonization
Collection Method INSDC data standard MDM Collection Methods are not
when the method used for col- always known, however when
The process used to collect the sample
lection is known (ful ills MDM speci ied, they can be selected
“isolation_source” ield). from the ISO WGS Slim.
Table 3 — Recommended metadata fields and values associated with the isolate
Harmonization
Microbiology Lab Contact Information Establishing chain of custody Contact information can be
The name of the laboratory that isolated the
organism being sequenced, as well as the
name and contact information of an individu-
al who can provide further details regarding
the project or isolate, should also be provided.
Organism INSDC data standard(ful ills The scienti ic name for the
MDM “organism” ield). species can be provided using
The species of the isolate being sequenced.
standardized taxonomic names
from NCBITaxon.
Strain INSDC data standard (ful ills The strain identi ier can be
MDM “strain or isolate” ield) provided as free text.
The name or identi ier of the strain.
Isolate INSDC data standard (ful ills The isolate identi ier can be
MDM “strain or isolate” ield). provided as free text.
The name or identi ier of the isolate.
Serotype Public repository MDM (re- The Serotype results can
quired for EBI “serotype” ield). be provided as free text, if
The serotype of the isolate or strain as de-
available.
termined by in vitro or in silico methods (e.g.
WGS, PCR or immunological methods).
Isolation Media Computable comparisons of Descriptors of this material
methodologies. can be chosen from the ISO
The culture media used to isolate the or-
WGS Slim.
ganism being sequenced from others in the
sample.
Isolate Passage History Computable comparisons of Isolate passage details can be
methodologies. An increase in speci ied by the ields of infor-
The number of times that an isolate is serially
the number of times an isolate mation in Annex D.
sub-cultured by a particular method.
has been passaged may result
in the accumulation of addi-
tional mutations
Antibiogram Results Computable comparisons of If antibiogram results are
antibiograms. available, the information can
The minimal inhibitory concentrations
be speci ied according to the
(value, unit, sign (<,>, =)) and resistance phe-
ields in Annex E.
notypes (resistant, sensitive intermediate,
or undetermined) of the sequenced isolate The source of breakpoints (and
against different antibiotics tested. version) used for interpreting/
classifying MIC values can be
speci ied.
19
ISO/DIS 23418:2020(E)
Table 3 (continued)
Harmonization
Antibiogram Methods Computable comparisons of Antibiogram methods (if appli-
antibiograms. cable) can be speci ied accord-
The laboratory protocol used to determine
ing to the ields in Annex E.
resistance phenotypes and minimal inhibito-
ry concentrations of antibiotics tested against
an isolate. The protocol should include the
antibiotics tested, lab testing method and
testing standard and controls/reference
strains used for the test.
Virulence Factor Results Computable comparisons of If virulence factor test results
virulence. are available, the information
The virulence factors determined to be pres-
can be speci ied according to
ent in the sequenced isolate by phenotypic
the ields in Annex F.
or target ampli ication methods e.g. Shiga
toxins, hemolysins.
Virulence Factor Testing Methods Computable comparisons of Virulence testing methods (if
virulence. applicable) can be speci ied ac-
The laboratory protocol used to determine
cording to the ields in Annex F.
virulence phenotypes and markers.
Table 4 — Recommended metadata fields and values associated with the sequence
Harmonization
Sequencing Facility Contact Information Establishing chain of custody Contact information can be
The name of the facility that sequenced the
isolated organism, as well as the name and
contact information of an individual who
can provide further project and sequencing
details, should be provided.
Sequencing Date Tracking sequencing runs. The sequencing date can be
recorded as YYYY-MM-DD
The date the sequencing run was initiated.
according to ISO 8601, using
validated data entry.
Culture Media Computable comparisons of Descriptors of this material
methodologies. can be chosen from the ISO
Formulation of substances in liquid, semi-sol-
WGS Slim.
id or solid form which contain natural and/
or synthetic constituents intended to support
the multiplication (with or without inhibition
of certain microorganisms) identi ication or
preservation of viability of microorganisms
DNA Extraction Method Computable comparisons of Include the name of the
methodologies and quality commercial kit and version
The procedure used to obtain genomic DNA
control. number, or laboratory protocol,
from a sample through chemical, physical or
used to extract the genomic
mechanical means.
DNA of the isolated organism
using free text.
20
ISO/DIS 23418:2020(E)
Table 4 (continued)
Harmonization
Sequencing Replicates Tracking sequencing runs, and Replicates within a set of
analyzing variability in reads sequencing runs can be de-
A technical sequencing replicate represents
and sequences. scribed as either technical or
the resequencing of the same biological sam-
biological. Where sequencing
ple in order to assess experimental variation.
replicates apply, descriptors
A biological sequencing biological represents can be selected from the ISO
a sequencing experiment based on a different WGS Slim.
colony from the same isolate obtained from
the same sample material, in order to assess
biological variation.
Sequence Library Preparation Method Computable comparisons of Include the name of the
methodologies and quality commercial kit and version
The procedure used to create a library from
control. number, or laboratory protocol,
fragments of DNA using oligonucleotides with
used to prepare libraries for
the role of adapters.
sequencing as free text.
Sequencing Instrumentation Computable comparisons of Types of sequencing instru-
methodologies. ments can be chosen from the
The type of instrument used to automate the
ISO WGS Slim.
process of sequencing.
Bioinformatics Organization Contact In- Establishing chain of custody Contact information can be
formation and for providing contact infor- speci ied by the ields of infor-
The name of the organization performing the
bioinformatics processing and analyses, as
well as the name and contact information of
an individual who can provide further details
regarding the bioinformatics analyses, should
be provided.
Raw Sequence Data Processing Computable comparisons of Include name and version of
methodologies and quality trimming tool and if applicable,
The procedure used to remove adapter se-
control. paired-end merger program. It
quences from raw sequence reads, trim low
is recommended that param-
quality bases and where applicable, merge
eters are also recorded. This
paired-end reads.
information can be provided as
free text.
Sequence Data Filtering Method Computable comparisons of Include the name and version
methodologies and quality of iltering tool(s) and process-
The procedure used to remove low quality
control. es applied. It is recommend-
reads and unalignable sequences from raw
ed that parameters are also
sequence data.
recorded. This information can
be provided as free text.
Sequence Assembly Method Computable comparisons of Describe the bioinformatics
methodologies and quality pipeline used, including the
The method or algorithm used to assemble
control. name and version of assem-
individual sequence reads into larger contig-
bler software, and accession
uous sequences (contigs).
number of the reference
genome used in the case of
reference-based assembly. It is
recommended that parameters
are also recorded, along with
any post-assembly modi ica-
tions. This information can be
provided as free text.
21
ISO/DIS 23418:2020(E)
Table 4 (continued)
Harmonization
Sequence Annotation Method Computable comparisons of Include the name and version
methodologies and quality of annotation tool. It is recom-
The method or algorithm used to identify and
control. mended that parameters are
report sequence features (e.g. protein coding
also recorded. This information
regions) in sequence data.
can be provided as free text.
Sequence Assembly Quality Metrics Computable comparisons of Sequence quality control
methodologies and quality metrics can be speci ied by
Measurements or calculated quantities used
control. the ields of information in
to assess the extent and success of the se-
Annex G.
quence assembly process. Metric thresholds
are species-speci ic.
22
ISO/DIS 23418:2020(E)
Annex A
(informative)
A.1 Guidance for development of quality metrics for short and long-read
sequencing technologies
Table A.1 — Guidance for development of quality metrics for short and long-read sequencing
technologies
Guidance
Process Concern Short read technology Long read technology
DNA cross-contami- Broth cultures should be started from a single colony of the isolate being
extraction nation; sample tested.
integrity DNA integrity is critical, particularly for long read technologies. Care should
be taken to avoid fragmentation of genomic DNA during preparation and
storage (e.g. through freeze/thawing)
DNA Presence of im- Optical density (OD260/280) ratio should be 1.75 - 2.05 and (OD260/230)
quality purities that may ratio should be 2.0-2.2
negatively impact
library construc-
tion
low molecular Extraction methods for genomic DNA should be adapted to sequencing plat-
weight DNA may form being used; DNA integrity can be checked on agarose gel or via capillary
negatively impact electrophoresis with appropriate size standards
library construc-
tion
DNA Insuf icient input Input DNA quantity should be carefully determined using a DNA-speci ic, in-
quantity of genomic DNA tercalating dye-based luorescence quanti ication method prior to further di-
may result in lution. Minimum quantity needed will be dependent on library kit/sequenc-
substandard se- ing technology used. If modi ied, this should be supported by validation.
quence library
DNA frag- Sub-optimal frag- Size distribution of sheared DNA samples should be checked using capillary
mentation mentation can gel electrophoresis based systems.
result in reduced Sample library should contain fragments Optimal fragment sizes vary by
library yield/re- between 200bp and 3000 bp. For transpo- long-read sequencing platform
duced coverage son-based library construction, fragment and application.
distribution can be veri ied by capillary
electrophoresis after PCR.
DNA size Following This can be done using gel electrophoresis approaches, or bead-based ap-
selection fragmentation, proaches. Any size selection should be supported by validation for each of the
selection of a species to which this is applied.
speci ic range of Size selection increases sequencing qual- Size selection increases sequenc-
fragments may ity but may result in gaps in the coverage ing quality but could result in
be desirable to of the bacterial genome. loss of small plasmid(s).
improve sequence
quality/ef iciency.
Selection may
result in loss of
small plasmids, or
bias in sequence
coverage
23
ISO/DIS 23418:2020(E)
Table A.1 (continued)

Guidance
Process Concern Short read technology Long read technology
Ligation of correct associ- Ensure barcode indices used are used only once in sequencing run. Rotate
indices and ation of adapter indices used such that the same unique pair of indices is not used in two
adapters sequences with consecutive runs. After each use, replace caps on index tubes or seal on index
appropriate plate to prevent index cross-contamination.
sample (sample
mix-ups)
Amplifica- reduced library Follow the instructions of the manufactur- NA
tion complexity er as to number of cycles - if modi ications
are needed (e.g. to avoid primer-dimers),
this needs to be validated (e.g. 12 cycles
may work for most species, but 15 cycles
may work better for Mycobacterium). If
necessary, use a PCR-free library prepara-
tion method.
Amplicon It is advisable to conduct pre-PCR and NA
cross-contamina- post-PCR steps in different rooms in order
tion to avoid amplicon cross-contamination
Library Anticipated DNA The library size distribution should be checked with a capillary electropho-
quality concentration resis based system. Concentration can be determined using a capillary elec-
assessment and insert size trophoresis based system or by a luorescence-based quanti ication system.
distribution
contamination Care should be taken to avoid cross-contamination during library prepara-
during library tion. Use aerosol resistant ilter pipette tips, change gloves frequently.
preparation
DNA Multiplexed sam- Equimolar pooling based on library pro ile Equimolar pooling based on li-
sequencing ple normalization. and quanti ication may be desirable to brary pro ile and quanti ication.
ensure adequate coverage of all of the Done before size selection and
samples included in the run. Alternately, a last DNA damage repair steps.
bead-based method of normalization may
be used. Quanti ication of the pooled li-
brary may also be desirable to ensure that
the amount of library loaded is suitable for
the sequencing platform.
inter-run carryo- To minimize carryover-contamination use NA
ver contamination appropriate instrument washes and es-
tablish an index-rotation scheme to ensure
that the same index pair is not used in
consecutive runs.
Instrument per- Run an internal control spike with your Run an internal control spike
formance sample. Sequencing of the same DNA (pos- with your sample
itive control) in order to monitor sequence
quality is recommended.
A.2 Recommendation for Quality Assessment of short-read data

Assessment of sequencing data will vary depending on sequencing platform and on the intended use
of the data in downstream analyses. The following provides guidelines applicable to some short-read
sequencing platforms. It is intended to be used as an initial quality assessment, prior to starting the
bioinformatics analysis which includes a more into-depth quality assessment as elaborated in point 7.3.
24
ISO/DIS 23418:2020(E)
Table A.2 — Recommendation for Quality Assessment of Illumina short-read data prior
to bioinformatics analysis (refer to section 7.3)
Process Concern Guidance
Sequence data Raw sequence data of suf- Sequences in FASTQ format can be checked using FastQC
quality icient quality, read length, tool. All sequences should be identi ied as either warn or
and coverage for intended pass for per base sequence quality. Minimum estimated
purpose coverage typically ranges from 20-fold to 60-fold.
Run Acceptance Q30 coverage overall 2x300bp: 70%
parameters* 2x250bp: 75%
* One may choose 2x150bp: 80%
to accept individual
sequences instead PhiX error rate < 6%
of an entire run, Reads passing ilter > 44 M (Note: Number of reads may vary by platform and
based on the sample chemistry)
acceptance parame- Reads negative control < 10000
ters below.
Sample Accept- Estimated coverage 20X (depending on application and microorganism se-
ance parameters quenced)
Mean Phred score 30
Contamination Check for expected species and absence of non-expected
species/strain (<5% reads identi ied as non-target species)
Run criteria Cluster density 600-1400 K/mm2 for MiSEQ, 170-200 for iSEQ
(informative) Clusters passing ilter > 75%
PhiX alignment 1%
Phasing/pre-phasing read-1 < 0.5%
Phasing/pre-phasing read-4 < 0.5%
Sample criteria GC-score < 4% deviation
(informative, Median Phred score drop Q30 150
can be species-
dependent, should Reads per sample > 20000 (may vary depending on the application and re-
be evaluated quired coverage)
during validation) Maximal N-fraction < 0.10%
Per base sequence content < 6% difference
AT proportion check < 30%
Sequence length distribution e.g. < 5% of reads are < 120 bp when raw input reads are
300 bp long; >50% of the reads are >150bp when raw input
reads are 300 bp long
A.3 Recommended use of controls
Table A.3 — Recommended use of controls

Control
Process Purpose Guidance Frequency of use
Description
DNA Positive control/ Assess method ef i- Failure to extract genomic Can be included as
extraction reference strain ciency DNA of suitable quality deemed necessary.
representing species for downstream analy- Sequencing of positive
in the test samples ses from positive control extraction controls is
indicates that there is an not required.
issue with the extraction
procedure; however, if test
samples worked, they can
be used.
25
ISO/DIS 23418:2020(E)
Table A.3 (continued)

Control
Process Purpose Guidance Frequency of use
Description
Negative control (e.g., Ensure that The negative control can Recommended for
water blank, non-in- cross-contamination be sequenced to evaluate each extraction but
oculated broth) does not occur dur- contamination arising may only be sequenced
ing DNA extraction during DNA extraction. as deemed necessary.
procedure If the negative control is
contaminated all of the
DNA should be carefully
evaluated to determine if
the level of contamination
will affect downstream
analyses.
Library DNA from a well Used to monitor Positive controls should A positive control is
preparation characterized strain sequence quality have fragments in a range not required for every
should be used as a on different runs to that is typical for the run. Frequency of use
positive control. It identify problems technology being used, of the positive control
is also recommend- with sequencing and results of sequenc- for monitoring quality
ed to consistently chemistry. ing should be consistent over time should be
use the same DNA Used to evaluate between runs. established.
extract. and validate library
preparation
Negative control Used to evaluate Negative controls should A negative control is
(e.g. water) cross-contamination have no detectable peaks not required for every
occurring during and minimal sequencing run. Frequency of use
library preparation reads associated with of the negative control
them. Contamination of for monitoring quality
negative control should be over time should be
below established limits. established.
DNA A well-characterized Evaluate quality of Per base error rates If practical, control
sequencing/ spike-in internal the run should be within estab- libraries should be
Instrument control library lished limits. included on each run.
performance
Include indexes Evaluate level of Number of reads with in- Can be included as
used in previous run carryover-contami- dexes mapping to previous deemed necessary.
when de-multiplex- nation for sequenc- runs should not exceed
ing the run ing platforms known established limits
to have this issue,
evaluate cross-con-
tamination (e.g.
with amplicons
from previous runs)
occurring during
library preparation
26
ISO/DIS 23418:2020(E)
Annex B
(informative)
Laboratory Contact Information Fields
Table B.1 — Laboratory Contact Information Fields

Harmonization
Organization Role Establishing chain of custody and The Organization Role can be se-
for providing contact information lected from the ISO WGS Slim.
The role played by an organization
for follow-up analyses. Contact
in a process e.g. sample collection,
information may vary within an
microbial isolation, sequencing,
organization according to the pro-
bioinformatics. cesses or analyses being performed.
Organization Name Establishing chain of custody and The Organization Name can be pro-
for providing contact information vided as free text.
The name of the organization.
for follow-up analyses when data
may be shared with public reposito-
ries or partners.
First Name Establishing chain of custody and Where personnel turnover may
for providing contact information affect the ability for follow up, the
A irst name is a name that denotes
for follow-up analyses. contact information can be supplied
a speci ic individual between
for a job position rather than a spe-
members of a group of individuals,
ci ic individual. This information
whose members usually share the
can be provided as free text
same surname.
Last Name Establishing chain of custody and Where personnel turnover may
A last name (surname) is a name
added to a given name and is part
of a personal name and is often the
family name.
Job Title Establishing chain of custody and Where personnel turnover may
The name of the job position held by
the contact.
Street Address Establishing chain of custody and The Street Address caninclude the
for providing contact information building number and street name.
The street address describes the
for follow-up analyses.
physical (geographic) location of the Format: Validated Data Entry
laboratory facility.
Municipality Establishing chain of custody and The Municipality can be selected
for providing contact information from the Gazetteer Ontology.
The name of the city, town or village
in which the organization is located.
Province/State/Territory Establishing chain of custody and The Province, State or Territory
for providing contact information can be selected from the Gazetteer
The name of the Province (P), State
for follow-up analyses. Ontology.
(S) or Territory (T) in which the
organization is located.
Country Establishing chain of custody and The Country can be selected from
for providing contact information the Gazetteer Ontology..
The name of the country in which
the organization is located.
27
ISO/DIS 23418:2020(E)
Table B.1 (continued)

Harmonization
Email Address Establishing chain of custody and The email address can be provided
for providing contact information using validated data entry.
An email address is an identi ier to
send mail to particular electronic
mailbox.
Telephone Number Establishing chain of custody and Include the country and area code
for providing contact information along with the speci ic number
A telephone number is an identi ier
for follow-up analyses. for the representative (which may
used to connect to a physical device
include an extension number). The
capable of transferring voice or data
Telephone Number can be provided
over a network.
using validate data entry .
28
ISO/DIS 23418:2020(E)
Annex C
(informative)
Geographic Location of Sample Collection Fields
Table C.1 — Geographic Location of Sample Collection Fields

Harmonization
Latitude INSDC data standard (ful ills MDM Latitude can be provided using
lat_lon ield at NCBI/DDBJ; lat_lon validate data entry, and ought not
A measurement that is the measure
OR country at EBI). be abstracted to the center of a city,
of the latitude coordinates of a site.
province/state or country as this
may falsely implicate an existing
location. “Missing” is an acceptable
value if the information is unavaila-
ble or cannot be shared.
If available, degrees latitude can be
speci ied as d[d.dddd] N|S e.g. 38.98
N
Longitude INSDC data standard (ful ills MDM Use validated data entry to provide
lat_lon ield at NCBI/DDBJ; lat_lon Longitude, which ought not be
A measurement that is the measure
OR country at EBI). abstracted to the center of a city,
of the longitude coordinate of a site.
province/state or country as this
may falsely implicate an existing
location. “Missing” is an acceptable
value if the information is unavaila-
ble or cannot be shared.
If available, degrees longitude can
be speci ied as d[d.dddd] W|E e.g.
77.11 W
Municipality INSDC data standard (ful ills MDM The Municipality can be selected
geo_loc ield). from the Gazetteer Ontology.
The name of the city, town or village
in which the organization is located.
Province/State/Territory INSDC data standard (ful ills MDM The Province, State or Territory
geo_loc ield).
The Province (P), State (S) or Ter- can be selected from the Gazetteer
ritory (T) in which the sample was Ontology.
collected.
Country INSDC public repository MDM (geo_ The Country can be selected from
loc ield). the Gazetteer Ontology.
The country in which the sample
was collected.
29
ISO/DIS 23418:2020(E)
Annex D
(informative)
Isolate passage history fields
Table D.1 — Isolate Passage History Fields

Harmonization
Number of Passages An increase in the number of times The Number of Passages can be
an isolate has been passaged may expressed as a numerical value
The number of serial subcultures
result in the accumulation of addi- (positive integer) using validated
that an isolate is grown in one envi-
tional mutations. data entry.
ronment.
Passage Protocol Facilitates the comparison of meth- The Passage Protocol can include,
odologies, as well as analyses. when applicable, inoculum size,
The procedure used to serially prop-
media type, temperature and dura-
agate an isolate in an environment.
tion of incubation. The Passage Pro-
tocol can be provided as free text.
30
ISO/DIS 23418:2020(E)
Annex E
(informative)
Antibiogram Results and Methods Fields
Table E.1 — Antibiogram Results and Methods Fields

Harmonization
Drug Name Antibiogram data standards (ful ills Standard chemical or generic drug
NCBI Antibiogram “Antibiotic” ield). names, rather than common or
The standard chemical name for a
brand names, can be selected from
drug.
the ISO WGS Slim or the ChEBI
ontology.
MIC Value Antibiogram data standards(ful- The MIC value can be provided
ills NCBI ntibiogram “Measure- using validated data entry
The numerical value of the MIC e.g. 4.
ment” ield).
MIC Unit Antibiogram data standards (ful ills The MIC unit can be provided using
NCBI Antibiogram “Measurement the ISO WGS Slim.
The standard unit of the MIC e.g.
Unit” ield).
g/mL.
MIC Sign Antibiogram data standards (ful ills The MIC Sign can be provided using
NCBI Antibiogram “Measurement the ISO WGS Slim.
The sign of the MIC indicates wheth-
Sign” ield.
er the concentration can be precise-
ly determined (denoted by = sign),
or is in range below (<) or above (>)
the value given.
Resistance Phenotype Antibiogram data standards (ful ills The Resistance Phenotype depends
NCBI Antibiogram “Resistance Phe- on the breakpoint thresholds
The resistance phenotype of an
notype” ield). applied, which in turn depend on
isolate represents the interpreta-
the reference standard used for
tion of an MIC value with regard to
interpretation. Breakpoints can
some breakpoint threshold e.g. re-
also be host, organism, drug, and in-
sistant (R), sensitive (S), intermedi-
fection site-speci ic. In cases where
ate (I), wild type (WT), or non-wild
a standard requires Host, Organism,
type (NWT).
Drug Name, and Tissue Speci icity
(AST Breakpoint) information for
the appropriate selection of break-
points, these should be speci ied
using the ISO WGS Slim.
Tissue Specificity (AST Break- Specifying criteria for breakpoint Tissue Speci icity (AST Breakpoint)
point) selection. Computable comparisons only needs to be speci ied when the
of methodologies. standard used to interpret the MIC
The name of the tissue type used to
requires this information e.g. se-
select breakpoints from a particular
lecting CLSI veterinary breakpoints.
standard, for the interpretation of
Tissue Speci icity can be speci ied
MIC results.
using the ISO WGS Slim.
Minimum Drug Concentration Specifying range of drug tested. The Minimum Drug Concentration
Tested Computable comparisons of meth- Tested can be provided as a numer-
odologies. ical value using validate data entry.
The lowest value of the drug tested
The units will be assumed to be the
e.g. 0. same as the MIC.
31
ISO/DIS 23418:2020(E)
Table E.1 (continued)

Harmonization
Maximum Drug Concentration Specifying range of drug tested. The Maximum Drug Concentration
Tested Computable comparisons of meth- Tested can be provided as a numeri-
odologies. cal value using validated data entry.
The highest value of the drug tested
The units will be assumed to be the
e.g. 128. same as the MIC.
Lab Testing Method Antibiogram data standards (ful ills The Lab Testing Method can be
NCBI Antibiogram “Laboratory speci ied using the ISO WGS Slim.
The type of assay used to determine
Typing Method” ield).
the MIC e.g. broth dilution.
Lab Testing Reagent Antibiogram data standards (ful ills The Lab Testing Reagent can be
NCBI Antibiogram “Laboratory Typ- described using free text.
The commercial kit or product used
ing Method or Reagent” ield).
to determine the MIC e.g. E-Test. If a
commercial product was not used,
include the type of media used.
Lab Testing Standard Antibiogram data standards (ful ills The Lab Testing Standard can be
NCBI Antibiogram “Testing Stand- speci ied using the ISO WGS Slim.
The clinical and laboratory guide-
ard” ield).
lines or standards that prescribe
the threshold values for determin-
ing resistance phenotypes
e.g. CLSI.
Lab Testing Platform Antibiogram data standards (ful ills The Lab Testing Platform can be
NCBI Antibiogram “Laboratory speci ied using the ISO WGS Slim.
The instrumentation used to deter-
Typing Platform” ield).
mine MIC values e.g. Vitek.
32
ISO/DIS 23418:2020(E)
Annex F
(informative)
Virulence Factor Detection and Methods Fields
Table F.1 — Virulence Factor Detection and Methods Fields

Harmonization
Virulence Factor Name Specifying virulence data. Virulence factor gene name can be
included using free text.
The name of the virulence factor
molecule produced by a pathogen
that speci ically causes disease or
that in luences the host's function
to allow the pathogen to thrive.
Virulence Testing Protocol Computable comparisons of meth- Include, when applicable, inoculum
odologies. preparation, platforms and instru-
The procedure used to determine
mentation, conditions, cell lines and
virulence.
animal models. This information
can be provided using free text.
Detection limit Facilitates the comparison of meth- Include the numerical cut-off
odologies, as well as analyses. (threshold) value and units for de-
The detection limit denotes the
termining positive results e.g. qPCR
smallest measure that can be de-
value, CFUs. This information can
tected with reasonable certainty for
be provided using free text.
a given analytical procedure.
33
ISO/DIS 23418:2020(E)
Annex G
(informative)
Sequence Quality Control Metrics
Table G.1 — Sequence Quality Control Metrics

Harmonization
N50 Provides a measure of the conti- N50 can be reported as a numerical
guity of assemblies for assessing value in Mb (e.g. 0.75 Mb) using
The length such that sequence con-
quality. validated data entry.
tigs of this length or longer include
half the bases in the assembly.
Sequencing Depth Assessing quality and providing a Sequencing depth can be reported
measure of con idence in a sequence. as a numerical value as X times fold
Sequencing depth is the average
number of reads representing a (e.g. 30x) using validated data entry.
given nucleotide in the reconstruct-
ed sequence.
Breadth of Coverage Assessing quality and providing a Breadth of coverage can be report-
measure of con idence in a sequence. ed as a percentage value (e.g. 95%)
The breadth of coverage is the
to a fold of coverage (e.g. 10X) using
percentage of the genome that was
validated entry.
sequenced to a prescribed depth of
coverage (as calculated by mapping
to a reference genome).
Mean Contig Length Provides a measure of the conti- Mean contig length can be report-
guity of assemblies for assessing ed as a numerical value in Mb (e.g.
The mean contig length is the count
quality. 0.5Mb) using validated data entry.
of base pairs in the average size
contig of the sequence assembly.
Number of Contigs Provides a measure of the conti- Number of contigs can be reported
guity of assemblies for assessing as a numerical value (e.g. 5) using
The total number of contiguous
quality. validated data entry.
sequences containing all of the
assembled sequence data.
Size of Assembled Genome Analyses and reporting sequence The Size of the assembled genome
characteristics. can be reported as a numerical
The total number of base pairs con-
value in Mb (e.g. 5.2 Mb) using vali-
tained in assembled contigs.
dated data entry.
34
ISO/DIS 23418:2020(E)
Annex H
(informative)
Metadata specification
H.1 Metadata specification or NCBI/DDBJ submissions

NOTE The Global Microbial Identi ier Minimal Data for Matching (MDM) is an internationally agreed upon
metadata standard, and informs minimal metadata requirements for pathogen sequence submissions to the
INSDC public repositories (i.e. GenBank, ENA, DDBJ)[10]. Due to legacy constraints, metadata implementation
varies slightly between INSDC repositories. As such, submitters should follow the instructions provided by the
repository. MDM requirements can be ful illed by formatting the prescribed metadata of this ISO speci ication.
MDM ields as de ined by EBI and NCBI/DDBJ and their implementations are described below. Templates for
metadata submission can be found in the BioSample guidelines of the EBI (https://www.ebi.ac .uk/ena/submit/
checklists) and NCBI (https://www.ncbi.nlm.nih.gov/ biosample/docs/packages/ ). If any ields of information
cannot be shared due to data sharing constraints or other reasons, “Missing” should be entered for submissions to
NCBI/DDBJ. “Not included”, “Not provided” or “Restricted access” are permissible null values for EBI submissions.
Table H.1 — NCBI/DDBJ MDM Fields and NCBI Definitions

Formatting Instructions for
NCBI/DDBJ MDM Fields and NCBI Definitions
ISO Metadata
sample_name No special instructions.
Sample Name is a name that you choose for the sample. It can have
any format, but we suggest that you make it concise, unique and
consistent within your lab, and as informative as possible. Every
Sample Name from a single Submitter must be unique.
attribute_package This ield is speci ic to NCBI/DDBJ submis-
sions and the options can be selected from
Specify the pathogen type. Allowed values are "Pathogen.cl" (for
within the submission template.
clinical or host-associated pathogen) or "Pathogen.env" (for envi-
ronmental, food or other pathogen). The value provided in this ield
drives validation of other ields.
collected_by* This information can be derived exactly
from the ISO Microbiology Lab ield.
Name of persons or institute who collected the sample.
collection_date* This information can be derived from the
ISO Collection Date ield. If the stakehold-
Date of sampling, in
er must include a truncated version due to
"DD-Mmm-YYYY", "Mmm-YYYY" data sharing constraints, only include the
year (YYYY format).
or "YYYY" format (e.g., 30-Oct
-1990, Oct-1990 or 1990) or ISO
8601 standard "YYYY-mm-dd", "YYYY-mm" or "YYYY-mm-ddThh:
mm:ss" (e.g., 1990-10-30, 1990-10 or
1990-10-30T14:41:36)
organism This information can be derived exactly
from the ISO Organism ield.
The most descriptive organism name for this sample (to the spe-
cies, if relevant).
Strain This information can be derived exactly
from the ISO Strain ield.
Microbial or eukaryotic strain name.
35
ISO/DIS 23418:2020(E)
Table H.1 (continued)

NCBI/DDBJ MDM Fields and NCBI Definitions
ISO Metadata
Isolate This information can be derived exactly
from the ISO Isolate ield.
Identi ication or description of the speci ic individual from which
this sample was obtained.
geo_loc_name* This information can be derived by
concatenating a subset of the ISO Geo-
Geographical origin of the sample; use the appropriate name
graphic Location of Sample Collection
from this list http://www.insdc.org/documents/country-quali ier
ields prescribed by Annex C. Speci ically,
-vocabulary. Use a colon to separate the country or ocean from
City, Province/State/Territory, Country
more detailed information about the location, e.g. "Canada: Vancou-
information should be concatenated and
ver" or "Germany: halfway down Zugspitze, Alps"
separated by colons.*
lat_lon* This information can be derived by con-
catenating a subset of the ISO Geographic
The geographical coordinates of the location where the sample was
Location of Sample Collection ields pre-
collected. Specify as degrees latitude and longitude in format "d[d.
scribed by Annex C. Speci ically, Latitude
dddd] N|S d[dd.dddd] W|E", e.g., 38.98 N 77.11 W.
and Longitude information should be
concatenated and separated by a space.
isolation_source* This information can be derived by
Describes the physical, environmental and/or local geographical concatenating the information for Sam-
source of the biological sample from which the sample was derived. ple Type and related ields, separated by
a colon.
host* This information can be derived exactly
from the ISO Host ield.
The natural (as opposed to laboratory) host to the organism from
which the sample was obtained. Use the full taxonomic name, e.g.,
"Homo sapiens".
host_disease* This information can be derived exactly
from the ISO Host Disease ield.
Name of relevant disease, e.g. Salmonella gastroenteritis.
Controlled vocabulary, http:// bioportal.bioontology.org/
ontologies/1009 or https://www.ncbi.nlm.nih.gov/mesh.
* If the stakeholder must include a truncated version due to data sharing constraints, only include
information according to the permissible granularity. “Missing” is a permissible value.
H.2 Metadata specification or EBI submissions
Table H.2 — Metadata specification or EBI submissions

EBI MDM Fields and EBI Definitions
ISO Metadata
collected_by* This information can be derived exactly
from the ISO Microbiology Lab ield.
Name of persons or institute who collected the specimen.
collection_date* This information can be derived from the
ISO Collection Date ield. If the stakehold-
The date of sampling, either as an instance (single point in time)
er must include a truncated version due to
or interval. In case no exact time is available, the date/time can be
data sharing constraints, only include the
right truncated i.e. all of these are valid ISO8601 compliant times:
year (YYYY format).
2008-01-23T19:23:10+00:00; 2008-01-23T19:23:10; 2008-01-23;
2008-01; 2008.
isolate* This information can be derived exactly
from the ISO Isolate ield.
Individual isolate from which the sample was obtained.
36
ISO/DIS 23418:2020(E)
Table H.2 (continued)

EBI MDM Fields and EBI Definitions
ISO Metadata
geographic location (country and/or sea)* This information can be derived from the
ISO Country ield prescribed in Annex C.
The geographical origin of the sample as de ined by the country or
For ocean names, use the terms found in
sea. Country or sea names should be chosen from the INSDC coun-
the INSDC country list (http://insdc.org/
try list (http://insdc.org/country.html).
country.html).
geographic location (latitude)*geographical origin of the sample This information can be derived exactly
as de ined by latitude and longitude. The values should be reported from the ISO Latitude ield prescribed in
in decimal degrees and in WGS84 system. Annex C.
geographic location (longitude)* This information can be derived exactly
from the ISO Longitude ield prescribed in
The geographical origin of the sample as de ined by latitude and
Annex C.
longitude. The values should be reported in decimal degrees and in
WGS84 system.
is the sequenced pathogen host associated? This ield is speci ic to EBI submissions.
If the organism was host associated, put
Is the sequenced pathogen host associated? ('Yes' or 'No').
“Yes”. If the organism was not host associ-
ated, and was obtained from an environ-
mental sample, put “No”.
environmental_sample This ield is speci ic to EBI submissions.
If the organism was host associated, put
Identi ies sequences derived by direct molecular isolation from a
“No”. If the organism was not host associ-
bulk environmental DNA sample (by PCR with or without subse-
ated, and was obtained from an environ-
quent cloning of the product, DGGE, or other anonymous methods)
mental sample, put “Yes”.
with no reliable identi ication of the source of the organism.
specific_host* This information can be derived exactly
from the ISO Host ield, if a host is known.
Natural (as opposed to laboratory) host to the organism from which
If the organism is environmental, put
sample was obtained ( or “free-living” if not host-associated).
“free-living”. If the information is un-
known or unavailable, put “Not collected”.
host_disease_status* This ield is speci ic to the EBI. If the
host was associated with a disease in
Health status of the host at the time of sample collection.
the ISO Host Disease ield, choose “dis-
eased”, if the host did not manifest dis-
ease, choose “healthy”. If neither apply,
put “Not applicable”.
* If the stakeholder must include a truncated version due to data sharing constraints, only include
information according to the permissible granularity. “Not included”, “Not provided” or “Restricted
access” are permissible null values.
37
ISO/DIS 23418:2020(E)
Annex I
(informative)
Instructions for Ontology Slim Integration by Software Developers
I.1 Introduction
Standardization of digital data using controlled vocabularies and ontologies is considered to be a
best practice for data stewardship[11][12]. The ISO WGS Slim was created to gather relevant ields and
values from existing, community-supported ontologies, e.g. GenEpiO and FoodOn, which are relevant
to WGS-based food microbiology. GenEpiO is an application ontology that contains ields and values
for genomics, laboratory, clinical, environmental, and epidemiological data and processes[4]. The
Food Ontology (FoodOn) is a domain ontology that describes food products, as well as processes for
cooking, preservation, packing/wrapping of food, anatomical sources, cultural and geographical
origin, consumer groups and more[5]. FoodOn also contains higher level food categories imported from
many existing food classi ication schemes e.g. FoodEx2, USDA National Nutrient SR Legacy database,
European Food Information Resource (Euro ir), FDA Code of Federal Regulations (CFR) products list
etc[5][6][7]. GenEpiO and FoodOn have been developed by a community of experts. Further information
can be obtained from http://foodon.org/.
Ontology-derived ields and values facilitate metadata harmonization integration, reuse, and exchange
by providing standardized terms, de initions and universal IDs (URIs) which better enable information
to be processed by both humans and computers. Furthermore, ontologies encode computational logic
which can be used by software systems to improve automation and more complex querying. The
hierarchical nature of ontologies also better enables aggregation of data and comparisons of information
at different levels of granularity. As such, the ISO WGS Slim can be used to provide metadata descriptors
as prescribed in Tables 1, 2, and 3.
In some cases, the ISO WGS Slim may not contain the breadth of vocabulary required. In which case, other
ontologies are recommended. Speci ically, geographic, taxonomic, environmental (built and natural)
and drug name ields in this standard may require more extensive vocabulary available directly in the
Gazetteer (GAZ), NCBITaxon, Environment Ontology (EnvO) and Chemical Entities of Biological Interest
(CheBI) ontologies respectively. GenEpiO vocabulary has largely been sourced from these ontologies
and so URIs will be compatible. Further information can be obtained from www.obofoundry.org. GAZ,
NCBITaxon, FoodOn, EnvO and CheBI ontologies can be downloaded from Github:
https://github.com/EnvironmentOntology/gaz
https://github.com/obophenotype/ncbitaxon
https://github.com/FoodOntology/foodon
https://github.com/EnvironmentOntology/envo
https://github.com/ebi-chebi/ChEBI
I.2 Advice for implementing the ISO WGS Slim.

The ISO WGS Slim can be downloaded from Github (https://github.com/GenEpiO/iso2017) in tab-
delimited, JSON and YAML formats. The plain-text.tsv (tabular) format options may be the most
accessible for software developers as they have the simplest structure. All ISO WGS Slim formats
include the label and de inition of each term, synonyms, optional ield information or help text, and in
some cases numeric and textual ield validation constraints. If terms are required in addition to those
38
ISO/DIS 23418:2020(E)
contained in the slim, the GAZ, NCBITaxon, FoodOn, EnvO and CheBI ontologies can also be downloaded
from GitHub.
It is impracticable to provide instructions for ISO WGS Slim implementation for all computing
infrastructure scenarios. However, tabular data is commonly shared in a SQL database or spreadsheet
format, and so this section provides an overview of how to address these situations.
I.2.1 Spreadsheet Ontology Integration

There are tools that enable the creation of spreadsheets that contain drop down menus of vocabulary.
Examples of such tools that can integrate ontology terms and IDs include: Webulous (https://www
.ebi.ac.uk/spot/webulous/ ), Populous (http://www.e-lico.org/?q=populous) and Kusp (https://www
.scibite.com/platform/scibite-apps/kusp/ ). These tools offer step-by-step instructions for creating
tabular data collection instruments.
Although currently there are no dominant standards for ontology annotation of tabular data, advice is
provided below.
1) Each data column should be associated with an ontology ID specifying the type of information in
that ield. Using both the label and ontology ID enables automated mapping to other databases’
ields that may use alternative labels but the same ontology identi ier. Note that ields describing
numerical values with associated units require unit ontology identi iers as well, and may require
an additional column dedicated to recording units if they vary between values in a column (e.g. MIC
units such as ug/ML, mm, etc. A worked example is provided in section I.1.3.1 below.
2) Tabular data implementation depends on the reliable mapping of database ields and/or categorical
ield values to ontology term identi iers available online as IRIs e.g. "http://purl.obolibrary
.org/obo/HP_0012735". Within a given database, a reference to a term identi ier can usually be
abbreviated into a pre ix:suf ix format, e.g. "HP:0012735”, in which the pre ix abbreviates the
leading or “namespace” component of the term URL, for example, where “HP:” abbreviates the
Human Phenotype Ontology space, “http://purl.obolibrary.org/obo/HP”. This involves associating
the tabular data with a list of (allowed) ontology pre ixes and their associated namespace IRI
components. Note that the JSON-LD (JSON Linked Data) format has this “compact IRI” functionality
included.
3) When creating picklists from ontology terms, negative values may need to be added by the software
developer as the slim does not include terms such as “missing”, “not collected”, “not applicable”,
etc. as options. However, applications that automate the transformation of metadata for sharing
(with other public or private repositories), should avoid concatenating multiple “missing” terms
in a single ield. For example, in the case of the NCBI submission, if the metadata includes Sample
Type information such as the term “Food”, but Food Product and Food Processing information is
missing, data submitters should simply include “food” in the “isolation_source” ield rather than
“food: missing: missing”. Similarly, “food: chicken nuggets: missing” should simply be submitted as
“food: chicken nuggets”. However, if no sample source information is available, submitters should
include a single “missing” term for “isolation_source”. These guidelines also apply to concatenating
other metadata ields.
An example form rendering of the ISO WGS speci ication is available by visiting https://watson.bccdc
.med.ubc.ca/geem/form.html#GENEPIO:0002083. The ontology identi ier GENEPIO:0002083 points to
GenEpiO term "draft sequence repository contextual data standard", a term under which the following
components are organized: Laboratory Contact Information, Sample Collection, Isolate and Isolate
Passage History, Food Specimen, Antibiogram, Sequencing and Sequence Assembly Quality Metrics.
Further examples of integrating ontology within IT infrastructure, or for storing ontology-enabled data,
are available at the High-throughput Sequencing Computational Standards for Regulatory Sciences
(HTS-CSRS) project website (https://hive.biochemistry.gwu.edu/htscsrs/ biocompute), Vanderbilt
University’s REDCap data management system (https://www.project-redcap.org/ ), Stanford’s CEDAR
project (https://metadatacenter.org), the Allotrope Foundation (https://www.allotrope.org/ ) data
models, and in other tabular data management tools such as Karma (https://usc-isi-i2.github.io/
karma/ ).
39
ISO/DIS 23418:2020(E)
Note that ontology resources grow and are re ined over time. Additional training by IT support staff
to understand how to access ontology terms and how to manage or refresh terms from ontology
source iles may be required when implementing the ISO Ontology Slim in different systems within an
organization.
I.2.2 SQL Database Ontology Integration

SQL is a domain-speci ic language used in programming and designed for managing data held in a
relational database management system (data organized into tables, linked by de ined relationships).
There are two basic strategies for annotating and harmonizing information stored in SQL databases
using the ISO WGS Slim. The irst strategy is to export information to be shared as a spreadsheet (or csv
ile) and annotate according to the suggestions discussed above.
The second strategy involves mapping information to ontologies directly in the database. Field names
(labels) can be replaced with ontology IDs, and ontology IDs can be stored in a look-up table. A SQL
database lookup table may already exist which has numeric keys that can be converted to ontology
URIs. As such, the lookup table can be populated with ISO WGS slim content. Alternatively, ISO WGS
Slim content can be implemented via a script that accesses an ontology lookup service API. A worked
example is provided in section I.1.3.2 below.
I.3 Approaches for ontology integration in systems for metadata capture and
management
I.3.1 Spreadsheets
Annotating spreadsheet data with standardized ontology terms can be achieved by having a separate
mapped sheet “ontology view” which has a 1-1 cell correspondence to the original sheet. An example
illustrating original values mapped to ontology IDs is shown in Figure I.1. Note that the column headers
are also replaced by ontology identi iers (numeric and free text values remain unchanged). In the example
in the diagram below, the ield “First Name” should be associated with the ISO WGS Slim ontology term
http://purl.obolibrary.org/obo/NCIT_C40974. Similarly, the antimicrobial resistance reference standard
“CLSI” in the original data is mapped to the ISO WGS Slim ontology term ID ARO:3004366, while the drug
name “penicillin” in the spreadsheet is mapped to the ontology ID CHEHI:17334.
Figure I.1 — Example of original values mapped to ontology IDs
I.3.2 SQL Database Ontology Integration

Table I.1 presents an example of a table from an organization’s relational database links laboratory
services to the database ID and the ontology ID. The type of services offered by “ACME laboratory
services” are de ined by the ontology term “bioinformatics analysis service” replaced by the ontology
40
ISO/DIS 23418:2020(E)
ID GENEPIO:0002223, a term in the ISO WGS Slim. Note the label has been replaced by the ontology ID
in this table.
Table I.1 — Example of an organization table

organization id name laboratory service
123 ACME laboratory services GENEPIO:0002223
etc.
The ontology ID GENEPIO:0002223 can be linked to its label through a term lookup table, shown in
Table I.2. The “parent id” term refers to the more general term “laboratory service” which has the
ontology ID GENEPIO:0002225, where “bioinformatics analysis service” is a particular type/value for
the ield “laboratory service”. Other types of laboratory services are also listed – all with the same
parent ontology ID, but with different ontology term IDs.
Table I.2 — Example of a term_lookup table

ontology id parentontology id label
GENEPIO:0002225 specimen related service
GENEPIO:0002223 GENEPIO:0002225 bioinformatics analysis service
GENEPIO:0002224 GENEPIO:0002225 isolate preparation service
OBI:0001904 GENEPIO:0002225 sequencing service
etc.
Other associations between ontology terms (rather than ield values/content) can be recorded in
a separate ontology term table, such as in Table I.3, which illustrates links between “ontologized”
organization name and associated services, IDs etc.
Table I.3 — Example of an ontology_metadata table

table_name field_name ontology_id ontology_label
organization id NCIT:C93401 Organization Identi ier
organization service GENEPIO:0002225 specimen related service
organization name NCIT:C93874 Organization Name
organization etc. etc.
etc.
41
ISO/DIS 23418:2020(E)
Bibliography
[1] V B A., Associates. Guidelines for the validation and application of typing methods for
use in bacterial epidemiology [online]. Clin Microbiol Infect 13(Suppl 3). 1-46. [viewed 30 July
2018]. Available from https://doi.org/10.1111/j.1469-0691.2007.01786.x
[2] D T., and AD SMITH. Predicting the molecular complexity of sequencing libraries [online].
Nat Methods 10(4):325-7. [viewed 30 July 2018]. ISSN 1548-7091. Available at doi: 10.1038/
nmeth.2375
[3] CHAIN PSG, and others. Genome Project Standards in a New Era of Sequencing. Science. 2009,
326(5950). [viewed 30 July 2018]. ISSN 0036-8075. Available from doi: 10.1126/science.1180614
[4] GRIFFITHS E et al. , Context Is Everything: Harmonization of Critical Food Microbiology
Descriptors and Metadata for Improved Food Safety and Surveillance [online]. Front Microbiol.
8: 1068. [viewed 30 July 2018]. Available at doi: 10.3389/fmicb.2017.01068
[5] DOOLEY DM and others. FoodOn: a harmonized food ontology to increase global food traceability,
quality control and data integration. npj Science of Food. 2018, 2 (article 23). Available at doi
.org/10.1038/s41538-018-0032-6
[6] ISO WGS S . https://github.com/GenEpiO/iso2017
[7] FoodEx2: https://www.efsa.europa.eu/en/data/data-standardisation
[8] PORTMANN A-C et al. , A Validation of an End-to-End Whole Genome Sequencing Work low for
Source Tracking of Listeria monocytogenes and Salmonella enterica. Frontiers in Microbiology 9
(article 446). Available at doi 10.3389/fmicb.2018.00446
[9] BOGAERTS B et al. , Validation of a Bioinformatics Work low for Routine Analysis of Whole-
Genome Sequencing Data and Related Challenges for Pathogen Typing in a European National
Reference Center: Neisseria meningitidis as a Proof-of-Concept. Frontiers in Microbiology 10
(article 362). Available at doi: 10.3389/fmicb.2019.00362
[10] W P.R., Associates. Global Microbial Identi ier. In: Applied Genomics of Foodborne
Pathogens. Food Microbiology and Food Safety, (D X., d B H., H R., eds.).
Springer, Cham. [viewed 30 July 2018]
[11] L D., Associates. Baseline Practices for the Application of Genomic Data Supporting
Regulatory Food Safety [online]. J AOAC. 2017, 100(3), 1-11. [viewed 30 July 2018] ISSN 1060-
3271. Available from doi: 10.5740/jaoacint.16-0269
[12] WILKINSON MD, and others. The FAIR Guiding Principles for scienti ic data management and
stewardship [online]. Scienti ic Data. 2016, 3:160018. ISSN 2052-4463. [viewed 30 July 2018].
Available at doi: 10.1038/sdata.2016.18
[13] PIGHTLING AW, PETRONELLA N, and PAGOTTO F. Choice of Reference Sequence and Assembler
for Alignment of Listeria monocytogenes Short-Read Sequence Data Greatly In luences Rates of
Error in SNP Analyses PLoS One. 2014 Aug 21;9(8):e104579. [viewed 08 January 2020]. Available
at doi: 10.1371/journal.pone.0104579
[14] PIGHTLING AW, and others. Interpreting Whole-Genome Sequence Analyses of Foodborne
Bacteria for Regulatory Applications and Outbreak Investigations. Frontiers In Microbiology
2018 Vol 9 pg. 1482. [viewed 03 March 2020] Available at doi: 10.3389/fmicb.2018.01482
42

Din en Iso 23418 e 2020-10

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Din en Iso 23418 e 2020-10

Hochgeladen von

Copyright:

Verfügbare Formate

DEUTSCHE NORM Entwurf Oktober 2020

DIN EN ISO 23418

Mikrobiologie der Lebensmittelkette –

Stellungnahmen werden erbeten

Gesamtumfang 104 Seiten

DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL)

prEN ISO 23418:2020

Titel de: Mikrobiologie der Lebensmittelkette — Vollständige Genomsequenzierung

Titel fr: Microbiologie de la chaîne alimentaire — Séquençage de génome complet

Europäisches Vorwort .......................................................................................................................................................... 4

8.2 Interoperabilität und Zukunftssicherheit von Metadaten ..................................................................... 21

Dieses Dokument ist derzeit zur parallelen Umfrage vorgelegt.

a) Umgang mit Bakterienkulturen;

b) Isolierung der genomischen DNA;

f) Validierung des durchgehenden WGS-Workflows (gebrauchstauglich für die beabsichtigte Anwendung).

— ISO Online Browsing Platform: verfügbar unter https://www.iso.org/obp

— IEC Electropedia: verfügbar unter http://www.electropedia.org/

[QUELLE: ISO 11238:2018 (en)]

[QUELLE: ISO/IEC 11179-1:2015, 3.2.16]

Anmerkung 1 zum Begriff: Die MHK wird in mg/l angegeben.

[QUELLE: ISO 16256:2012 (en)]

[QUELLE: ISO 16140-1:2016 (en)]

[QUELLE: ISO 16140-1:2016 (en)]

4.2 Laborbetrieb: Probenvorbereitung und Sequenzierung

Die Probenvorbereitung und Sequenzierung sollten die folgenden Schritte umfassen:

a) Informationen über die zu sequenzierenden Isolate, einschließlich Barcodes für Multiplex-Proben,

ii) Ligation von Indizes und Adaptern;

iii) Quantifizierung, Normalisierung und Qualitätskontrolle der resultierenden Bibliothek; und

iv) Pooling von Bibliotheken für Multiplex-Sequenzierungsläufe.

d) Die Bibliotheken sind sequenziert.

4.3 Bioinformatische Analyse

c) Analyse des k-mer-Abstandes

4.4 Metadatenformate und Hinterlegung von Sequenzdaten in Repositorien

geistigen Eigentumsrechten, vertraulichen Geschäftsinformationen, Vertragsbeschränkungen oder anderen

4.5 Validierung und Verifizierung des WGS-Workflows

5.1 Bakterienisolierung und DNA-Extraktion

Die Bakterienisolierung und DNA-Extraktion sollte in einem allgemeinen mikrobiologischen Labor

5.3 Standardverfahrensanweisungen (SOP, en: standard operating procedure) und nicht

Labore sollten Standardverfahrensanweisungen (SOP), Arbeitsablaufdokumente, Bestandskontrollen von

5.4 Labor-Informations- und Management-System (LIMS)

5.5 Kompetenz im Labor

i) jährliche Teilnahme an einem Eignungsprüfungsprogramm;

6.1 Herstellung und Lagerung der Proben

6.3 Isolierung der DNA

6.4 Vorbereitung der Bibliothek

ANMERKUNG Plattformspezifische Empfehlungen zur Minimierung der carry-over-Kontamination sind in

6.4.2 Verwendung von Kontrollen

6.4.3 Beurteilung der Qualität von Read-Rohdaten

6.4.4 Speicherung und Aufbewahrung von Proben und Daten

7.1 Anforderungen an Software und/oder bioinformatische Pipelines, die für die

7.2 Protokollierung und Dokumentation

— Anzahl der Reads und deren durchschnittlicher Phred-Wert;

— Es sollten Kontaminationsprüfungen durchgeführt und annehmbare Grenzwerte für Kontaminationen

— N50 und/oder NG50 und Länge des längsten Contigs.

— Vorhandene artspezifische konservierte Elemente (z. B. Kerngenom).

— k-mer-Hashing im Vergleich zu einer eine Referenzsequenz-Datenbank;

— Überprüfung der Anzahl von rDNA-Allelen in Reads oder Assemblys;

— Verifizierung von Serotypen mit bioinformatischen Serotyp-Vorhersagetools und

— Vergleich von Assemblys mit Referenzdatenbanken.

— vorhandene oder fehlende bekannte Resistenzelemente bei Isolaten mit antimikrobiellen

— antigenische Loci und

— vorhandene oder fehlende Virulenz oder pathogene Elemente.

7.5 MLST-Analysen (cgMLST und wgMLST)