Beruflich Dokumente
Kultur Dokumente
Entwurf
Anwendungswarnvermerk
Dieser Norm-Entwurf mit Erscheinungsdatum 2020-09-11 wird der Öffentlichkeit zur Prüfung und
Stellungnahme vorgelegt.
Weil die beabsichtigte Norm von der vorliegenden Fassung abweichen kann, ist die Anwendung dieses Entwurfs
besonders zu vereinbaren.
– vorzugsweise online im Norm-Entwurfs-Portal von DIN unter www.din.de/go/entwuerfe bzw. für Norm-
Entwürfe der DKE auch im Norm-Entwurfs-Portal der DKE unter www.entwuerfe.normenbibliothek.de,
sofern dort wiedergegeben;
– oder als Datei per E-Mail an nal@din.de möglichst in Form einer Tabelle. Die Vorlage dieser Tabelle kann im
Internet unter www.din.de/go/stellungnahmen-norm-entwuerfe oder für Stellungnahmen zu Norm-
Entwürfen der DKE unter www.dke.de/stellungnahme abgerufen werden;
– oder in Papierform an den DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL),
10772 Berlin oder Saatwinkler Damm 42/43, 13627 Berlin.
Die Empfänger dieses Norm-Entwurfs werden gebeten, mit ihren Kommentaren jegliche relevanten
Patentrechte, die sie kennen, mitzuteilen und unterstützende Dokumentationen zur Verfügung zu stellen.
Nationales Vorwort
Dieses Dokument (prEN ISO 23418:2020) wurde vom Technischen Komitee ISO/TC 34 „Food products“ in
Zusammenarbeit mit dem Technischen Komitee CEN/TC 463 „Mikrobiologie der Lebensmittelkette“
erarbeitet, dessen Sekretariat von AFNOR (Frankreich) gehalten wird.
Das zuständige deutsche Normungsgremium ist der Arbeitsausschuss NA 057-01-06 AA „Mikrobiologie der
Lebensmittelkette“ im DIN-Normenausschuss Lebensmittel und landwirtschaftliche Produkte (NAL).
Um Zweifelsfälle in der Übersetzung auszuschließen, ist die englische Originalfassung beigefügt. Die
Nutzungsbedingungen für den deutschen Text des Norm-Entwurfes gelten gleichermaßen auch für den
englischen Text.
Aktuelle Informationen zu diesem Dokument können über die Internetseiten von DIN (www.din.de) durch
eine Suche nach der Dokumentennummer aufgerufen werden.
2
– Entwurf –
2020-09
Titel en: Microbiology of the food chain — Whole genome sequencing for typing and
genomic characterization of foodborne bacteria — General requirements
and guidance (ISO/DIS 23418:2020)
Inhalt
Seite
2
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
3
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Europäisches Vorwort
Dieses Dokument (prEN ISO 23418:2020) wurde vom Technischen Komitee ISO/TC 34 „Food products“ in
Zusammenarbeit mit dem Technischen Komitee CEN/TC 463 „Mikrobiologie der Lebensmittelkette“
erarbeitet, dessen Sekretariat von AFNOR gehalten wird.
Anerkennungsnotiz
Der Text von ISO/DIS 23418:2020 wurde von CEN als prEN ISO 23418:2020 ohne irgendeine Abänderung
genehmigt.
4
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Vorwort
ISO (die Internationale Organisation für Normung) ist eine weltweite Vereinigung nationaler
Normungsinstitute (ISO-Mitgliedsorganisationen). Die Erstellung von Internationalen Normen wird
üblicherweise von Technischen Komitees von ISO durchgeführt. Jede Mitgliedsorganisation, die Interesse an
einem Thema hat, für welches ein Technisches Komitee gegründet wurde, hat das Recht, in diesem Komitee
vertreten zu sein. Internationale staatliche und nichtstaatliche Organisationen, die in engem Kontakt mit
ISO stehen, nehmen ebenfalls an der Arbeit teil. ISO arbeitet bei allen elektrotechnischen Normungsthemen
eng mit der Internationalen Elektrotechnischen Kommission (IEC) zusammen.
Die Verfahren, die bei der Entwicklung dieses Dokuments angewendet wurden und die für die weitere Pflege
vorgesehen sind, werden in den ISO/IEC-Direktiven, Teil 1 beschrieben. Es sollten insbesondere die
unterschiedlichen Annahmekriterien für die verschiedenen ISO-Dokumentenarten beachtet werden. Dieses
Dokument wurde in Übereinstimmung mit den Gestaltungsregeln der ISO/IEC-Direktiven, Teil 2 erarbeitet
(siehe www.iso.org/directives).
Es wird auf die Möglichkeit hingewiesen, dass einige Elemente dieses Dokuments Patentrechte berühren
können. ISO ist nicht dafür verantwortlich, einige oder alle diesbezüglichen Patentrechte zu identifizieren.
Details zu allen während der Entwicklung des Dokuments identifizierten Patentrechten finden sich in der
Einleitung und/oder in der ISO-Liste der erhaltenen Patenterklärungen (siehe www.iso.org/patents).
Jeder in diesem Dokument verwendete Handelsname dient nur zur Unterrichtung der Anwender und
bedeutet keine Anerkennung.
Für eine Erläuterung des freiwilligen Charakters von Normen, der Bedeutung ISO-spezifischer Begriffe und
Ausdrücke in Bezug auf Konformitätsbewertungen sowie Informationen darüber, wie ISO die Grundsätze der
Welthandelsorganisation (WTO, en: World Trade Organization) hinsichtlich technischer Handelshemmnisse
(TBT, en: Technical Barriers to Trade) berücksichtigt, siehe www.iso.org/iso/foreword.html.
Dieses Dokument wurde vom Technischen Komitee ISO/TC 34, Food Products, Unterkomitee SC 9,
Microbiology erarbeitet.
Rückmeldungen oder Fragen zu diesem Dokument sollten an das jeweilige nationale Normungsinstitut des
Anwenders gerichtet werden. Eine vollständige Auflistung dieser Institute ist unter
www.iso.org/members.html zu finden.
5
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Einleitung
Next generation sequencing (NGS) bietet schnellen, kostengünstigen Zugang zu mikrobiellen Gesamtgenom-
sequenzen (WGS, en: Whole Genome Sequencing) im Hochdurchsatzverfahren und wird bei einer
wachsenden Zahl von Problemen in der Mikrobiologie von Lebensmitteln angewandt. WGS sind digitale
Darstellungen des biologischen Potentials zur Sequenzierung des Organismus bei Einzelbasenauflösung. Die
digitale Beschaffenheit der WGS-Daten ist eine Abkehr von der kontinuierlichen Variation der Phänotypen,
die routinemäßig in der Mikrobiologie von Lebensmitteln analysiert werden. Daher bietet WGS erhebliche
Vorteile gegenüber bestehenden Technologien (z. B. Serologie, Pulsfeld-Gelelektrophorese, phänotypische
Antibiotikaresistenz). WGS-basierte Analysen werden von Laboren für öffentliche Gesundheit verwendet,
um Ausbrüche zu erkennen und Mutationen, Gene und andere genetische Merkmale zur Charakterisierung
der Virulenz und des Überlebenspotentials nachzuweisen. Innerhalb der Lebensmittelindustrie besteht
Interesse an WGS, um bakterielle Isolate aus ausgegliederten Bestandteilen und umgebenden Flächen zu
charakterisieren, ihre Herkunft und Ökologie besser zu verstehen und die Verfahren zur Risikominderung zu
aktualisieren. Einige Unternehmen haben die Kapazitäten zur Erfassung und Analyse von WGS-Daten
geschaffen oder schaffen diese gerade. Andere werden sich an Drittlabore wenden, um diese
Dienstleistungen zu erbringen, wie sie es derzeit für andere mikrobiologische Analysen tun.
Gestrichener Text
Diese Norm soll sowohl für das Labor als auch für die bioinformatischen Komponenten der WGS und die
zugehörigen Metadaten für lebensmittelbedingte Mikroorganismen als Leitfaden dienen. Diese Norm soll auf
alle derzeit verfügbaren Technologien zur DNA-Sequenzierung mit kurzen und langen Reads anwendbar
sein. Sie darf zur Analyse von WGS-Daten mit proprietärer, Open Source- und kundenspezifischer Software
eingesetzt werden. Sie ist nicht zur Festlegung der Sequenzierungschemikalien, analytischen Verfahren oder
Software vorgesehen. Die Norm definiert Labor-, Daten- und Metadaten-Verwaltungspraktiken, um
sicherzustellen, dass Analysen eindeutig angegeben werden, transparent und für Anfragen zugänglich sind
sowie für unvorhergesehene Zwecke zur Verfügung stehen. Diese Norm soll Labore in die Lage versetzen,
ihre Managementsysteme für Qualität und technische Abläufe zu entwickeln. Kunden von Laboren und
Aufsichtsbehörden dürfen sie auch zur Anerkennung und Bestätigung der Kompetenz von Laboren nutzen.
6
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
1 Anwendungsbereich
Diese Internationale Norm legt Mindestanforderungen für die Generierung und Analyse von Daten der
Gesamtgenomsequenzierung (WGS) fest, die aus pathogenen Mikroorganismen aus Lebensmitteln
gewonnen werden. Diese Anforderungen gelten für jede Sequenzierplattform oder -chemie. Dieser Prozess
kann die folgenden Phasen umfassen:
c) Vorbereitung der genomischen DNA-Bibliothek, Sequenzierung und Beurteilung der Read-Qualität von
Rohdaten und deren Speicherung;
d) bioinformatische Analyse zur Bestimmung der genetischen Verwandtschaft, des genetischen Gehalts
und zur Vorhersage des Phänotyps sowie Validierung der bioinformatischen Pipeline;
e) die Erfassung von Metadaten und die Hinterlegung von Sequenzdaten in Repositorien und
2 Normative Verweisungen
Es gibt keine normativen Verweisungen in diesem Dokument.
3 Begriffe
Für die Anwendung dieses Dokuments gelten die folgenden Begriffe.
ISO und IEC stellen terminologische Datenbanken für die Verwendung in der Normung unter den folgenden
Adressen bereit:
3.1
Adaptersequenz
DNA mit einer bekannten Sequenz, die an das Ende eines DNA-Bibliotheksfragments angefügt wird, um den
Sequenzierungsprozess zu erleichtern (z. B. Annealing an eine Flusszelle)
3.2
Annotation
Prozess der Identifizierung von Genen und anderen Merkmalen der Genomassemblierung
3.3
Antibiogramm
Zusammenfassung der Ergebnisse antimikrobieller Anfälligkeitsprüfungen, die für einen spezifischen
Mikroorganismus durchgeführt wurden, üblicherweise in tabellarischer Form
3.4
Assembly
Ergebnis aus dem Prozess des Alignments und der Zusammenführung von Sequenzabschnitten (Reads) zu
größeren zusammenhängenden Sequenzen (Contigs)
7
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
3.5
Basenaufruf
Prozess, bei dem Nukleotide und Qualitätswerte Positionen in den Sequenzabschnitten zugewiesen werden
3.6
Bioinformatik
Erfassung, Speicherung und Analyse biologischer Sequenzdaten
3.7
bioinformatische Pipeline
einzelne Programme, Skripte oder miteinander verknüpfte Softwarekomponenten, wobei die Ausgabe eines
Programms als Eingabe für den nächsten Schritt der Datenverarbeitung verwendet wird
3.8
carry-over-Kontamination
Proben, die mit DNA aus zuvor sequenzierten Proben oder Stoffen, einschließlich EDTA, Phenol-Chloroform,
Protein, überschüssigen Salzen, kontaminiert sind
3.9
Chemical Entities of Biological Interest Ontology
ChEBI (en: Chemical Entities of Biological Interest Ontology)
Ontologie zur Beschreibung kleiner chemischer Verbindungen
3.10
Contig
zusammenhängendes Stück einer DNA-Sequenz, die sich aus der Assemblierung kleinerer, überlappender
DNA-Reads ergibt
3.11
kontrolliertes Vokabular
endlicher Vorrat von Werten, die die einzig zulässigen Werte für ein Datenelement darstellen
3.12
Abdeckung
durchschnittliche Häufigkeit, die jede Base in einem Genom sequenziert wird
3.13
Kreuzkontamination
Kontamination einer Probe (Bakterienisolat oder DNA) mit anderen Proben
3.14
DNA-Qualität
Angabe der DNA-Reinheit (frei von Polysacchariden, Kontaminanten und Enzyminhibitoren) und Integrität
(hohes Molekulargewicht mit geringen bis gar keinen Anzeichen auf Abbau)
3.15
DNA-Probe
Teil einer DNA, die aus einem Material extrahiert wird
3.16
Draft-Assemblierung
de novo-Assemblierung von Genomen, bestehend aus Contigs ohne implizite Reihenfolge, die üblicherweise
mit Hilfe der Gesamtgenom-Schrotschuss-Sequenzierung mit einer Short-Read-Technologie erzeugt werden
8
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
3.17
Umweltontologie
EnvO (en: Environment Ontology)
Ontologie zur Beschreibung von Umweltmerkmalen und Lebensräumen
3.18
FoodEx2-Ontologie
FoodEx2
genormtes System zur Klassifizierung und Beschreibung von Lebensmitteln, entwickelt von der
Europäischen Behörde für Lebensmittelsicherheit (EFSA)
3.19
Lebensmittel-Ontologie
FoodOn (en: Food Ontology)
Ontologie zur Beschreibung von Lebensmittelprodukten, Tierfutter und Lebensmittelverarbeitung
3.20
ontologisches Gazetteer (Ortsverzeichnis)
GAZ
Ontologie zur Beschreibung geographischer Orte
3.21
Index
Oligonukleotidsequenzen, die im Prozess der Bibliotheksvorbereitung verwendet werden, um DNA aus
spezifischen Proben zu markieren oder mit einem Barcode zu versehen, so dass mehrere Proben in einer
Sequenzierungsreaktion kombiniert (gemultiplext) werden können
3.22
Internationale Nukleotidsequenz-Datenbank-Zusammenarbeit
INSDC (en: International Nucleotide Sequence Database Collaboration)
Initiative, die von der DNA-Datenbank Japans (DDBJ), dem Europäischen Laboratorium für
Molekularbiologie, dem Europäischen Institut für Bioinformatik (EMBL-EBI) und dem Nationalen Zentrum
fur Biotechnologieinformation (NCBI) betrieben wird
3.23
ISO WGS-Slim
zusammenfassende Ontologie mit interoperablen Feldern und Begriffen bezüglich der Verwendung von WGS
für die Mikrobiologie von Lebensmitteln
3.24
Isolat
Population von Bakterienzellen in Reinkultur, die aus einer einzigen Kolonie stammen
3.25
k-mere
alle möglichen Sequenzen der Länge k, die in einer ganzen Genomsequenz enthalten sind
3.26
Bibliothek
Sammlung von genomischen DNA-Fragmenten aus einem einzigen Isolat zur Bestimmung der
Genomsequenz
3.27
Managementsystem
Qualitäts-, Verwaltungs- und technische Systeme, die den Betrieb einer Organisation regeln
Anmerkung 1 zum Begriff: In diesem Dokument bezieht sich „Organisation“ auf das „Labor“.
9
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
3.28
Mapping
Verwendung von Software für das Alignment von Sequenzabschnitten mit Referenzsequenzen
3.29
Metadaten
Daten, die andere Daten beschreiben und definieren
3.30
minimale Daten zum Abgleich
MDM (en: minimal data for matching)
Informationen, die zur Beschreibung der Probenquelle und -herkunft einer genomischen Sequenz
erforderlich sind, wie durch den Global Microbial Identifier [10] definiert und durch die Internationale
Nukleotidsequenz-Datenbank-Zusammenarbeit implementiert
3.31
minimale Hemmkonzentration
MHK
geringste Konzentration, die unter definierten In-vitro-Prüfbedingungen in einem vorgegebenen
Zeitintervall das Wachstum um einen vereinbarten Betrag verringert
3.32
Multilocus-Sequenztypisierung
MLST (en: multi-locus sequence typing)
Verfahren der Genomanalyse, bei der Nukleotidvarianten innerhalb vordefinierter Sätze von Loci, entweder
Kerngenomloci für cgMLST oder ganze Genomloci für wgMLST, identifiziert werden
3.33
N50
Länge (N), so dass Contigs von N oder länger die Hälfte der Basen in der Assembly umfassen
3.34
NCBITaxon Ontology
NCBITaxon
automatische Übersetzung der NCBI-Taxonomiedatenbank
3.35
NG50
Länge (N) der DNA, so dass Contigs von N oder länger die Hälfte der Basen im Genom umfassen
3.36
Open Biological and Biomedical Ontology Foundry
OBO Foundry
Sammlung von Ontologien, die von einer Gemeinschaft von Ontologie-Entwicklern erstellt wurden und die
sich zur Zusammenarbeit und zur Einhaltung gemeinsamer Grundsätze verpflichtet haben
3.37
Ontologie
kontrolliertes Vokabular, das in einer Hierarchie angeordnet ist, wobei die Begriffe durch logische
Beziehungen miteinander verbunden sind
10
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
3.38
Ontologie-Slim
Reihe von Ontologiefeldern und -begriffen, die als Teil einer bestimmten Sammlung kommentiert werden,
oft zu einem bestimmten Zweck, und die extrahiert werden können, um eine Datei zu erstellen, die sich von
der ursprünglichen Ontologie unterscheidet
3.39
Phred-Qualitätswert (Q) der Sequenz
Maß für die Wahrscheinlichkeit, dass eine Base an einer bestimmten Position falsch zugeordnet wird in der
Sequenz, die ausgedrückt wird als:
= 10 log10
Anmerkung 1 zum Begriff: Ein Wert von Q30 zeigt an, dass eine Wahrscheinlichkeit von 1 zu 1 000 besteht, dass eine
Base falsch zugeordnet ist (d. h. der Basenaufruf ist zu 99,9 % richtig).
3.40
Read
aus einem DNA- oder RNA-Fragment abgeleitete Nukleotidsequenz
3.41
Sequenz-Repository
Datenbank, in der WGS-Datensätze gespeichert und verwaltet werden
Anmerkung 1 zum Begriff: Ein öffentliches Repository ermöglicht den uneingeschränkten Zugang zu den Daten,
während ein privates Repository oder eines im Verbund den Zugang zu den Daten einschränkt.
3.42
Parallelproben der Sequenzierung, biologisch
Sequenzierung einer anderen Kolonie aus demselben Isolat, das aus demselben Probenmaterial gewonnen
wurde, um die biologische Variation zu bewerten
3.43
Parallelproben der Sequenzierung, technisch
Resequenzierung derselben biologischen Probe oder Bibliothek zur Bewertung der Sequenzvariation
aufgrund der Instrumentierung und des Protokolls
3.44
Serotyp
Klassifizierungsschema auf der Grundlage des antigenen Nachweises oder des sequenzbasierten Nachweises
von Genen, die Bakterienoberflächenmoleküle kodieren
3.45
Einzelnukleotid-Polymorphismus
SNP (en: Single Nucleotide Polymorphism)
SNV, die eine bestimmte Qualitäts- und/oder Frequenzschwelle überschreitet
3.46
Einzelnukleotid-Variante
SNV (en: Single Nucleotide Variant)
Unterschiede zwischen den Nukleotidzuständen an der gleichen genomischen Position von zwei oder mehr
Isolaten
11
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
3.47
Stamm
Nachkommen einer einzelnen Isolierung in Reinkultur, die in der Regel von einer einzigen Ausgangskolonie
auf einem festen Wachstumsmedium abstammen [1]
Anmerkung 1 zum Begriff: Ein Stamm darf als ein Isolat oder eine Gruppe von Isolaten angesehen werden, die sich von
anderen Isolaten derselben Gattung und Art durch phänotypische und genotypische Merkmale unterscheiden lassen.
3.48
Validierung
Ermittlung der Leistungskenngrößen eines Verfahrens und Bereitstellung eines objektiven Nachweises, dass
die Leistungsanforderungen für eine festgelegte vorgesehene Anwendung erfüllt sind
3.49
validierte Dateneingabe
automatisierter Prozess, der sicherstellt, dass die in ein Repository eingegebenen Daten korrekt sind
3.50
Verifizierung
Nachweis, dass ein validiertes Verfahren bei der Anwendung durch den Anwender nach den in der
Validierungsuntersuchung (3.48) bestimmten Verfahrensspezifikationen funktioniert und gebrauchstauglich
ist
3.51
Gesamtgenomsequenzierung
WGS (en: Whole Genome Sequencing)
Prozess zur Bestimmung der DNA-Sequenz des Genoms eines Organismus unter Verwendung einer
genomischen Gesamt-DNA als Eingabe
4 Kurzbeschreibung
4.1 Allgemeines
Jede Organisation, die Proben handhabt, Sequenzierungen oder bioinformatische Analysen für die WGS-
Analyse durchführt, muss durch die Bereitstellung von Nachweisen belegen, dass eine ordnungsgemäße
Dokumentation der Probenherkunft, der Verfahren und der Qualitätskontrolle erfasst und zur
Nachverfolgung aufbewahrt wird.
Die WGS-Analyse pathogener Mikroorganismen aus Lebensmitteln besteht aus einer Bakterienkultur, einer
DNA-Isolierung in einem mikrobiologischen Labor, Sequenzierungsschritten in einer Sequenzierungs-
einrichtung und bioinformatischen Analysen, die in einer speziellen Computerumgebung durchgeführt
werden.
12
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
b) Genomische DNA wird aus Reinkulturen extrahiert, und idealerweise wird die Artidentität bestätigt.
c) Aus der genomischen DNA-Extraktion werden DNA-Bibliotheken hergestellt. Dieser Prozess sollte
Folgendes umfassen:
i) DNA-Fragmentierung;
e) Die vom Sequenzierungsinstrument erzeugten Qualitätsmetriken werden für jeden Lauf aufgezeichnet.
Pipelines für bioinformatische Analysen können sich auf In-silico-Vorhersagen des Phänotyps (z. B. Virulenz)
oder auf den Nachweis von Clustern genetisch ähnlicher Isolate (d. h. gleicher Stamm, Sequenztyp oder
Serotyp) konzentrieren. Pipelines, die auf vergleichenden Ansätzen basieren, können verwendet werden, um
das Vorhandensein und die Zustände von Markern in rohen und assemblierten Sequenzierungsdaten zu
erkennen, um In-silico-Stamm- (z. B. Sequenztyp) und Phänotypvorhersagen zu machen.
Sequenzdaten für mehrere Isolate können mit SNP-, MLST- oder k-mer-Abstands-Analyseverfahren
analysiert werden, um Cluster eng verwandter Bakterien zu identifizieren. Die Ergebnisse dieser Analysen
können verwendet werden, um auf Beziehungen zwischen Isolaten zu schließen, die mit phylogenetischen
Bäumen und Dendrogrammen veranschaulicht werden können.
a) SNP-Analysen
Bei SNP-Analysen werden Reads auf eine Referenzsequenz abgebildet oder Reads zu Contigs assembliert, die
verglichen werden. Zur Bestimmung von SNPs werden SNVs qualitätsgefiltert, um SNP-Positionen zu
identifizieren.
b) MLST-Analysen
Für MLST-Analysen werden die Reads assembliert oder abgebildet. Die Zielloci werden identifiziert,
qualitätsgefiltert und mit einer kuratierten cgMLST- oder wgMLST-Datenbank verglichen.
Sequenzdaten für mehrere Isolate können mit k-mer-Abstandsverfahren analysiert werden, um Cluster
verwandter Bakterien zu identifizieren. K-mer-Analysen haben den Vorteil, dass sie sehr schnell sind, weisen
aber einige Einschränkungen auf, insbesondere in Bezug auf die Präzision. (D. h. sie sind bei der
Artbestimmung anwendbar, werden aber nicht für detaillierte Quellennachweisanalysen von eng
verwandten Stämmen empfohlen.)
Für alle Sequenzen müssen Metadatensätze erstellt und sicher gespeichert werden. Sequenzdaten und
entsprechende Metadaten sollten konsistent formatiert und dokumentiert werden. Diese Metadaten können
nach alleinigem Ermessen des Eigentümers der Metadaten freigegeben werden. Daten und die
entsprechenden Metadaten müssen Sicherheitserwägungen, Kosten und Nutzen, gesetzlicher Haftung,
13
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Zur Förderung von bewährten Verfahren für die Datenverwaltung [3] bietet diese Norm optionale
Metadaten-Berichtsformate, die auf einen gemeinschaftlichen Datenstandard abgestimmt sind (z. B.
Ontologien für MDM oder OBO Foundry). Diese Formate und Normen erleichtern die Reproduzierbarkeit
und das gemeinsame Verständnis der Terminologie. Zur Formatierung und Bereitstellung von Werten für die
empfohlenen Metadatenfelder wurde eine ISO WGS Slim erstellt. WGS und ausgewählte Metadaten können
in eine öffentlich zugängliche Datenbank übertragen (hochgeladen) werden.
Der gesamte WGS-Workflow muss validiert werden, um sicherzustellen, dass die Verfahren für den
bestimmungsgemäßen Gebrauch geeignet sind.
5 Allgemeiner Laborleitfaden
5.2 Laborumgebung
Luftbewegungen, Vibrationen, Temperatur und Feuchtigkeit können die Leistung vieler Sequenzer
beeinträchtigen und sollten bei der Platzierung der Geräte im Labor berücksichtigt werden. Labore sollten
den Leitfaden des Sequenziergeräteherstellers zur Vorbereitung des Standorts als Orientierungshilfe
konsultieren.
Im Falle einer falschen Kennzeichnung oder Kontamination von Proben muss die Grundursache für Fehler in
der Sequenzierung untersucht werden:
i) Sicherstellung, dass Läufe, die falsch gekennzeichnete Proben oder mit mehreren Stämmen
kontaminierte Proben enthalten, nicht für bioinformatische Analysen verwendet oder in Datenbanken
hochgeladen werden; und
ii) Umsetzung von Maßnahmen zur Aufrechterhaltung der Qualität und zur Verhinderung des erneuten
Auftretens von Fehlern.
ANMERKUNG Falsche Kennzeichnung und/oder Kontamination von Proben oberhalb von Schwellenwerten, die
bestimmt wurden, um die Ergebnisse bioinformatischer Analysen zu beeinflussen, sind kritische Fehler, die eine weitere
Verwendung der betroffenen Daten untersagen sollten.
14
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Die Informationen zu Proben müssen mit einem LIMS oder einem ähnlichen System zur Dokumentation und
Verfolgung von Informationen erfasst werden.
Labore sollten Aufzeichnungen führen, die die Aus- und Fortbildung sowie die Eignung der Personen
dokumentieren, die Sequenzierungs- und bioinformatische Analysen durchführen, sowie Richtlinien zur
Aufbewahrung von Proben.
Das Labor sollte seine Leistung durch Vergleich mit den Ergebnissen anderer Labore überwachen, sofern
diese verfügbar und angemessen sind. Diese Überwachung sollte geplant und überprüft werden und u. a.
eine der folgenden Maßnahmen umfassen:
ii) jährliche Teilnahme an Vergleichsprüfungen zwischen Laboren mit Ausnahme von Eignungsprüfungen;
iii) jährliche Verifizierung des Analyseprozesses durch Einführung von Blindproben oder Proben, deren
Merkmale dem Bearbeiter nicht bekannt sind.
Die Daten aus diesen Überwachungstätigkeiten sollten analysiert, zur Kontrolle und gegebenenfalls zur
Verbesserung der Tätigkeit des Labors verwendet werden. Wenn sich herausstellt, dass die Ergebnisse der
Analyse von Daten aus diesen Überwachungstätigkeiten außerhalb der vordefinierten Kriterien liegen,
sollten geeignete Maßnahmen ergriffen werden, um zu verhindern, dass falsche Ergebnisse verwendet
werden.
6 Laborbetrieb
Jegliches zu sequenzierende Material (bakterielles Isolat oder extrahierte genomische DNA) sollte so
gehandhabt und gelagert werden, dass das Risiko des Probenabbaus, der falschen Kennzeichnung und
Kreuzkontamination minimiert wird.
6.2 Bakterienisolate
Bakterienisolate sollten mit Verfahren gelagert und kultiviert werden, die das Potential für die Einführung
genetischer Veränderungen (z. B. Verlust von Plasmiden oder Polymorphismen, die durch die Kultur und
Passage eingeführt werden) minimieren. Bakterienisolate sollten wegen der Möglichkeit der Einführung
genetischer Veränderungen nicht länger als zwei Wochen auf Agarplatten oder im Stabformat (bei 4 °C bis
25 °C) gelagert werden. Wenn Proben in dieser Form länger als zwei Wochen aufbewahrt werden, sollte dies
in den Metadaten der Probe vermerkt werden. Wenn das Labor ein Bakterienisolat erhält, muss das Labor
die Reinheit des Isolats sicherstellen und idealerweise die Spezies bestätigen, bevor weitere Schritte
durchgeführt werden. Jede Probe sollte nicht mehr als fünf einzelnen Koloniepassagen unterzogen werden,
um die Einführung genetischer Veränderungen und Engpässe zu vermeiden. Wenn die Sorge besteht, dass
potentiell instabile Elemente (z. B. Plasmide) während der Passage aus einer Probe verloren gehen könnten,
sollten Sequenzen von zwei oder drei biologischen Parallelproben gesammelt werden. Die Anzahl der
einzelnen Koloniepassagen sollte vermerkt werden, wenn sie in den Metadaten der Probe größer als fünf ist.
Bakterienisolate sollten mit Verfahren wie dem Einfrieren als Glyzerinvorrat bei -80 °C archiviert werden.
15
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Wenn eine Isolierung bakterieller DNA erforderlich ist, sollte das Extraktionsverfahren für die Herstellung
von DNA geeignet sein, die für die Organismen und die verwendete Sequenzierplattform geeignet ist. Die
Isolierung bakterieller DNA wird durch eine Reihe von Faktoren beeinflusst, darunter Zellart (grampositiv
oder -negativ), Wachstumsphase (früh-, mittel-, spät-logarithmisch oder -stationär) und Nährmedium. Die
Quantität und Qualität der DNA sollte beurteilt und dokumentiert werden.
ANMERKUNG Die Lagerungsbedingungen werden die DNA-Integrität und die Vorbereitung der Bibliothek für
bestimmte Sequenziertechnologien beeinflussen. Verschiedene Sequenzierplattformen haben unterschiedliche
Anforderungen an DNA-Quantität, -Qualität und -Integrität. Wenn ein Isolierungskit verwendet wird, kann die DNA bis
zum Abschluss der Analyse nach den Anweisungen des Herstellers aufbewahrt werden. Die Vorbereitung von Einweg-
DNA-Aliquoten kann dazu beitragen, Kreuzkontaminationen und wiederholtes Auftauen der Probe zu verhindern.
Das Labor sollte das vom Hersteller empfohlene Protokoll befolgen. Die Verfahren dürfen für spezifische
Bedürfnisse angepasst werden, aber alle Änderungen müssen vollständig dokumentiert und validiert
werden.
ANMERKUNG 1 Größenauswahlverfahren, die bei einigen Verfahren zur Vorbereitung der Bibliothek verwendet
werden (z. B. beim Aufbau von Einzelmolekül-Echtzeitbibliotheken mit großformatigem Einsatz (> 2 kb)), können zum
Verlust kleiner Plasmide führen.
ANMERKUNG 2 Bei der PCR-Anreicherung von Bibliotheken ist Vorsicht geboten, da dies unter Umständen zu einer
Verringerung der Komplexität der Bibliothek und zu einer Verringerung der Anzahl der verschiedenen DNA-Moleküle in
der Vorbereitung führen kann. Die Bibliothekskomplexität kann auch durch die Menge an DNA-Ausgangsmaterial oder
die Menge an DNA, die während der Aufreinigungsschritte der Bibliotheksvorbereitung verloren geht, beeinflusst
werden. Die Komplexität von Bibliotheken kann mit dem Verfahren von Daley und Smith geschätzt werden [2].
Besteht die Möglichkeit, dass Bibliotheken wieder verwendet werden, so sind die Bibliotheken nach den
Empfehlungen des Herstellers aufzubewahren. Das Labor muss das verwendete Rückverfolgbarkeits-
verfahren (d. h. Barcode oder gleichwertig), die verwendete Sequenzierungsplattform, den Betreiber, der die
Bibliothek hergestellt hat, das Datum der Herstellung der Bibliothek und die Chargeninformationen für
den/die verwendeten Kit(s) dokumentieren. Das Multiplexen von Proben erfordert die Auswahl und
Zuweisung von Barcodes zur Identifizierung einzelner Proben und wird üblicherweise in einem Arbeitsblatt
dokumentiert, um die Zuordnung von Sequenzdaten zu den richtigen Metadaten zu ermöglichen. Wenn alle
gemultiplexten Proben derselben Bakteriengattung angehören (z. B. alle Salmonellen), sollten Schritte
unternommen werden, um sicherzustellen, dass äquimolare DNA-Eingaben verwendet werden (d. h.
Bibliotheksnormalisierung) und dass die korrekte Sequenz mit den entsprechenden Metadaten verknüpft
ist. Wenn die gemultiplexten Proben mehrere Gattungen repräsentieren, müssen die geschätzte Erfassung,
die Genomgröße und die Größe der Bibliotheksfragmente bei der Schätzung der für jede Probe
aufzunehmenden DNA-Menge berücksichtigt werden.
6.4.1 DNA-Sequenzierung
Sequenzierinstrumente müssen nach den Empfehlungen des Herstellers oder anderer Experten betrieben
und gewartet werden, und die Dokumentation der Instandhaltungsverfahren muss gepflegt werden.
Plattformspezifische Sequenzierungsmetriken (z. B. Clusterdichte, Anzahl der Reads, durchschnittliche
Basenqualität usw.) müssen für jeden Sequenzierungslauf aufgezeichnet und überwacht werden.
16
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Beim Umgang mit einem Bakterienisolat und einem DNA-Extrakt sollte das Labor eine Wasserleerprobe
oder eine unbeimpfte Bouillon als Negativkontrolle während der DNA-Extraktion verwenden, um eine
mögliche Kreuzkontamination zu beurteilen. Eine positive Extraktionskontrolle zur Beurteilung der Effizienz
des Verfahrens kann nach Bedarf einbezogen werden. Wenn die Vorbereitung der Bibliothek Multiplexing
und PCR-Amplifikationsschritte umfasst, wird dringend empfohlen, sowohl Positiv- als auch
Negativkontrollen einzuschließen. Es wird auch empfohlen, stets denselben DNA-Extrakt für die
Positivkontrolle zu verwenden, um Vergleiche der Sequenzierungsqualität von Lauf zu Lauf zu ermöglichen.
ANMERKUNG Empfehlungen für die Verwendung von Positiv- und Negativkontrollen sind in Anhang A3 enthalten.
Der Basenaufruf sollte mit einer für das Instrument und die Sequenzierchemie spezifischen Software
durchgeführt werden. Metriken können auf Laufebene und auf Probenebene definiert werden. Metriken
müssen dokumentiert werden, um die Qualität der Sequenzrohdaten zu bewerten. Dazu könnten das
Einsatzformat, die Verteilung der Sequenzlänge, die Anzahl der Reads und eine Beurteilung der Basen-
zusammensetzung (d. h. AT/GC-Bilanz oder TAGC (taxon annotated GC-coverage)-Plot oder -Äquivalent)
gehören. Qualitätswerte, Read-Länge und Taxonomieprüfung sollten als erste Überprüfung der
Sequenzierungsleistung verwendet werden (siehe auch Teil 7.3). Die durch Mapping errechnete Erfassung,
die auf eine de novo-Assemblierung oder ein geeignetes Referenzgenom zurückgelesen wird, sollte ebenfalls
bewertet werden.
Die Qualität und Quantität der DNA-Sequenz-Lesequalität und -quantität wirkt sich auf die nachgelagerte
Assemblierung, die Lesekartierung und die Fähigkeit zur Nutzung von WGS-Daten für die bakterielle
Herkunftsverfolgung und Genomcharakterisierung aus. Zu den Sequenzierungsartefakten, die sich auf
nachgelagerte Analysen auswirken können, gehören unter anderem plattformspezifische Fehlerprofile,
Schwankungen in den Qualitätswerten über die Sequenzabschnitte, Verzerrungen der Sequenzdaten
aufgrund der Basenzusammensetzung, Abweichungen von der optimalen Größe der Bibliotheksfragmente
und Kontamination durch bekannte und unbekannte Spezies, die nicht das Sequenzierungsziel darstellen.
ANMERKUNG Allgemeiner Leitfaden für die Entwicklung von Qualitätsmetriken sind in den Anhängen A1 und A2
enthalten.
Das Labor muss eine Richtlinie für die Lagerung und Aufbewahrung von Prüfkörpern, DNA-Proben,
DNA-Bibliotheken und Sequenzierungsdaten dokumentieren.
7 Bioinformatische Datenanalyse
Bioinformatische Pipelines sollten vor der Verwendung für die Datenanalyse validiert werden (siehe
Abschnitt 10.1.2). Pipeline-Entwickler sollten Prüfdatensätze mit ihrer Software vertreiben. Anwender
sollten sicherstellen, dass die Pipelines korrekt installiert sind, indem sie die Prüfdatensätze analysieren und
prüfen, ob die erwarteten Ergebnisse erzeugt werden. Die Hauptkomponenten von bioinformatischen
Pipelines (z. B. Aligner, Variantenaufrufer, Open-Reading-Frame-Nachweis) sollten vorzugsweise in Arbeiten
beschrieben werden, die in wissenschaftlichen Fachzeitschriften veröffentlicht werden. Die intern
entwickelten Verfahren sollten vollständig validiert werden. Software sollte unter Anwendung von
Verfahren der Software-Qualitätskontrolle und -Qualitätssicherung entwickelt und gewartet werden.
17
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Alle datenanalytischen Schritte und Analysen sollten protokolliert und dokumentiert werden. Es sollte ein
Plan zur Aktualisierung der bioinformatischen Pipeline entwickelt und umgesetzt werden, sobald
Aktualisierungen der Software-Komponenten verfügbar werden. Die Auswirkungen der Aktualisierung der
Softwarekomponenten sollten evaluiert und dokumentiert werden. Möglicherweise ist eine erneute
Validierung erforderlich (siehe Abschnitt 10.1.2). Wenn Datensätze übertragen werden, sollte die
Datenintegrität vor und nach der Übertragung überprüft werden (z. B. anhand der MD5-Prüfsumme).
Ausnahmeprotokolle sollten verwendet werden, um Abweichungen von SOPs während einzelner
bioinformatischer Analysen zu dokumentieren, z. B. dass die SOP nicht wie beschrieben befolgt wurde.
7.3 Qualitätsbeurteilungen
Die Qualität der Sequenzdaten sollte nach Abschluss des Sequenzierungslaufs beurteilt und dokumentiert
werden. Qualitätsmetriken sollten plattformspezifisch sein (siehe Anhang A1 und A2). Die Anwender sollten
ihre Spezifikationen für die Qualitätsbeurteilungsparameter festlegen und aufzeichnen. Zu den Kriterien, die
zur Beurteilung der Sequenzqualität für ein Isolat verwendet werden, können gehören:
— durchschnittlicher Qualitätswert und Anzahl der Basen, die über einem bestimmten Qualitätsschwellen-
wert liegen;
Bei bioinformatischen Pipelines zur Assemblierung sollte die Qualität der Assemblierung vor Beginn der
Analysen bewertet werden. Als allgemeine Indikatoren für die Qualität der Assemblierung werden die
folgenden Maßnahmen empfohlen:
— Die Lesetiefe muss ausreichend sein, um sicherzustellen, dass Varianten in der Assembly zuverlässig
nachgewiesen werden können.
— Anzahl der Contigs. Bei Draft-Assemblierungen kann es unter Umständen erforderlich sein, eine
niedrige Abdeckung und/oder kleine Contigs zu entfernen, bevor die Anzahl der Contigs angegeben
wird.
— Die Gesamtlänge aller Contigs oder Scaffolds sollte in etwa der bekannten Genomgröße des
Zielorganismus entsprechen.
Labore sollten in Sequenzierungsdaten auf Kontamination prüfen und Grenzwerte festlegen, die für
spezifische Anwendungen geeignet sind. Diese Kontaminationen können von einer anderen Spezies/Gattung
oder von der gleichen Art stammen. Zu den empfohlenen Verfahren gehören unter anderem eine oder
mehrere der folgenden Verfahren:
— Berechnung der durchschnittlichen Nukleotididentität (ANI, en: average nucleotide identity) von
Sequenzdaten;
18
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Wenn Ergebnisse von nicht-WGS-phänotypischen oder molekularen Prüfungen für ein bakterielles Isolat
vorliegen, dürfen sie mit WGS-Befunden verglichen werden, um die Konsistenz der genomischen
Vorhersagen zu bewerten. Beispiele hierfür sind u. a.
— Serotyp,
7.4 SNP-Analysen
Für SNP-Analysen kann entweder eine genetisch ähnliche Draft-Assemblierung oder eine fertige
Genomsequenz als Referenz verwendet werden [3]. Referenzsequenzen sollten vor der Analyse kuratiert
werden (z. B. durch Entfernen kleiner Contigs oder Contigs mit geringer Abdeckungstiefe), wie es für
bestimmte Anwendungen erforderlich ist. SNVs sollten mit Hilfe von Qualitätswerten, Abdeckungstiefe,
Dichte und Maskierung hochvariabler Regionen gefiltert werden, je nach Anwendung, um Fehler zu
reduzieren, die durch Sequenzierungs- und Alignment-Artefakte, InDels (Insertionen/Deletionen),
Strukturvarianten, Rekombination und mobile genetische Elemente verursacht werden. Die zur
Identifizierung der SNP-Positionen verwendeten Filterbedingungen sollten dokumentiert werden.
ANMERKUNG Die Analyse von Vergleichs- und simulierten Datensätzen kann dazu beitragen, falsch-positive und
falsch-negative Ergebnisse für SNP-Pipelines zu ermitteln.
Das Referenzgenom sollte den Sequenzen der Prüfpersonen genetisch ähnlich sein, da die Falsch-Positiv-
Rate für die SNP-Identifizierung mit zunehmendem genetischen Abstand zur Referenz tendenziell
zunimmt [13]. Anwender sollten angeben, was als „genetisch ähnlich“ betrachtet wird.
Die Kriterien für das Hinzufügen oder Entfernen von Allelen oder Loci aus cgMLST- oder wgMLST-
Datenbanken sollten klar definiert werden. Wenn MLST-Allelen-Bestimmungen mit assemblierten Genomen
durchgeführt werden:
— dasselbe Genom-Annotationsverfahren sollte bei der Generierung von Datenbanken und bei
nachfolgenden Analysen verwendet werden; und
— es sollten Mindestqualitätsstandards für die Assemblierung festgelegt werden, wie z. B. der Prozentsatz
der detektierten Kernloci.
— Kriterien für die SNP- und InDel-Identifizierung (z. B. Alignment-Tiefe, minimale prozentuale
Abdeckung der Loci, Anzahl der zulässigen Diskrepanzen usw.) sollten dokumentiert werden; und
19
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
— Die Qualitätskriterien hängen von der Gattung ab. Bei der Erstellung eines proprietären Schemas ist
Vorsicht geboten. Loci mit einzelnen Allelen und solche mit hoher Längenvariabilität sollten entfernt
werden.
Datenbanken, die zur Detektion von Zielgenen verwendet werden, z. B. Virulenzgen, Antibiotikaresistenzgen,
Serotyp usw., sollten unter Angabe der Versionsnummer dokumentiert werden. Die Kriterien, anhand derer
entschieden wird, ob das Zielgen vorhanden ist oder nicht, sollten klar definiert werden (z. B. prozentuale
Abdeckung und prozentuale Identität).
Metriken und Protokolldateien sollten aufbewahrt werden und Text enthalten, der Folgendes beschreibt:
e) Zeitstempel; und
d) durchschnittliche Alignmenttiefe.
20
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Ergebnisse aus bioinformatischen Pipelines sollten im Zusammenhang mit Informationen zu Metadaten über
die Herkunft von Isolaten und zur Epidemiologie (d. h. Rückverfolgungsinformationen) interpretiert werden.
Schwellenwerte, die für einen Zweck (z. B. Klonausbrüche) festgelegt wurden, sollten nicht für die
Interpretation verschiedener Zwecke (z. B. persistente oder residente Krankheitserreger) verwendet
werden [14].
Die Diversität der Isolate sollte bei der Interpretation von Dendrogrammen oder Allel-/SNP-Unterschieden
berücksichtigt werden. Einige Abstammungslinien dürfen geklont sein. In diesen Fällen können wenige
Unterschiede Ausbrüche/Cluster führen. Andere Abstammungslinien haben eine größere Vielfalt. Im
Allgemeinen ist bei Kontaminationsereignissen mit einer einzigen Punktquelle, die über einen kurzen
Zeitraum auftreten, nur mit sehr wenigen genetischen Veränderungen zu rechnen. Bei großflächigen
Kontaminationsereignissen können größere Unterschiede beobachtet werden.
Die folgenden Informationen sollten in den Berichten enthalten oder auf Anfrage erhältlich sein:
e) Interpretation und Schlussfolgerungen der Ergebnisse des genomischen Vergleichs, falls Teil des
Antrags.
8 Metadaten
8.1 Allgemeines
Die Organisation muss eine Richtlinie für die Erfassung von Metadaten verabschieden. Metadaten in privaten
Repositorien sollten so detailliert wie möglich sein, aber der Grad der Detailliertheit liegt im Ermessen des
Anwenders. Wenn es gestattet ist, dürfen Metadaten mit Partnern geteilt werden und bis zu einer
Granularitätsebene abstrahiert werden, die den Richtlinien der Organisation für den Datenaustausch
entspricht.
Die Empfehlungen zu Struktur und Inhalt der Metadaten in diesem Standard sollen die Interoperabilität und
den Nutzen von Metadaten bei Vergleichen zwischen verschiedenen Datenbanken gewährleisten. Die
Empfehlungen zu Metadaten sollen auch dazu dienen, die Daten so zu strukturieren, dass sie für
unvorhergesehene Nutzungen zugänglich sind (Zukunftssicherheit). Der hier definierte Ansatz zur Normung
von Metadaten erfasst Informationen über Labore und Laborprozesse, Produktionsumgebungen,
Lebensmittelerzeugnisse und Lebensmittelverarbeitung sowie bioinformatische Prozesse und Qualitäts-
kontrollmetriken. Die Norm ist flexibel gestaltet, da einige interessierte Parteien mehr, andere weniger
spezifische Informationen erfassen werden.
21
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
8.2.1 Ontologien
Ontologien kodieren die Berechnungslogik, die von Softwaresystemen verwendet werden kann, um die
Automatisierung und komplexere Abfragen zu verbessern [4], [5]. Die hierarchische Struktur der Ontologien
ermöglicht bessere Vergleiche von Informationen auf verschiedenen Granularitätsebenen [4], [5].
Die ISO WGS-Slim enthält genormte Felder und Begriffe, die von bestehenden Ontologien und anderen
Gemeinschaftsstandards abgeleitet sind (z. B. INSDC Minimal Data for Matching (MDM) und Antibiogramm-
Standards) [6]. Die Felder geben die für die Erfassung empfohlenen Informationsarten an, während die
Begriffe als mögliche Werte dienen, die zum Befüllen der Felder verwendet werden können. Die
ISO WGS-Slim enthält auch synonyme Begriffskennzeichnungen verschiedener Organisationen (z. B.
FoodEx2 [7]), um eine bevorzugte Verwendung von Vokabular zu vermeiden und die Interoperabilität und
Datenharmonisierung zu erleichtern.
Die ISO WGS-Slim kann zur Formatierung und Bereitstellung von Werten für die in den Tabellen 2, 3 und 4
und den Anhängen B bis H beschriebenen Metadatenfelder verwendet werden. Geographische,
taxonomische, Lebensmittel- und Verarbeitungs-, Umwelt- und Arzneimittelfelder in dieser Norm, die ein
umfangreicheres Vokabular erfordern, können mit FoodEx2 und den Ontologien GAZ, NCBITaxon, FoodOn,
EnvO und CheBI [5], [6], [7] bereitgestellt werden.
Die ISO WGS Slim kann in Tabellenkalkulationen mit Metadaten und Informationsmanagementsystemen
implementiert werden. Weitere Anweisungen sind in Anhang I enthalten.
Die Metadatenfelder in den Tabellen 2, 3 und 4 sind allgemein, und einige erfordern zusätzliche detaillierte
Felder, um die Informationen zu strukturieren und die Verwendung von Freitext zu minimieren. Diese
zusätzlichen Felder werden in den Anhängen B bis H beschrieben.
Jedes Feld in den Tabellen und Anhängen enthält eine Definition, eine bestimmte Rolle bei der Datenanalyse
oder -harmonisierung und spezifische Formatierungsempfehlungen. Werte für einige Felder (z. B. Lebens-
mittelerzeugnis) können durch die Implementierung der ISO WGS-Slim bereitgestellt werden, Werte für
andere Felder (z. B. Datum) können durch eine validierte Eingabe eingeschränkt werden, während andere
Felder als Freitext bereitgestellt werden können.
Die mit dieser Norm formatierten Metadaten sind mit den INSDC-Datenstandards kompatibel. Ein Leitfaden
zur Vorbereitung von Metadaten für die Einreichung bei öffentlichen INSDC-Repositorien ist in Anhang H
(siehe Abschnitt 9) enthalten.
Die Felder in Tabelle 2 können zur Erfassung von Metadaten im Zusammenhang mit der Probenahme
verwendet werden. Zusätzliche Felder sind in Anhang B und C enthalten.
22
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Die Felder in Tabelle 3 können zur Erfassung von Metadaten im Zusammenhang mit dem Isolat verwendet
werden. Zusätzliche Felder sind in Anhang B, D, E und F enthalten.
Die Felder in Tabelle 4 können zur Erfassung von Metadaten im Zusammenhang mit der Sequenz verwendet
werden. Zusätzliche Felder sind in Anhang B und G enthalten.
9 Sequenz-Repositorien
Genomische Sequenzdaten müssen in einem genormten bioinformatischen Dateiformat zur Verwendung in
bioinformatischen Pipelines verfügbar sein. Die Betreiber müssen Verfahren implementieren, um zu
überprüfen, ob die Metadaten und die Sequenz korrekt zugeordnet sind, um die referentielle Integrität zu
erhalten. Die Betreiber privater Repositorien müssen Fehler korrigieren, wenn sie erkannt werden, die
Datensätze mit diesen Fehlern in öffentlichen Repositorien aktualisieren und WGS-Datensätze entfernen,
wenn die referentielle Integrität nicht überprüft werden kann.
WGS-Daten und ausgewählte Metadaten dürfen in eine öffentlich zugängliche Datenbank übertragen
(hochgeladen) werden. Organisationen müssen unter Umständen Metadaten vor der Einreichung bei
öffentlichen Repositorien transformieren, damit keine Details oder identifizierbare Informationen
preisgegeben werden. Metadaten, die nach den Tabellen und Anhängen dieser Norm bereitgestellt werden,
können so formatiert werden, dass sie die MDM-Anforderungen für die Übermittlung mikrobieller
Sequenzen an öffentliche INSDC-Repositorien erfüllen. Weitere Anweisungen sind in Anhang H enthalten.
10.1 Validierung
Die Leistungsmerkmale von WGS-basierten Verfahren sind für den bestimmungsgemäßen Gebrauch
festzulegen. Die Validierung des WGS-Workflows kann für die verschiedenen Komponenten getrennt
durchgeführt werden (siehe Tabelle 1). Letztendlich muss jedoch der gesamte Workflow validiert worden
sein. Die Validierung wird den Nachweis erbringen, dass das Verfahren wiederholbar, reproduzierbar und
genau ist.
Die Validierung des Laborbetriebs kann je nach Arbeitsablauf im Labor von der Kultur bis zur
DNA-Sequenzierung und allen Phasen dazwischen reichen. Validierungsparameter und Annahmekriterien
für verschiedene Phasen sind in Tabelle 1 beschrieben.
Die Leistung von bioinformatischen Pipelines sollte auf jeder geeigneten Ebene der Analyse beurteilt werden
(Tabelle 1). Bioinformatische Pipelines dürfen unter Verwendung verschiedener Arten von Datensätzen
evaluiert und/oder validiert werden. Die Validierung kann Probendaten umfassen, die im Ursprungslabor
unter Verwendung eines spezifischen WGS-Workflows zusammen mit Standard-(Benchmark)-Datensätzen
und/oder simulierten Datensätzen erzeugt wurden.
a) Standarddatensätze (oder Benchmark-Sätze) sind Fälle, in denen die Herkunft, der Phänotyp und/oder
die epidemiologische Beziehung der Isolate bekannt sind und die Sequenzdaten öffentlich zugänglich
gemacht wurden. Standarddatensätze können für den Vergleich der Ergebnisse verschiedener
bioinformatischer Pipelines nützlich sein. Der Nutzen von Standarddatensätzen bei der Erstellung
gebrauchstauglicher Arbeitsabläufe kann begrenzt sein, es sei denn, sie wurden mit demselben
23
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
i) Gen-FS Project - L. monocytogenes, S. enterica ser. Bareilly, E. coli, und C. jejuni sind verfügbar unter
https://github.com/WGS-standards-and-analysis/datasets
ii) BioProject PRJNA252728 (NCBI) vom National Institute of Standards and Technology (NIST)
Validierungsdatensätze sollten aus Daten von Zielbakterienarten bestehen, die die Komplexität und Fehler
repräsentieren, die üblicherweise bei bestimmungsgemäßem Gebrauch auftreten. Validierungsdatensätze
sollten potentiell konfundierende Isolate enthalten, wie z. B. Genomsequenzen, die entweder sehr eng oder
entfernt mit dem Zielbakterium verwandt sind. Die Datensätze dürfen auch mehrere Arten umfassen.
Zusätzlich können Daten mehrerer Arten oder Stämme in einer einzigen Datei verwendet werden, um die
Fähigkeit zur Detektion von Kreuzkontaminationen zu validieren. Annehmbare Bedingungen müssen auf der
Grundlage von Leistungszielen festgelegt und je nach Anwendung dokumentiert werden, z. B:
— Genauigkeit der Stamm- oder Artvorhersagen, Bewertung der Verwandtschaft in Übereinstimmung mit
bekannten epidemiologischen Informationen.
Validierungsdatensätze müssen mit der bioinformatischen Pipeline analysiert und die Ergebnisse anhand
der festgelegten Leistungsziele und Annahmekriterien beurteilt werden (siehe Tabelle 1). Berichte, die die
Validierungsergebnisse beschreiben, sollten ausreichen, um die Analysen zu replizieren. Jede größere
Änderung in den bioinformatischen Pipelines muss evaluiert und dokumentiert werden. Wenn eine größere
Auswirkung beobachtet wird, muss möglicherweise eine erneute Validierung durchgeführt werden.
Für jede WGS-Anwendung muss eine durchgehende Validierung erfolgen, wenn die Validierung eines der
Schritte innerhalb des WGS-Workflows (Tabelle 1) für die beabsichtigte Anwendung fehlt oder wenn die
Validierung des Laborbetriebs oder der bioinformatischen Analyse keine Probendaten umfasste
(siehe 10.1.2). Die Validierung des durchgehenden WGS-Workflows hilft bei der Festlegung von
Schwellenwerten für biologisch relevante Unterschiede gegenüber Unterschieden, die mit dem Kultur- und
Sequenzierungsprozess zusammenhängen. Die Validierung von WGS-Workflows durch Vergleich mit
historischen Goldstandards (Pulsfeld-Gelelektrophorese, 7-Gen-MLST, Phagentypisierung usw.) stellt eine
Herausforderung dar, da WGS eine höhere Auflösung der Daten bietet. Bakterienisolate, die früher identisch
24
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
oder nicht unterscheidbar waren, können jetzt messbare Unterschiede aufweisen. Je nach Anwendung
sollten geeignete Probengenomsequenz-Datensätze erstellt werden, d. h. es sollten Isolate ausgewählt
werden, die die Variabilität der Organismen repräsentieren, die für spezifische Anwendungen analysiert
werden sollen.
ANMERKUNG Metriken, die mit der Methodik verbunden sind und von Van Belkum et al. (2007) beschrieben
werden, können bei der Charakterisierung von Unterschieden zwischen eng verwandten Genomen nützlich sein [1]. Ein
Beispiel für die Validierung der Quellennachverfolgung auf der Grundlage dieser Metriken ist in Portmann et al.
(2018) [8] dargestellt. Ein Beispiel für die Validierungsstrategie, die sich speziell auf die erschöpfende
Charakterisierung der bioinformatischen Analyse eines WGS-Workflows konzentriert, wird in Bogaerts et al. 2019 [9]
dargestellt. Jede Stufe des Arbeitsablaufs sollte wie in Tabelle 1 beschrieben validiert werden.
10.2 Verifizierung
Die Verifizierung muss nachweisen, dass das ausführende Labor in der Lage ist, das validierte Verfahren für
eine bestimmte WGS-Anwendung korrekt einzusetzen. Die Verifizierung muss für den gesamten
Arbeitsablauf oder einen der Schritte innerhalb des Arbeitsablaufs durchgeführt werden (das Labor, das die
Laborvorgänge durchführt und/oder die Einheit, die die bioinformatische Analyse durchführt).
Das ausführende Labor muss innerhalb des Anwendungsbereichs objektiv nachweisen, dass das validierte
Verfahren in seinem Anwendungsbereich eingesetzt wird und dass die festgelegten Anforderungen erfüllt
sind. Bei anerkannten/normalisierten Verfahren (z. B. Verfahren, die in maßgeblichen Büchern,
wissenschaftlichen Fachzeitschriften, publizierten Normen, Anweisungen des internationalen Konsens oder
Vorschriften veröffentlicht wurden) ist keine Validierung, sondern nur eine Verifizierung erforderlich.
25
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Wenn handelsübliche oder bioinformatische Open-Source-Pipelines verwendet werden, die von ihren
Entwicklern validiert wurden, die Validierungsprüfungen veröffentlicht werden und die Validierungs-
datensätze öffentlich zugänglich sind, muss die Validierungsprüfung möglicherweise erst nach der
Installation der Software (teilweise) wiederholt werden. Hier können Prüfdatensätze verwendet werden, die
von den Pipeline-Entwicklern vertrieben werden. Die erfolgreiche Ausführung eines Prüfdatensatzes
bedeutet jedoch nicht notwendigerweise, dass eine bioinformatische Pipeline validiert oder einsatzbereit ist.
Mit Prüfdatensätzen kann überprüft werden, ob bioinformatische Pipelines und die damit verbundenen
Abhängigkeiten korrekt installiert sind und erwartungsgemäß funktionieren. Der Anwender muss die
Funktionalität der Pipeline nach den vorher festgelegten Parametern aufzeigen. Die Prüfdaten werden als
Eingabe für eine bioinformatische Pipeline verwendet, und die Ausgabe wird mit den erwarteten
Ergebnissen verglichen. Prüfdatensätze sind in der Regel klein (z. B. Lambda-Phagengenom) und werden mit
der Software oder Pipeline vertrieben. Wenn die Daten zu groß sind, um mit der Software gebündelt zu
werden, können die Zugangsnummern von Datenspeichern angegeben werden.
26
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
27
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
28
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Ergebnisse des Antibiogramms Berechenbare Vergleiche Wenn die Ergebnisse der Antibio-
von Antibiogrammen. gramme vorliegen, können die
Die minimalen Hemmkonzentrationen (Wert, Informationen entsprechend den
Einheit, Zeichen (<,>, =)) und die Feldern in Anhang E festgelegt
Resistenzphänotypen (resistent, sensitives werden.
Zwischenprodukt oder unbestimmt) des
sequenzierten Isolats im Vergleich zu Die Quelle der Breakpoints (und
verschiedene geprüfte Antibiotika. die Version), die für die Inter-
pretation/Klassifizierung der
MHK-Werte verwendet werden,
kann angegeben werden.
Verfahren der Antibiogramme Berechenbare Vergleiche Antibiogramm-Verfahren (falls
von Antibiogrammen. zutreffend) können entsprechend
Das Laborprotokoll zur Bestimmung von den Feldern in Anhang E festgelegt
Resistenzphänotypen und minimalen werden.
Hemmkonzentrationen von Antibiotika, die im
Vergleich zu ein Isolat geprüft werden. Das
Protokoll sollte die geprüften Antibiotika, die
Laborprüfverfahren und die Prüfnorm sowie
die für die Prüfung verwendeten
Kontroll-/Referenzstämme enthalten.
Ergebnisse des Virulenzfaktors Berechenbare Vergleiche Wenn die Ergebnisse der Virulenz
der Virulenz. vorliegen, können die
Die Virulenzfaktoren, deren Vorhandensein im Informationen nach den Feldern in
sequenzierten Isolat durch phänotypische oder Anhang F festgelegt werden.
Zielamplifikationsverfahren bestimmt wird,
z. B. Shiga-Toxine, Hämolysine.
Verfahren zur Prüfung des Virulenzfaktors Berechenbare Vergleiche Verfahren zur Virulenzprüfung
der Virulenz. (falls zutreffend) können
Das Laborprotokoll zur Bestimmung von entsprechend den Feldern in
Virulenzphänotypen und Markern. Anhang F festgelegt werden.
29
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
30
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Verfahren zur Filterung von Sequenzdaten Berechenbare Vergleiche Einbeziehen des Namens und der
von Methodiken und Version des/der Filterwerk-
Das Verfahren, mit dem Reads niedriger Qualitätslenkung. zeuge(s) und der angewandten
Qualität und nicht alignierbare Sequenzen aus Prozesse. Es wird empfohlen, dass
den Rohdaten der Sequenz entfernt werden. auch die Parameter aufgezeichnet
werden. Diese Informationen
können als Freitext zur Verfügung
gestellt werden.
Verfahren der Sequenzannotation Berechenbare Vergleiche Einbeziehen des Namens und der
von Methodiken und Version des Annotationswerk-
Das Verfahren oder der Algorithmus, das bzw. Qualitätslenkung. zeugs. Es wird empfohlen, dass
der verwendet wird, um Sequenzmerkmale auch die Parameter aufgezeichnet
(z. B. proteincodierende Regionen) in Sequenz- werden. Diese Informationen
daten zu identifizieren und zu erfassen. können als Freitext zur Verfügung
gestellt werden.
31
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
32
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Anhang A
(informativ)
Leitfaden
Prozess Bedenken Short-Read-Technologie Long-Read-Technologie
DNA- Kreuzkontamination, Bouillonkulturen sollten aus einer einzigen Kolonie des zu prüfenden Isolats
Extraktion Integrität der Proben begonnen werden.
Die DNA-Integrität ist entscheidend, insbesondere bei Long-Read-Technolo-
gien. Es sollte darauf geachtet werden, dass eine Fragmentierung der
genomischen DNA während der Vorbereitung und Lagerung (z. B. durch
Einfrieren/Auftauen) vermieden wird.
DNA- vorhandene Verunreini- Das Verhältnis der optischen Dichte (OD260/280) sollte 1,75 bis 2,05 und das
Qualität gungen, die den Aufbau Verhältnis (OD260/230) 2,0 bis 2,2 betragen.
der Bibliothek negativ
auswirken können
DNA mit niedrigem Mole- Extraktionsverfahren für genomische DNA sollten an die verwendete
kulargewicht kann sich Sequenzierplattform angepasst werden; die DNA-Integrität kann auf
negativ auf den Aufbau der Agarosegel oder durch Kapillarelektrophorese mit geeigneten
Bibliothek auswirken Größenstandards überprüft werden
DNA- eine unzureichende Ein- Die Eingabe der DNA-Menge sollte vor der weiteren Verdünnung sorgfältig
Quantität gabe genomischer DNA mit einem DNA-spezifischen, auf interkalierenden Farbstoffen basierendem
kann zu einer Sequenz- Fluoreszenz-Quantifizierungsverfahren bestimmt werden. Die Mindestmenge
bibliothek führen, die nicht hängt vom verwendeten Bibliothekskit/von der verwendeten Sequenzier-
der Norm entspricht technologie ab. Bei Änderungen sollte dies durch eine Validierung unterstützt
werden.
DNA-Frag- Eine suboptimale Die Größenverteilung von gescherten DNA-Proben sollte mit auf
mentierung Fragmentierung kann zu Kapillargelelektrophorese basierenden Systemen überprüft werden.
einer verringerten
Bibliotheksausbeute/ Die Probenbibliothek sollte Fragmente zwi- Die optimalen Fragmentgrößen
reduzierten Abdeckung schen 200 bp und 3 000 bp enthalten. Beim variieren je nach Long-Read-
führen. transposonbasierten Bibliotheksaufbau Sequenzierplattform und
kann die Fragmentverteilung nach der PCR Anwendung.
durch Kapillarelektrophorese verifiziert
werden.
DNA- Nach der Fragmentierung Dies kann mit Hilfe von Gelelektrophoreseansätzen oder perlenbasierten
Größen- kann die Auswahl eines Ansätzen erfolgen. Jede Größenauswahl sollte durch eine Validierung für jede
auswahl bestimmten Bereichs von der Arten, auf die sie angewandt wird, unterstützt werden.
Fragmenten wünschens-
wert sein, um die Quali- Die Größenauswahl erhöht die Qualität der Die Größenauswahl erhöht die
tät/Effizienz der Sequenz Sequenzierung, kann aber zu Lücken in der Qualität der Sequenzierung,
zu verbessern. Die Selek- Abdeckung des bakteriellen Genoms führen. könnte aber zu einem Verlust
tion kann unter Umstän- von kleinen Plasmiden führen.
den zum Verlust kleiner
Plasmide oder zu einer
Verzerrung der Sequenz-
abdeckung führen.
33
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Leitfaden
Prozess Bedenken Short-Read-Technologie Long-Read-Technologie
Ligation korrekte Zuordnung von Sicherstellen, dass die verwendeten Barcode-Indizes nur einmal im Sequen-
von Indizes Adaptersequenzen zu zierungslauf verwendet werden. Die verwendeten Indizes sind so abzu-
und geeigneten Proben wechseln, dass das gleiche eindeutige Indexpaar nicht in zwei aufeinander
Adaptern (Probenverwechslungen) folgenden Läufen verwendet wird. Nach jedem Gebrauch sind die Kappen der
Indexröhrchen auszutauschen oder die Indexplatte abzudichten, um eine
Kreuzkontamination der Indizes zu verhindern.
Amplifi- reduzierte Komplexität der Die Anweisungen des Herstellers bezüglich nicht zutreffend
kation Bibliothek der Anzahl der Zyklen sind zu befolgen -
wenn Änderungen erforderlich sind (z. B.
um Primer-Dimere zu vermeiden), muss
dies validiert werden (z. B. 12 Zyklen
können bei den meisten Spezies
funktionieren, aber 15 Zyklen können bei
Mykobakterien besser funktionieren). Falls
erforderlich, ist ein PCR-freies Verfahren zur
Vorbereitung der Bibliothek zu verwenden.
Kreuzkontamination mit Es ist ratsam, Vor-PCR- und Nach-PCR- nicht zutreffend
Amplikon Schritte in verschiedenen Räumen
durchzuführen, um eine Amplikon-
Kreuzkontamination zu vermeiden.
Beurteilung erwartete Die Größenverteilung der Bibliothek sollte mit einem auf Kapillarelektro-
der Biblio- DNA-Konzentration und phorese basierenden System überprüft werden. Die Konzentration kann mit
theks- Einsatzgrößenverteilung einem auf Kapillarelektrophorese basierenden System oder mit einem auf
qualität Fluoreszenz basierenden Quantifizierungssystem bestimmt werden.
Kontamination während Bei der Vorbereitung der Bibliothek sollte darauf geachtet werden, dass
der Bibliotheks- Kreuzkontaminationen vermieden werden. Aerosolbeständige Filter-
vorbereitung pipettenspitzen sind zu verwenden, die Handschuhe sind häufig zu wechseln.
DNA- Normalisierung von Ein äquimolares Pooling auf der Grundlage Äquimolares Pooling auf der
Sequen- Multiplex-Proben des Bibliotheksprofils und der Quantifizie- Grundlage des Bibliotheks-
zierung rung kann wünschenswert sein, um eine profils und der Quantifizierung.
angemessene Abdeckung aller im Lauf Vor Ablauf der Größenauswahl
enthaltenen Proben zu gewährleisten. und den letzten Schritten zur
Alternativ darf ein auf Perlen basierendes Reparatur von DNA-Schäden.
Verfahren der Normalisierung verwendet
werden. Eine Quantifizierung der gepoolten
Bibliothek kann auch wünschenswert sein,
um sicherzustellen, dass die Menge der
geladenen Bibliothek für die
Sequenzierplattform geeignet ist.
carry-over-Kontamination Zur Minimierung der carry-over-Kontami- nicht zutreffend
zwischen den Läufen nation sind geeignete Instrumentenwasch-
mittel zu verwenden und ein Index-
Rotationsschema einzurichten, um
sicherzustellen, dass nicht dasselbe
Indexpaar in aufeinander folgenden Läufen
verwendet wird.
Geräteleistung Eine interne Kontrolldotierung ist mit der Eine interne Kontrolldotierung
Probe durchzuführen. Die Sequenzierung ist mit der Probe
derselben DNA (Positivkontrolle) zur durchzuführen.
Überwachung der Sequenzqualität wird
empfohlen.
34
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Tabelle A.2 — Empfehlung zur Qualitätsbeurteilung von Illumina Short-Read-Daten vor der
bioinformatischen Analyse (siehe Abschnitt 7.3)
35
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
DNA- Positivkontrolle/Re- Beurteilung der Eine misslungene Extraktion Kann nach Bedarf
Extraktion ferenzstamm, der die Effizienz des der genomischen DNA von aufgenommen
Spezies in den Verfahrens geeigneter Qualität für nach- werden. Eine
Untersuchungs- gelagerte Analysen aus der Sequenzierung der
proben repräsentiert Positivkontrolle deutet positiven Extraktions-
darauf hin, dass es ein Pro- kontrollen ist nicht
blem mit dem Extraktions- erforderlich.
verfahren gibt; wenn die
Untersuchungsproben jedoch
funktionieren, können sie
verwendet werden.
Negativkontrolle (z. B. Sicherstellen, dass es Die Negativkontrolle kann Empfohlen für jede
Wasserleerprobe, während des sequenziert werden, um die Extraktion, darf aber
unbeimpfte Bouillon) DNA-Extraktions- während der DNA-Extraktion nur dann sequenziert
verfahrens nicht zu auftretende Kontamination werden, wenn dies für
einer Kreuz- zu bewerten. Wenn die Nega- notwendig erachtet
kontamination tivkontrolle kontaminiert ist, wird.
kommt. sollte die gesamte DNA sorg-
fältig evaluiert werden, um
festzustellen, ob der Grad der
Kontamination die nachfol-
genden Analysen beeinflusst.
36
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Vorbereitung DNA aus einem gut Wird zur Positivkontrollen sollten Eine Positivkontrolle
der charakterisierten Überwachung der Fragmente in einem Bereich ist nicht für jeden Lauf
Bibliothek Stamm sollte als Sequenzqualität bei aufweisen, der für die erforderlich. Die
Positivkontrolle verschiedenen Läufen verwendete Technologie Häufigkeit der
verwendet werden. Es verwendet, um typisch ist, und die Verwendung von
wird auch empfohlen, Probleme mit der Ergebnisse der Positivkontrollen zur
stets den gleichen Sequenzierungs- Sequenzierung sollten Überwachung der
DNA-Extrakt zu chemie zu identifi- zwischen den Läufen Qualität im Laufe der
verwenden. zieren. Wird zur konsistent sein. Zeit sollte festgelegt
Evaluierung und werden.
Validierung der Bib-
liotheksvorbereitung
verwendet
Negativkontrolle (z. B. wird zur Evaluierung Negativkontrollen sollten Eine Negativkontrolle
Wasser) von Kreuzkontamina- keine detektierbaren Peaks ist nicht für jeden Lauf
tionen während der und damit verbundene erforderlich. Die
Bibliotheks- minimale Sequenzierungs- Häufigkeit der Ver-
vorbereitung werte aufweisen. Die wendung von Negativ-
verwendet Kontamination der kontrollen zur Über-
Negativkontrolle sollte wachung der Qualität
unterhalb der festgelegten im Laufe der Zeit
Grenzwerte liegen. sollte festgelegt
werden.
DNA-Sequen- eine klar gekenn- Evaluierung der Die Fehlerraten je Base Falls praktisch durch-
zierung/Gerä- zeichnete Bibliothek Qualität des Laufs sollten innerhalb der führbar, sollten
teleistung zur internen festgelegten Grenzen liegen. Kontrollbibliotheken
Kontrolle (Dotierung) bei jedem Lauf
einbezogen werden.
Beim Demultiplexen Evaluieren des Grads Die Anzahl der Lesevorgänge Kann nach Bedarf
des Laufs die im der carry-over-Konta- mit Indizes, die früheren aufgenommen
vorherigen Lauf mination für Sequen- Läufen zugeordnet sind, sollte werden.
verwendeten Indizes zierplattformen, bei die festgelegten Grenzen
einbeziehen denen dieses Problem nicht überschreiten.
bekannt ist, und Eva-
luieren der Kreuzkon-
taminationen (z. B.
mit Amplikons aus
früheren Läufen), die
während der
Vorbereitung der
Bibliothek auftreten
37
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang B
(informativ)
38
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
39
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang C
(informativ)
40
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Anhang D
(informativ)
41
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang E
(informativ)
Gewebespezifität (AST-Breakpoint) Festlegen von Kriterien für die Die Gewebespezifität (AST-Break-
Breakpoint-Auswahl. Berechenbare point) muss nur dann angegeben
Der Name der Gewebeart, der zur
Vergleiche von Methodiken. werden, wenn die zur Interpretation
Auswahl von klinischen Grenzwerten
der MHK verwendete Norm diese
aus einer bestimmten Norm für die
Information erfordert, z. B. bei der
Interpretation der MHK-Ergebnisse
Auswahl von CLSI-Breakpoints für
verwendet wird.
Tierärzte. Die Gewebespezifität kann
mit der ISO WGS Slim festgelegt
werden.
42
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
43
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang F
(informativ)
44
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Anhang G
(informativ)
45
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang H
(informativ)
Formatierungsanweisungen für
NCBI/DDBJ MDM-Felder und NCBI-Definitionen
ISO-Metadaten
sample_name Keine besonderen Anweisungen.
Sample Name ist ein Name, der für die Probe gewählt wird. Er kann jedes
Format haben, aber wir schlagen vor, dass Sie ihn prägnant, eindeutig und
konsistent in Ihrem Labor und so informativ wie möglich vergeben. Jeder
Probenname (Sample Name) von einem einzelnen Einsender muss
eindeutig sein.
attribute_package Dieses Feld ist spezifisch für
NCBI/DDBJ-Einreichungen, und die
Die Art des Krankheitserregers ist anzugeben. Erlaubte Werte sind Optionen können innerhalb der
„Pathogen.cl“ (für klinische oder wirtsassoziierte Pathogene) oder Einreichungsvorlage ausgewählt
„Pathogen.env“ (für Umwelt-, Lebensmittel- oder andere Pathogene). Der werden.
in diesem Feld angegebene Wert steuert die Validierung anderer Felder.
collected_by* Diese Informationen können genau aus
dem Feld des ISO-Labors für
Name der Personen oder des Instituts, die/das die Probe genommen Mikrobiologie abgeleitet werden.
haben/hat.
collection_date* Diese Informationen können aus dem
ISO-Feld Probenahmedatum (Collection
Datum der Probenahme, in Date) abgeleitet werden. Wenn die
„TT-Mmm-JJJJJ“, „Mmm-JJJJ“ interessierte Partei aufgrund von
Beschränkungen bei der gemeinsamen
oder „JJJJJ“-Format (z. B. 30-Okt Nutzung von Daten eine gekürzte
Version einfügen muss, ist nur das Jahr
-1990, Okt-1990 oder 1990) oder ISO
anzugeben (Format JJJJ).
8601-Norm „JJJJJ-mm-tt“, „JJJJJ-mm“ oder „JJJJJ-mm-ttThh:mm:ss" (z. B.
1990-10-30, 1990-10 oder
1990-10-30T14:41:36)
46
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Formatierungsanweisungen für
NCBI/DDBJ MDM-Felder und NCBI-Definitionen
ISO-Metadaten
Organismus Diese Informationen können genau aus
dem ISO-Feld Organismus abgeleitet
Der beschreibendste Organismenname für diese Probe (ggf. für die Art). werden.
Stamm Diese Informationen können genau aus
dem ISO-Feld Stamm abgeleitet werden.
Name des mikrobiellen oder eukaryotischen Stammes.
Isolat Diese Informationen können genau aus
dem ISO-Feld Isolat abgeleitet werden.
Identifizierung oder Beschreibung der spezifischen Person, von der diese
Probe entnommen wurde.
geo_loc_name* Diese Informationen können durch Ver-
kettung einer Teilmenge der ISO-Felder
Geographische Herkunft der Probe; der entsprechende Name ist aus für die geographische Lage der Probe-
dieser Liste http://www.insdc.org/documents/country-qualifier- nahme nach Anhang C abgeleitet
vocabulary zu entnehmen. Ein Doppelpunkt ist zu verwenden, um das werden. Insbesondere sollten die Infor-
Land oder den Ozean von detaillierteren Informationen über den Ort zu mationen zu Stadt, Provinz/Bundes-
trennen, z. B. „Kanada: Vancouver“ oder „Deutschland: auf halber Höhe land/Gebiet und Land verkettet und
der Zugspitze, Alpen“. durch Doppelpunkte getrennt werden.*
* Wenn die interessierte Partei aufgrund von Einschränkungen bei der gemeinsamen Nutzung von Daten
eine gekürzte Version einfügen muss, sind nur Informationen entsprechend der zulässigen Granularität
einzufügen. „Fehlt“ ist ein zulässiger Wert.
47
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
48
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
host_disease_status* Dieses Feld ist spezifisch bei EBI. Wenn der Wirt mit
einer Krankheit im ISO-Feld Wirtskrankheit assoziiert
Gesundheitszustand des Wirts zum Zeitpunkt der war, ist „krank“ zu wählen, wenn der Wirt keine
Probenahme. Krankheit aufwies, ist „gesund“ zu wählen. Wenn
beides nicht zutrifft, ist „nicht zutreffend“ einzusetzen.
* Wenn die interessierte Partei aufgrund von Einschränkungen bei der gemeinsamen Nutzung von Daten
eine gekürzte Version einfügen muss, sind nur Informationen entsprechend der zulässigen Granularität
einzufügen. „Not included“ (nicht enthalten), „Not provided“ (nicht bereitgestellt) oder „Restricted access“
(beschränkter Zugang) sind zulässige Nullwerte.
49
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Anhang I
(informativ)
I.1 Einleitung
Die Standardisierung digitaler Daten unter Verwendung kontrollierter Vokabulare und Ontologien gilt als
bewährtes Verfahren für die Datenverwaltung [11], [12]. Die ISO WGS-Slim wurde geschaffen, um relevante
Felder und Werte aus bestehenden, von der Gemeinschaft unterstützten Ontologien, z. B. GenEpiO und
FoodOn, zusammenzutragen, die für die WGS-basierte Mikrobiologie von Lebensmitteln relevant sind.
GenEpiO ist eine Anwendungsontologie, die Felder und Werte für Genomik-, Labor-, klinische, Umwelt- und
epidemiologische Daten und Prozesse enthält [4]. Die Lebensmittel-Ontologie (FoodOn) ist eine Domänen-
ontologie, die sowohl Lebensmittelprodukte als auch Verfahren zum Kochen, Konservieren,
Verpacken/Einpacken von Lebensmitteln, anatomische Quellen, kulturelle und geographische Herkunft,
Verbrauchergruppen und mehr beschreibt [5]. FoodOn enthält auch höherwertige Lebensmittelkategorien,
die aus vielen bestehenden Lebensmittelklassifizierungssystemen importiert wurden, z. B. FoodEx2, USDA
National Nutrient SR Legacy database, European Food Information Resource (Eurofir), FDA Code of Federal
Regulations (CFR) Produktliste usw. [5], [6], [7]. GenEpiO und FoodOn sind von einer Expertengemeinschaft
entwickelt worden. Weitere Angaben sind erhältlich bei http://foodon.org/.
Von der Ontologie abgeleitete Felder und Werte erleichtern die Integration, die Wiederverwendung und den
Austausch von Metadaten durch die Bereitstellung genormter Begriffe, Definitionen und universeller IDs
(URIs), die eine bessere Verarbeitung von Informationen sowohl durch Menschen als auch durch Computer
ermöglichen. Ontologien kodieren außerdem die Berechnungslogik, die von Softwaresystemen verwendet
werden kann, um die Automatisierung und komplexere Abfragen zu verbessern. Die hierarchische Struktur
der Ontologien ermöglicht auch eine bessere Aggregation von Daten und Vergleiche von Informationen auf
verschiedenen Granularitätsebenen. Als solche kann die ISO WGS Slim zur Bereitstellung von Metadaten-
Deskriptoren verwendet werden, wie in den Tabellen 1, 2 und 3 beschrieben.
In einigen Fällen enthält die ISO WGS Slim möglicherweise nicht das erforderliche Vokabular. In diesem Fall
werden andere Ontologien empfohlen. Insbesondere geographische, taxonomische, umweltbezogene
(erstellte und natürliche) und Arzneimittelnamensfelder in dieser Norm erfordern möglicherweise ein
umfangreicheres Vokabular, das direkt in den Ontologien Gazetteer (GAZ), NCBITaxon, Environment
Ontology (EnvO) und Chemical Entities of Biological Interest (CheBI) verfügbar ist. Das GenEpiO-Vokabular
wurde weitgehend aus diesen Ontologien bezogen, so dass die URIs kompatibel sein werden. Weitere
Angaben sind erhältlich bei www.obofoundry.org. Die Ontologien von GAZ, NCBITaxon, FoodOn, EnvO und
CheBI können von GitHub heruntergeladen werden:
https://github.com/EnvironmentOntology/gaz
https://github.com/obophenotype/ncbitaxon
https://github.com/FoodOntology/foodon
https://github.com/EnvironmentOntology/envo
https://github.com/ebi-chebi/ChEBI
50
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Es ist nicht praktikabel, Anweisungen für eine schlanke ISO WGS-Implementierung für alle Computer-
infrastruktur-Szenarien bereitzustellen. Da tabellarische Daten jedoch häufig in einer SQL-Datenbank oder in
einem Tabellenkalkulationsformat gemeinsam genutzt werden, bietet dieser Abschnitt einen Überblick
darüber, wie diesen Situationen begegnet werden kann.
Es gibt Tools, die die Erstellung von Datentabellen mit Dropdown-Menüs für Vokabular ermöglichen.
Beispiele für solche Tools, die Ontologiebegriffe und IDs integrieren können, sind: Webulous
(https://www.ebi.ac.uk/spot/webulous/), Populous (http://www.e-lico.org/?q=populous) und Kusp
(https://www.scibite.com/platform/scibite-apps/kusp/). Diese Tools bieten eine Schritt-für-Schritt-
Anleitung zur Erstellung tabellarischer Datenerfassungsinstrumente.
Obwohl es derzeit keine dominierenden Normen für die Ontologie-Annotation tabellarischer Daten gibt,
werden im Folgenden Ratschläge erteilt.
1) Jede Datenspalte sollte mit einer Ontologie-ID verknüpft sein, die die Art der Informationen in diesem
Feld angibt. Die Verwendung sowohl der Kennzeichnung als auch der Ontologie-ID ermöglicht die
automatische Zuordnung zu den Feldern anderer Datenbanken, die alternative Kennzeichnungen, aber
denselben Ontologie-Identifikator verwenden dürfen. Es ist zu beachten, dass Felder, die numerische
Werte mit zugehörigen Einheiten beschreiben, ebenfalls Ontologie-Identifikatoren für Einheiten
erfordern und möglicherweise eine zusätzliche Spalte zur Erfassung von Einheiten, wenn diese
zwischen den Werten in einer Spalte variieren (z. B. MHK-Einheiten wie ug/ML, mm usw.). Ein
funktionierendes Beispiel ist in Abschnitt I.1.3.1 unten aufgeführt.
2) Die Implementierung tabellarischer Daten hängt von der zuverlässigen Zuordnung von
Datenbankfeldern und/oder kategorialen Feldwerten zu Ontologie-Begriffsidentifikatoren ab, die online
als IRIs verfügbar sind, z. B. „http://purl.obolibrary.org/obo/HP_0012735“. Innerhalb einer bestimmten
Datenbank kann eine Verweisung auf einen Begriffsidentifikator üblicherweise auf ein Präfix:Suffix-
Format abgekürzt werden, z. B. „HP:0012735“, wobei das Präfix die führende oder „Namensbereich“-
Komponente der Begriffs-URL abkürzt, wenn „HP:“ z. B. den Ontologiebereich für den menschlichen
Phänotyp abkürzt, „http://purl.obolibrary.org/obo/HP“. Dabei werden die tabellarischen Daten mit
einer Liste von (zulässigen) Ontologie-Präfixen und den zugehörigen Namensbereich-IRI-Komponenten
verknüpft. Es ist zu beachten, dass das JSON-LD-Format (JSON Linked Data) diese „kompakte IRI“-
Funktionalität enthält.
3) Bei der Erstellung von Auswahllisten aus Ontologiebegriffen müssen vom Softwareentwickler eventuell
negative Werte hinzugefügt werden, da Slim Begriffe wie „fehlt“, „nicht erfasst“, „nicht anwendbar“ usw.
nicht als Optionen enthält. Bei Anwendungen, die die Transformation von Metadaten für die
gemeinsame Nutzung (mit anderen öffentlichen oder privaten Repositorien) automatisieren, sollte
jedoch die Verkettung mehrerer „fehlender“ Begriffe in einem einzigen Feld vermieden werden. Wenn
beispielsweise im Fall der NCBI-Einreichung die Metadaten Informationen zum Probentyp wie den
Begriff „Lebensmittel“ enthalten, aber Informationen zu Lebensmitteln und zur
Lebensmittelverarbeitung fehlen, sollten die Datenübermittler einfach „Lebensmittel“ im Feld
„isolation_source“ anstelle von „Lebensmittel: fehlt: fehlt“ angeben. In ähnlicher Weise sollte
51
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Ein Beispiel für die Darstellung der ISO WGS-Spezifikation ist zu finden unter
https://watson.bccdc.med.ubc.ca/geem/form.html#GENEPIO:0002083. Der Ontologie-Identifikator
GENEPIO:0002083 verweist auf den GenEpiO-Begriff „draft sequence repository contextual data standard“
(kontextbezogener Datenstandard für ein Draft-Sequenz-Repository), ein Begriff, unter dem die folgenden
Komponenten organisiert sind: Kontaktinformationen des Labors, Probenahme, Isolierung und Verlauf der
Isolatpassage, Lebensmittelprobe, Antibiogramm, Sequenzierung und Qualitätsmetriken der
Sequenzassemblierung. Weitere Beispiele für die Integration einer Ontologie in die IT-Infrastruktur oder für
die Speicherung ontologiefähiger Daten sind verfügbar auf der Website des Projekts High-Throughput
Sequencing Computational Standards for Regulatory Sciences (HTS-CSRS)
(https://hive.biochemistry.gwu.edu/htscsrs/biocompute), Datenmanagementsystem REDCap der
Vanderbilt University (https://www.project-redcap.org/), Stanford-Projekt CEDAR
(https://metadatacenter.org), Stiftung Allotrope Foundation (https://www.allotrope.org/) Datenmodelle
und in anderen tabellarischen Datenverwaltungstools wie Karma (https://usc-isi-i2.github.io/karma/).
Es ist zu beachten, dass die Ontologieressourcen mit der Zeit wachsen und verfeinert werden. Bei der
Implementierung der ISO Ontology Slim in verschiedenen Systemen innerhalb einer Organisation kann unter
Umständen eine zusätzliche Schulung durch IT-Supportmitarbeiter erforderlich sein, um zu verstehen, wie
auf Ontologiebegriffe zugegriffen werden kann und wie Begriffe aus Ontologie-Quelldateien verwaltet oder
aktualisiert werden können.
SQL ist eine domänenspezifische Sprache, die in der Programmierung verwendet wird und für die
Verwaltung von Daten in einem relationalen Datenbankmanagementsystem (Daten, die in Tabellen
organisiert und durch definierte Beziehungen verknüpft sind) entwickelt wurde. Es gibt zwei grundlegende
Strategien zum Annotieren und Harmonisieren von Informationen, die in SQL-Datenbanken unter
Verwendung der ISO WGS Slim gespeichert sind. Die erste Strategie besteht darin, Informationen zur
gemeinsamen Nutzung als Datentabelle(oder csv-Datei) zu exportieren und entsprechend den oben
diskutierten Vorschlägen zu kommentieren.
Die zweite Strategie beinhaltet die Zuordnung von Informationen zu Ontologien direkt in der Datenbank.
Feldnamen (Kennzeichnungen) können durch Ontologie-IDs ersetzt werden, und Ontologie-IDs können in
einer Nachschlagetabelle gespeichert werden. Möglicherweise existiert bereits eine SQL-Datenbank-
Nachschlagetabelle mit numerischen Schlüsseln, die in Ontologie-URIs konvertiert werden können. Daher
kann die Nachschlagetabelle mit ISO WGS Slim-Inhalt gefüllt werden. Alternativ kann der ISO WGS Slim-
Inhalt über ein Skript implementiert werden, das auf eine API des Ontologie-Nachschlagedienstes zugreift.
Ein funktionierendes Beispiel ist in Abschnitt I.1.3.2 unten aufgeführt.
I.3 Ansätze zur Integration von Ontologien in Systeme zur Erfassung und
Verwaltung von Metadaten
I.3.1 Datentabellen
Das Annotieren von Tabellendaten mit genormten Ontologiebegriffen kann durch ein separates Blatt
„Ontologieansicht“ erreicht werden, das eine 1-1-Zellen-Entsprechung zum Originalblatt aufweist. Ein
Beispiel zur Veranschaulichung von Originalwerten, die Ontologie-IDs zugeordnet sind, ist in Bild I.1
dargestellt. Es ist zu beachten, dass die Spaltenüberschriften ebenfalls durch Ontologie-Identifikatoren
ersetzt werden (numerische und Freitextwerte bleiben unverändert). Im Beispiel im nachfolgenden
Diagramm sollte das Feld „First name" (Vorname) mit dem ontologischen Begriff der ISO WGS-Begriff
assoziiert werden http://purl.obolibrary.org/obo/NCIT_C40974. In ähnlicher Weise ist das
52
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Vergleichsnormal für antimikrobielle Resistenz „CLSI“ in den Originaldaten dem ontologischen Begriff der
ISO WGS Slim ID ARO:3004366 zugeordnet, während der Arzneimittelname „Penicillin“ in der Tabelle der
Ontologie ID CHEHI:17334 zugeordnet ist.
Tabelle I.1 zeigt ein Beispiel für eine Tabelle aus der relationalen Datenbank einer Organisation, die Labor-
dienste mit der Datenbank-ID und der Ontologie-ID verknüpft. Die Art der von
„ACME Labordienstleistungen“ angebotenen Dienstleistungen wird durch den Ontologie-Begriff
„bioinformatischer Analysedienst“ definiert, der durch die Ontologie-ID GENEPIO:0002223 ersetzt wird, ein
Begriff aus der ISO WGS Slim. Es ist zu beachten, dass die Kennzeichnung in dieser Tabelle durch die
Ontologie-ID ersetzt wurde.
Die Ontologie-ID GENEPIO:0002223 kann über eine Begriffsnachschlagetabelle, wie in Tabelle I.2 dargestellt,
mit ihrer Kennzeichnung verknüpft werden. Der Begriff „übergeordnete ID“ bezieht sich auf den
allgemeineren Begriff „Labordienst“, der die Ontologie-ID GENEPIO:0002225 hat, wobei „bioinformatischer
Analysedienst“ ein bestimmter Typ/Wert für das Feld „Labordienst“ ist. Es werden auch andere Arten von
Labordienstleistungen aufgeführt - alle mit derselben übergeordneten Ontologie-ID, aber mit
unterschiedlichen Ontologie-Begriffs-IDs.
53
E DIN EN ISO 23418:2020-10 – Entwurf –
prEN ISO 23418:2020 (D)
Tabelle I.3 — Beispiel für eine Tabelle „ontology_metadata“ (Metadaten der Ontologie)
54
– Entwurf – E DIN EN ISO 23418:2020-10
prEN ISO 23418:2020 (D)
Literaturhinweise
[1] VAN BELKUM A., Associates. Guidelines for the validation and application of typing methods for use
in bacterial epidemiology [online]. Clin Microbiol Infect 13(Suppl 3). 1-46. [viewed 30 July 2018].
Available from https://doi.org/10.1111/j.1469-0691.2007.01786.x
[2] DALEY T. and AD SMITH. Predicting the molecular complexity of sequencing libraries [online]. Nat
Methods 10(4):325-7. [viewed 30 July 2018]. ISSN 1548-7091. Available at doi: 10.1038/nmeth.2375
[3] CHAIN PSG. and others. Genome Project Standards in a New Era of Sequencing. Science. 2009,
326(5950). [viewed 30 July 2018]. ISSN 0036-8075. Available from doi: 10.1126/science.1180614
[4] GRIFFITHS E, and others. Context Is Everything: Harmonization of Critical Food Microbiology
Descriptors and Metadata for Improved Food Safety and Surveillance [online]. Front Microbiol. 8:
1068. [viewed 30 July 2018]. Available at doi: 10.3389/fmicb.2017.01068
[5] DOOLEY DM and others. FoodOn: a harmonized food ontology to increase global food traceability,
quality control and data integration. npj Science of Food. 2018, 2 (article 23). Available at
doi.org/10.1038/s41538-018-0032-6
[8] PORTMANN A-C, and others. A Validation of an End-to-End Whole Genome Sequencing Workflow for
Source Tracking of Listeria monocytogenes and Salmonella enterica. Frontiers in Microbiology 9
(article 446). Available at doi 10.3389/fmicb.2018.00446
[9] BOGAERTS B, and others. Validation of a Bioinformatics Workflow for Routine Analysis of Whole-
Genome Sequencing Data and Related Challenges for Pathogen Typing in a European National
Reference Center: Neisseria meningitidis as a Proof-of-Concept. Frontiers in Microbiology 10 (article
362). Available at doi: 10.3389/fmicb.2019.00362
[10] WIELINGA P.R., Associates. Global Microbial Identifier. In: Applied Genomics of Foodborne
Pathogens. Food Microbiology and Food Safety, (DENG X., DEN BAKKER H., HENDRIKSEN R., eds.).
Springer, Cham. [viewed 30 July 2018]
[11] LAMBERT D. Associates. Baseline Practices for the Application of Genomic Data Supporting
Regulatory Food Safety [online]. J AOAC. 2017, 100(3), 1-11. [viewed 30 July 2018] ISSN 1060-3271.
Available from doi: 10.5740/jaoacint.16-0269
[12] WILKINSON MD. and others. The FAIR Guiding Principles for scientific data management and
stewardship [online]. Scientific Data. 2016, 3:160018. ISSN 2052-4463. [viewed 30 July 2018].
Available at doi: 10.1038/sdata.2016.18
[13] PIGHTLING AW, PETRONELLA N, and PAGOTTO F. Choice of Reference Sequence and Assembler for
Alignment of Listeria monocytogenes Short-Read Sequence Data Greatly Influences Rates of Error in
SNP Analyses PLoS One. 2014 Aug 21; 9(8):e104579. [viewed 08 January 2020]. Available at doi:
10.1371/journal.pone.0104579
[14] PIGHTLING AW, and others. Interpreting Whole-Genome Sequence Analyses of Foodborne Bacteria
for Regulatory Applications and Outbreak Investigations. Frontiers In Microbiology 2018 Vol 9
pg. 1482. [viewed 03 March 2020] Available at doi: 10.3389/fmicb.2018.01482
55
– Entwurf –
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Contents Page
Foreword ..........................................................................................................................................................................................................................................v
Introduction................................................................................................................................................................................................................................ vi
1 Scope ................................................................................................................................................................................................................................. 1
2 Normative references ...................................................................................................................................................................................... 1
3 Terms and definitions ..................................................................................................................................................................................... 1
4 Principle ........................................................................................................................................................................................................................ 6
4.1 General ........................................................................................................................................................................................................... 6
4.2 Laboratory operation: sample preparation and sequencing .......................................................................... 6
4.3 Bioinformatics analysis ................................................................................................................................................................... 6
4.4 Metadata formats and sequence repository deposition...................................................................................... 7
4.5 Validation and veri ication of WGS Work low .............................................................................................................. 7
5 General laboratory guidance ................................................................................................................................................................... 7
5.1 Bacterial isolation and DNA extraction .............................................................................................................................. 7
5.2 Laboratory environment ................................................................................................................................................................ 7
5.3 Standard Operating Procedures (SOPs) and non-conforming work ........................................................ 7
5.4 Laboratory information management system (LIMS) .......................................................................................... 8
5.5 Laboratory competence .................................................................................................................................................................. 8
6 Laboratory operations ................................................................................................................................................................................... 8
6.1 Sample preparation and storage ............................................................................................................................................. 8
6.2 Bacterial isolates ................................................................................................................................................................................... 8
6.3 DNA Isolation ........................................................................................................................................................................................... 8
6.4 Library preparation ............................................................................................................................................................................ 9
6.4.1 DNA sequencing ............................................................................................................................................................... 9
6.4.2 Use of controls ................................................................................................................................................................... 9
6.4.3 Assessing raw read data quality ......................................................................................................................... 9
6.4.4 Sample and data storage and retention .................................................................................................... 10
7 Bioinformatic data analysis ................................................................................................................................................................... 10
7.1 Requirements for software and/or bioinformatic pipelines used for data analysis................ 10
7.2 Logging and documentation..................................................................................................................................................... 10
7.3 Quality assessments ........................................................................................................................................................................ 10
7.4 SNP analyses .......................................................................................................................................................................................... 11
7.5 MLST analyses (cgMLST and wgMLST) .......................................................................................................................... 12
7.6 Target gene detection ..................................................................................................................................................................... 12
7.7 Phylogenetic tree or dendrogram generation ........................................................................................................... 12
7.8 Metrics and log iles ......................................................................................................................................................................... 12
7.9 Interpreting and reporting the results of bioinformatics analyses ........................................................ 13
7.9.1 Interpreting results from bioinformatics pipelines ........................................................................ 13
7.9.2 Reporting genomic analysis results.............................................................................................................. 13
8 Metadata .................................................................................................................................................................................................................... 13
8.1 General ........................................................................................................................................................................................................ 13
8.2 Metadata Interoperability and Future-Proo ing ..................................................................................................... 13
8.2.1 Ontologies ........................................................................................................................................................................... 14
8.2.2 ISO WGS Slim.................................................................................................................................................................... 14
8.3 Formatting Metadata Using the Standard..................................................................................................................... 14
8.4 Metadata associated with sample collection ............................................................................................................. 14
8.5 Metadata associated with the isolate ............................................................................................................................... 14
8.6 Metadata associated with the sequence ........................................................................................................................ 14
9 Sequence repositories ................................................................................................................................................................................. 14
10 Validation and verification ..................................................................................................................................................................... 15
10.1 Validation .................................................................................................................................................................................................. 15
iii
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
iv
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Foreword
ISO (the International Organizations for Standardization) is a worldwide federation of national
standards bodies (ISO member bodies). The work of preparing International Standards is normally
carried out through ISO technical committees. Each member body interested in a subject for which
a technical committee has been established has the right to be represented on that committee.
International organizations, governmental and non-governmental, in liaison with ISO, also take part
in the work. ISO collaborates closely with the International Electrotechnical Commission (IEC) on all
matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identi ied during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO speci ic terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/
iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 34, Food Products, Subcommittee SC 9,
Microbiology.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.
v
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Introduction
Next generation sequencing (NGS) provides rapid, economical and high-throughput access to microbial
whole genome sequences (WGS) and is being applied to an expanding number of problems in food
microbiology. WGS are digital representations of the biological potential of the sequenced organism
at single base resolution. The digital nature of WGS data is a departure from the continuous nature of
phenotypes routinely analyzed in food microbiology. Therefore, WGS offers signi icant advantages over
existing technologies (e.g., serology, pulsed ield gel electrophoresis, antibiotic resistance phenotype).
WGS-based analyses are used by public health laboratories to detect outbreaks, and to detect mutations,
genes and other genetic features to characterize virulence and survival potential. Within the food
industry, there is interest in WGS to characterize bacterial isolates from outsourced ingredients and
environmental surfaces, to better understand their origin and ecology, and to update procedures to
reduce risk. Some companies have developed, or are developing, the capacity to collect and analyze
WGS data. Others will turn to third party laboratories to perform these services, as they currently do
for other microbiological analyses.
Removed text
This standard is intended to provide guidance for both the laboratory and bioinformatic components
of WGS and associated metadata for foodborne microorganisms. This standard is intended to be
applicable to all currently available short- and long-read DNA sequencing technologies. It may be
applied to analysis of WGS data with proprietary, open-source, and custom software. It is not intended
to specify sequencing chemistries, analytical methods, or software. The standard de ines laboratory,
data, and metadata stewardship practices to ensure that analyses are clearly reported, transparent,
open to inquiry, and available for unanticipated uses. This standard is for use by laboratories to develop
their management systems for quality and technical operations. Laboratory customers and regulatory
authorities may also use it in con irmation or recognizing the competence of laboratories.
vi
– Entwurf – E DIN EN ISO 23418:2020-10
DRAFT INTERNATIONAL STANDARD ISO/DIS 23418:2020(E)
1 Scope
This international standard speci ies minimum requirements for generating and analyzing whole-
genome sequencing (WGS) data obtained from foodborne bacteria. These requirements are applicable
to any sequencing platform or chemistry. This process may include the following stages:
a) Handling of bacterial cultures;
b) Genomic DNA isolation;
c) Library preparation, sequencing, and assessment of raw DNA sequence read quality and storage;
d) Bioinformatics analysis for determining genetic relatedness, genetic content and predicting
phenotype, and bioinformatics pipeline validation;
e) Metadata capture and sequence repository deposition; and
f) Validation of the end-to-end WGS work low ( it for purpose for intended application).
2 Normative references
There are no normative references in this document.
1
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
3.5
base calling
process of assigning nucleotides and quality scores to positions in sequencing reads
3.6
bioinformatics
collection, storage, and analysis of biological sequence data
3.7
bioinformatics pipeline
individual programs, scripts, or pieces of software linked together, where output from one program is
used as input for the next step in data processing
3.8
carryover-contamination
samples contaminated with DNA from previously sequenced samples, or substances, including EDTA,
phenol-chloroform, protein, excess salts
3.9
Chemical Entities of Biological Interest Ontology
ChEBI
ontology for describing small chemical compounds
3.10
contig
contiguous stretch of DNA sequence that results from the assembly of smaller, overlapping DNA
sequence reads
3.11
controlled vocabulary
inite set of values that represent the only allowed values for a data item
[SOURCE: ISO 11238:2018(en)]
3.12
coverage
average number of times each base in a genome is sequenced
3.13
cross-contamination
contamination of a sample (bacterial isolate or DNA) with other samples
3.14
DNA quality
indication of DNA purity (free of polysaccharides, contaminants and enzyme inhibitors) and integrity
(high molecular weight with little to no evidence of degradation)
3.15
DNA Sample
portion of DNA extracted from some material
3.16
draft assembly
de novo genome assembly consisting of contigs with no implied order, typically generated using whole-
genome shotgun sequencing with a short-read technology
3.17
Environment Ontology
EnvO
ontology for describing environmental features and habitats
2
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
3.18
FoodEx2 Ontology
FoodEx2
standardised food classi ication and description system developed by the European Food Safety
Authority (EFSA)
3.19
Food Ontology
FoodOn
ontology for describing food products, animal feed and food processing
3.20
Gazetteer Ontology
GAZ
ontology for describing geographical locations
3.21
index
oligonucleotide sequences used in the process of library preparation to tag or barcode DNA from
speci ic samples, so that multiple samples may be combined (multiplexed) in a sequencing reaction
3.22
International Nucleotide Sequence Database Collaboration
INSDC
initiative operated by the DNA Database of Japan (DDBJ), the European Molecular Biology Laboratory,
European Bioinformatics Institute (EMBL-EBI) and the National Center for Biotechnology
Information (NCBI)
3.23
ISO WGS Slim
ontology Slim containing interoperable ields and terms pertaining to the use of WGS for food
microbiology
3.24
isolate
population of bacterial cells in pure culture derived from a single colony
3.25
kmers
all possible sequences of length k that are contained in a whole genome sequence
3.26
library
collection of genomic DNA fragments from a single isolate intended for determining genome sequence
3.27
management system
quality, administrative and technical systems that govern the operations of an organization
Note 1 to entry: For the purposes of this document organization refers to the laboratory
3.28
mapping
use of software to align sequencing reads to reference sequences
3.29
metadata
data that describes and de ines other data
[SOURCE: ISO/IEC 11179-1:2015, 3.2.16]
3
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
3.30
minimal data for matching
MDM
information required to describe the sample source and provenance of a genomic sequence, as de ined
by the Global Microbial Identi ier[10], and implemented by the International Nucleotide Sequence
Database Collaboration
3.31
minimum inhibitory concentration
MIC
lowest concentration that, under de ined in vitro test conditions, reduces growth by an agreed amount
within a de ined period of time.
Note 1 to entry: to entry The MIC is expressed in mg/l.
Note 1 to entry: to entry A score of Q30 indicates that there is a 1 in 1000 chance that a base is incorrectly
assigned (i.e. the base call is 99.9 % accurate)
4
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
3.40
read
Nucleotide sequence inferred from a fragment of DNA or RNA
3.41
sequence repository
database in which WGS datasets are stored and managed
Note 1 to entry: to entry A public repository allows unrestricted access to the data, while a private or federated
repository restricts access to the data
3.42
sequencing replicate, biological
sequencing a different colony from the same isolate obtained from the same sample material, to assess
biological variation
3.43
sequencing replicate, technical
resequencing of the same biological sample or library to assess sequence variation due to
instrumentation and protocol
3.44
serotype
classi ication scheme based on the antigenic detection or sequence-based detection of genes encoding
bacteria surface molecules
3.45
Single Nucleotide Polymorphism
SNP
a SNV that passes a particular quality and/or frequency threshold
3.46
Single Nucleotide Variant
SNV
differences between the nucleotide states at the same genomic position of two or more isolates
3.47
strain
the descendants of a single isolation in pure culture, usually derived from a single initial colony on a
solid growth medium[1]
Note 1 to entry: to entry A strain may be considered an isolate or group of isolates that can be distinguished
from other isolates of the same genus and species by phenotypic and genotypic characteristics
3.48
validation
establishment of the performance characteristics of a method and provision of objective evidence that
the performance requirements for a speci ied intended use are ful illed
[SOURCE: ISO 16140-1:2016(en)]
3.49
validated data entry
automated process ensuring that data entered into a repository is correct
3.50
verification
demonstration that a validated method functions in the user's hands according to the method's
speci ications determined in the validation (3.48) study and is it for its purpose
[SOURCE: ISO 16140-1:2016(en)]
5
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
3.51
whole genome sequencing
WGS
process of determining the DNA sequence of an organism’s genome using total genomic DNA as input
4 Principle
4.1 General
Any organization that handles samples, performs sequencing, or performs bioinformatics analyses for
WGS analysis shall demonstrate, through provision of evidence, that proper documentation of sample
provenance, methods and quality control is collected and maintained for follow-up.
WGS analysis of foodborne bacteria consist of bacterial culture, DNA isolation performed in a
microbiological laboratory, sequencing steps conducted at a sequencing facility, and bioinformatics
analysis performed in a distinct computational environment.
6
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
For MLST analyses, reads are assembled or mapped. Target loci are identi ied, quality- iltered, and
compared to a curated cgMLST or wgMLST database.
c) Kmer distance analysis
Sequence data for multiple isolates can be analyzed using kmer distance methods to identify clusters
of related bacteria. Kmer analyses have the advantage of being very fast but have some limitations
notably in terms of precision. (i.e., they are applicable in species determination, but not recommended
for detailed source tracking analysis of closely related strains).
7
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
6 Laboratory operations
8
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
mid, late log, or stationary) and culture medium. The quantity and quality of DNA should be assessed
and documented.
NOTE Storage conditions will in luence DNA integrity and library preparation for certain sequencing
technologies. Different sequencing platforms have different requirements for DNA quantity, quality and integrity.
If an isolation kit is used DNA can be stored until analysis is complete in accordance with the manufacturer’s
instructions. Preparation of single-use DNA aliquots can aid in preventing cross-contamination and repeated
freeze-thaw of the sample.
NOTE 2 Caution should be taken with PCR enrichment of libraries, as this may result in reduced library
complexity and a reduction in the number of distinct DNA molecules in the preparation. Library complexity can
also be affected by the amount of DNA starting material or the amount of DNA lost during library preparation
clean-up steps. Library complexity can be estimated using the method of Daley & Smith[2].
If there is a possibility that libraries will be used again, libraries shall be stored according to the
manufacturer’s recommendations. The laboratory shall document the sample tracking method used
(i.e. barcode or equivalent); the sequencing platform used; the operator who made the library; the date
the library was made; the lot information for the kit(s) used. Multiplexing samples requires selection
and assignment of barcodes to identify individual samples and is typically documented in a worksheet
to allow association of sequence data with the correct metadata. If all multiplexed samples are of the
same bacterial genus (e.g., all Salmonella), steps should be taken to ensure that equimolar DNA inputs
are used (i.e. library normalization) and that the correct sequence is associated with its corresponding
metadata. If the multiplexed samples represent multiple genera then estimated coverage, genome size
and library fragment size need to be considered when estimating the amount of DNA to be included for
each sample.
Sequencing instrumentation shall be operated and maintained as per the recommendations of the
manufacturer or other experts, and documentation of maintenance procedures shall be maintained.
Platform-speci ic sequencing metrics (e.g. cluster density, number of reads, average base quality, etc.)
shall be recorded and monitored for each sequencing run.
NOTE Platform-speci ic recommendations to minimize carryover contamination are provided in Annex A1.
When handling a bacterial isolate and DNA extract, the laboratory should use a water blank or non-
inoculated broth as negative control during DNA extraction to assess possible cross-contamination.
A positive extraction control to assess method ef iciency can be included as deemed necessary. If the
library preparation involves multiplexing and PCR ampli ication steps then it is highly recommended to
include both positive and negative controls. It is also recommended to consistently use the same DNA
extract for the positive control to allow for comparisons of sequencing quality from run to run.
NOTE Recommendations for using positive and negative controls are provided in Annex A3.
Base calling should be performed using software speci ic to the instrument and sequencing chemistry.
Metrics can be de ined at run level and at sample level. Metrics shall be documented to evaluate the
quality of raw sequence data. These could include insert size, sequence length distribution, number
of reads, and an assessment of base composition (i.e. AT/GC balance or TAGC (taxon annotated GC-
9
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
coverage) plot or equivalent). Quality scores, read length, and taxonomy check should be used as initial
check of sequencing performance (see also part 7.3). Coverage, as calculated by mapping reads back to a
de-novo assembly or to an appropriate reference genome, should also be evaluated.
DNA sequence read quality and quantity impact downstream assembly, read mapping and the ability to
use WGS data for bacterial source tracking and genome characterization. Sequencing artifacts that can
impact downstream analyses include sequencing platform speci ic error pro iles, variation in quality
scores across the sequence read, biases in sequence data driven by base composition, departure from
optimal library fragment sizes, and contamination from known and unknown species other than the
sequencing target.
NOTE General guidance for developing quality metrics are provided in Annexes A1 and A2.
The laboratory shall document a policy for the storage and retention of specimens, DNA samples, DNA
libraries and sequencing data.
7.1 Requirements for software and/or bioinformatic pipelines used for data analysis
Bioinformatic pipelines should be validated before use for data analysis (see section 10.1.2). Pipeline
developers should distribute test data sets with their software. Users should ensure that pipelines are
installed correctly by analyzing the test datasets and checking that the expected results are generated.
The major components of bioinformatics pipelines (e.g. aligners, variant callers, open-reading frame
detection) should preferably be described in papers published in peer-reviewed journals. Methods
developed in-house should be fully validated. Software should be developed and maintained using
software quality control and quality assurance procedures.
10
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
For bioinformatic pipelines using assemblies the quality of the assemblies should be assessed prior to
starting analyses. The following measures are recommended as general indicators of assembly quality:
— Read depth needs to be suf icient to ensure variants can be reliably detected in the assembly.
— Number of contigs. For draft assemblies, low coverage and/or small contigs may need to be removed
prior to reporting the number of contigs.
— N50 and/or NG50 and length of the longest contig.
— The total length of all contigs or scaffolds should approximate the known genome size of the target
organism.
— Presence of species-speci ic conserved elements (e.g. core genome)
Laboratories should test for contamination in sequencing data and determine limits appropriate for
speci ic applications. These contaminations can originate from a different species/genus or from the
same species. Recommended methods include, but are not limited to, one or more of the following:
— Kmer hashing against a reference sequence database;
— Calculating the average nucleotide identity (ANI) of sequence data;
— Checking for numbers of rDNA alleles in reads or assemblies;
— Verifying serotypes with bioinformatic serotype prediction tools; and
— Comparing assemblies to reference databases.
If results from non-WGS phenotypic or molecular tests for a bacterial isolate are available, they may be
compared to WGS indings to evaluate consistency of genomic predictions. Examples include but are
not limited to:
— Presence or absence of known resistance elements for isolates with antimicrobial susceptibility
pro iles;
— Serotype;
— Antigenic loci; and
— Presence or absence of virulence or pathogenic elements.
The reference genome should be genetically similar to subject sequences as the false positive rate for
SNP identi ication tends to increase with increasing genetic distance to the reference [13]. Users should
specify what is considered as ‘genetically similar’.
11
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
12
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Results from bioinformatics pipelines should be interpreted in the context of information regarding
metadata about the origins of isolates and epidemiology (i.e. traceback information). Thresholds
established for one purpose (e.g., clonal outbreaks) should not be used for interpretation of different
purpose (e.g., persistent or resident pathogens)[14].
Diversity of isolates should be considered when interpreting dendrograms or allelic/SNP differences.
Some lineages may be clonal. In these cases, few differences may de ine outbreaks/clusters. Other
lineages have greater diversity. In general, for contamination events with a single point source that
occur over a short period of time very few genetic changes are expected to occur. For large-scale
contamination events greater differences can be observed.
8 Metadata
8.1 General
The organization shall adopt a policy for capturing metadata. Metadata in private repositories should
be as detailed as possible but the level of detail is at the discretion of the user. When permitted,
metadata may be shared with partners, and can be abstracted to a level of granularity that complies
with organizational data sharing policies.
13
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
or available. The ISO WGS Slim, and other ontologies can be used to format and provide values for
metadata ields described.
8.2.1 Ontologies
Ontologies encode computational logic that can be used by software systems to improve automation
and more complex querying[4][5]. The hierarchical nature of ontologies enables better comparisons of
information at different levels of granularity[4][5].
The ISO WGS Slim contains standardized ields and terms derived from existing ontologies and other
community standards (e.g. INSDC Minimal Data for Matching (MDM), and Antibiogram standards)[6].
The ields specify the information types recommended for capture, while the terms act as possible
values, which can be used to populate the ields. The ISO WGS Slim also contains synonymous term
labels from different organizations (e.g. FoodEx2[7]) to avoid preferential use of vocabulary and to
facilitate interoperability and data harmonization.
The ISO WGS Slim can be used to format and provide values for metadata ields described in Tables 2,
3 and 4 and Annexes B-H. Geographic, taxonomic, food product and processing, environment and drug
ields in this standard requiring more extensive vocabulary can be supplied using FoodEx2 and the
GAZ, NCBITaxon, FoodOn, EnvO and CheBI ontologies[5][6][7].
The ISO WGS Slim can be implemented in metadata spreadsheets and information management
systems. Further instruction is provided in Annex I.
9 Sequence repositories
Genomic sequence data shall be available in a standardized bioinformatics ile format for use in
bioinformatics pipelines. Operators shall implement procedures to verify that the metadata and
14
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
sequence are correctly associated to maintain referential integrity. Operators of private repositories
shall correct errors when identi ied, update the records containing these errors in public repositories,
and remove WGS datasets when referential integrity cannot be veri ied.
WGS data and selected metadata may be transferred (uploaded) to a publicly accessible database.
Organizations may need to transform metadata before submitting to public repositories so that details
or identi iable information is not revealed. Metadata provided according to the tables and annexes of
this standard can be formatted to ful ill MDM requirements for submitting microbial sequences to
INSDC public repositories. Further instruction is provided in Annex H.
10.1 Validation
The performance characteristics of WGS-based methods shall be established for the intended use.
Validation of the WGS work low can be performed separately for the different components (see Table 1).
However, eventually, the complete work low shall have been validated. The validation will provide
evidence that the method is repeatable, reproducible, and accurate.
Validation of laboratory operations can go from culture up to DNA sequencing, and all stages in
between, depending upon the laboratory work low. Validation parameters and acceptance criteria for
different stages are described in Table 1.
15
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
For each WGS application, an end-to-end validation shall be performed if the validation of one of the
steps within the WGS work low (Table 1) for the intended application is missing or if the validation of
the lab operations or bioinformatics analysis did not include sample data (refer to 10.1.2). Validation of
the end-to-end WGS work low helps to establish thresholds for biologically relevant differences versus
differences that are linked to the culture and sequencing process. Validation of WGS work lows through
comparison to historical gold-standards (pulse- ield gel electrophoresis, 7-gene MLST, phage typing,
etc.) poses a challenge because WGS provides a higher level of resolution of data. Bacterial isolates that
were previously identical or indistinguishable now may have measurable differences. Appropriate
sample genome sequence data sets should be created, depending on the application, i.e. isolates should
be selected that represent the variability of organisms that will be analyzed for speci ic applications.
NOTE Metrics that are linked to methodology, and described by Van Belkum et al. (2007), may be useful
when characterizing differences between closely related genomes[1]. An example for the validation of source
tracking based on these metrics is illustrated in Portmann et al. (2018)[8]. An example for the validation strategy
focusing speci ically on the exhaustive characterization of the bioinformatics analysis of a WGS work low is
illustrated in Bogaerts et al. 2019[9]. Each stage of the work low should be validated as described in Table 1.
10.2 Verification
The veri ication shall demonstrate that the executing laboratory is capable of using the validated
method for a speci ied WGS application correctly. Veri ication shall be done for the complete work low
or one of the steps within the work low (the laboratory implementing the lab operations and/or the
entity implementing the bioinformatics analysis).
The executing laboratory shall provide objective evidence within the ield of application, that the
validated method is being used in its application area and that the speci ied requirements have been
ful illed. In the case of recognized / normalized methods (e.g. methods that have been published in
authoritative books, journals with peer review, published standards, instructions from international
consensus or regulation), validation is not required but only veri ication.
16
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
If commercial or open-source bioinformatics pipelines are used that have been validated by their
developers, the validation tests are published, and the validation datasets are publicly available, then
it may only be necessary to (partially) repeat the validation test once the software has been installed.
Here test data sets distributed by the pipeline developers can be used. However, successful execution of
a test data set does not necessarily imply that a bioinformatics pipeline is validated or it-for-purpose.
Test data sets can be used to verify that bioinformatics pipelines, and their associated dependencies,
are installed correctly and functioning as expected. The user needs to show functionality of the pipeline
according to pre-established parameters. Test data are used as input to a bioinformatics pipeline and
the output is compared against the expected results. Test data sets are typically small (e.g. lambda
17
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
phage genome) and distributed with the software or pipeline. When the data is too large to bundle with
the software, accession numbers of data repositories might be provided.
Table 2 — Recommended metadata fields and values associated with sample collection
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Sample Collection Lab Contact Information Establishing chain of custody Contact information can be
and for providing contact infor- speci ied by the ields of infor-
The name of the laboratory that collected the
mation for follow-up analyses. mation in Annex B.
sample being analyzed, as well as the name
and contact information of an individual who
can provide further details regarding the
project or sample, should also be provided.
Geographic Location of Sample Collection INSDC data standard (ful ills Sample geographic location
MDM “geo_loc” ield). information can be speci ied
The geographical origin of the sample.
by the ields of information in
Annex C.
Collection Date INSDC data standard (ful ills The sample collection date can
MDM “collection_date” ield). be recorded as YYYY-MM-DD
The date the sample was collected.
according to ISO 8601 using
validated data entry.
Sample Type Traceback and other analyses. Sample types can be selected
from the ISO WGS Slim.
The type of material from which the isolate
was obtained. Samples are usually catego-
rized as food products, body products or
tissues, or environmental samples taken from
the area of food production and food handling
Food Product INSDC data standard (ful ills Food products and ingredients
MDM “isolation_source” ield). can apply to both human and
Products intended for human consumption
animal food. Where Food prod-
and the feeding of animals
ucts apply, descriptors can be
selected from the ISO WGS Slim.
Food Processing INSDC data standard (ful ills Where Food Processing ap-
MDM “isolation_source” ield). plies, descriptors can be select-
Processing applied to a food product e.g.
ed from the ISO WGS Slim.
deboning, skinning, pasteurization.
Environmental Material INSDC data standard (ful ills Food is considered to be a sep-
MDM “isolation_source” ield). arate ield from Environmental
A substance obtained from the natural or man-
Material.
made environment e.g. soil, water, manure.
Where Environmental Materi-
als apply, descriptors can be se-
lected from the ISO WGS Slim.
Environmental Location INSDC data standard (ful ills Food-related environmental
MDM “isolation_source” ield). locations may include, but are
An environmental location may describe a
not exclusive to, food produc-
site in the natural or built environment e.g.
tion, processing, distribution
abattoir, retail outlet, feedlot, food process-
and retail environments that
ing machinery, surfaces used to process and
were sampled. Where Envi-
prepare food products.
ronmental Locations apply,
descriptors can be selected
from the ISO WGS Slim.
Collection Device INSDC data standard (ful ills Collection Devices are not
MDM “isolation_source” ield). always known, however when
The instrument or container used to collect
speci ied, they can be selected
the sample e.g. sterile plastic bag, plastic
from the ISO WGS Slim.
jar, swab (with or without transport medi-
um), tube
18
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Table 2 (continued)
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Collection Method INSDC data standard MDM Collection Methods are not
when the method used for col- always known, however when
The process used to collect the sample
lection is known (ful ills MDM speci ied, they can be selected
“isolation_source” ield). from the ISO WGS Slim.
Table 3 — Recommended metadata fields and values associated with the isolate
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Microbiology Lab Contact Information Establishing chain of custody Contact information can be
and for providing contact infor- speci ied by the ields of infor-
The name of the laboratory that isolated the
mation for follow-up analyses. mation in Annex B.
organism being sequenced, as well as the
name and contact information of an individu-
al who can provide further details regarding
the project or isolate, should also be provided.
Organism INSDC data standard(ful ills The scienti ic name for the
MDM “organism” ield). species can be provided using
The species of the isolate being sequenced.
standardized taxonomic names
from NCBITaxon.
Strain INSDC data standard (ful ills The strain identi ier can be
MDM “strain or isolate” ield) provided as free text.
The name or identi ier of the strain.
Isolate INSDC data standard (ful ills The isolate identi ier can be
MDM “strain or isolate” ield). provided as free text.
The name or identi ier of the isolate.
Serotype Public repository MDM (re- The Serotype results can
quired for EBI “serotype” ield). be provided as free text, if
The serotype of the isolate or strain as de-
available.
termined by in vitro or in silico methods (e.g.
WGS, PCR or immunological methods).
Isolation Media Computable comparisons of Descriptors of this material
methodologies. can be chosen from the ISO
The culture media used to isolate the or-
WGS Slim.
ganism being sequenced from others in the
sample.
Isolate Passage History Computable comparisons of Isolate passage details can be
methodologies. An increase in speci ied by the ields of infor-
The number of times that an isolate is serially
the number of times an isolate mation in Annex D.
sub-cultured by a particular method.
has been passaged may result
in the accumulation of addi-
tional mutations
Antibiogram Results Computable comparisons of If antibiogram results are
antibiograms. available, the information can
The minimal inhibitory concentrations
be speci ied according to the
(value, unit, sign (<,>, =)) and resistance phe-
ields in Annex E.
notypes (resistant, sensitive intermediate,
or undetermined) of the sequenced isolate The source of breakpoints (and
against different antibiotics tested. version) used for interpreting/
classifying MIC values can be
speci ied.
19
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Table 3 (continued)
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Antibiogram Methods Computable comparisons of Antibiogram methods (if appli-
antibiograms. cable) can be speci ied accord-
The laboratory protocol used to determine
ing to the ields in Annex E.
resistance phenotypes and minimal inhibito-
ry concentrations of antibiotics tested against
an isolate. The protocol should include the
antibiotics tested, lab testing method and
testing standard and controls/reference
strains used for the test.
Virulence Factor Results Computable comparisons of If virulence factor test results
virulence. are available, the information
The virulence factors determined to be pres-
can be speci ied according to
ent in the sequenced isolate by phenotypic
the ields in Annex F.
or target ampli ication methods e.g. Shiga
toxins, hemolysins.
Virulence Factor Testing Methods Computable comparisons of Virulence testing methods (if
virulence. applicable) can be speci ied ac-
The laboratory protocol used to determine
cording to the ields in Annex F.
virulence phenotypes and markers.
Table 4 — Recommended metadata fields and values associated with the sequence
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Sequencing Facility Contact Information Establishing chain of custody Contact information can be
and for providing contact infor- speci ied by the ields of infor-
The name of the facility that sequenced the
mation for follow-up analyses. mation in Annex B.
isolated organism, as well as the name and
contact information of an individual who
can provide further project and sequencing
details, should be provided.
Sequencing Date Tracking sequencing runs. The sequencing date can be
recorded as YYYY-MM-DD
The date the sequencing run was initiated.
according to ISO 8601, using
validated data entry.
Culture Media Computable comparisons of Descriptors of this material
methodologies. can be chosen from the ISO
Formulation of substances in liquid, semi-sol-
WGS Slim.
id or solid form which contain natural and/
or synthetic constituents intended to support
the multiplication (with or without inhibition
of certain microorganisms) identi ication or
preservation of viability of microorganisms
DNA Extraction Method Computable comparisons of Include the name of the
methodologies and quality commercial kit and version
The procedure used to obtain genomic DNA
control. number, or laboratory protocol,
from a sample through chemical, physical or
used to extract the genomic
mechanical means.
DNA of the isolated organism
using free text.
20
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Table 4 (continued)
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Sequencing Replicates Tracking sequencing runs, and Replicates within a set of
analyzing variability in reads sequencing runs can be de-
A technical sequencing replicate represents
and sequences. scribed as either technical or
the resequencing of the same biological sam-
biological. Where sequencing
ple in order to assess experimental variation.
replicates apply, descriptors
A biological sequencing biological represents can be selected from the ISO
a sequencing experiment based on a different WGS Slim.
colony from the same isolate obtained from
the same sample material, in order to assess
biological variation.
Sequence Library Preparation Method Computable comparisons of Include the name of the
methodologies and quality commercial kit and version
The procedure used to create a library from
control. number, or laboratory protocol,
fragments of DNA using oligonucleotides with
used to prepare libraries for
the role of adapters.
sequencing as free text.
Sequencing Instrumentation Computable comparisons of Types of sequencing instru-
methodologies. ments can be chosen from the
The type of instrument used to automate the
ISO WGS Slim.
process of sequencing.
Bioinformatics Organization Contact In- Establishing chain of custody Contact information can be
formation and for providing contact infor- speci ied by the ields of infor-
mation for follow-up analyses. mation in Annex B.
The name of the organization performing the
bioinformatics processing and analyses, as
well as the name and contact information of
an individual who can provide further details
regarding the bioinformatics analyses, should
be provided.
Raw Sequence Data Processing Computable comparisons of Include name and version of
methodologies and quality trimming tool and if applicable,
The procedure used to remove adapter se-
control. paired-end merger program. It
quences from raw sequence reads, trim low
is recommended that param-
quality bases and where applicable, merge
eters are also recorded. This
paired-end reads.
information can be provided as
free text.
Sequence Data Filtering Method Computable comparisons of Include the name and version
methodologies and quality of iltering tool(s) and process-
The procedure used to remove low quality
control. es applied. It is recommend-
reads and unalignable sequences from raw
ed that parameters are also
sequence data.
recorded. This information can
be provided as free text.
Sequence Assembly Method Computable comparisons of Describe the bioinformatics
methodologies and quality pipeline used, including the
The method or algorithm used to assemble
control. name and version of assem-
individual sequence reads into larger contig-
bler software, and accession
uous sequences (contigs).
number of the reference
genome used in the case of
reference-based assembly. It is
recommended that parameters
are also recorded, along with
any post-assembly modi ica-
tions. This information can be
provided as free text.
21
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Table 4 (continued)
Role in Data Analyses/
Metadata Field and Definition ISO Recommendations
Harmonization
Sequence Annotation Method Computable comparisons of Include the name and version
methodologies and quality of annotation tool. It is recom-
The method or algorithm used to identify and
control. mended that parameters are
report sequence features (e.g. protein coding
also recorded. This information
regions) in sequence data.
can be provided as free text.
Sequence Assembly Quality Metrics Computable comparisons of Sequence quality control
methodologies and quality metrics can be speci ied by
Measurements or calculated quantities used
control. the ields of information in
to assess the extent and success of the se-
Annex G.
quence assembly process. Metric thresholds
are species-speci ic.
22
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex A
(informative)
A.1 Guidance for development of quality metrics for short and long-read
sequencing technologies
Table A.1 — Guidance for development of quality metrics for short and long-read sequencing
technologies
Guidance
Process Concern Short read technology Long read technology
DNA cross-contami- Broth cultures should be started from a single colony of the isolate being
extraction nation; sample tested.
integrity DNA integrity is critical, particularly for long read technologies. Care should
be taken to avoid fragmentation of genomic DNA during preparation and
storage (e.g. through freeze/thawing)
DNA Presence of im- Optical density (OD260/280) ratio should be 1.75 - 2.05 and (OD260/230)
quality purities that may ratio should be 2.0-2.2
negatively impact
library construc-
tion
low molecular Extraction methods for genomic DNA should be adapted to sequencing plat-
weight DNA may form being used; DNA integrity can be checked on agarose gel or via capillary
negatively impact electrophoresis with appropriate size standards
library construc-
tion
DNA Insuf icient input Input DNA quantity should be carefully determined using a DNA-speci ic, in-
quantity of genomic DNA tercalating dye-based luorescence quanti ication method prior to further di-
may result in lution. Minimum quantity needed will be dependent on library kit/sequenc-
substandard se- ing technology used. If modi ied, this should be supported by validation.
quence library
DNA frag- Sub-optimal frag- Size distribution of sheared DNA samples should be checked using capillary
mentation mentation can gel electrophoresis based systems.
result in reduced Sample library should contain fragments Optimal fragment sizes vary by
library yield/re- between 200bp and 3000 bp. For transpo- long-read sequencing platform
duced coverage son-based library construction, fragment and application.
distribution can be veri ied by capillary
electrophoresis after PCR.
DNA size Following This can be done using gel electrophoresis approaches, or bead-based ap-
selection fragmentation, proaches. Any size selection should be supported by validation for each of the
selection of a species to which this is applied.
speci ic range of Size selection increases sequencing qual- Size selection increases sequenc-
fragments may ity but may result in gaps in the coverage ing quality but could result in
be desirable to of the bacterial genome. loss of small plasmid(s).
improve sequence
quality/ef iciency.
Selection may
result in loss of
small plasmids, or
bias in sequence
coverage
23
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
24
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Table A.2 — Recommendation for Quality Assessment of Illumina short-read data prior
to bioinformatics analysis (refer to section 7.3)
Process Concern Guidance
Sequence data Raw sequence data of suf- Sequences in FASTQ format can be checked using FastQC
quality icient quality, read length, tool. All sequences should be identi ied as either warn or
and coverage for intended pass for per base sequence quality. Minimum estimated
purpose coverage typically ranges from 20-fold to 60-fold.
Run Acceptance Q30 coverage overall 2x300bp: 70%
parameters* 2x250bp: 75%
* One may choose 2x150bp: 80%
to accept individual
sequences instead PhiX error rate < 6%
of an entire run, Reads passing ilter > 44 M (Note: Number of reads may vary by platform and
based on the sample chemistry)
acceptance parame- Reads negative control < 10000
ters below.
Sample Accept- Estimated coverage 20X (depending on application and microorganism se-
ance parameters quenced)
Mean Phred score 30
Contamination Check for expected species and absence of non-expected
species/strain (<5% reads identi ied as non-target species)
Run criteria Cluster density 600-1400 K/mm2 for MiSEQ, 170-200 for iSEQ
(informative) Clusters passing ilter > 75%
PhiX alignment 1%
Phasing/pre-phasing read-1 < 0.5%
Phasing/pre-phasing read-4 < 0.5%
Sample criteria GC-score < 4% deviation
(informative, Median Phred score drop Q30 150
can be species-
dependent, should Reads per sample > 20000 (may vary depending on the application and re-
be evaluated quired coverage)
during validation) Maximal N-fraction < 0.10%
Per base sequence content < 6% difference
AT proportion check < 30%
Sequence length distribution e.g. < 5% of reads are < 120 bp when raw input reads are
300 bp long; >50% of the reads are >150bp when raw input
reads are 300 bp long
25
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
26
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex B
(informative)
27
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
28
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex C
(informative)
29
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Annex D
(informative)
30
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex E
(informative)
31
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
32
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex F
(informative)
33
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Annex G
(informative)
34
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
Annex H
(informative)
Metadata specification
35
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
* If the stakeholder must include a truncated version due to data sharing constraints, only include
information according to the permissible granularity. “Missing” is a permissible value.
36
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
* If the stakeholder must include a truncated version due to data sharing constraints, only include
information according to the permissible granularity. “Not included”, “Not provided” or “Restricted
access” are permissible null values.
37
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Annex I
(informative)
I.1 Introduction
Standardization of digital data using controlled vocabularies and ontologies is considered to be a
best practice for data stewardship[11][12]. The ISO WGS Slim was created to gather relevant ields and
values from existing, community-supported ontologies, e.g. GenEpiO and FoodOn, which are relevant
to WGS-based food microbiology. GenEpiO is an application ontology that contains ields and values
for genomics, laboratory, clinical, environmental, and epidemiological data and processes[4]. The
Food Ontology (FoodOn) is a domain ontology that describes food products, as well as processes for
cooking, preservation, packing/wrapping of food, anatomical sources, cultural and geographical
origin, consumer groups and more[5]. FoodOn also contains higher level food categories imported from
many existing food classi ication schemes e.g. FoodEx2, USDA National Nutrient SR Legacy database,
European Food Information Resource (Euro ir), FDA Code of Federal Regulations (CFR) products list
etc[5][6][7]. GenEpiO and FoodOn have been developed by a community of experts. Further information
can be obtained from http://foodon.org/.
Ontology-derived ields and values facilitate metadata harmonization integration, reuse, and exchange
by providing standardized terms, de initions and universal IDs (URIs) which better enable information
to be processed by both humans and computers. Furthermore, ontologies encode computational logic
which can be used by software systems to improve automation and more complex querying. The
hierarchical nature of ontologies also better enables aggregation of data and comparisons of information
at different levels of granularity. As such, the ISO WGS Slim can be used to provide metadata descriptors
as prescribed in Tables 1, 2, and 3.
In some cases, the ISO WGS Slim may not contain the breadth of vocabulary required. In which case, other
ontologies are recommended. Speci ically, geographic, taxonomic, environmental (built and natural)
and drug name ields in this standard may require more extensive vocabulary available directly in the
Gazetteer (GAZ), NCBITaxon, Environment Ontology (EnvO) and Chemical Entities of Biological Interest
(CheBI) ontologies respectively. GenEpiO vocabulary has largely been sourced from these ontologies
and so URIs will be compatible. Further information can be obtained from www.obofoundry.org. GAZ,
NCBITaxon, FoodOn, EnvO and CheBI ontologies can be downloaded from Github:
https://github.com/EnvironmentOntology/gaz
https://github.com/obophenotype/ncbitaxon
https://github.com/FoodOntology/foodon
https://github.com/EnvironmentOntology/envo
https://github.com/ebi-chebi/ChEBI
38
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
contained in the slim, the GAZ, NCBITaxon, FoodOn, EnvO and CheBI ontologies can also be downloaded
from GitHub.
It is impracticable to provide instructions for ISO WGS Slim implementation for all computing
infrastructure scenarios. However, tabular data is commonly shared in a SQL database or spreadsheet
format, and so this section provides an overview of how to address these situations.
39
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Note that ontology resources grow and are re ined over time. Additional training by IT support staff
to understand how to access ontology terms and how to manage or refresh terms from ontology
source iles may be required when implementing the ISO Ontology Slim in different systems within an
organization.
I.3 Approaches for ontology integration in systems for metadata capture and
management
I.3.1 Spreadsheets
Annotating spreadsheet data with standardized ontology terms can be achieved by having a separate
mapped sheet “ontology view” which has a 1-1 cell correspondence to the original sheet. An example
illustrating original values mapped to ontology IDs is shown in Figure I.1. Note that the column headers
are also replaced by ontology identi iers (numeric and free text values remain unchanged). In the example
in the diagram below, the ield “First Name” should be associated with the ISO WGS Slim ontology term
http://purl.obolibrary.org/obo/NCIT_C40974. Similarly, the antimicrobial resistance reference standard
“CLSI” in the original data is mapped to the ISO WGS Slim ontology term ID ARO:3004366, while the drug
name “penicillin” in the spreadsheet is mapped to the ontology ID CHEHI:17334.
40
– Entwurf – E DIN EN ISO 23418:2020-10
ISO/DIS 23418:2020(E)
ID GENEPIO:0002223, a term in the ISO WGS Slim. Note the label has been replaced by the ontology ID
in this table.
The ontology ID GENEPIO:0002223 can be linked to its label through a term lookup table, shown in
Table I.2. The “parent id” term refers to the more general term “laboratory service” which has the
ontology ID GENEPIO:0002225, where “bioinformatics analysis service” is a particular type/value for
the ield “laboratory service”. Other types of laboratory services are also listed – all with the same
parent ontology ID, but with different ontology term IDs.
Other associations between ontology terms (rather than ield values/content) can be recorded in
a separate ontology term table, such as in Table I.3, which illustrates links between “ontologized”
organization name and associated services, IDs etc.
41
E DIN EN ISO 23418:2020-10 – Entwurf –
ISO/DIS 23418:2020(E)
Bibliography
[1] V B A., Associates. Guidelines for the validation and application of typing methods for
use in bacterial epidemiology [online]. Clin Microbiol Infect 13(Suppl 3). 1-46. [viewed 30 July
2018]. Available from https://doi.org/10.1111/j.1469-0691.2007.01786.x
[2] D T., and AD SMITH. Predicting the molecular complexity of sequencing libraries [online].
Nat Methods 10(4):325-7. [viewed 30 July 2018]. ISSN 1548-7091. Available at doi: 10.1038/
nmeth.2375
[3] CHAIN PSG, and others. Genome Project Standards in a New Era of Sequencing. Science. 2009,
326(5950). [viewed 30 July 2018]. ISSN 0036-8075. Available from doi: 10.1126/science.1180614
[4] GRIFFITHS E et al. , Context Is Everything: Harmonization of Critical Food Microbiology
Descriptors and Metadata for Improved Food Safety and Surveillance [online]. Front Microbiol.
8: 1068. [viewed 30 July 2018]. Available at doi: 10.3389/fmicb.2017.01068
[5] DOOLEY DM and others. FoodOn: a harmonized food ontology to increase global food traceability,
quality control and data integration. npj Science of Food. 2018, 2 (article 23). Available at doi
.org/10.1038/s41538-018-0032-6
[6] ISO WGS S . https://github.com/GenEpiO/iso2017
[7] FoodEx2: https://www.efsa.europa.eu/en/data/data-standardisation
[8] PORTMANN A-C et al. , A Validation of an End-to-End Whole Genome Sequencing Work low for
Source Tracking of Listeria monocytogenes and Salmonella enterica. Frontiers in Microbiology 9
(article 446). Available at doi 10.3389/fmicb.2018.00446
[9] BOGAERTS B et al. , Validation of a Bioinformatics Work low for Routine Analysis of Whole-
Genome Sequencing Data and Related Challenges for Pathogen Typing in a European National
Reference Center: Neisseria meningitidis as a Proof-of-Concept. Frontiers in Microbiology 10
(article 362). Available at doi: 10.3389/fmicb.2019.00362
[10] W P.R., Associates. Global Microbial Identi ier. In: Applied Genomics of Foodborne
Pathogens. Food Microbiology and Food Safety, (D X., d B H., H R., eds.).
Springer, Cham. [viewed 30 July 2018]
[11] L D., Associates. Baseline Practices for the Application of Genomic Data Supporting
Regulatory Food Safety [online]. J AOAC. 2017, 100(3), 1-11. [viewed 30 July 2018] ISSN 1060-
3271. Available from doi: 10.5740/jaoacint.16-0269
[12] WILKINSON MD, and others. The FAIR Guiding Principles for scienti ic data management and
stewardship [online]. Scienti ic Data. 2016, 3:160018. ISSN 2052-4463. [viewed 30 July 2018].
Available at doi: 10.1038/sdata.2016.18
[13] PIGHTLING AW, PETRONELLA N, and PAGOTTO F. Choice of Reference Sequence and Assembler
for Alignment of Listeria monocytogenes Short-Read Sequence Data Greatly In luences Rates of
Error in SNP Analyses PLoS One. 2014 Aug 21;9(8):e104579. [viewed 08 January 2020]. Available
at doi: 10.1371/journal.pone.0104579
[14] PIGHTLING AW, and others. Interpreting Whole-Genome Sequence Analyses of Foodborne
Bacteria for Regulatory Applications and Outbreak Investigations. Frontiers In Microbiology
2018 Vol 9 pg. 1482. [viewed 03 March 2020] Available at doi: 10.3389/fmicb.2018.01482
42