Was ist eine MTZ-Datei?

01/02/2025

Rating: 4.53 (3280 votes)

Das MTZ-Dateiformat ist ein spezialisiertes Format, das primär zur Speicherung von *Reflexionsdaten* in der Kristallographie verwendet wird. Es dient als zentrales Austauschformat für Programme, die sich mit der Analyse und Strukturaufklärung von Kristallen befassen. Eine MTZ-Datei enthält nicht nur die eigentlichen Messdaten, sondern auch umfangreiche Metadaten, die das Verständnis und die Verarbeitung der Daten ermöglichen.

Was ist eine .mtz-Datei?
Das MTZ-Dateiformat wird zur Speicherung von Reflexionsdaten verwendet . Die Datei enthält die Daten und einen Metadaten-Header. Der Metadaten-Header wird als Tabelle gespeichert, wobei Zeilen die Reflexionen und Spalten die verschiedenen Werte für jede Reflexion darstellen.

Das Format wurde entwickelt, um eine eigenständige Datei zu schaffen, die alle notwendigen Informationen für die Analyse von Reflexionsdaten bereitstellt. Dazu gehören Symmetrieoperationen, Zelldimensionen und andere relevante Parameter. Die Daten selbst sind in Form einer Tabelle organisiert, bei der jede Zeile eine einzelne Reflexion repräsentiert und jede Spalte eine bestimmte Messgröße für diese Reflexion (z. B. Intensität, Strukturfaktor, Phase).

Übersicht

Die Struktur einer MTZ-Datei: Daten und Header

Grundsätzlich besteht eine MTZ-Datei aus zwei Hauptteilen: den Reflexionsdaten und einem *Header*. Der Header enthält alle Metainformationen, während die Reflexionsdaten die eigentlichen Messwerte in tabellarischer Form bereithalten.

Der Header

Der Header ist entscheidend, da er die Daten im Kontext der kristallographischen Experimente beschreibt. Er enthält Informationen wie:

  • Symmetrieoperationen und Raumgruppe
  • Zelldimensionen des Kristalls
  • Informationen zu Projekten, Kristallen und Datensätzen
  • Auflösungsbereich der Daten
  • Informationen zu den einzelnen Datenspalten (Bezeichnung, Typ, Min/Max-Werte)
  • Versionsinformationen und Historie

Ziel des Headers ist es, die Datei so vollständig wie möglich zu gestalten, sodass ein lesendes Programm alle notwendigen Informationen direkt aus der Datei entnehmen kann, ohne auf externe Quellen angewiesen zu sein.

Die Reflexionsdaten

Die Reflexionsdaten bilden den Hauptteil der Datei und sind als eine Art Tabelle strukturiert. Jede Zeile dieser Tabelle entspricht einer einzelnen Reflexion, identifiziert durch ihre Miller-Indizes (h, k, l). Die Spalten enthalten die verschiedenen gemessenen oder abgeleiteten Werte für jede Reflexion, wie z. B. gemessene Intensitäten, berechnete Strukturfaktoren, Phaseninformationen oder Standardabweichungen.

Die Identifizierung der Daten in den Spalten erfolgt über Spaltenbezeichnungen (Labels), die im Header definiert sind. Programme, die MTZ-Dateien lesen, verknüpfen die benötigten Daten anhand dieser Labels.

Das Datenmodell hinter dem MTZ-Format

Das MTZ-Format basiert auf einem hierarchischen Datenmodell, auch wenn nicht alle Ebenen dieses Modells vollständig in der aktuellen Implementierung des Formats abgebildet sind. Die Hierarchie sieht wie folgt aus:

Datei -> Kristall -> Datensatz -> Dataliste -> Spalte

Die Ebene der "Dataliste" (Datalist) ist im aktuellen MTZ-Format noch nicht implementiert. Die anderen Ebenen sind jedoch im Header der MTZ-Datei repräsentiert:

  • Projekt: Eine Gruppierung von Experimenten, oft entsprechend einer bestimmten Strukturbestimmung. Ein Projekt kann mehrere Kristalle umfassen.
  • Kristall: Repräsentiert einen spezifischen Kristall, der vermessen wurde. Ein Kristall kann mehrere Datensätze liefern (z. B. Messungen unter verschiedenen Bedingungen oder von verschiedenen Ableitungen).
  • Datensatz: Eine spezifische Messung oder eine Gruppe von Messungen, die einem Kristall zugeordnet sind. Ein Datensatz hat spezifische Eigenschaften wie Zelldimensionen und Wellenlänge.
  • Spalte: Eine einzelne Datenserie innerhalb eines Datensatzes, die eine bestimmte physikalische Größe für die Reflexionen enthält.

Der Header listet die Spalten der Daten auf und identifiziert, zu welchem Datensatz sie gehören und wiederum zu welchem Kristall dieser Datensatz gehört. Kristalle, Datensätze und Spalten werden jeweils durch Labels identifiziert. Die vollständige Identifizierung einer Spalte erfolgt durch die Kombination „Projektname/Kristallname/Datensatzname/Spaltenlabel“, obwohl die vollständige Hierarchie im Header oft durch Verweise (IDs) abgebildet wird.

Zelldimensionen und Wellenlängen

Wichtige Metadaten sind die Zelldimensionen des Kristalls und die Wellenlänge der verwendeten Strahlung. Diese sind für die korrekte Interpretation der Reflexionsdaten unerlässlich.

  • Globale Zelle (CELL): Im Hauptheader gespeichert. Die Verwendung dieser globalen Zelldimensionen wird mittlerweile als veraltet betrachtet.
  • Datensatz-Zelle (DCELL): Für jeden Datensatz im Hauptheader gespeichert. Obwohl im Format für jeden Datensatz eine eigene Zelle gespeichert werden kann, geht die zugrundeliegende Bibliothek (CMTZ) davon aus, dass die Zelldimensionen eine Eigenschaft des Kristalls sind, weshalb die DCELL-Werte für alle Datensätze desselben Kristalls identisch sein sollten. In der Praxis können unterschiedliche Datensätze leicht abweichende Schätzungen der Zelldimensionen liefern.
  • Batch-Header (bei Unmerged Files): In MTZ-Dateien, die ungemergte Daten enthalten (Daten von einzelnen Aufnahmen oder Batches), speichert jeder Batch-Header ebenfalls die Zelldimensionen für diesen spezifischen Batch.
  • Wellenlänge (DWAVEL): Kann ebenfalls jedem Datensatz zugeordnet werden.

Das Dateiformat im Detail

Das MTZ-Dateiformat verwendet logische Sätze fester Länge, die als Bytestrom geschrieben werden. Jedes Datenelement (z. B. ein Reflexionswert) wird typischerweise als REAL*4 (4 Bytes) gespeichert. Eine Datei enthält mindestens 3 und derzeit maximal 200 Datenspalten pro Satz, obwohl diese Grenzen erhöht werden könnten.

Zusätzliche Informationen sind in gekennzeichneten Header-Sätzen enthalten. Diese Sätze stehen, entgegen der logischen Reihenfolge, typischerweise am Ende der Datei nach den Reflexionsdatensätzen. Der Beginn des Headers wird durch einen Integer-Wert am Anfang der Datei angezeigt.

Die ersten 4 Bytes einer MTZ-Datei sollten immer die Zeichenkette "MTZ " sein. Dies dient als magische Zahl, um das Dateiformat zu identifizieren.

Was ist eine .mtz-Datei?
Das MTZ-Dateiformat wird zur Speicherung von Reflexionsdaten verwendet . Die Datei enthält die Daten und einen Metadaten-Header. Der Metadaten-Header wird als Tabelle gespeichert, wobei Zeilen die Reflexionen und Spalten die verschiedenen Werte für jede Reflexion darstellen.

Wichtige Header-Keywords

Der Header besteht aus einer Reihe von Sätzen, die durch Keywords gekennzeichnet sind. Einige der wichtigsten sind:

  • VERS: Versionsstempel des MTZ-Formats (z. B. MTZ:V1.1).
  • TITLE: Ein kurzer Titel zur Identifizierung der Datei.
  • NCOL: Enthält die Anzahl der Spalten, die Anzahl der Reflexionen und (bei multi-record Dateien) die Anzahl der Batches.
  • CELL: Globale Zelldimensionen (veraltet).
  • SYMINF: Informationen zur Symmetrie (Anzahl Operationen, Gittertyp, Raumgruppennummer und -name, Punktgruppenname).
  • SYMM: Die eigentlichen Symmetrieoperationen im International-Tables-Stil.
  • RESO: Der minimale und maximale Auflösungsbereich der Daten (als 1/d²).
  • VALM: Der Wert, der für fehlende Datenpunkte verwendet wird (Missing Number Flag).
  • COL: Beschreibt eine Datenspalte: Label, *Spaltentyp*, Min/Max-Werte, ID des zugehörigen Datensatzes.
  • NDIF: Anzahl der im File repräsentierten Datensätze.
  • PROJECT, CRYSTAL, DATASET: Listen die Namen der Projekte, Kristalle und Datensätze zusammen mit ihrer ID auf.
  • DCELL: Zelldimensionen für jeden Datensatz.
  • DWAVEL: Wellenlänge für jeden Datensatz.
  • BATCH: Listet die Batch-Seriennummern auf (nur bei multi-record Dateien).
  • END: Markiert das Ende des Hauptheaders.

Nach dem Hauptheader können weitere Sätze folgen, wie z. B. die Historie der Datei oder (bei multi-record Dateien) Batch-Titel und Orientierungsdaten für jeden Batch.

Speicherung von Datenitems

Die verschiedenen Typen von kristallographischen Daten werden wie folgt gespeichert:

  • Miller-Indizes (h, k, l): Gespeichert als REAL*4.
  • Strukturfaktoren (F): Beträge werden als REAL*4 gespeichert.
  • Phasen: Gespeichert als REAL*4 in Grad.
  • S (4 sin² θ / λ²): Wird nicht als separate Spalte gespeichert, sondern kann bei Bedarf berechnet werden. Die Min/Max-Werte von 1/d² sind im Header.
  • Centric Flag: 0 für zentrisch, 1 für azentrisch.
  • Hendrickson-Lattman Koeffizienten (A, B, C, D): Gespeichert.
  • Figures of Merit: Gespeichert.

Spaltenbezeichnungen (Column Labels)

Jede Datenspalte in einer MTZ-Datei wird durch ein eindeutiges Label identifiziert. Diese Labels können bis zu 30 Zeichen lang sein. Programme verwenden diese Labels, um die Daten aus der Datei den intern benötigten Werten zuzuordnen (oft über Mechanismen wie LABIN/LABOUT). Obwohl beliebige Labels gewählt werden können, gibt es Konventionen für häufig verwendete Datenitems:

Konventionelles LabelDatenitem
H, K, LMiller-Indizes
IIntensität
SIGIStandardabweichung der Intensität
FPStrukturfaktor (Native)
SIGFPStandardabweichung von FP
PHICBerechnete Phase
PHIMWahrscheinlichste Phase
FOMFigure of Merit
FREEFree R Flag (Programm-Label)
FreeR_flagFree R Flag (File-Label)

Diese Liste ist nicht vollständig, zeigt aber gängige Bezeichnungen.

Spaltentypen (Column Types)

Zusätzlich zu den Labels wird jeder Spalte ein *Spaltentyp* zugewiesen. Dies dient als zusätzliche Überprüfung, um sicherzustellen, dass Programme die Daten korrekt interpretieren und keine unpassenden Zuweisungen vorgenommen werden (z. B. Versuch, eine Intensitätsspalte als Strukturfaktor zu verwenden). Die CCP4-Bibliothek gibt eine Warnung aus, wenn Spaltentypen zwischen Datei und Programm nicht übereinstimmen. Wichtige Spaltentypen sind:

TypBeschreibung
HIndex (h, k, l)
JIntensität
FStrukturfaktor-Amplitude
DAnomale Differenz
QStandardabweichung (generisch, oft für J, F, D)
GStrukturamplitude (F(+) oder F(-))
LStandardabweichung für Typ G
KIntensität (I(+) oder I(-))
MStandardabweichung für Typ K
ENormierter Strukturfaktor (Epsilon-skaliert)
PPhasenwinkel (in Grad)
WGewicht
APhasenwahrscheinlichkeitskoeffizienten (Hendrickson/Lattman)
BBATCH-Nummer
YM/ISYM (gepacktes Flag und Symmetrie-Nummer)
IBeliebiger Integer
RBeliebiger Real

Die korrekte Zuweisung von Spaltentypen ist wichtig für die Integrität und korrekte Verarbeitung der kristallographischen Daten.

Kompatibilität zwischen CCP4-Versionen

Das MTZ-Format hat sich im Laufe der Zeit weiterentwickelt, insbesondere im Zusammenhang mit verschiedenen Versionen der CCP4-Software-Suite, die es intensiv nutzt. Wichtige Entwicklungsschritte waren:

  • CCP4 3.5: Einführung von Projekt- und Datensatznamen für Data Harvesting.
  • CCP4 4.1: Hinzufügung von Datensatz-Zell- und Wellenlängeninformationen.
  • CCP4 5.0: Volle Unterstützung für die Crystal-Zeile und Hinzufügung des HKL_base Datensatzes.

Die Bibliotheken zum Lesen und Schreiben von MTZ-Dateien (wie die CMTZ-Bibliothek) sind in der Regel darauf ausgelegt, ältere Formate zu lesen und neue Funktionen zu unterstützen, was eine gewisse Abwärtskompatibilität gewährleistet.

Häufig gestellte Fragen zum MTZ-Format

F: Wofür wird eine MTZ-Datei hauptsächlich verwendet?
A: Hauptsächlich zur Speicherung von Reflexionsdaten aus kristallographischen Experimenten.

F: Welche Informationen enthält der Header einer MTZ-Datei?
A: Metadaten wie Symmetrie, Zelldimensionen, Informationen zu Projekten, Kristallen und Datensätzen, Auflösungsbereich, Spaltenbeschreibungen und Historie.

F: Was sind Spaltenlabels und Spaltentypen?
A: Spaltenlabels sind Bezeichnungen zur Identifizierung von Datenserien (z. B. 'I' für Intensität). Spaltentypen geben die Art der Daten in einer Spalte an (z. B. 'J' für Intensität, 'F' für Strukturfaktor), was für die Validierung wichtig ist.

F: Wie sind die Daten in einer MTZ-Datei organisiert?
A: Als Tabelle, bei der jede Zeile eine Reflexion und jede Spalte eine Messgröße repräsentiert. Die Daten sind über Labels und Typen identifiziert und hierarchisch Projekten, Kristallen und Datensätzen zugeordnet.

F: Gibt es Unterschiede zwischen MTZ-Dateien aus verschiedenen Software-Versionen?
A: Ja, das Format hat sich entwickelt. Neuere Versionen können zusätzliche Informationen im Header enthalten, aber die Lesebibliotheken sind oft abwärtskompatibel.

Zusammenfassend lässt sich sagen, dass das MTZ-Format ein robustes und detailliertes Format zur Speicherung und zum Austausch von *Reflexionsdaten* ist, das durch seine Kombination aus strukturierten Daten und umfassenden Metadaten eine zentrale Rolle in der rechnergestützten Kristallographie spielt.

Wenn du mehr spannende Artikel wie „Was ist eine MTZ-Datei?“ entdecken möchtest, schau doch mal in der Kategorie Bürobedarf vorbei!

Go up