Der „Daten-Dreisatz“ und die Prim(är)-Zahlen

Der „Daten-Dreisatz“ und die Prim(är)-Zahlen

Nach der Einrichtung eines einfachen „adhoc“-Erfassungs- und Auswertungs-Tools wurde ich kürzlich  erneut auf ein generelles Missverständnis in Sachen der „Bewertung“ von Daten aufmerksam. Der Kollege (für den dieses Tool bestimmt war und der durchaus über gute Anwendererfahrung verfügt) wunderte sich, wie der die eingerichteten Tabellen verwenden solle. Ich musste ihm daraufhin den Daten-„Dreisatz“ SVA erläutern: SVA steht hier für Stammdaten, Verlauf, Auswertungen.

Die Stammdaten: Sinn und Zweck: Erfassen (oder importieren) von Datenzeilen, in der jede Datenzeile (Datensatz) an mind. Einer Position ein-eindeutig ist. Bspw. sollte eine laufende Nummer verwendet werden oder bei Kunden- bzw. Artikeltabellen eine Kunden- bzw. Artikelnummer. Man muss nicht zwangsläufig über detaillierte Kenntnisse der Normalisierung verfügen um eine brauchbare Tabellenstruktur zu erstellen, sollte aber unbedingt folgendes beachten: Mindestens die erste Normalform (NF1): Hierfür existieren die aufwändigsten Beschreibungen (auch auf Wikipedia heißt es: „Jedes Attribut der Relation muss einen atomaren Wertebereich haben. (Anm.: statt „atomar“ wird auch die Bezeichnung „atomisch“ verwendet“) Kurzgesagt bedeutet das, dass jeder Wert in EINER Spalte erfasst werden sollte, also NICHT PLZ und ORT in ADRESSE zusammenfassen. Jede zusammengehörende „Datengruppe“ sollte in je einer Tabelle erfasst werden: Kunden in einer Kundentabelle, Artikel in einer Artikeltabelle, Gewerke in einer Gewerketabelle etc. und schon ist das Prinzip Stammdaten (zumindest grundsätzlich) umgesetzt. Die Verlauf-Daten: In aller Regel „passiert“ mit den Daten ja irgendetwas. Beispielsweise werden Artikel an Kunden verkauft und geliefert. Dazu gehören mindestens folgende „Attribute“, also Spalten: ein Datum, ein bestimmter Artikel der an einen bestimmten Kunden in einer bestimmten Menge verkauft wird (in aller Regel natürlich deutlich mehr). In der Verlaufstabelle werden Artikel- und Kundendaten aus den Stammdaten-Tabellen verwendet und für gewöhnlich ist es sinnvoll, die Erfassung der Daten für die Verlaufstabelle so einzustellen, dass NUR Daten erfasst werden, die über die Stammdaten auch referenziert werden können. Bei Excel kann das über die Daten-Validierungsmöglichkeit (Daten / Datenüberprüfung) eingestellt werden, Datenbank-Programme verfügen über weitere Möglichkeiten.

Auswertung, Quelle: pixelio Die Auswertungen: …beziehen sich in aller Regel auf die Verlaufsdaten. Ein klassisches (und sehr effektives) Beispiel wäre, dass die Verlaufsdaten zu einer Pivot-Tabelle „verdichtet“ werden, um nach Artikeln, Regionen, Datumbereiche u.ä. die Summen  von Warenwerten (die sich aus der Multiplikation von Mengen der Verlaufstabelle und Einzelpreisen aus der Artikeltabelle errechnen lassen) darstellt. Auch Stammdaten können ausgewertet werden. Wenn Sie bsp. eine Übersicht über die Verteilung Ihrer Kunden benötigen, kann eine Auswertung über den PLZ-Bereich erstellt werden. In Pivot-Tabellen können PLZ-Einträge beliebig gruppiert werden. Auswertungen können immer wieder neu erstellt oder geändert oder ergänzt werden, sie „berühren“ die Datendaten nicht.

Die Prim(är)-Zahlen Die „Hauptdaten“ kommen aus dem Primärsystem, das meist über einen längeren Zeitraum entwickelt wurde und in der Regel auch für einen längeren Zeitraum verwendet werden soll. Geradezu zwangsläufig ergibt sich durch diesen Umstand die Tatsache, dass Primärsysteme kaum die Chance haben, mit der Zeit Schritt zu halten und allen Anforderungen der Anwenderseite zu entsprechen. Genau dieser Punkt stellt oftmals ein Ärgernis dar, denn die Anforderungen ändern sich schneller als ein Primärsystem mitwachsen kann. Somit entwickeln sich schnell Sekundärsysteme, die häufig auf „einfachen“ Systemen wie Excel oder Access aufsetzen. Dabei kann  „einfach“ hier kaum ernst gemeint sein, denn diese Programme sind keineswegs „simpel“. Auch das Reporting-System von Access ist nicht unbedingt schlechter als das von „größeren“ Anbietern, es kommt einfach darauf an, wie umfassend die Ergebnisse generiert werden sollen. Seit der Version 2013 bietet auch Excel mit PowerView ein Reporting-System und mit GeoFlow ein interessantes Visualisierungs-Tool  an. Ein Frontend-System (also ein System, mit dem der Anwender lokal oder bspw. über Citrix arbeitet) an das Primär-System anzubinden ist nicht in jedem Fall ganz einfach, und in vielen Fällen auch nicht gewünscht. So stellen nicht alle Anbieter ODBC-Treiber kostenlos zur Verfügung. Als Alternative können aber die meisten Primär-Systeme (SQL-Server, aber auch SAP etc.)  Datenexporten anbieten. Manchmal entwickeln sich regelrecht kleinere „Kämpfe“ um die Daten. Exportdaten können dann mit den eigenen Daten ge-„merged“ also zusammengestellt oder gemischt werden. Dafür sind in aller Regel allerdings Automatisierungs-Routinen erforderlich, und um die einzustellen, ist dann wiederum oft ein „Auskenner“ erforderlich 😉