Der „Daten-Dreisatz“ und die Prim(är)-Zahlen

Der „Daten-Dreisatz“ und die Prim(är)-Zahlen

Nach der Einrichtung eines einfachen „adhoc“-Erfassungs- und Auswertungs-Tools wurde ich kürzlich  erneut auf ein generelles Missverständnis in Sachen der „Bewertung“ von Daten aufmerksam. Der Kollege (für den dieses Tool bestimmt war und der durchaus über gute Anwendererfahrung verfügt) wunderte sich, wie der die eingerichteten Tabellen verwenden solle. Ich musste ihm daraufhin den Daten-„Dreisatz“ SVA erläutern: SVA steht hier für Stammdaten, Verlauf, Auswertungen.

Die Stammdaten: Sinn und Zweck: Erfassen (oder importieren) von Datenzeilen, in der jede Datenzeile (Datensatz) an mind. Einer Position ein-eindeutig ist. Bspw. sollte eine laufende Nummer verwendet werden oder bei Kunden- bzw. Artikeltabellen eine Kunden- bzw. Artikelnummer. Man muss nicht zwangsläufig über detaillierte Kenntnisse der Normalisierung verfügen um eine brauchbare Tabellenstruktur zu erstellen, sollte aber unbedingt folgendes beachten: Mindestens die erste Normalform (NF1): Hierfür existieren die aufwändigsten Beschreibungen (auch auf Wikipedia heißt es: „Jedes Attribut der Relation muss einen atomaren Wertebereich haben. (Anm.: statt „atomar“ wird auch die Bezeichnung „atomisch“ verwendet“) Kurzgesagt bedeutet das, dass jeder Wert in EINER Spalte erfasst werden sollte, also NICHT PLZ und ORT in ADRESSE zusammenfassen. Jede zusammengehörende „Datengruppe“ sollte in je einer Tabelle erfasst werden: Kunden in einer Kundentabelle, Artikel in einer Artikeltabelle, Gewerke in einer Gewerketabelle etc. und schon ist das Prinzip Stammdaten (zumindest grundsätzlich) umgesetzt. Die Verlauf-Daten: In aller Regel „passiert“ mit den Daten ja irgendetwas. Beispielsweise werden Artikel an Kunden verkauft und geliefert. Dazu gehören mindestens folgende „Attribute“, also Spalten: ein Datum, ein bestimmter Artikel der an einen bestimmten Kunden in einer bestimmten Menge verkauft wird (in aller Regel natürlich deutlich mehr). In der Verlaufstabelle werden Artikel- und Kundendaten aus den Stammdaten-Tabellen verwendet und für gewöhnlich ist es sinnvoll, die Erfassung der Daten für die Verlaufstabelle so einzustellen, dass NUR Daten erfasst werden, die über die Stammdaten auch referenziert werden können. Bei Excel kann das über die Daten-Validierungsmöglichkeit (Daten / Datenüberprüfung) eingestellt werden, Datenbank-Programme verfügen über weitere Möglichkeiten.

Auswertung, Quelle: pixelio Die Auswertungen: …beziehen sich in aller Regel auf die Verlaufsdaten. Ein klassisches (und sehr effektives) Beispiel wäre, dass die Verlaufsdaten zu einer Pivot-Tabelle „verdichtet“ werden, um nach Artikeln, Regionen, Datumbereiche u.ä. die Summen  von Warenwerten (die sich aus der Multiplikation von Mengen der Verlaufstabelle und Einzelpreisen aus der Artikeltabelle errechnen lassen) darstellt. Auch Stammdaten können ausgewertet werden. Wenn Sie bsp. eine Übersicht über die Verteilung Ihrer Kunden benötigen, kann eine Auswertung über den PLZ-Bereich erstellt werden. In Pivot-Tabellen können PLZ-Einträge beliebig gruppiert werden. Auswertungen können immer wieder neu erstellt oder geändert oder ergänzt werden, sie „berühren“ die Datendaten nicht.

Die Prim(är)-Zahlen Die „Hauptdaten“ kommen aus dem Primärsystem, das meist über einen längeren Zeitraum entwickelt wurde und in der Regel auch für einen längeren Zeitraum verwendet werden soll. Geradezu zwangsläufig ergibt sich durch diesen Umstand die Tatsache, dass Primärsysteme kaum die Chance haben, mit der Zeit Schritt zu halten und allen Anforderungen der Anwenderseite zu entsprechen. Genau dieser Punkt stellt oftmals ein Ärgernis dar, denn die Anforderungen ändern sich schneller als ein Primärsystem mitwachsen kann. Somit entwickeln sich schnell Sekundärsysteme, die häufig auf „einfachen“ Systemen wie Excel oder Access aufsetzen. Dabei kann  „einfach“ hier kaum ernst gemeint sein, denn diese Programme sind keineswegs „simpel“. Auch das Reporting-System von Access ist nicht unbedingt schlechter als das von „größeren“ Anbietern, es kommt einfach darauf an, wie umfassend die Ergebnisse generiert werden sollen. Seit der Version 2013 bietet auch Excel mit PowerView ein Reporting-System und mit GeoFlow ein interessantes Visualisierungs-Tool  an. Ein Frontend-System (also ein System, mit dem der Anwender lokal oder bspw. über Citrix arbeitet) an das Primär-System anzubinden ist nicht in jedem Fall ganz einfach, und in vielen Fällen auch nicht gewünscht. So stellen nicht alle Anbieter ODBC-Treiber kostenlos zur Verfügung. Als Alternative können aber die meisten Primär-Systeme (SQL-Server, aber auch SAP etc.)  Datenexporten anbieten. Manchmal entwickeln sich regelrecht kleinere „Kämpfe“ um die Daten. Exportdaten können dann mit den eigenen Daten ge-„merged“ also zusammengestellt oder gemischt werden. Dafür sind in aller Regel allerdings Automatisierungs-Routinen erforderlich, und um die einzustellen, ist dann wiederum oft ein „Auskenner“ erforderlich 😉

Gute Seiten, schlechte Seiten

Gute Seiten, schlechte Seiten

Kunst kommt von „können“? Ansichtssache. Und Präsentieren kommt von praesentia. Und das heißt Gegenwart. Eine Präsentation soll also etwas vergegenwärtigen. Und dazu werden gerne Infografiken eingesetzt.

In der großen Welt der Datenkonsolidierung und -reduktion mit dem Ziel einer vereinfachten Aussage führt das durchaus schon mal zu Missverständnissen. Bei Seminaren mache ich mitunter die Erfahrung, dass Mitarbeiter für ihre Vorgesetzten aus einem nennenswerten Datenberg zu einer „Ampel-Aussage“ gelangen sollen. Das heißt, dass mitunter gigantische Datenabzüge aus unterschiedlichen Quellen zu der Aussage „gut“ oder z.B. „schlecht“ führen soll, dargestellt in ROT, GELB oder bestenfalls bzw. wünschenswerterweise GRÜN. Jeder, der schon mal mit dem Problem der Zusammenführung von Daten befasst war, weiß, dass, mal abgesehen von dem Problem der Datenbereinigung, noch weitere „Unwägbarkeiten“ das Ergebnis „beeinflussen“ können. Das gewünschte Ampel-Resultat ist zwar für eine Entscheidungsinstanz nicht gänzlich unverständlich, aber vielleicht doch etwas zu sehr simplifiziert, und genau da lassen sich wunderbar die in Mode gekommenen Infografiken einsetzen.

Bei Infografiken handelt es sich um ein Mittel, auf unterschiedliche und manchmal recht „überraschende Weise“, einen komplexen Sachverhalt einem Laien verständlich zu machen. Die Daten-Verdichtung durch Diagramme ist zweckmäßig, aber häufig langweilig und insbesondere durchaus bestens für Manipulationen geeignet. Infografiken eignen sich durchaus sogar noch besser für Manipulationen, aber im Gegensatz zu Diagrammen und den ewigen Powerpoint-Präsentationen, die seriös daherzukommen versuchen und manchmal schon deshalb für Misstrauen sorgen, ist der „Sinn“ der Darstellung über eine Infografik in ihrer gesamten „Theatralik“ erkennbarer und erreicht somit eine andere Form der Akzeptanz.

Im folgenden möchte ich ein paar Beispiele benennen, die ich nach meinem persönlichen Empfingen für gelungen bzw. weniger gelungen halte.

1. Sehr gelungen:  STOCK-CHECK: http://visual.ly/remaining-oil-gas-coal
Grund: einfach gehalten, schon bei oberflächlichem Hinsehen erschließt sich die Aussage. Einsatz weniger Farben und weniger Symbole. Kein ablenkender Hintergrund. Wenige, deutlich erkennbare Zahlenwerte. Drei kleine integriert Diagramme, zudem eine Weltkarte mit gut erkennbarer Verteilung. Weiterhin Angabe von Quellen am Ende der Grafik

2. Weniger gelungen: EVOLUTION OF SMOKING: http://visual.ly/evolution-smoking
Grund: Zu dicht, unklare Datenlage (keine Quellenangabe), zu sehr überladen mit unterschiedlichen Stilmitteln, unruhige Erscheinung des Gesamtbildes. Ablenkender Hintergrund (sinnfreier Farbverlauf)

3. Ebenfalls weniger gelungen: FACEBOOK-IPO: http://visual.ly/facebook-ipo-0
Grund:  Der Sinn dieser Grafik erschließt sich erst nach mind. zweimaligem Hinsehen. Farbgebung uneinheitlich und unklar (warum zwei Blau-Töne und dann plötzlich lila?). Allerdings gibt es einen Hinweis auf die Datenlage.

4. Ganz anders hingegen hier wieder ein gut gelungenes Beispiel: THE GULF OF MEXICO OIL SPILL:   http://visual.ly/gulf-mexico-oil-spill
Grund: einfach und transparent, Passender farblicher Hintergrund, klar in den Symbolen und der Aussage, auch die Datenquelle wurde nicht vergessen. Kleines Manko: recht kleine Schrift.

5. Ein weiteres interessantes und im Prinzip gut gemachtes Beispiel: COFFEE & CALORIES: http://www.informationisbeautiful.net/visualizations/caffeine-and-calories/
Grund: klare Aufteilung, bedarf  aber einen Moment der Orientierung insbesondere müssen die Skalen erst einmal „entdeckt“ werden. Leider bleibt die Datenlage hier etwas unklar (abgesehen von dem Verweis auf  Hersteller und Vertrieb).

6. Gute Idee, aber…: COLORS IN CULTURES: http://www.informationisbeautiful.net/visualizations/colours-in-cultures/
Grund: interessant gemacht, aber leider keine durchgehende Linienführung. Nachteil: versuchen Sie z.B. mal herauszufinden, welche Farbe in China für peace steht.

7. Immerhin klare Aussage: WENIGE LEISTEN SICH VIEL: http://www.agenda21-treffpunkt.de/archiv/04/10/DWHHkonsum-g.jpg
Grund: Gute gemachte Gegenüberstellung. Aussage ist eindeutig. Datenlage bleibt aber „Vertrauenssache“. Hintergrundfarbe scheint der Sichtbarkeit des Inhaltes geschuldet, grauer Balken steht nicht im Kontext zum Inhalt.

8. Klasse (einer meiner persönlichen „TOPs“): Wirtschalftsdaten sichtbar gemacht: Die Schokolandenseite: http://images.zeit.de/wissen/2009-12/41-infografik-schokolade.pdf
Grund: Schon am Bild sofort erkennbar um was es geht; die „Bruchstücke“ im erkennbaren relativen Verhältnis; keine verwirrenden und unnötiten Elemente in der Grafik; Quellenangabe vorhanden

Und hier die ultimative „Mutter aller Infografiken“ 😉 :

Wie gut, dass niemand weiss…

…wo in meinen Daten die Informationen stecken. Naja, Spaß beiseite. Im Grunde handelt es sich um ein Ärgernis, das in allen Unternehmen von klein bis groß anzutreffen ist. Mitarbeiter kämpfen sich durch gigantische Ordnerstrukturen und verstecken dort Ihre Daten. Zwar sind natürlich (fast) alle Unternehmen in irgendeiner Weise zertifiziert, auch die Informationsstrukturen sind im Grunde zumeist definiert (Stichwort ISO9000soundsoviel).

Aber: Theorie ist ISO, Praxis ist Excel.

Der Klassiker: Auswertungsdaten werden in Excel-Arbeitsmappen nach Jahren, je bestehend aus 12 Tabellenblättern (von Januar bis Dezember) auseinandergerissen. War das noch zu XLS-Zeiten zweckmäßig, ist das seit XLSX nicht mehr begründbar. In XLS-Dateien konnten lediglich 65.536 Zeilen abgebildet werden, in der XLSX-Variante 1.048.576, das ist immerhin 16 mal so viel. Aber man gewöhnt sich an das Verfahren, dabei wäre es kein großer Aufwand, die Daten (auch jahresübergreifend) zusammenzufassen. Auch die Mächtigkeit der immerhin kostenlosen Power-BI-Add-Ins Powerpivot und Power-Query (ab V.2010) sowie Power-View und  Power-Map (ab V.2013) hat sich in den Unternehmen noch nicht sonderlich herumgesprochen.

Oder: Es werden Duplikate und erhebliche Redundanzen mit nennenswerten Anomalien geführt; Motto: „in meiner Kundentabelle wohnt Firma Müller GmbH in Heidelberg und nicht in Stuttgart“ bzw. „die ABC-Membran hat in meiner Liste die Artikelnummer WA4711 und noch nicht die aktualisierte Nr. WA4711H“. Im günstigsten Fall werden diese Redundanzen mit einem Dateinamen-Präfix á la „20150402-Produktdaten“ geführt um eine Historie zu begründen.

Sind die Daten schlecht gepflegt, drohen falsche Abrechnungen und Auswertungen. Überhaupt besteht bei Auswertungen meiner Erfahrung nach eine erstaunliche „Gläubigkeit“ an die Korrektheit der Datenbasis.

Die Datenqualität leidet erheblich, die Informationen „ver-dschungeln“ sukzessiv, die Zusammenführung ist oft sehr problematisch. Lt. Computerwoche (data-expert-lounge) büßen Unternehmen bis zu 25 Prozent ihres operativen Gewinns in Folge schlechter Datenqualität (DQ) ein [http://www.computerwoche.de/software/bi-ecm/1938325/]. Lt. Forrester-Umfrage „Trends In Data Quality And Business Process Alignment“, unter großen US-Unternehmen, ist 18 Prozent der befragten Unternehmen das Zusammenspiel von Business Process Management (BPM) und Datenqualität nicht bewusst. Es handelt sich eben nicht um ein „nice-to-have“-Thema, wird aber teils noch immer so gesehen! Unter Business-Intelligence (BI) stellt man in der Regel hochgezüchtete Softwaresysteme vor, aber auch das muss nicht unbedingt sein, denn wie lautet das Ziel von BI? Ganz einfach: Die (möglichst verlässliche) Ermittlung von Kennzahlen. Es ist nicht immer gleich zwingend erforderlich eine hochkomplexe Software zu entwickeln oder zu erwerben mit der man zum Mond reisen könnte obwohl noch nicht mal die Absicht besteht die Erdatmosphäre zu verlassen, sondern lediglich auf einen Hügel zu steigen um die Übersicht zu bewahren.

In wenigen Schritten zur Lösung:

  • Zuallererst: Eine Daten-SICHTUNG und Bewertung (welche Daten liegen in meinem Unternehmen überhaupt vor), Prüfung nach Relevanz und Aktualität (gute Daten / schlechte Daten)
  • Die Bereinigung der Daten: Duplikate raus und überprüfen auf Korrektheit, ggf. vervollständigen und abgleichen der Daten – Stichwort „Datenhygiene“. Dieser Punkt ist leider oftmals mit etwas zeitlichem Aufwand verbunden.
  • Die Zusammenführung wesentlicher Daten unter einheitlichen Strukturen
  • Die klare Trennung von Stammdaten und Bewegungsdaten (SEHR wichtig!!!)
  • Eine klare Ablage- und Sicherungsdefinition der Daten
  • Die eindeutige Kennzeichnung von Sicherungen und
  • Eine klare Zuständigkeitsdefinition: wer darf was ändern/anfügen/löschen – und trägt somit die Verantwortung für Korrektheit und Aktualität der Daten    sowie
  • Die Ermöglichung von Daten-Verknüpfungen

Die Einhaltung dieser Punkte (oder Teile davon) würde bereits eine erhebliche Qualitätssteigerung gewährleisten. Natürlich macht sich das alles nicht von selbst. Je „chaotisierter“ die Datenbasis, desto aufwändiger ist zunächst die Bereinigung, aber desto deutlicher ist auch der schon bald spürbare Effekt.

„Data-Quality-Management“ wird (zu Recht) häufig mit „Data-Mining“ in Verbindung gebracht. Unter diesem Stichwort werden wiederum teure Programme und Tools angeboten. Für Excel wird ein ebenfalls kostenloses Data-Mining-Tool als Add-In angeboten. Das Data-Mining-Verfahren kann allerdings auch ohne den Einsatz von Software erfolgen. Der o.g. Punkt „Daten-Sichtung und Bewertung“ ist im Grunde bereits Data-Mining und erfordert oft nur ein hinreichendes Verständnis für Daten und Datenstrukturen und eine möglichst auf Erfahrung basierende Analysefähigkeit.

Fazit: Nichts gegen Excel (und andere Desktop-Tools), ganz im Gegenteil. Nutzen Sie Excel – aber nutzen Sie es auch. Professionell! Versetzen Sie Ihre Mitarbeiter in die Lage, die Möglichkeiten (auch die neuen Möglichkeiten) zu nutzen (Stichwort Schulung). Und: Holen Sie sich ggf. Unterstützung.

on the road to business intelligence!

on the road to business intelligence!

In wirkungsvollem Zusammenspiel mit den Daten Ihrer IT-Infrastruktur und TABLEAU-Software oder den Tools von Microsoft Power-BI ergeben sich neue Möglichkeiten der Analyse jenseits der üblichen Grenzen.

In der Konzeption und Realisierung von Analyse-ausgerichteten Anwendungen – Self Service BI – kann ich Sie mit über zehn Jahren Entwicklungserfahrung in unterschiedlichsten Branchen unterstützen.

let’s CREATE!