Wie gut, dass niemand weiss…

…wo in meinen Daten die Informationen stecken. Naja, Spaß beiseite. Im Grunde handelt es sich um ein Ärgernis, das in allen Unternehmen von klein bis groß anzutreffen ist. Mitarbeiter kämpfen sich durch gigantische Ordnerstrukturen und verstecken dort Ihre Daten. Zwar sind natürlich (fast) alle Unternehmen in irgendeiner Weise zertifiziert, auch die Informationsstrukturen sind im Grunde zumeist definiert (Stichwort ISO9000soundsoviel).

Aber: Theorie ist ISO, Praxis ist Excel.

Der Klassiker: Auswertungsdaten werden in Excel-Arbeitsmappen nach Jahren, je bestehend aus 12 Tabellenblättern (von Januar bis Dezember) auseinandergerissen. War das noch zu XLS-Zeiten zweckmäßig, ist das seit XLSX nicht mehr begründbar. In XLS-Dateien konnten lediglich 65.536 Zeilen abgebildet werden, in der XLSX-Variante 1.048.576, das ist immerhin 16 mal so viel. Aber man gewöhnt sich an das Verfahren, dabei wäre es kein großer Aufwand, die Daten (auch jahresübergreifend) zusammenzufassen. Auch die Mächtigkeit der immerhin kostenlosen Power-BI-Add-Ins Powerpivot und Power-Query (ab V.2010) sowie Power-View und  Power-Map (ab V.2013) hat sich in den Unternehmen noch nicht sonderlich herumgesprochen.

Oder: Es werden Duplikate und erhebliche Redundanzen mit nennenswerten Anomalien geführt; Motto: „in meiner Kundentabelle wohnt Firma Müller GmbH in Heidelberg und nicht in Stuttgart“ bzw. „die ABC-Membran hat in meiner Liste die Artikelnummer WA4711 und noch nicht die aktualisierte Nr. WA4711H“. Im günstigsten Fall werden diese Redundanzen mit einem Dateinamen-Präfix á la „20150402-Produktdaten“ geführt um eine Historie zu begründen.

Sind die Daten schlecht gepflegt, drohen falsche Abrechnungen und Auswertungen. Überhaupt besteht bei Auswertungen meiner Erfahrung nach eine erstaunliche „Gläubigkeit“ an die Korrektheit der Datenbasis.

Die Datenqualität leidet erheblich, die Informationen „ver-dschungeln“ sukzessiv, die Zusammenführung ist oft sehr problematisch. Lt. Computerwoche (data-expert-lounge) büßen Unternehmen bis zu 25 Prozent ihres operativen Gewinns in Folge schlechter Datenqualität (DQ) ein [http://www.computerwoche.de/software/bi-ecm/1938325/]. Lt. Forrester-Umfrage „Trends In Data Quality And Business Process Alignment“, unter großen US-Unternehmen, ist 18 Prozent der befragten Unternehmen das Zusammenspiel von Business Process Management (BPM) und Datenqualität nicht bewusst. Es handelt sich eben nicht um ein „nice-to-have“-Thema, wird aber teils noch immer so gesehen! Unter Business-Intelligence (BI) stellt man in der Regel hochgezüchtete Softwaresysteme vor, aber auch das muss nicht unbedingt sein, denn wie lautet das Ziel von BI? Ganz einfach: Die (möglichst verlässliche) Ermittlung von Kennzahlen. Es ist nicht immer gleich zwingend erforderlich eine hochkomplexe Software zu entwickeln oder zu erwerben mit der man zum Mond reisen könnte obwohl noch nicht mal die Absicht besteht die Erdatmosphäre zu verlassen, sondern lediglich auf einen Hügel zu steigen um die Übersicht zu bewahren.

In wenigen Schritten zur Lösung:

  • Zuallererst: Eine Daten-SICHTUNG und Bewertung (welche Daten liegen in meinem Unternehmen überhaupt vor), Prüfung nach Relevanz und Aktualität (gute Daten / schlechte Daten)
  • Die Bereinigung der Daten: Duplikate raus und überprüfen auf Korrektheit, ggf. vervollständigen und abgleichen der Daten – Stichwort „Datenhygiene“. Dieser Punkt ist leider oftmals mit etwas zeitlichem Aufwand verbunden.
  • Die Zusammenführung wesentlicher Daten unter einheitlichen Strukturen
  • Die klare Trennung von Stammdaten und Bewegungsdaten (SEHR wichtig!!!)
  • Eine klare Ablage- und Sicherungsdefinition der Daten
  • Die eindeutige Kennzeichnung von Sicherungen und
  • Eine klare Zuständigkeitsdefinition: wer darf was ändern/anfügen/löschen – und trägt somit die Verantwortung für Korrektheit und Aktualität der Daten    sowie
  • Die Ermöglichung von Daten-Verknüpfungen

Die Einhaltung dieser Punkte (oder Teile davon) würde bereits eine erhebliche Qualitätssteigerung gewährleisten. Natürlich macht sich das alles nicht von selbst. Je „chaotisierter“ die Datenbasis, desto aufwändiger ist zunächst die Bereinigung, aber desto deutlicher ist auch der schon bald spürbare Effekt.

„Data-Quality-Management“ wird (zu Recht) häufig mit „Data-Mining“ in Verbindung gebracht. Unter diesem Stichwort werden wiederum teure Programme und Tools angeboten. Für Excel wird ein ebenfalls kostenloses Data-Mining-Tool als Add-In angeboten. Das Data-Mining-Verfahren kann allerdings auch ohne den Einsatz von Software erfolgen. Der o.g. Punkt „Daten-Sichtung und Bewertung“ ist im Grunde bereits Data-Mining und erfordert oft nur ein hinreichendes Verständnis für Daten und Datenstrukturen und eine möglichst auf Erfahrung basierende Analysefähigkeit.

Fazit: Nichts gegen Excel (und andere Desktop-Tools), ganz im Gegenteil. Nutzen Sie Excel – aber nutzen Sie es auch. Professionell! Versetzen Sie Ihre Mitarbeiter in die Lage, die Möglichkeiten (auch die neuen Möglichkeiten) zu nutzen (Stichwort Schulung). Und: Holen Sie sich ggf. Unterstützung.

Tutorial: DAX-Funktionen: Das Geheimnis des kontextuellen Zusammenhanges

Tutorial: DAX-Funktionen: Das Geheimnis des kontextuellen Zusammenhanges

Die Bearbeitung von OLAP-Daten mit Powerpivot unterscheidet sich von den bekannten Excel-Formeln und Funktionen in einigen Bereichen doch recht erheblich.

Im Gegensatz zu „reinen“ Listen, lassen OLAP-Daten eher eine technische Nähe zu Datenbanken zu, die Daten werden anders aggregiert.

Bei Powerpivot werden daher Funktionen im kontextuellen Kategorien eingeteilt. Das schränkt die Anwendung von Funktionen mitunter etwas ein.

Jede Funktion kann (und sollte) in folgenden Kontexten gesehen werden:

* Zeilenkontext

* Abfragekontext und

* Filterkontext ( http://technet.microsoft.com/de-de/library/gg413423.aspx )

Microsoft beschreibt in seinem TechNet die Funktionen und Funktionsweise einigermaßen ausführlich.

Die Filter- und Wertfunktionen in DAX sind sehr komplex und leistungsstark und unterscheiden sich erheblich von Excel-Funktionen Die Auflistung scheint hier recht eindeutig. Eine Übersicht findet sich hier: http://technet.microsoft.com/de-de/library/ee634807.aspx

Nur wie kann ich jetzt beispielsweise herausfinden, zu welcher der Kategorien eine bestimmte Funktion zu zählen ist? Können alle „Funktionsarten“ als Tabellenfunktion sowie als Measure angewendet werden?

Dieses Video-Tutorial soll dieser Frage nachgehen und dazu beitragen, die Kontext-Betrachtung von DAX-Funktionen verständlicher zu machen.

Dieser Clip wendet sich an fortgeschrittene Excelanwender, die sich mit DAX-Funktionen befassen.

Aussagefähige Analysen mit PowerPivot

MS-Excel-Powerpivot, DAS BI-Tool

PowerPivot ist ein neues Microsoft BI Feature, das als Excel Add-In in der Version ab Excel 2010 (leider nicht für Excel 2007) zur Verfügung steht.

Eine Einführung sowie eine Download-Möglichkeit finden Sie unter: http://www.powerpivot.com.

Mit PowerPivot können Sie als Anwender Daten aus unterschiedlichsten Datenquellen laden und diese in Datenbank-ähnlicher Weise miteinander verknüpfen. Die Daten werden in einem Extra-Pivot-Programmfenster  analysiert. Die Darstellung erfolgt in der gewohnten Excel Pivot Methode. Neu in der Excel-Version 2010  sind die Slicer (sog. „Datenschnitte“), mit denen Sie auch in verschiedenen Kombinationen Daten schnell filtern und besonders gut in Verbindung mit Powerpivot-Daten verwenden können. Powerpivot ist in verschiedenen Versionen verfügbar, zum einen als Add-In für den Excel 2010 Client, als PowerpivotPro V2 CTP3f (download) mit zusätzlicher Funktionalität z.B. in der Beziehungs-Darstellung und der Sort-by-column-Funktion und einmal als Enterprise Feature von SharePoint/SQL Server. Auch in der Client-Version sind Sie hinsichtlich der Daten-„Mengen“ fast unbegrenzt, immerhin mehrere Millionen Datenzeilen können eingelesen werden.

Einmal erstellte PowerPivot Dokumente können auf Basis der zu Grunde liegenden Daten aus den jeweiligen Quellen aktualisiert werden. Die Arbeitsgeschwindigkeit von PP ist auch bei großen Datenbeständen sehr hoch.

Über die im Excel Pivot integrierte Charting-Funktionalität ist eine  – auch mehrfache –  grafische Darstellung der Daten möglich.

Mit den Möglichkeiten der tabellarischen und grafischen Analyse lassen sich direkt in Excel ansprechende Berichte (Reports) und Dashboards erstellen, was gerade im Management-Bereich sehr begehrt sein dürfte.

Im Grunde hat Microsoft mit der Veröffentlichung von Powerpivot für den Anwender in manchen Fällen den „Umweg“ über Access-Dateien (MDB oder ACCDB) unnötig werden lassen. Habe ich in Vorgängerversionen häufig das Problem gehabt, dass die Anbindung an unterschiedliche externe Daten einschl. Verknüpfung zunächst über den Umweg einer MDB oder ACCDB realisiert werden musste (hier können dann die Tabellenbeziehungen erstellt werden) um dann wiederum via Excel an diese Daten anzubinden (und das Ganze ggf. noch über einen weiteren Umweg mit definierten Abfragen), kann der Anwender nach Einrichtung eines PP-Dashboard sehr schnell seine Auswertungen erhalten (was aber nicht zwingend bedeutet, dass auf die Datenbanken selber verzichtet werden könnte;-)..

Die Installation von Powerpivot erwartet (sofern nicht auf Windows7 installiert) DotNet-Framework ab V.3.5.

Gern verweise ich auf folgenden Beitrag aus MindBusiness: „sehr überzeugend

Was ist Business Intelligence? (by intricity101 via Youtube – englisch)

PowerPivot: Beziehungen:  Verknüpfungen zwischen Tabellen

Definition: Hier etwas Theorie.

Was sind Beziehungen?

wie finden die Teile zueinander?

Beziehungen zwischen Tabellen sind in Excel selber nicht darstellbar. Technisch gesehen, sind Tabellenbeziehungen den Datenbanken entlehnt (ER-Modell[1]). Dabei sind nicht die Tabellen selber „verknüpft“. Die Beziehung findet über Spalten (bzw. Felder, wie es in der „Datenbanksprache“ heißt. Die Spalte der einen Tabelle steht mit der Spalte einer anderen Tabelle in Beziehung. Dabei besteht die Beziehung auch per Definition lediglich zwischen diesen beiden Spalten. Da diese Spalten aber in der Regel Teil einer Tabelle (Entität), stehen somit quasi beide Tabellen miteinander in Beziehung. Zu beachten ist dabei, dass die verknüpften Spalten „typgleich“ sein sollten, d.h. wenn z.B. die Spalte KundenNummer der Kundentabelle mit der Spalte KD einer Bestellungstabelle in Beziehung stehen soll, sollten beide Spalten von den Datenfeldtypen zusammenpassen, es sollte sich also bei beiden Spalten um Zahlenspalten handeln (wenn es denn Zahlenwerte sind) oder um Textspalten (kann auch gemischt sein). Grundsätzlich können zwar auch Zahlenspalten mit Textspalten verknüpft werden, das führt im Einzelfall allerdings zu Problemen.

Wozu werden Beziehungen verwendet?

Beziehungstyp 1:n: In den meisten Fällen ist sicher von einer 1:n-Beziehung auszugehen. Klassischerweise handelt es sich dabei um die Beziehung zwischen einer Tabelle mit sog. Stammdaten und einer Tabelle mit Bewegungsdaten. Als Beispiel kann das o.g. Kunden-Bestellungen-Verfahren genannt werden: Ein Kunde, der in der Kundentabelle aufgrund der eindeutigen Kundennummer nur einmal vorkommen kann, kann allerdings (mit seiner Kundennummer) in der Bestellungentabelle mehrfach in Erscheinung treten. Da in der Bestellungen-Tabelle in der Regel nicht auch noch alle Kundendaten gespeichert werden (sondern eben nur die Kundennummer) kann durch die Beziehung zur Kundentabelle aufgrund der eindeutigen Kundennummer auf die anderen Kundendaten „rückgeschlossen“ werden. Werden also nun Spalten beider Tabellen (Kundendaten und Bestellungen) in einer Auswertung verwendet UND es besteht eine Beziehung zwischen den beiden Kundennummern-Spalten, wird die Datenbeziehung gewährleistet, d.h. es werden die „korrekten“, bzw. die zusammengehörigen Daten selektiert bzw. zusammengestellt.

Beziehungstyp 1:1: In diesem Fall handelt es sich um die Beziehung zwischen zwei Stammdaten-Tabellen, die über die verknüpfte Spalte in jeder Tabelle eindeutige Werte führt. Beispiel: Eine Artikeltabelle mit eindeutiger Artikelnummer, die „alle“ Artikel umfasst und eine Artikeltabelle in der bestimmte Spezifikationen erfasst werden, die nur für eine Auswahl von Artikeln gespeichert wird (z.B. Artikel, die selber hergestellt werden oder auch das Gegenteil, Artikel die fremdbezogen werden).

In dem Register PowerPivot sollte die Beziehungserkennung eingestellt sein.

PowerPivot: DAX-Funktionen

Was und Wozu?

Die Verwendung von DAX-Funktionen (Data-Analysis Expression) ist auch bei komplexen Auswertungen nicht immer zwingend erforderlich. Auch in einer Excel-Pivottabelle steht Ihnen die Möglichkeit zur Verfügung Excel-Funktionen einzubauen. Die Nutzung von DAX-Funktionen, die auf der Powerpivot-Seite sowie als DAX-Measures in den Pivot-Tabellen zur Verfügung stehen, ähnelt komfortabelerweise in der Anwendung sehr den Excel-Funktionen, obwohl sie „technisch gesehen“ nicht in Excel stattfinden. Durch die Verwendung von DAX-Funktionen können allerdings Ergebnisse „vorbereitet“ werden, die dann bei der Erstellung eines Dashboards als „Datenergebnisse“ in Excel einfließen. Grundsätzlich gilt: Excel ist bei der Ermittlung von Funktionsergebnissen langsamer als Powerpivot. Besonders bei der Anbindung an größeren Datenbeständen (also mehr Zeilen, als Excel darstellen kann) ist die Nutzung von DAX-Funktionen daher sinnvoll bzw. unerlässlich (abgesehen davon, dass hier auch eine nennenswerte Anzahl von Datenbankähnlichen Funktionen zur Verfügung stehen, die Excel selber nicht kennt).


[1] ER-Modell: Entity-Relationship-Modell

Ein Beispiel für die Funktion SUMX: Powerpivot DAX-Funktion SUMX