In den folgenden Abschnitten werden einige gebräuchliche Begriffe aus der BI-Welt erläutert, welche auch in den Tutorials verwendet werden.
Online Analytical Processing (OLAP)
OLAP wird neben dem Data-Mining zu den Methoden der analytischen Informationssysteme gezählt, und sind meistens reine Abfrage-Systeme. OLAP-Systeme beziehen ihre Daten im Normalfall aus einem Data Warehouse (DWH), welches im Gegensatz zu einer produktiven Datenbank für Reporting-Anfragen optimiert ist. OLAP-Anfragen werden meistens an einen OLAP-Würfel (Cube) gestellt, welcher die Daten seinerseits aus dem DWH bezieht. Die Zielgruppe für OLAP-Systeme sind in erster Linie die Entscheidungsträger in einem Unternehmen. Während Auswertungen aus ERP-Systemen eher detailorientiert sind (z.B. Belege mit einzelnen Positionen, oder einzelne Finanzbuchungen), zeigen OLAP-Auswertungen eher eine Vogelperspektive auf die Vorhandenen Daten (z.B. Umsatz pro Kunde/Artikel in Periode x, oder die Summe aller Buchungen auf ein Konto in Periode x).
Data Warehouse (DWH)
Ein Data Warehouse (DWH) ist eine (relationale) Datenbank, in welcher Daten aus einer oder mehreren Quellen in einem einheitlichen Format zusammengefasst, und für typische Management-Abfragen aufbereitet werden. Im Gegensatz zur Datenbank eines ERP-Systems ist ein DWH nicht für das Einfügen und Mutieren von Datensätzen optimiert, sondern vielmehr für die schnelle und einfache Bereitstellung von Daten für Auswertungen. Daher ist ein DWH auch ganz anders aufgebaut als eine „normale“ Datenbank: Die Daten werden möglichst in einem sog. Stern-Schema abgelegt, und die Normalisierung der Daten ist zweitrangig, oft sogar unerwünscht.
Meist ist das DWH die Basis für die weitere Aggregation der Daten in mehrdimensionalen OLAP-Würfeln (Cubes).
Extract, Transform, Load (ETL)
Extract, Transform, Load (ETL) ist ein Prozess, bei dem Daten aus einer oder mehreren Datenquellen in einer Zieldatenbank - dem DWH - vereinigt werden.
-
Extract (extrahieren) steht dabei für das Auslesen der relevanten Daten aus den Datenquellen.
-
Transform (transformieren) steht für das Umformen, Umrechnen und Aufbereiten der Daten, damit sie in das DWH-typische Sternschema passen.
-
Load (laden) steht für das Schreiben der Daten in die Zieldatenbank (das DWH).
-
Der ETL-Prozess wird im Normalfall 1x pro Tag (nachts) durchgeführt.
Cube
Ein Cube (auch Datenwürfel oder OLAP-Würfel genannt) ist eine spezielle, mehrdimensionale Datenbank. Die Daten sind darin so organisiert, dass sie auf einfache Art und Weise für Auswertungen verwendet werden können. Eine Besonderheit von Cubes ist auch, dass die darin enthaltenen Daten bereits für typische Fragestellungen der Anwender vorberechnet abgespeichert sind, was sehr kurze Antwortzeiten auch für komplexere Abfragen ermöglicht. So muss bei einer Abfrage beispielsweise der Jahresumsatz eines Verkäufers nicht mehr mühsam aus der Summe all seiner Belegzeilen zusammengerechnet werden, sondern die Zahl ist bereits fixfertig im Cube gespeichert.
Die Daten aus dem DWH werden darin so angeordnet, dass dem Anwender Fakten (auch Measures, oder in Deutsch „Werte“ genannt) und Dimensionen zur Verfügung stehen. Measures sind dabei Zahlen (z.B. Umsatz oder Bruttoertrag), und die Dimensionen sind im weitesten Sinn „Blickwinkel“ auf die Daten (z.B. Kunden, Produkte Verkäufer oder Perioden).
Fact / Measure
Measures sind Zahlen, mit denen in Auswertungen gerechnet werden kann. Sie beantworten die Frage nach dem „WAS“ in jeder Auswertung. Mindestens ein Measure ist die Grundlage für jede Auswertung, ohne Measure gibt der Cube keine Daten zurück.
Folgendes sind typische Measures, welche auch in den Infoniqa ONE 200 BI-Cubes zur Verfügung stehen:
Modul Auftrag: Umsatz, Bruttoertrag, Stückzahlen, etc.
Modul Finanz: Buchungsbeträge, Budget-Werte, Periodenvergleiche, etc.
Modul Personal: Anzahl Mitarbeiter, FTE, Fluktuation, Lohnzahlungen, etc.
Dimension
Dimensionen enthalten Attribute und Hierarchien, nach denen die Measures im Cube ausgewertet werden können. Sie beantworten die Frage nach dem „WIE“ in jeder Auswertung. Erst im Zusammenspiel mit einem Attribut oder einer Hierarchie wird ein Measure aussagekräftig. Unter Verwendung der Hierarchie „Jahr - Monat - Tag“ aus der Dimension Periode, kann zum Beispiel der Umsatz („WAS“) über die Zeit („WIE“) betrachtet werden. Nimmt man noch das Attribut „Artikelnummer“ aus der Dimension Artikel hinzu, wird der Umsatz über die Zeit pro Artikel ersichtlich. Dimensionen stellen also verschiedene (auch kombinierbare) Blickwinkel auf die Daten bereit.
Nebst dem Einsatz als „Blickwinkel“ können Dimensionen (oder besser einzelne Attribute aus Dimensionen) auch als Filterkriterium für eine Auswertung dienen. Im obigen Beispiel könnte also beispielsweise noch der Verkäufer als Filterkriterium hinzugefügt werden. Die Auswertung, nennen wir sie „Umsatzverlauf pro Artikel“, könnte somit für jeden Verkäufer einzeln aufbereitet werden.