Datewarehouse

Wat kunnen wij voor u doen?
- Onderzoek naar de mogelijkheden van datawarehouses.
- Opstellen van business case, eisen en wensen, RFI en RFP.
- Begeleiding bij het selecteren van systemen en leveranciers
en het sluiten van contracten.
- Samen met de leveranciers de systemen inrichten en de
implementatie voorbereiden.
- Ontwerpen van het datawarehouse.
- Regisseren van de implementatie.
Klik hier voor onze
contactgegevens.
Zie ook de LinkedIn groep
Business knowledge and intelligence management.
Wat is een datawarehouse?
Een datawarehouse is een database of verzameling databases
waarin gegevens uit verscheidene
operationele systemen worden gedupliceerd om
rapportages te kunnen maken en analyses
te kunnen uit te voeren.
De definitie van een data warehouse afkomstig van Bill Inmon, een van de
grondleggers van datawarehousing, luidt als volgt:
A (data) warehouse is a subject-oriented, integrated, time-variant and
non-volatile collection of data in support of management's decision making
process."
De kenmerken van een datawarehouse zijn:
De kenmerken van een datawarehouse
zijn volgens de officiele definitie:
| subject-oriented |
Een datawarehouse is subject-oriented. Dit wil zeggen dat data
gegroepeerd is per onderwerp en niet per activiteit, zoals dit bij
operationele systemen het geval is. |
| integrated |
Data in de verschillende bronsystemen, wijkt vaak af voor wat
betreft gebruikte coderingen, dataformaten en data types. Voordat
deze data in het datawarehouse geladen wordt, moet ze eerst op
elkaar worden afgestemd. |
| time-variant |
Een datawarehouse bevat historische data. Dit betekent dat alle
data gelinkt moet zijn aan een bepaalde periode in de tijd.
Bovendien moet deze data precies de situatie weergeven zoals deze
was op dat moment. In operationele systemen vindt men vaak alleen de
situatie van het moment terug, omdat in het geval van wijzigingen
bestaande data wordt overschreven. |
| non-volatile |
Data in een datawarehouse is statisch. Men gaat er vanuit dat
data, nadat deze in het datawarehouse geladen is, niet meer
veranderd. |
|
In de praktijk komt het neer op een database, waarin data wordt opgeslagen
voor rapportage en analyse doeleinden. Deze database staat naast
en los van de transactie georienteerde operationele databases van online transaction processing systemen zoals bijvoorbeeld ERP systemen. Kenmerkende
verschillen zijn:
OLTP
DW
Bestemd voor dagelijks werk
Bestemd voor analytische toepassingen en strategische besluitvorming
Applicatie georienteerd
Object of subject georienteerd
Veranderlijk en actueel
Consistent en historisch
Geoptimaliseerd voor data invoer
Geoptimaliseerd voor data output
Veel kleine transacties
Complexe queries
Statische en stabiele toepassingen
Dynamische toepassingen
Genormaliseerde gegevens
Gedenormaliseerde en miltidimensionale gegevens
Bewaarde transactionele consistentie
Tijd-gebaseerde versiebeheer
Over hoe zo'n datawarehouse eruit moet
zien, bestaan verschillende meningen. Twee belangrijke zijn
afkomstig van Ralph Kimball en Bill Inmon. Zij worden gezien als de
grondleggers van het kennisgebied datawarehousing. Bill Inmon als
grondlegger van het begrip datawarehousing en Ralph
Kimball als de pionier van het dimensioneel modelleren.
Een gerelateerd begrip is OLAP, Online Analytical Processing.
Dit staat voor het multidimensionale analyse concept.
Datawarehouse architectuur
Een datawarehouse architectuur bestaat uit 3 lagen:
- Conceptuele architectuur
Visie, strategie, doelen
High level requirements
Integratie met andere systemen en omgeving
Verantwoordelijkheden
Organisatiebreed subject datamodel
- Logische architectuur
Gedetailleerde organisatiebeschrijving
Scope
Applicatie model
Logisch datamodel
Business proces model en business rules
- Technische architectuur
Technische implementatie
Infrastructuur
Middleware
Processen, applicaties en programma's
De implementatie van de opslag van een datawarehouse kan
op de volgende manieren gebeuren:
- Virtueel datawarehouse systeem
- Centraal datawarehouse systeem
- Gedistribueerd datawarehouse systeem
- Datamarts met een centraal datawarehouse
Een datamart is een gegevensverzameling over een
bepaald onderwerp specifiek voor een afdeling (single line of business) ten
behoeve van decision support van die afdeling. De afdeling is eigenaar.
Gebruik en laden van gegevens
Er zal periodiek een bepaalde extractie moeten plaatsvinden van gegevens uit
de operationele systemen die in het datawarehouse wordt geplaatst. Om beide omgevingen onafhankelijk van
elkaar te kunnen laten opereren wordt er gebruik gemaakt van een operational
datastore (ODS). Dit is een tijdelijke ruimte waarin de operationele systemen
gegevens klaar zetten waarmee vervolgens het datawarehouse aan de slag kan. Het
grote voordeel hiervan is dat de processen waarmee het ODS wordt gevuld kunnen
worden afgestemd op de regels die gelden voor de operationele systemen en de
processen voor het vullen van het datawarehouse op de regels binnen het
enterprise warehouse.
Het vullen van een datawarehouse wordt vaak verdeeld in 3
stappen (ETL):
- Extraction
- Transformation (data cleansing)
- Loading
Structuur van een datawarehouse
De gegevensopslag in het datawarehouse is anders georganiseerd dan in een
operationeel en vaak transactioneel systeem. De
structuur van de gegevensopslag is geoptimaliseerd voor het snel terugvinden of
verwerken van de opgeslagen gegevens. De gegevens worden hiervoor eventueel
redundant (meervoudig) opgeslagen. Dit in tegenstelling tot een
transactioneel systeem, waar de
gegevensopslag naar eenduidigheid geoptimaliseerd wordt.
Een voorbeeld van een structuur voor een datawarehouse is het
sterschema. De term sterschema heeft te maken met het ontwerpen van
datawarehouses die ontwikkeld worden met relationele databases, zoals DB2,
Oracle en SQL Server. De term verwijst naar de wijze waarop kolommen in tabellen
gegroepeerd zijn. Bij een sterschema worden gegevens gedupliceerd samengevoegd
in tabellen. Dezelfde gegevens kunnen ook zonder vorm van duplicatie opgeslagen
worden, maar dan spreken we van een sneeuwvlokschema. Kortom, een sterschema is
een gedenormaliseerde versie van het equivalente sneeuwvlokschema. Ze bevatten
dezelfde gegevens, maar zijn anders gestructureerd.
De aanhangers van sterschema's geven allerlei argumenten waarom dit het beste
alternatief is. Het meest gebruikte argument is dat een dergelijke structuur
altijd een betere performance biedt dan het sneeuwvlokschema. De reden die
aangedragen wordt, is dat er voor de meeste gebruikersvragen minder tabellen
gekoppeld hoeven te worden. Die
performance is echter afhankelijk van vele aspecten,
waaronder het aantal rijen, het aantal verschillende waarden, het beschikbaar
intern geheugen en de distributie van waarden.
Implementatie van een datawarehouse
Het realiseren van een datawarehouse is geen doel op
zich. Het is een middel om doelen te realiseren die de organisatie zich stelt.
Datawarehousing is dan ook een continu dynamisch proces binnen de organisatie.
Het stopt niet zodra het eerste project is opgeleverd. Inzichten van een
organisatie zijn continu aan verandering onderhevig. Het is dan ook nagenoeg
onmogelijk vooraf een blauwdruk te definieren van de inhoud van het volledige
datawarehouse. Het is veel beter te werken vanuit een
soort bestemmingsplan. Hiermee kunnen kleine
overzichtelijke projecten worden opgestart waarmee een bepaald deel van het plan
wordt gerealiseerd. Na elke project kan het plan eventueel
bijgesteld worden.
Wat kunnen wij voor u doen?
- Onderzoek naar de mogelijkheden van datawarehouses.
- Opstellen van business case, eisen en wensen, RFI en RFP.
- Begeleiding bij het selecteren van systemen en leveranciers
en het sluiten van contracten.
- Samen met de leveranciers de systemen inrichten en de
implementatie voorbereiden.
- Ontwerpen van het datawarehouse.
- Regisseren van de implementatie.
Klik hier voor onze
contactgegevens.
|