Blog
Evoluce datových platforem v kostce: rychlý přehled od roku 1990
14 října, 2024
Kam a jak ukládat data, se kterými pracuje celá vaše firma a jejichž objem neustále roste? Který koncept nebo architektura jsou pro vás ty pravé? Správným směrem vás navede náš přehled. Porovnává klíčové prvky datových platforem, které se nejčastěji používají v praxi – od tradičních datových skladů až po moderní Data Lakehouse a koncept Data Meshe.

Obr: Evoluce datových platforem v čase. V uvedeném roce se daná datová platforma začala definovat a postupně prosazovat ve velkých, datově vyspělých organizacích typu banky apod. v Česku.
Datový sklad (Data Warehouse, DWH, 1990)
Data Warehouse (DWH) je klíčovým nástrojem pro analytiku a reporting ve firmách. Jeho hlavním účelem je konsolidovat data z různých zdrojů a poskytovat jednotný pohled na celou organizaci.
Hlavní výhody DWH:
- Jednotný zdroj pravdy: Data z různých zdrojů jsou konsolidována do jednoho centra, což eliminuje neshody v datech a poskytuje konzistentní informace.
- Historická data: DWH ukládá historická data, což umožňuje sledování trendů a chování v čase.
- Výkon: DWH je optimalizován pro složité analytické úlohy a reporting, což zajišťuje efektivní zpracování velkého množství dat.
Operational Data Store (ODS, 1990)
Operational Data Store (ODS) je často zaměňován s DWH, ale jeho účel a použití se liší. Zatímco DWH je zaměřeno na vytvoření konsolidovaného pohledu na data, ODS je optimalizováno pro operativní úkoly. ODS se zaměřuje na shromažďování a konsolidaci aktuálních provozních dat z různých zdrojů a dostatečně čerstvá (denně nebo i častěji obnovovaná). Toto úložiště rychle odbavuje jakékoliv požadavky na data pro další systémy.
Hlavní vlastnosti ODS:
- Aktuální data: ODS ukládá aktuální provozní data, obvykle za poslední měsíc či dva.
- Rychlost: ODS je navrženo pro rychlé výměny dat.
- Frekvence aktualizací: Data v ODS jsou aktualizována v mikrodávkách, několikrát za den, na rozdíl od DWH, v nichž se data běžně aktualizovala jednou za den.
Big Data platformy (2000)
S příchodem digitální transformace a nárůstem nestrukturovaných dat (dokumenty, záznamy hovorů, textová analytika) se objevil koncept Big Data, který umožňuje efektivní zpracování a využití obrovského množství nestrukturovaných a polostrukturovaných dat, často v reálném čase.
Hlavní výhody:
- Pokročilá analytika: Umožňuje využití umělé inteligence a strojového učení pro úlohy, které tradiční DWH/ODS nezvládne.
- Flexibilita a škálovatelnost: Zvládá masivní objemy dat s rychlou adaptací na měnící se potřeby bez velkých investic do hardwaru.
- Nové byznysové příležitosti: Analýza dat z různých zdrojů jako sociálních sítí a IoT otevírá nové možnosti např. pro personalizaci a cílený marketing.
Data Service Bus (DSB, 2005)
Data Service Bus (nebo enterprise service bus) je architektura pro integraci aplikací a služeb, která umožňuje komunikaci a výměnu dat mezi různými systémy v organizaci. Zajišťuje neustálý tok dat ze všech zdrojů v organizaci, kontrolu dat a následné rozeslání do cílových platforem, které data potřebují.
Hlavní výhody:
- Centralizovaná správa: DSB zajišťuje, že všechny datové toky mezi různými aplikacemi a službami jsou spravovány centrálně, což usnadňuje monitorování a řízení těchto toků.
- Flexibilita a škálovatelnost: Architektura DSB je navržena tak, aby byla vysoce flexibilní a škálovatelná, což umožňuje snadné přidávání nových aplikací a služeb bez nutnosti zásadních změn ve stávající infrastruktuře.
- Zvýšená bezpečnost a spolehlivost: DSB poskytuje robustní bezpečnostní mechanismy a zajišťuje vysokou spolehlivost komunikace mezi systémy, což minimalizuje rizika spojená s přenosem dat.
Data Lake (2005)
Data Lake umožňuje ukládat velké množství surových dat ve své nativní podobě. Tato data mohou být strukturovaná, nestrukturovaná nebo semistrukturovaná. Data Lake se snaží efektivně pracovat s daty z datového skladu, který obohacuje o možnosti Big Data nástrojů. Takže přináší a kombinuje benefity obou dvou světů.
Výhody Data Lake:
- Rychlejší nasazení: Data Lake lze nasadit rychleji než tradiční DWH.
- Flexibilita: Umožňuje ukládání různých typů dat bez nutnosti předchozí strukturalizace.
- Propojení s DWH: Data Lake může doplňovat DWH o data, která nebylo možné uložit v DWH.
Logical Data Warehouse (LDW, 2010)
Logický datový sklad je koncept, který kombinuje tradiční datová sklady s dalšími datovými zdroji (např. Data Lakes), aby poskytl jednotný přístup k datům bez ohledu na jejich fyzické umístění.
Hlavní výhody LDW:
- Integrace a jednotný přístup k datům: LDW umožňuje propojení a integraci dat z různých zdrojů, jako jsou tradiční datové sklady, data lakes a další externí zdroje, bez jejich kopírování. S LDW mají uživatelé kompletní a konzistentní pohled na data. K datům mohou přistupovat z různých zdrojů prostřednictvím jednoho logického rozhraní, což usnadňuje analýzu a reportování.
- Flexibilita a škálovatelnost: LDW je navržen tak, aby byl vysoce flexibilní a škálovatelný, což umožňuje snadné přidávání nových datových zdrojů a rozšiřování kapacit podle potřeb organizace.
- Metadata: Protože LDW integruje heterogenní datové zdroje, pracuje s metadaty – využívá je k optimalizaci a správě datových operací.
Master Data Hub (MDH, 2010)
Master Data Hub vychází z konceptu ODS. Umí pracovat se semistrukturovanými daty, integruje různé zdroje dat jako soubory, úložiště, databáze atd. Např. u klienta umožňuje kombinovat všechny jeho dokumenty (PDF soubory) s databázovými informacemi o klientovi (číslo účtu, jméno, příjmení apod.). Centralizuje a spravuje klíčová data, která jsou kritická pro obchodní operace, jako jsou data o zákaznících, produktech a dodavatelích.
Hlavní výhody Master Data Hubu:
- Centralizace: MDH shromažďuje a centralizuje všechna klíčová data z různých systémů a aplikací, čímž zajišťuje, že všechna oddělení pracují se stejnými aktuálními a konzistentními informacemi.
- Datová kvalita: MDH obsahuje mechanismy pro validaci, čištění a standardizaci dat, což zajišťuje vysokou kvalitu a spolehlivost spravovaných informací.
- Podpora obchodních procesů: Centralizovaná data v MDH umožňují efektivnější a rychlejší rozhodování, podporují analýzy a reportování, a usnadňují integraci s dalšími systémy a aplikacemi v organizaci.
Data Fabric (2015)
Data Fabric umožňuje přes jednotné rozhraní přistupovat k datům z více datových zdrojů. Tato architektura tedy poskytuje sjednocenou a konzistentní správu dat napříč různými prostředími, ať už v on-premise nebo na cloudu. Umožňuje přístup k datům, jejich integraci a správu bez ohledu na umístění.
Hlavní výhody Data Fabric
- Jednotná správa dat: Data Fabric umožňuje spravovat data z různých zdrojů a prostředí prostřednictvím jednoho centralizovaného rozhraní, což zajišťuje konzistentní a efektivní správu dat.
- Integrace napříč prostředími: Data Fabric podporuje bezproblémovou integraci dat mezi on-premises systémy a cloudovými službami, což umožňuje organizacím využívat výhody obou prostředí.
- Bezpečnost a compliance: Architektura Data Fabric obsahuje robustní bezpečnostní opatření a nástroje pro zajištění souladu s předpisy, což chrání citlivá data a minimalizuje riziko úniků informací.
Digital Integration Hub (DIH, 2020)
Digital Integration Hub zajišťuje integraci a dostupnost dat pro digitální aplikace v reálném čase. Kombinuje data z různých zdrojů a poskytuje je prostřednictvím API a jiných služeb. Staví na všech funkcionalitách a benefitech ODS a MDH, které využívá pro real-time zpracování dat.
Hlavní charakteristiky DIH:
- Real-time přístup k datům: DIH umožňuje digitálním aplikacím přístup k aktuálním datům v reálném čase, což zlepšuje jejich výkon a uživatelský zážitek.
- Integrace dat z různých zdrojů: DIH kombinuje data z různých interních a externích zdrojů a poskytuje jednotný přístupový bod, což usnadňuje správu a využití těchto dat.
- Podpora moderních technologií: DIH využívá API a další moderní technologie pro snadnou integraci a distribuci dat, což zajišťuje flexibilitu a škálovatelnost pro různé aplikace a služby.
Data Lakehouse (2020)
Data Lakehouse kombinuje výhody DWH a Data Lake, což umožňuje efektivní správu a analýzu jak strukturovaných, tak nestrukturovaných dat. Data Lakehouse umožňuje zpracovat jakákoliv data, jeden data lakehouse nahradí několik specializovaných platforem pro řešení různých use-cases. Tato platforma je obvykle cloudová.
Hlavní výhody Data Lakehouse konceptu:
- Vše na jednom místě: Data Lakehouse umožňuje na jedné platformě postavit klasický DWH, současně mít k dispozici Data Lake prostředí a v neposlední řadě provozovat i ODS.
- Advanced AI: Data Lakehouse umožňuje spouštět a provozovat pokročilé ML/AI modely.
- Škálovatelnost: Cloudové prostředí umožňuje rychlé škálování podle potřeb.
Data Mesh (2020)
Data Mesh přináší revoluční přístup ke správě dat, zejména v decentralizaci a propagaci/zohlednění organizačních změn. Zaměřuje se na vlastnictví dat jednotlivými týmy a doménami, podporuje agilní a škálovatelnou správu dat.
Tento koncept podporuje:
- Decentralizaci: jednotlivé business domény (složené z businessových uživatelů, pracovníků IT a data inženýrů) vlastní, spravují, využívají svá data samostatně, a současně je poskytují i dalším oddělením, týmům, uživatelům v organizaci.
- Agilní přístup: Umožňuje rychlé a flexibilní reakce na byznysové požadavky.
- Sdílení dat: Poskytuje a umožňuje využití dat napříč organizací bez centrálního řízení. Je ale samozřejmě potřeba myslet na governance, aby spolupráce mezi týmy skutečně fungovala.
Datové platformy se neustále vyvíjejí tak, aby dokázaly efektivně zpracovávat a využívat rostoucí objemy dat. Od tradičních DWH, přes ODS a Big Data, až po moderní koncepty jako Data Lakehouse a Data Mesh, každá platforma přináší své unikátní výhody a možnosti, které odpovídají specifickým potřebám a cílům firem.
Nejste si jistí, které řešení je pro vaši firmu nejlepší? Nechte nám na sebe kontakt ve formuláři a my vás spojíme s konzultantem, jehož zkušenosti nejlépe odpovídají tomu, co potřebujete.


