Implementace Amazon EMR

Implementujte Amazon EMR do vaší datově orientované firemní kultury a získejte tak klíčové obchodní výhody.

S nárůstem objemu dat v posledním desetiletí získává framework Apache Hadoop klíčový význam při zpracování analýz velkých datových souborů. I přesto, že má mnoho výhod, používání Hadoopu s sebou nese i určité výzvy. Provoz, údržba a konfigurace Apache Hadoop s ohledem na potřebné aplikace a nástroje jsou složité. Přidávání a škálování uzlů podle aktuálního zatížení je sice flexibilní, ale implementace je časově náročná a nese s sebou i nemalé finanční náklady.

Proč implementovat Amazon EMR?

Amazon Elastic MapReduce (EMR) je cloudová platforma, která usnadňuje vytváření a správu plně konfigurovaných skupin instancí EC2, na kterých běží Hadoop a další aplikace tohoto ekosystému. Během několika minut můžete vytvořit libovolný počet skupin, které potřebujete, a provádět analýzy velkých objemů dat, včetně klíčových obchodních údajů, sledování uživatelských aktivit, logů atd. Tím umožníte svému data science týmu spustit potřebné skupiny pro testování a vytváření hodnot pro vaší firmu.

Zjednodušení

Managed services EMR se sama stará o veškeré nároky infrastruktury, takže vy se můžete soustředit na obchodní příležitosti. Musíte se jen rozhodnout, jak cluster nastavit, jakou distribuci platformy Hadoop preferujete, vybrat si aplikace k instalaci a EMR už se o vše postará.

Optimalizace nákladů

Spouštějte clustery, jen když je potřebujete, a plaťte jen za to, co jste skutečně využili. Využijte instancí EC2 Spot k dalšímu snížení nákladů. Vyhledejte a ukončete všechny nečinné instance, abyste neplatili za zdroje, které nevyužíváte.

Flexibilita a škálovatelnost

Vytvářejte clustery požadované velikosti a kapacity během několika minut. Experimentujte a vybírejte typy instancí, které jsou pro váš workload nejvhodnější. Díky funkci EMR Managed Scaling můžete vaše clustery dynamicky škálovat.

Dostupnost a spolehlivost

Spusťte clustery v takovém počtu jednotlivých zón a částech AWS, jak jen budete potřebovat. Případnou havárii v jedné oblasti tak snadno nahradíte spuštěním stejnýc clusterů v jiné oblasti. A to během několika minut a bez blokování zátěže.

Zabezpečení big data workload

Využijte všechny vestavěné bezpečnostní prvky platformy AWS – šifrujte svá data v klidovém stavu i při přenosu, používejte IAM pro bezpečné řízení přístupu k využívaným zdrojům AWS a EC2 bezpečnostní skupiny pro omezení příchozího a odchozího provozu k uzlům vašeho clusteru. Všechna bezpečnostní nastavení lze přidat do bezpečnostních konfigurací a poté je můžete opakovaně používat jako šablony při vytváření nových clusterů.

Bezproblémová integrace

AWS je plně spravovaná služba, takže můžete snadno integrovat své klastry EMR s dalšími službami AWS, jako jsou S3, Kinesis, Redshift a DynamoDB. Umožníte tak pohyb dat a analýz napříč celým širokým spektrem služeb platformy AWS.

Co děláme?

Pomůžeme vám naplánovat a implementovat škálovatelná a bezpečná řešení, která bude nejlépe vyhovovat požadavkům vaší organizace na analytiku. Pomůžeme vám vytvořit prostředí, které vašemu týmu umožní získat zdroje a insight, kdykoli je potřebuje, a to za zlomek obtíží a nákladů při on-premise řešení. Naše řešení vám také pomůže snížit náklady na správu a údržbu.

Hodnocení

Identifikujte profily uživatelů, současné end-to-end prostředí a požadavky. Na základě toho naplánujeme optimální přístup k dimenzování celého prostředí, které plně vyhoví vašim potřebám.

Implementace EMR

Náš zkušený tým zajistí, abyste získali škálovatelné, bezpečné a výkonné řešení. Za nižší náklady ve srovnání s on-premise infrastrukturou. Vytvoříme vzory a procesy pro sběr a transformaci dat, implementujeme nebo migrujeme veškerou analytiku a zajistíme potřebné procesy CI/CD a všechny bezpečnostní mechanismy.

Zaškolení

Zajistíme, aby váš tým byl plně schopný práce s implementovaným komplexním řešením, včetně ukončení, úprav či spuštění nových clusterů. Případně pro vás služby můžeme spravovat my. Budeme provozovat vaše EMR clustery EMR a všechny aplikace a analytické úlohy budeme průběžně aktualizovat.

Náš přístup k implementaci Amazon EMR

  • Identifikujeme všechny zúčastněné strany.
  • Prostřednictvím série průzkumných workshopů se seznámíme s prostředím end-to-end. Identifikujeme objemy dat a požadavky výrobců, spotřebitelů a analytiků.
  • Klasifikujeme týmy a procesy, které budou těžit trvalých a které z přechodných EMR clusterů.
  • Vytvoříme vysokoúrovňový návrh řešení, zajistíme jeho dobrou integraci do stávajícího prostředí a zároveň zohledníme možnost budoucích migrací do cloudu.
  • Vytvoříme plán end-to-end implementace, včetně rozsahu, harmonogramu, milníků a výstupů.
  • Definujeme strategii zpracování dat pro každý zdroj produkující data.
  • Pokud se jedná o váš první cloudový projekt, náš tým vám pomůže vytvořit veškerou potřebnou infrastrukturu a zabezpečení.
  • V případě migrace z on-premise otestujeme správnou velikost a konfiguraci clusterů EMR, abychom dosáhli stejného či lepšího výkonu při nižších nákladech ve srovnání s on-premise.
  • Automatizujeme provoz clusterů EMR a vytvoříme konfigurace zabezpečení, abychom snadno aplikovali požadované bezpečnostní mechanismy na každý nový cluster.
  • Implementujeme datové kanály pro příjem dat z jakéhokoli identifikovaného zdroje.
  • Implementujeme nebo migrujeme transformaci dat a analytiku.
  • Konfigurujeme CI/CD pro automatizaci, testování a nasazení
  • Předáme vám podrobnou technickou dokumentaci, která vašemu týmu umožní efektivně pracovat v novém prostředí.
  • Zaškolíme IT i obchodní uživatele v dodaném řešení a se všemi jeho funkcemi a možnostmi.
Případová studie

Desetinásobná produktivita analytického týmu díky implementaci AWS data lake

Skylight Health Group expanduje a přebírá nové kliniky spolu se všemi jejich daty. Skupina tak potřebovala integrovat mnoho různých systémů elektronických zdravotních záznamů (EMR) a poskytnout zdravotním pracovníkům prediktivní analytiku.

Adastra vybudovala řešení pro správu dat, které umožňuje týmům ve Skylight Health snadno přidávat uživatele a získávat přístup k datům v reálném čase – bez potřeby další infrastruktury.

10x

produktivnější analytický tým

Žádná

manuální práce při vytváření jednotných a konsolidovaných reportů

Žádná

údržba infrastruktury

Úroveň spolupráce mezi členy naší společnosti a Adastrou byla vždy vynikající. Implementace analytické platformy AWS Cloud nám umožnila automatizovaně získat komplexní přehled o našem podnikání.

Chris Smith | Viceprezident pro digitální zdraví, Skylight Health Group

FAQ

Apache Hadoop je open-source framework, který efektivně zpracovává a ukládá velké soubory dat (gigabajty nebo petabajty). Hadoop využívá výhod využití clusteru komoditního hardwaru k masivní paralelizaci zpracovávaných úloh. Hadoop se skládá ze čtyř hlavních modulů:

  • Hadoop Distributed File System – distribuovaný souborový systém umístěný v clusteru, který zajišťuje velkou datovou propustnost a odolnost proti chybám.
  • Yet Another Resource Negotiation (YARN) – správce zdrojů
  • MapReduce – rámec, který pomáhá programům provádět paralelní výpočty nad daty.
  • Hadoop Common – společné knihovny Java, které lze použít ve všech modulech.

Mezi nejoblíbenější aplikace, které ukládají, zpracovávají, analyzují a spravují velká data a běží v prostředí Hadoop, patří Spark, Presto, Hive, HBase atd.

Cluster Hadoop je skupina propojeného komoditního hardwaru. Na tomto clusteru běží software s otevřeným zdrojovým kódem a poskytuje distribuované výpočetní a úložné funkce odolné proti chybám. Klastr Hadoop implementuje architekturu primárních replik. Obvykle špičkový stroj funguje jako primární uzel a hostuje různé služby správy úložišť a zpracování pro celý cluster, zatímco uzly repliky jsou zodpovědné za ukládání dat a provádění vlastních výpočtů na nich. 

Provozování Hadoopu v AWS (pomocí EMR) má ve srovnání s provozováním Hadoopu v lokálním clusteru několik výhod: 

  • Snadné použití – cluster EMR můžete spustit během několika minut a nemusíte se starat o konfiguraci a režii správy. 
  • Náklady – u EMR platíte pouze za to, co používáte, a to formou hodinové sazby za instance v clusteru. 
  • Pružnost – můžete snadno zajistit libovolný počet výpočetních instancí, abyste zvládli jakoukoli nepředvídanou pracovní zátěž, a pak ji zase snížit. 

 

Pusťte se do modernizace s AWS EMR

Přenášejte snadno data do svého clusteru pomocí mnoha možností, které EMR nabízí – nahráním dat z S3 a DynamoDB. Nebo za použití nástrojů DataSync, Direct Connect a Snowball pro přesun vašich dat z on-premise úložiště do clusteru EMR.