EMR Implementierung mit AWS

Erzielen Sie durch die Implementierung von AWS EMR einen optimalen Geschäftswert innerhalb einer datengesteuerten Kultur.

Mit dem exponentiellen Wachstum der Datenmengen im letzten Jahrzehnt hat Apache Hadoop unbestritten eine entscheidende Rolle bei der Lösung des Problems der Durchführung von Analysen auf riesigen Datensätzen gespielt. Doch trotz aller Vorteile bringt die Verwendung von Hadoop auch einige Herausforderungen mit sich. Ein lokaler Hadoop-Cluster mit allen Anwendungen und Dienstprogrammen, die Sie benötigen, ist komplex zu konfigurieren, zu betreiben und zu warten. Hadoop ermöglicht es den Nutzern, Knoten hinzuzufügen und zu skalieren, wenn ihre Arbeitslast steigt – allerdings dauert die Implementierung einige Zeit und erfordert eine Vorauszahlung.

Warum AWS EMR implementieren?

AWS Amazon Elastic MapReduc (EMR) ist eine Cloud-Plattform, mit der Sie ganz einfach vollständig konfigurierte, elastische Cluster von EC2-Instanzen erstellen und verwalten können, auf denen Hadoop und andere Anwendungen im Hadoop-Ökosystem laufen. Erstellen Sie in wenigen Minuten so viele Cluster, wie Sie benötigen, und ermöglichen Sie Analysen großer Datensätze, einschließlich geschäftskritischer Daten, Clickstreams, Protokolle und mehr. Lassen Sie Ihr Data-Science-Team die Cluster aufsetzen, die es braucht, um zu experimentieren und einen Mehrwert für Ihr Unternehmen zu schaffen.

Reduzieren Sie die Komplexität

Als Managed Service kümmert sich EMR um die Anforderungen an die Infrastruktur, so dass Sie sich auf Ihr Kerngeschäft konzentrieren können. Unternehmen müssen nur entscheiden, wie viele Knoten sie in ihrem Cluster haben möchten, welche Hadoop-Distribution sie bevorzugen und welche Anwendung sie vorinstalliert haben möchten, und EMR kümmert sich um die Erstellung des Clusters.

Kosten optimieren

Lassen Sie Ihre Cluster nur dann laufen, wenn Sie sie brauchen und zahlen Sie nur für das, was Sie verbraucht haben. Nutzen Sie die Vorteile von EC2 Spot-Instanzen, um die Kosten weiter zu senken. Finden Sie alle ungenutzten Instanzen und beenden Sie sie, damit Sie nicht für Ressourcen zahlen, die Sie nicht nutzen.

Gewinnen Sie Flexibilität und Skalierbarkeit

Erstellen Sie in Minutenschnelle Cluster der gewünschten Größe und Kapazität und experimentieren Sie und wählen Sie die Instanztypen, die für Ihre Arbeitslasten am sinnvollsten sind. Dank EMR Managed Scaling lassen sich Ihre Cluster dynamisch vergrößern oder verkleinern.

Sichere Big Data Workloads

Nutzen Sie alle integrierten Sicherheitsfunktionen der AWS-Plattform – verschlüsseln Sie Ihre Daten im Ruhezustand und bei der Übertragung, verwenden Sie IAM, um den Zugriff auf die verwendeten AWS-Ressourcen sicher zu kontrollieren, und EC2-Sicherheitsgruppen, um den ein- und ausgehenden Datenverkehr zu den Knoten Ihres Clusters zu begrenzen. Alle Sicherheitseinstellungen können zu den Sicherheitskonfigurationen hinzugefügt und dann als Vorlagen wiederverwendet werden, wenn Sie neue Cluster erstellen.

Erhalten Sie hohe Verfügbarkeit und Zuverlässigkeit

Starten Sie Ihre Cluster in beliebig vielen Availability Zones in jeder AWS-Region. Eine Katastrophe in einer Region kann leicht umgangen werden, indem dieselben Cluster in einer anderen Region innerhalb von Minuten und ohne Blockierung von Workloads hochgefahren werden.

Nahtlos integrieren

Als vollständig verwalteter AWS-Service können Sie Ihre EMR-Cluster problemlos in andere AWS-Services wie S3, Kinesis, Redshift und DynamoDB integrieren, um Datenbewegungen und Analysen über eine breitere Palette von Services auf der AWS-Plattform zu ermöglichen.

Was wir tun

Adastra hilft Ihnen bei der Planung und Implementierung einer skalierbaren und sicheren Lösung, die den Analyseanforderungen Ihres Unternehmens am besten entspricht. Wir helfen Ihnen beim Aufbau einer Umgebung, die es Ihrem Team ermöglicht, Ressourcen und Einblicke zu erhalten, wenn es sie braucht, und das zu einem Bruchteil der Komplexität und Kosten einer On-Premise-Lösung. Unsere Lösung wird auch dazu beitragen, die Verwaltungs- und Wartungskosten zu senken.

Bewertung

Identifizieren Sie Ihre Benutzer-Personas, Ihre aktuelle End-to-End-Umgebung und Ihre Anforderungen. Auf der Grundlage der Ergebnisse plant Adastra den richtigen Ansatz für die Dimensionierung und den Aufbau der Umgebung, die den Anforderungen Ihres Unternehmens entspricht.

EMR-Implementierung

Unser erfahrenes Team von Fachleuten sorgt dafür, dass Sie eine skalierbare, sichere und leistungsstarke Lösung erhalten, die im Vergleich zu On-Premise-Clustern kostengünstiger ist. Wir erstellen die Muster und Prozesse für die Datenaufnahme und -umwandlung, implementieren und/oder migrieren die Analyse-Workloads für Sie und richten die erforderlichen CI/CD-Prozesse und Sicherheitsmechanismen ein.

Wissenstransfer

Wir stellen sicher, dass Ihr Team in der Lage ist, mit der implementierten End-to-End-Lösung zu arbeiten, einschließlich der Möglichkeit, neue Cluster problemlos zu beenden, anzupassen und zu starten. Optional können Sie in die Managed Services von Adastra investieren, damit wir die EMR-Cluster für Sie betreiben und alle Anwendungen und Analyse-Workloads warten und aktualisieren.

Ansatz für die AWS EMR-Implementierung

  • Identifizieren Sie alle Interessengruppen
  • Führen Sie eine Reihe von Sondierungsworkshops durch, um sich mit der End-to-End-Umgebung vertraut zu machen – identifizieren Sie Datenvolumen, Produzenten, Konsumenten, Analyseanforderungen usw.
  • Erstellen Sie eine Klassifizierung der Teams und Prozesse, die von dauerhaften EMR-Clustern profitieren würden und die von vorübergehenden EMR-Clustern profitieren würden
  • Erstellen Sie ein High-Level-Design der Lösung und stellen Sie sicher, dass sie sich gut in bestehende Umgebungen integrieren lässt, während Sie gleichzeitig die Möglichkeit zukünftiger Cloud-Migrationen berücksichtigen.
  • Erstellen Sie einen durchgängigen Implementierungsplan, einschließlich Umfang, Zeitplan, Meilensteinen und Ergebnissen.
    Definieren Sie die Dateneingabestrategie für jedes datenproduzierende Quellsystem
  • Wenn dies Ihr erstes Cloud-Projekt ist – unser Team hilft Ihnen bei der Einrichtung aller notwendigen, Cloud-basierten Infrastrukturen und Sicherheitsmechanismen
  • Im Falle einer Migration von einem On-Prem-Cluster – führen Sie Schattentests durch, um die richtige Größe und Konfiguration des EMR-Clusters zu ermitteln, damit Sie im Vergleich zu Ihrer On-Prem-Lösung die gleiche oder eine bessere Leistung zu geringeren Kosten erhalten.
  • Automatisieren Sie die Bereitstellung von EMR-Clustern und erstellen Sie Sicherheitskonfigurationen, um die erforderlichen Sicherheitsmechanismen einfach auf jeden neuen Cluster anzuwenden.
  • Implementieren Sie Datenpipelines zur Aufnahme von Daten aus beliebigen Quellen
  • Implementieren oder migrieren Sie Datenumwandlungs- und Analyselasten
  • Konfigurieren Sie CI/CD-Pipelines zum Automatisieren, Testen und Bereitstellen
  • Liefern Sie detaillierte technische Dokumentation, damit Ihr Team in der neuen Umgebung effizient arbeiten kann.
  • Führen Sie Wissenstransfer und Schulungen durch und stellen Sie sicher, dass alle technischen und geschäftlichen Benutzer mit der gelieferten Lösung, ihren Funktionen und Möglichkeiten vertraut sind.
Success Story

AWS Data Lake Implementierung

Die Skylight Health Group expandiert und erwirbt neue Kliniken, zusammen mit all ihren Daten. Die Gruppe musste zahlreiche elektronische Krankenakten (EMR) integrieren und den Ärzten prädiktive Analysen zur Verfügung stellen.

Adastra hat eine Datenverwaltungslösung entwickelt, die es den Teams von Skylight Health leicht macht, Benutzer hinzuzufügen und auf Echtzeitdaten zuzugreifen – ohne zusätzliche Infrastruktur.

10x

produktiveres Analyseteam

0

manueller Aufwand für die Erstellung einheitlicher und konsolidierter Berichte

0

Instandhaltung der Infrastruktur erforderlich

Das Niveau der Zusammenarbeit zwischen den Mitgliedern unserer Organisation und Adastra war immer hervorragend. Die Implementierung der AWS Cloud Analytics Platform ermöglichte komplexe Einblicke in unser Geschäft auf automatisierte Weise.

Chris Smith | VP Digital Health, Skylight Health Group

Häufig gestellte Fragen

Apache Hadoop ist ein Open-Source-Framework, das große Datenmengen (Gigabytes oder Petabytes) effizient verarbeitet und speichert. Hadoop nutzt die Vorteile eines Clusters von Standard-Hardware zur massiven Parallelisierung der Verarbeitungslasten. Hadoop besteht aus vier Hauptmodulen:

  • Hadoop Distributed File System – ein verteiltes Dateisystem, das sich auf dem Cluster befindet und einen hohen Datendurchsatz und Fehlertoleranz bietet
  • Yet Another Resource Negotiation (YARN) – ein Ressourcenmanager
  • MapReduce – ein Framework, das Programmen hilft, parallele Berechnungen mit Daten durchzuführen
  • Hadoop Common – gemeinsame Java-Bibliotheken, die in allen Modulen verwendet werden können

Einige der beliebtesten Anwendungen, die Big Data speichern, verarbeiten, analysieren, verwalten und in Hadoop laufen, sind Spark, Presto, Hive, HBase usw.

Ein Hadoop-Cluster ist eine Gruppe von handelsüblicher Hardware, die miteinander verbunden ist. Dieser Cluster läuft mit Open-Source-Software und bietet verteilte und fehlertolerante Rechen- und Speicherfunktionen. Ein Hadoop-Cluster implementiert eine Primär-Replikat-Architektur. Normalerweise fungiert ein High-End-Rechner als primärer Knoten und hostet verschiedene Speicher- und Verarbeitungsmanagementdienste für den gesamten Cluster, während die Replikationsknoten für die Speicherung der Daten und die Durchführung der eigentlichen Berechnungen zuständig sind.

Die Ausführung von Hadoop in AWS (unter Verwendung von EMR) hat einige Vorteile gegenüber der Ausführung von Hadoop in einem lokalen Cluster:

  • Einfach zu benutzen – Sie können einen EMR-Cluster in wenigen Minuten starten und müssen sich nicht um die Konfiguration und den Verwaltungsaufwand kümmern
  • Kosten – Mit EMR zahlen Sie nur für das, was Sie nutzen, und zwar in Form eines Stundensatzes für die Instanzen in Ihrem Cluster

Elastizität – können Sie problemlos so viele Recheninstanzen bereitstellen, wie Sie möchten, um jede unvorhergesehene Arbeitslast zu bewältigen, und diese dann wieder reduzieren

Modernisieren wir mit AWS EMR

Laden Sie Daten aus S3 und DynamoDB hoch oder verwenden Sie DataSync, Direct Connect und Snowball, um Ihre vor Ort vorhandenen Daten in den EMR-Cluster zu übertragen.