Big Data-Sicherheit, Integration als Service

Hadoop / Big Data in Unternehmen

Das Big-Data-Ökosystem entstand, um die riesigen Datenmengen zu bewältigen, die durch Web-/Online-Aktivitäten entstehen. Sobald die wichtigsten Komponenten des Ökosystems ausgereift waren, dauerte es nicht lange, bis die Unternehmen diese neuen Tools und Technologien für ihre Anwendungsfälle nutzten. Heute werden in den Unternehmen alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten in ihre Datenspeicher. Die größte Herausforderung besteht jedoch darin, die riesigen Datenmengen in ihrem Data Lake sinnvoll zu nutzen. Die Verwendung der SnapLogic Elastische iPaaS (Integrationsplattform als Dienst), die auf dem Paradigma der visuellen Programmierung basiert, können Kunden dieses Problem problemlos lösen. Sie bietet einen leistungsstarken webbasierten Designer und Hunderte von vorgefertigten Konnektoren (Druckknöpfe), die die Kunden per Drag & Drop zum Aufbau ihrer Datenpipelines verwenden können, um die Daten zu bereinigen und in das gewünschte Format zu bringen, und zwar in großem Maßstab und in einer Big-Data-Umgebung.

Sicherheit
Es gibt noch ein weiteres großes Problem beim Einsatz von Hadoop in Unternehmen: Die Sicherheit. Die meisten Unternehmen gehen mit diesem Problem um, indem sie Kerberos verwenden, einen Standard für die Implementierung von Sicherheit in verteilten Systemen. Kerberos bietet Sicherheit durch die Authentifizierung und Autorisierung von Benutzern. Mit der Verschlüsselungsfunktion von HDFS können Kunden sowohl ihre Daten in Bewegung (über Kabel) als auch ihre Daten im Ruhezustand (auf Festplatte) sichern.

Kerberos
Kerberos is a widely used network authentication protocol in a distributed computing environment developed originally by MIT. Main components of this system involve KDC, which consists of an Authentication server and a Ticket granting server. <link to resources at bottom of document>

Warum Kerberos?

Basiert auf starker symmetrischer Kryptographie.
Speichert das Kennwort weder lokal noch überträgt es es über das Netz. Verwendet stattdessen Tickets.
Verwendet eine vertrauenswürdige Drittpartei (KDC), um die Authentifizierung zu steuern.
Geringes Gewicht. Die Tickets sind bis zum Ablauf der Gültigkeit gültig, daher ist die Interaktion mit dem KDC minimal.
Sitzung orientiert.
KDC kann Token ablaufen lassen, was die Verwaltung zum Kinderspiel macht.
Es handelt sich um eine weit verbreitete Single-Sign-On-Konfiguration.
Weit verbreitet in der Hadoop-Welt, wo es die Kommunikation zwischen Diensteinheiten sichert.

Verwendung von Kerberos und Benutzer-Impersonation mit SnapLogic
SnapLogic unterstützt Kerberos und User Impersonation sofort nach der Installation (mit nur ein paar Änderungen an Ihren Cluster- und SnapLogic-Konfigurationsdateien).

Wir gehen davon aus, dass der Kunde über grundlegende Kenntnisse der SnapLogic-Terminologien und der Kerberos-Einrichtung in seinem Hadoop-Cluster verfügt, bevor er fortfährt.

Erstellen Sie einen Principal im KDC und erstellen Sie eine Keytab-Datei für diesen Principal. Angenommen, der erstellte Prinzipal heißt "snaplogic" und die diesem Prinzip entsprechende keytab ist "snaplogic.keytab".
Kopieren Sie diese Keytab an einen bekannten Ort auf allen Knoten im Cluster, auf denen JCC-Knoten laufen werden.
Erstellen Sie Benutzer in allen Knoten in Cluster-Pipelines werden Pipelines ausgeführt werden. Sie können auch LDAP konfigurieren, um dies zu erreichen.

Änderungen am Cluster für die Aktivierung der Benutzer-Impersonation
Diese Funktion ermöglicht es dem angemeldeten Benutzer, Pipelines (alle Typen) in einem Hadoop-Cluster als vorkonfigurierter Proxy-Benutzer auszuführen.

Folgendes muss dem Sicherheitsventil core-site.xml des Clusters hinzugefügt werden. (ersetzen Sie snaplogic durch den Namen Ihres Auftraggebers)

<name>hadoop.proxyuser.snaplogic.hosts</name>

</property>

<name>hadoop.proxyuser.snaplogic.groups</name>

</property>

<name>hadoop.proxyuser.snaplogic.users</name>

</property>

Änderungen an den SnapLogic-Konfigurationsdateien (Kerberos + User Impersonation)

Folgendes sollte der Datei plex.properties hinzugefügt werden. Der Standardwert für dieses Attribut ist false.

jcc.proxy_user_enabled=true

snapreduce.keytab=/snaplogic.keytab

snapreduce.principal=snaplogic/[email protected]

Start:

Starten Sie die Authentifizierung mit KDC unter Verwendung von kinit mit Ihrem SnapLogic-Benutzer und Ihrer Schlüsseltabelle

bash. # kinit snaplogic/[email protected] -k -t /snaplogic.keytab

Starten Sie den Hadooplex.

bash. # yarn jar yplex-4.0-snapreduce.jar -war jcc-4.0-mrc236-snapreduce.war -driver driver-mrc236.jar -master_conf master.properties -plex_conf plex.properties -keys keys.properties

Starten Sie die Pipeline über den Designer. Der angemeldete Benutzer kann nur auf Dateien zugreifen, für die er eine Zugriffsberechtigung hat. Alle neu erstellten Dateien sind Eigentum des angemeldeten Benutzers.

Ressourcen:
Kerberos-Authentifizierungssystem:

https://www.youtube.com/watch?v=KD2Q-2ToloE

http://www.roguelynn.com/words/explain-like-im-5-kerberos/

http://web.mit.edu/kerberos/krb5-latest/doc/

Kerberos- und Benutzer-Impersonation-Konfiguration für Snaplogic:

Bitte besuchen Sie doc.snaplogic.com für die neueste Dokumentation zu diesem Thema.

Schauen Sie sich auch einige unserer anderen SnapLogic Big Data Integration Blog-Beiträge. SnapLogic sucht auch nach Senior Big Data Developers; bewerben Sie sich noch heute auf unserer Website www.snaplogic.com/jobs.

Kategorie: Produkt

Themen: Big Data Hadoop

Nutzung der Sicherheit von Big Data mit SnapLogic iPaaS

Verwandte Blogs

Datenebene vs. Steuerungsebene: Was ist der Unterschied?

Was ist iPaaS? Integration Platform as a Service erklärt

Data Warehouses, Data Lakes und Data Lakehouses: Alles, was Sie wissen müssen