Datencode auf PC, Bild: Pixabay.com

Aus Daten Nutzen zu generieren, ist für viele Unternehmen eine Herausforderung. Bild: Pixabay.com

Herr Neuer, bitte stellen Sie sich kurz vor.

Mein Name ist Otto Neuer, ich leite die Sales-Organisation für Talend in Deutschland, Österreich und der Schweiz. Ich bin seit circa 25 Jahren im Datenmanagementgeschäft und komme traditionell aus dem Bereich Data Warehouse und Business Intelligence. In den letzten sieben Jahren habe ich mich speziell auf Datenmanagement im Sinne von Data Integration, Data Quality und Master Data Management spezialisiert.

Welche Dienstleistungen bietet das Unternehmen Talend an?

Wir sind Softwarehersteller. Unsere Talend Software ist eine Plattform, die sich aus verschiedenen Komponenten und Produkten zusammensetzt. Diese Plattform wird eingesetzt, wenn einheitliche Records, zum Beispiel Kundendaten im Datenzyklus gefunden werden sollen. Von der Datenintegration über die Datenqualität, Master Data Management Application-Application. Es geht darum einheitliche, saubere und akkurate Daten Unternehmen zur Verfügung zu stellen.

Sie sind schon länger im Datenmanagement tätig. Wie hat sich dieses Thema in den letzten Jahren verändert?

Eine der größten Veränderungen der letzten Jahre ist, dass Daten mittlerweile ein eigenständiges Asset in Unternehmen geworden sind. In der Vergangenheit waren Daten auch wichtig, aber sie waren eigentlich immer Teil einer Lösung, einer Datenbank oder einer dazugehörigen Anwendung. Heute sind Daten davon losgelöst, sie werden nach wie vor zum Beispiel in Datenbanken verwendet, sind aber von ihrer Bedeutung eigenständige Unternehmens-Assets geworden. Unternehmen erkennen, dass die Art und Weise, welchen Nutzen sie aus den Daten ziehen, dem Unternehmen einen massiven Wettbewerbsvorteil verschaffen kann. Das ist, neben all den technischen Veränderungen, eine der größten fundamentalen Veränderung: die Wertschätzung von Daten.

Otto Neuer, Bild: Talend
Otto Neuer, Bild: Talend

Mit technischen Veränderungen meinen Sie, dass man jetzt aus jeder Maschine Daten herausziehen kann?

Genau. Wir haben es mittlerweile mit einer extrem hohen Anzahl an verschiedenen Datenformaten oder Datenquellen zu tun. In der Vergangenheit war alles eher strukturiert: wir hatten je nach Datenbank unterschiedliche Datenformate; dann kamen die Data Warehäuser, wo man Daten logisch zusammengeführt, gespeichert und verwaltet hat. Und mittlerweile sprechen wir von Big Data. Damit bezeichnen wir letztendlich die große Menge an komplett unstrukturierten Daten, die aus unterschiedlichsten Quellen kommen und die eine komplett andere Art von Datenhaltung und Umgang benötigen. Es hat sich herausgestellt, dass die herkömmlichen, konventionellen Methoden, die man bislang verwendet hat, einfach für diese Art von Daten komplett ungeeignet sind.

Und hier kam dann dieser Begriff Data Lake auf?

Genau. Data Lake ist im Grunde ein neues Konzept mit darunterliegender Architektur, die primär auf diese Art von Daten ausgerichtet ist. Da geht es um Daten aus sozialen Netzwerken, aus Datenbanken, die nicht strukturiert sind, aus der Cloud oder zum Beispiel aus dem E-Commerce. Bei Zalando oder Amazon zum Beispiel werden andauernd Daten produziert, die abgebildet und in Echtzeit ausgewertet werden müssen. Und hier brauchen wir einen Data Lake. Die Architektur darunter ist ein Open Source Produkt, und zwar Hadoop.

Welche Vorteile bietet so ein Data Lake für die Unternehmen?

Das Data Lake bietet den Vorteil, dass Sie diese Art von unstrukturierten Daten erstmals auswerten können. Sie müssen sich vorstellen, das sind Daten mit unterschiedlichsten Formaten, die sie erst mal zusammenführen müssen. Das ist zum Beispiel eines der Punkte, wo Talend auf den Plan kommt. Wir sind unter anderem für die Datenbeschaffung zuständig. Wir sorgen dafür, dass die Daten aus den unterschiedlichsten Quellen in das Data Lake mit einfließen und vorgehalten werden können. Das nennt man Data Ingestion. Der nächste Schritt ist dann, was wir mit „understand and improve“ bezeichnen.

Es geht darum erst mal zu verstehen, um welche Art von Daten es hier geht und diese dann auch mit Datenqualitätswerkzeugen und Maßnahmen entsprechend zu verbessern. Sie können sich vorstellen, dass aus Netzwerken oder E-Commerce-Umgebungen sehr viel mehr Daten vorkommen und wir dann nur feststellen, ist das vielleicht der gleiche Kunde, ist das vielleicht der gleiche Artikel, ist das das gleiche Unternehmen, um das dann auch entsprechend zu qualifizieren und zu „cleansen“.

Der nächste Schritt ist die Data Governance. Die ist nicht nur im Data Lake wichtig, die ist immer wichtig, wenn Sie Daten vorhalten. Governance ist letztendlich die gesamte Organisation in einem Unternehmen, die festlegt, wem welche Daten gehören, wer welche Verantwortung hat und wer welche Daten sehen darf. Hier wird alles beschrieben, festgelegt und durchgeführt, wie Sie im Unternehmen mit Daten umgehen wollen. Jetzt müssen Sie sich vorstellen, dass dieser große Data Lake eine Fülle an unstrukturierter Daten beinhaltet, weswegen Sie eine noch viel bessere Governance brauchen, als wenn die Daten von vornherein schon strukturiert und besser aufbereitet sind. Hier sind auch Systeme und die Security eingebettet. Da legen Sie fest, welche Art von Sicherheit gewährleistet sein muss. Wir haben demnächst in Europa die entsprechende Verordnung, die hier greift und ganz genau festlegt, dass Daten, die sie als Person identifizieren können, geschützt und anonymisiert werden müssen. Wie Sie das technisch durchführen, ist Ihnen überlassen. Hier gibt es verschiedenste Möglichkeiten, sei es jetzt Data-Encryption oder Tokenization.

Eines der großen Unterscheidungsmerkmale zu den konventionellen Methoden ist, dass Sie Daten in Echtzeit auswerten können. Zum Beispiel ist das im E-Commerce-Shop unseres Kunden Otto wichtig. Wenn Sie dort shoppen, dann analysieren die Systeme in Echtzeit was Sie tun und können mithilfe von Analytik mit großer Sicherheit sagen, was Sie als nächstes tun werden. Und wenn das System das Gefühl hat, dass Sie jetzt zum Beispiel von dem aktuellen Produkt abspringen, dann können sie Ihnen noch ein Angebot machen, in Echtzeit. Das klingt jetzt vielleicht einfach, aber das ist es nicht. Wenn das zum Beispiel bei einem kleinen User zum gleichen Zeitpunkt hunderte Male passiert, dann geht es um sehr viele. Dann ist die Echtzeit wichtig, die Daten sofort zur Verfügung zu haben, zu analysieren und ein Angebot abzuleiten. Eine weitere Komponente, die immer wichtiger wird, ist das Self Service. In der Vergangenheit wurden die Daten fast ausschließlich über die IT-Abteilung zur Verfügung gestellt. Heute ist Self Service ein wichtiger Ansatz, der eben dem Fachbereich, dem Business User bereits Werkzeuge an die Hand gibt, um in einem gewissen Umfang Daten in Echtzeit selbst auszuwerten. Das ist einer der großen Unterschiede und Fortschritte, die jetzt mit Data Lake und mit Big Data einhergehen.

Wir als Talend beschaffen die Daten, führen sie im Data Lake zusammen und sorgen dafür, dass sie entsprechend ausgewertet werden können und dass sie dem Nutzer zur Verfügung stehen. Wir haben unter anderem jetzt erst mit unserer Winter 17 Release ein neues Produkt innerhalb unserer Plattform vorgestellt. Die nennt sich „Data Preparation“. Das ist ein Werkzeug, das für den Business User sein wird und ähnlich wie Excel aussieht. Mit dem Werkzeug kann jetzt jeder Business User, ohne jegliche IT-Kenntnisse, sofort mit den Daten arbeiten. Diese werden strukturiert und so aufbereitet, dass Sie Namen, Telefonnummer und Branche erkennen können. Diese Daten können Sie dann auch an die IT geben. Und wir helfen dabei, dass beim nächsten Mal diese Art von Daten automatisiert aufgearbeitet werden. Self-Service ist also mittlerweile ein wichtiger Aspekt und wird in einem Data-Lake-Konzept meist auch schon berücksichtigt. So können die Fachbereiche direkt Nutzen aus den Daten, die sie hier verwalten, ziehen.