Big Data - Analyse und Auswertung großer Datenmengen in Echtzeit

Der Begriff und die Bedeutung "Big Data" ist vielen Unternehmen zunehmend klar geworden. Unklar ist jedoch einigen Unternehmen wie genau sich große Datenmengen technisch analysieren und gewinnbringend auswerten lassen. Die pure Menge an erstelleten Daten in einem großen Maßstab sollte man hierbei unabhängig von der jeweiligen Größe einer Organisation oder Unternehmung betrachten. Viel wichtiger ist die Fragestellung nach den spezifischen Benefits die eine Big Data Applikation bieten und die welche Antworten auf spezifische Fragestellungen sie liefern kann. Grundsätzlich eignet sich ein Gedankenspiel zu Big Data für alle Unternehmen die:

  • Große Datenmengen erzeugen
  • Komplexe Datenmengen generieren
  • Dynamische Datenmengen erstellen

und bei denen diese Daten analysiert, ausgewertet / verarbeitet oder interpretiert werden sollen. Wenn wir also über Datenmengen sprechen, so liegt die Menge an Daten nie in einem strukturiertem Format vor, sondern in vielen verschiedenen sowohl unstruktuierten, als auch strukturierten Formaten. "Big Data" liefert somit die Basis-Technologie zur Analyse großer strukturierte und unstrukturierter Datenmengen.

 

Welche Vorteile bieten sich Unternehmen durch den Einsatz von Big Data ?

Ganz gleich wohin wir gehen oder wie wir uns fortbewegen, immer und überall hinterlassen wir digitale Abdrücke oder wir selbst werden erfasst und sind ein Teil eines zu verarbeitenden Datenstammes. Die hinterlassenen digitalen Spuren hinterlassen wir zum Beispiel durch die Nutzung unseres Smartphones in Form von Standortinformationen und natürlich werden diese freiwillig oder aus Unkenntnis gelieferten Informationen durch diverse Diensteanbieter und Netzbetreiber erfasst und in den meisten Fällen auch ausgewertet. Die Motivation dieses Daten auszuwerten ist unterschiedlicher Natur. So hat ein Mobilfunk-Netzbetreiber natürlich ein vitales Interesse daran, dass seine Netze nicht überlasten und jederzeit eine optimale Abdeckung bieten, in anderen Worten liegt in diesem Fall die primäre Motivation für Big-Data in einer Steigerung der Service- und Netzqualität. Das analysieren und auswerten großer Datenmengen befähigt ein Unternehmen dazu komplexe Datenmengen in ein Verhältnis zu setzen und bietet somit die Antworten und Schlußfolgerungen auf sich hieran anschließende unternehmerische Fragestellungen, die durch eine manuelle Analyse aufgrund des hohen Zeit- und Kostenaufwands nicht beantwortbar wären.

Ein gute Analysesoftware für große Datenmenten sollte zudem offen sein. Sie sollte über viele Schnittstellen zur Visualisierung und Darstellungen für die gängisten Business-Intelligence oder CRM / ERP Anwendungen verfügen.

 

Big Data im Unternehmen - Datenkunde

Große Datenmengen sind relativ. Sie lassen sich in Einzel-Dateien und Gruppen von Dateien erzeugen, teilweise auch im Rahmen von Containerformaten oder sie fallen in unterschiedlichen Formen und Formaten an. Bestehen IoT Anwendung größtenteils aus textbasierten Protokolldaten, so gibt es natürlich auch Datenmengen die Bilder oder Videos auswerten und erfassen oder verarbeiten. Auch fallen große Dateimengen nicht immer nur exklusiv in Großunternehmen an. Auch bei kleinen- und mittelständischen Betrieben kann es vorkommen, dass große Mengen an Daten bis hinein in den Big-Data Bereich anfallen. Aber ab welchem Datenvolumen spricht man eigentlich von "Big Data" ?

Datenmengen > 100 Mio. Einträgen oder > 100 GB Datenvolumen.

In modernen Unternehmen gibt es zahllose Datenquellen im Big-Data Bereich, von deren Analyse diese Organisation profitieren kann. Beispielsweise bei der Zeiterfassung beim Zugriff des Unternehmens durch die automatisierte Analyse der Protokolldaten.
Protokolldaten, bzw. Log-Protokolle werden an einer Vielzahl von Stellen innerhalb einer Organisation generiert. Sehr häufig anzutreffen sind sie im Server- und Clientbereich oder es entstehen Logs an Telefonen oder Telefonanlagen, webbasierten Unternehmensanwendungen sowie natürlich bei jeder Art von Technologie bei denen Sensorik eingesetzt wird, wie bspw. RFID in der Lagerwirtschaft, durch Videokameras oder Mikrofone, usw. Große Datenmengen werden hierbei in den unterschiedlichsten Berufszweigen generiert. Ob nun Medizin- oder Gesundheitswesen, der Wissenschaft, Finanzwesen oder innerhalb des Ingenieurswesens. Wenn man sich mit der Industrie 4.0 beschäftigt, dann kommt man um das Thema "Big Data" nicht umhin, denn es bildet die Grundlage für jegliche Form von Echtzeit-Analyse und Kontrolle in komplexen Szenarien, bei denen mehrere komplexe Mechanismen und Prozesse in einer Abhängigkeit zueinander stehen.

 

Strukturiert oder unstrukturiert ? Die Charakteristik von Daten !

Daten- oder Datensätze gibt es sowohl in unstrukturierter, wie auch strukturierter Form. Zunächst mag dies nicht wirklich ausschlaggebend klingen, dennoch stellt diese Tatsache sehr viele Analyseprogramme und deren Anwender mitunter vor gewaltige Probleme, denn normalerweise sind die meisten Analyseprogramme nicht in der Lage unstrukturierten Daten verarbeiten zu können. Unstrukturierte Daten findet man oft in exportierten Logs- und Protokollen im Client-Serverbereich oder als Protokolldatei von Maschinen / Maschinendaten. Zur reibungslosen Analyse und späteren Verarbeitung müssen diese unstrukturierten Daten eine "Normalisierung" durchlaufen. Ein Beispiel für unstrukturierte Daten anhand eines Apache Web-Server Log-Eintrags sieht dan folgendermaßen aus:

2011-01-10 10:05:03 H0 0.0.0.1 GET

Durch den Prozess der Daten-Normalisierung werden die unstrukturierten Daten, in ein strukturiertes und verständliches und leserliches Format gebracht:

Date

Time

Host name

IP

method

2011-01-10   

10:05:03   

H0   

0.0.0.1   

GET

Unsere Analysesoftware "LogDrill" führt diese Daten-Normalisierung mit einer Geschwindigkeit von derzeit 130.000 Zeilen pro Sekunde / CPU-Knoten durch und filtert im Anschluß entsprechende ähnliche Log-Einträge heraus. Dies können, je nach Abfrage zum Beispiel identische Hostnamen, IP-Adressen, etc. sein. Um dies in dieser Form umsetzen zu können wird keine zusätzliche Hardware benötigt, ein Notebook mit einem Netzwerkanschluß ist hierfür vollkommen ausreichend. 5 Billionen dieser oben aufgeführten Protokoll-Einträge entsprechen einem Datenvolumen von ca. 1 TB. "LogDrill" kann diese Datensätze innerhalb einer Sekunde abfragen. Die durchgeführten Abfragen lassen sich dann wie eine Matrix, auf bestimmte wiederkehrende Muster- und Prozesse innerhalb einer Organisation legen. Diese wiederkehrenden und sich wiederholenden Prozesse können hierdurch automatisch überwacht und analysiert werden, so z.B. bei Fehllogons oder unautorisierten Zugriffen, bzw. Angriffen auf eine Netzwerk-Infrastruktur durch Dritte. Sie lassen sich somit nicht nur zur Analyse, sondern auch zum Echtzeit-Monitoring für spezifische Anwendungsgebiete innerhalb der IT-Sicherheit einsetzen.

 

Big Data Analyse mit LogDrill und PetaPylon

Für die Analyse von unstrukturierten und strukturierten Daten bieten wir unseren Kunden zwei Lösungen:

LogDrill Logo - Big Data Analyse und Normalisierung von Daten in Echtzeit

PetaPylon - Hadoop Big Data Warehouse Appliance

LogDrill

Schnellste und Ressourceneffiziente Analyse unstrukturierter Daten & Normalisierung

PetaPylon

Big Data Warehouse

  • MOLAP Technologie
  • Spezielles und schnelles Text-Processing
  • Cube-basierende Abfragemethodik
  • Abfragen-Export via:
    • CSV, PDF, HTML, DOCX, ZIP oder TXT.
  • Benutzer-Administration
    • Hinzufügen von Benutzern und Rollen
  • Konfigurierbares Dashboard
  • Einfache Bedienung, intuitive Benutzeroberfläche, Drag´n Drop Funktionalität
  • Schnell, sicher und konfigurierbar, sowie preiswert.
  • Hadoop-Technologie
  • Skalierbar, zuverlässig und preiswert
  • Daten-Managementlösung f. ERP, CRM, Business Intelligence
  • SQL-Schnittstelle
  • Analyse von TeraByte-Daten innerhalb weniger Sekunden
    • ETL Engine erlaubt Zugriff auf die aktuellsten Daten mit nur wenigen Sekunden Latenz
  • Big Log Management
  • Sammeln, normalisieren und auswerten im TB/Tag-Bereich
  • Interaktive ad-hoc Analyse & Reporting