Dateien und Datenbanken mit einer Abfragesprache durchforsten R – Auf dem Weg zur Lingua Franca in der Datenanalyse

Autor / Redakteur: Heiko Miertzsch / Rainer Graefen

Auf der Suche nach den Stecknadeln in den Heuhaufen dieser Welt, stellt sich die Frage nach dem geeigneten Werkzeug, das nicht nur Daten analysieren kann, sondern auch beliebige Datenquellen. Aktuell gehört die Aufmerksamkeit der Analysesoftware "R".

Firma zum Thema

R als Analyseschicht in einem Enterprise Wiki.
R als Analyseschicht in einem Enterprise Wiki.
(bronzsoft + eoda)

Die Begriffe Big Data, Data Mining oder Predictive Analytics erfahren seit geraumer Zeit eine wachsende Aufmerksamkeit. Diese Entwicklung ist ein Ausdruck des Trends, Daten als Produktionsfaktor zu begreifen. IT-Systeme in Unternehmen produzieren jeden Tag riesige Datenmengen.

Praktisch alle Unternehmensteile wie Einkauf, Produktion, Administration und Verkauf werden nahezu vollständig in IT-Systemen abgebildet. Auch im privaten oder im wissenschaftlichen Umfeld wie auch in der öffentlichen Verwaltung wachsen die Datenbestände. Welche Potenziale lassen sich durch die Analyse der Daten heben und wie lassen sich die Analyseprozesse effizient gestalten?

Bildergalerie
Bildergalerie mit 5 Bildern

Riesiges Interesse

Datenanalyse ist untrennbar mit Software verbunden und eine besondere Rolle kommt in diesem Zusammenhang der freien Statistiksoftware R zu. R ist nach Norman Nie, dem Gründer und langjährigen CEO von SPSS, die zur Zeit mächtigste Programmiersprache zur Analyse und Visualisierung von Daten – und sie gewinnt deutlich an Zuspruch.

In den USA ist der Absatz mit Fachbüchern zu R in Q4 2012 um 127% gestiegen und O’Reilly Media führt R als „Major Programming language“. Nahezu alle IT-Anbieter im Umfeld von Big Data wie IBM, Oracle oder SAP öffnen Ihre Systeme für R. Die „Linux-Geschichte“ wiederholt sich aktuell im Markt für Analysesoftware.

Die Bedeutung des Produktionsfaktors Daten nimmt zu

Die Qualität und den Innovationsgrad, den die zumeist wissenschaftliche R-Community heute an den Tag legt, ist unvergleichlich in der jüngeren IT-Geschichte. Profitieren werden davon nicht nur Wissenschaft oder die großen Unternehmen. Selbst mit geringem Budget lässt sich mit R der Schatz heben, der in den Datenbergen steckt.

Kürzere Produktlebenszyklen, Individualisierung, Gesetzgebung sowie die fortschreitende Digitalisierung in allen Bereichen erhöhen stetig die Menge der vorhandenen Daten. Gleichzeitig versprechen die großen Datenmengen und statistische Analysen valide Ergebnisse und hohen Nutzen für unternehmerische Entscheidungen.

Je mehr diese Datenmenge als Nutzenfaktor in den Fokus von Entscheidern rückt, desto dringender stellt sich die Frage, wie aus dem Produktionsfaktor Daten intelligente Entscheidungen abgeleitet werden können.

Komplexes Anforderungsset an statistische Software

Mit einem Blick auf die Vielzahl der statistischen Methoden, Kennwerte und Analyseprozesse, der gleichzeitigen Vielfalt an Datenstrukturen und den Branchen- und abteilungsspezifischen Fragestellungen sind die Bedürfnisse an die eingesetzte Software immens.

Beispielhafte und typische Anwendungen statistischer Mustererkennung sind das Aufsuchen homogener Kundengruppen im Handel, Ursachen für den Ausfall von Maschinen oder das Optimieren von Produktionsprozessen.

Wie wird das Wetter, wie entwickeln sich Börsenkurse oder wie entwickelt sich der Umsatz sind typische Fragestellungen aus dem Bereich Vorhersage. Datamining ist das Schlagwort für ein Verfahrensset, das umfangreiche Möglichkeiten bietet, Erkenntnisse aus der großen Datenmenge zu gewinnen.

Methoden der Mustererkennung

Für diese großen Aufgabengebiete existiert eine Vielzahl von statistischen und mathematischen Methoden wie Clusteranalysen, Faktorenanalysen, Zeitreihenanalysen etc. Diese Methodengruppen in sich haben wiederum diverse unterschiedliche Verfahren. Mit Hilfe fachgerechter Kombination der verschiedenen Methoden, den richtigen Daten und einer geeigneten Software lassen sich beliebig kreative Fragestellungen lösen.

Ob Mustererkennung, Vorhersage oder Data Mining – um die Möglichkeiten von Daten effizient zu nutzen, muss das eingesetzte Analysetool jedoch zunächst in der Lage sein, die spezifischen Anforderungen abzudecken und sich in die unternehmerischen Prozesse zu integrieren. Kompatibilität zu anderer Software, Datentypen und Programmiersprachen sind für einen reibungslosen integrierten und flexiblen Analyseprozess ohne Medienbrüche unabdingbar.

Neben diesen technischen Standards sind die Qualität und das Methodenrepertoire entscheidende Kriterien für den Einsatz der Softwarelösung. Weitere Aspekte im Rahmen der Entscheidung für eine Software sind Punkte wie Investitionssicherheit, Fachkräfte oder das Kosten- und Nutzenverhältnis.

R ist leistungsstarkes Universalwerkzeug

Die Software und Programmiersprache R setzt im Bereich der statistischen Datenanalyse neue Maßstäbe. R wurde 1993 an der Universität von Auckland in Neuseeland entwickelt und steht für einen völlig neuartigen Ansatz, mit Daten aller Art umzugehen.

In der Basisversion bietet R eine Vielzahl von statistischen Methoden wie lineare und nichtlineare Modellierung, klassische statistische Testverfahren, Zeitreihenanalyse, Clusteranalysen etc. und Werkzeuge zur grafischen Visualisierung. Als GNU-Projekt, das heißt als freie Software unter offener Lizenzordnung, wird die R von einer interdisziplinären vorwiegend wissenschaftlichen Community weiterentwickelt.

Die Community hat mehr als 4.000 Pakete entwickelt, die für nahezu alle Fragen der Datenanalyse eine Lösung bieten. Die Pakete erlauben die Auswertung von Markforschungsdaten, Finanzdaten, Audio-Files, MRT-Bildern, Social-Media Daten oder Grafiken. Der deutsche R-Spezialist eoda hat unter anderem ein Paket zur interaktiven Darstellungen von Grafiken für Web-Anwendungen entwickelt.

R findet Anwendung in allen Bereichen empirischer Wissenschaft, wobei sich die verschiedenen Disziplinen gegenseitig befruchten. Verfahren der Mustererkennung, die ursprünglich in der Genforschung entwickelt wurden finden heute beispielsweise Verwendung bei Finanzdienstleistern.

Aus der Wissenschaft in die Wirtschaft

Aus historischen Gründen hat R traditionell viele Anwender im wissenschaftlichen Umfeld. In den letzten Jahren haben jedoch auch die Anwender in Unternehmen die Vorzüge der freien Sprache R entdeckt.

Finanzinstitute betreiben Risikomanagement mit R, Pharmaunternehmen entwickeln Medikamente mit Hilfe von R, Airlines analysieren die Kundenstimmung auf Twitter mit R und bei Salzgitter Mannesmann werden Prozesse in der Stahlherstellung mit R optimiert.

Mit R lassen sich sowohl ad hoc kleinere Analysen durchführen, wie auch komplette Analyse- und Reporting-Prozesse abbilden und in eine bestehende Systemlandschaft integrieren.

R im Unternehmensumfeld und Zusammenspiel mit anderer Software

Die Relevanz und Reichweite von R lassen sich nicht zuletzt auch dadurch ableiten, wie sich große Anbieter positionieren. Die jüngsten Entwicklungen um R zeigen, dass nahezu alle wichtigen Player, die im Umfeld Big Data, Data Mining oder Business Intelligence unterwegs sind, R für sich entdeckt haben. Exemplarisch seien hier IBM Netezza, Oracle R Enterprise, SAP HANA, SAS oder Jaspersoft genannt.

Mit Revolution Analytics gibt es auch eine Art „Red Hat“, einen kommerziellen Entwickler und Serviceleister, für R. Revolution Analytics ist der führende Anbieter für kommerzielle Software und Services basierend auf dem Open Source Projekt R. Das Unternehmen erweitert R um Aspekte hohe Leistungsfähigkeit, Produktivität und Verfügbarkeit.

Das Kernprodukt Revolution R Enterprise erfüllt die Anforderungen der großen Unternehmen aus den Bereichen Finanzdienstleistungen, Biowissenschaften, Handel, Industrie und Medien an eine Software zur Datenanalyse.

R wird den Weg von Linux gehen

Die Parallelen mit Linux sind bereits jetzt unübersehbar. Gestartet als ein Projekt einer kleinen Gruppe Wissenschaftler hat sich R längst zur Lösung für unternehmenskritische Anwendungen etabliert – wenn auch vor allem in Europa noch versteckt.

Mit Hilfe von R und einigen fortschrittlichen Analysespezialisten werden bereits heute Bausparverträge gerechnet, Stahl produziert oder Getränke in der Lebensmittelindustrie wetter- und saisonabhängig abgefüllt. Und auf der diesjährigen internationalen useR-Konferenz hat ein Verteter der U.S. Food and Drug Administration dargelegt, dass R sehr wohl für klinische Studien zugelassen ist. Unter Compliance-Gesichtspunkten ist dies eine Art Ritterschlag.

Die schnell zunehmende Entwickler- und Nutzergemeinde aus den Universitäten sorgt für weitere Innovation, Verbreitung sowie qualifizierte Spezialisten. Mittel- und langfristig wird R die übergreifende Sprache – die Lingua Franca - für analytische Anwendungen und das wichtigste Hilfsmittel wenn es daran geht, aus Big Data Wissen zu entlocken und Nutzen aus den Daten zu generieren.

(ID:35227410)