Interview mit Dr. Gerhard Svolba SAS verbindet Tradition mit Hippness
SAS ist ein klassisches Analytics-Unternehmen, das über eine eigene Programmiersprache verfügt und sowohl im universitären Umfeld als auch in der IT von Konzernen eine große Rolle spielt. Wie SAS die Anbindung an die neuen Zeiten schafft und insbesondere junge Entwickler sowie künstliche Intelligenz integriert, wollten wir im Nachgang zum SAS Forum 2019 in Bonn von Dr. Gerhard Svolba, Data Scientist bei SAS Österreich und Hochschuldozent, wissen.
Anbieter zum Thema

DataCenter Insider: Seit geraumer Zeit bemüht sich SAS, eine Verbindung zu der jüngsten Generation von Entwicklern herzustellen, weswegen man die SAS Viya-Plattform für Open-Source-Programmiersprachen wie Java, Lua und nicht zuletzt R und Python geöffnet hat. Welche Erfahrungen haben Sie seitdem mit den „hippen“ Entwicklern gemacht?
Svolba: Wir haben damit sehr gute Erfahrungen gemacht, die SAS Viya-Plattform wird gut angenommen. Die „hippen“ jungen Entwickler haben damit die Chance, in ihrer vertrauten Umgebung, die sie aus dem Studium kennen - R Studio oder Jupyter Notebook -, zu arbeiten und mit Open-Source-Syntax SAS Funktionalität aufzurufen. Junge Developer, die vielleicht frisch von der Uni kommen und noch nicht so viele Erfahrungen z. B. mit SAS gesammelt haben, können also nun auch an bestehenden SAS-Systemen arbeiten und müssen nicht sofort eine neue Programmiersprache lernen. Das freut die Leiter von IT-Abteilungen!
DataCenter Insider: Python ist sehr „hip“, aber passt R eigentlich nicht viel mehr zu SAS? Sollten Sie diese Entwickler nicht mehr und ganz besonders umwerben?
Svolba: R haben wir schon seit vielen Jahren explizit auf dem Schirm, das ist eine wichtige Sprache für uns. Dabei sehen wir aber keinen Konkurrenzkampf der Sprachen, vielmehr verfolgen wir gegenüber R und Python einen agnostischen Ansatz. Wir freuen uns über jedes „coole“ Projekt, egal ob es in R oder Python geschrieben ist.
DataCenter Insider: Es gibt verschiedene Verfahren für künstliche Intelligenz (KI), SAS setzt wie viele andere vorrangig auf ML. Können Sie die Gründe dafür kurz erläutern?
Svolba: Wir folgen dem ML-Paradigma, weil es die neu entstehenden Datenberge am besten auswerten kann. ML entspricht auch der Idee klassischer Analytics mit Decision Trees und Regression, wie SAS sie bereits vor mehr als 20 Jahren verfolgt hat, am ehesten. ML eignet sich am besten, um auf Basis tragfähiger Vorhersagen Entscheidungen zu treffen.
DataCenter Insider: Zu welchen Sprachen, integrierten Entwicklungsumgebungen (IDE) und Bibliotheken beziehungsweise Tools würden Sie angehenden Programmierern raten, wenn sie in Machine Learning (ML) einsteigen wollen?
Svolba: Als Dozent an der Universität Wien kann ich da aus dem „echten“ Leben berichten: Eine Anforderung für das Statistik-Studium ist ganz klar R, in der Praxis findet man aber ausgesprochen oft SAS vor, manchmal auch Python. Als EDI empfehle ich das SAS Studio, mit SAS Visual Analytics können auch im Programmieren ungeübte Anwender schnelle Ergebnisse erzielen.
DataCenter Insider: Wie unterscheidet sich Testing von Software für maschinelles Lernen von herkömmlichem Testing? Wie führt man bei SAS das Testing von ML-Code durch?
Svolba: Beim klassischen Testing soll ja möglichst eine definierte Funktionalität nachvollzogen werden. Bei ML-Systemen haben wir es eher mit Blackboxes zu tun, das Modell muss auf Plausibilität, Interpretierbarkeit und Vorhersagefähigkeit hin überprüft werden. Dies erfordert auch eine hohe Datenqualität der Trainingsdaten. Genauso müssen die Trainingsdaten repräsentativ für die künftige Modellanwendung sein.
Für das Testing selbst haben wir u. a. LIME (Locally Interpretable Model-Agnostic Explanations) im SAS Studio verbaut. Das ist ein Ansatz, um komplexe Modelle qualitativ bzw. inhaltlich beurteilen zu können. Man nähert sich den Modellen approximativ durch interpretierbare und simple Modelle an, von denen die Einflussfaktoren und Abhängigkeiten leicht abgelesen werden können. Konkret wird jedes Machine-Learning-Modell lokal durch ein lineares Modell approximiert. Insgesamt gibt es mehrere Varianten dieser Modelle, die unterschiedliche Stärken aufweisen.
Dr. Gerhard Svolba ist Analytic Solutions Architect und Data Scientist bei SAS Institute in Österreich. Er ist in eine Vielzahl von analytischen und Data Science Projekten quer über fachliche Domains wie Demand Forecasting, analytisches CRM, Risikomodellierung und Produktionsqualität involviert. Als nebenberuflich Lehrender unterrichtet er Data Science Methoden an der Medizinischen Universität Wien, der Universität Wien und an Fachhochschulen.
(ID:45984346)