Goldman Sachs: Neue Programmiersprache für Data-Jobs
Bei Goldman Sachs dreht sich alles um Daten. Das Unternehmen ist aktuell dabei, einen „Datensee“ (beziehungsweise ein ‚strategisches Repository für Unternehmensdaten‘) anzulegen. Für das Data Architecture Team werden Leute gesucht – genauer: Data Engineers, datenorientierte Technologen und datenorientierte Entwickler, die die Software bauen, die dann wiederum die Daten im „Datensee“ verwaltet.
Es klingt nach einem Mammutprojekt – und genau das ist es auch. Wer hier aufspringen und einen der Data-Jobs – ob bei Goldman Sachs oder anderswo im Finanzwesen – ergattern will, sollte sich die hauseigene Data-Programmiersprache aneignen, die intern als PURE bekannt ist und nun als „Legend Language“ offen zugänglich ist.
PURE/Legend ist eine logische Modellierungssprache, die von Goldman Sachs zur Beschreibung von Daten entwickelt worden ist. Sie wird von dem Unternehmen in Verbindung mit einem System verwendet, das bisher als Alloy bekannt war. Alloy verwendet PURE, um die Datenbanken von Goldman abzufragen und Modelle von SQL über Java bis hin zu JSON zu generieren – das visuelle Frontend.
In Zusammenarbeit mit der Fintech Open Source Foundation (FINOS) hat Goldman Sachs PURE und Alloy jetzt auf GitHub als Legend-Plattform zur Verfügung gestellt.
Auf dem Open-Source-Strategieforum von FINOS hatte Neema Raphael, Global Head of Engineering und Chief Data Officer bei Goldman Sachs, vor einem Jahr erklärt, wie Legend funktioniert. „Angenommen, Sie möchten Daten für eine Analyse verwenden oder mit einem größeren Team austauschen“, so Raphael, „und diese Daten kommen aus verschiedenen Quellen, haben verschiedene Attribute und sind mit anderen Datensätzen verknüpft, ermöglicht Alloy es, diese Konzepte einfach und konsistent als Geschäftskonzepte zu definieren und die Bedienbarkeit für den User zu normalisieren.“
Pierre De Belen, Head des Data-Model-Engineering-Teams bei Goldman Sachs und „Pate“ des Legend-Systems, hatte auf dem FINOS-Forum erklärt, dass das Unternehmen PURE/Legend nutze, um einen „konzeptionellen Graphen unserer Informationen“ zu erstellen.
„Wir ordnen dann die vielen Datenbanken, in denen unsere Daten gespeichert sind, mit Hilfe eines ausgetüftelten Dokumentenschemas zu, und fügen Transformations- und Ableitungsbeschränkungen hinzu“, so De Belen. In seinem Team würden 1.000 Datenmodellierer daran arbeiten, „so ziemlich alle Informationen, die wir in der Firma haben, so zu modellieren, dass die Leute einfach mit ihnen navigieren können“.
Mit anderen Worten: Wer sich für einen Job im Data Modelling bei Goldman Sachs interessiert, wird sich Legend/PURE aneignen müssen. Und: Wenn das „Legend“-Projekt so erfolgreich ist, wie man bei Goldman Sachs hofft, dann könnten die Plattform und die Programmiersprache in der gesamten Bankenbranche zum neuen Standard werden.
Legend wird bewusst open source gestellt – auf diesem Wege können Schnittstellen geschaffen werden, über die Goldman-Sachs-Kunden ihre Daten selbst verwalten und die es ermöglichen, auf der Plattform von Goldman Sachs eigene Tools zu entwickeln.
Was genau verbirgt sich hinter Legend? FINOS zufolge handelt es sich um „eine unwandelbare funktionale Sprache, die auf der Unified Modeling Language (UML) basiert und von der Object Constraint Language (OCL) inspiriert ist“. Ihr Vorteil ist, dass sie die Datenmodellierung so sehr beschleunigt, dass sie sogar im Trading genutzt werden kann. Legend erleichtert außerdem das Hinzufügen von ausführbaren Beschränkungen, Ableitungen und Model-to-Model-Mappings. Hier geht es zur Anleitung für den Einstieg in Legends.
Es ist nicht die erste Programmiersprache, die von Goldman Sachs entwickelt wurde. Das Unternehmen hat bereits Slang entwickelt, eine Programmiersprache, die auf SecDB basiert. Wer Slang beherrscht, dem winkt – je nachdem, wen man fragt – entweder eine tolle Tech-Karriere oder die Landung in der Karriere-Sackgasse. Diese Probleme dürfte es mit Legend allerdings nicht geben – anders als Slang (das aus den 1980er-Jahren stammt) ist Legend aktuell und open source verfügbar. Jeder, der aktuell an Extract-Transform-and-Load(ETL)-Systemen arbeitet, die Daten an bestimmte Orte kopieren (etwa an „Datenseen“) sollte sich bald mit Legend vertraut machen, denn: Wenn die Programmiersprache zum Branchenstandard wird, könnten einige der Stellen überflüssig werden.
Have a confidential story, tip, or comment you’d like to share? Contact: sbutcher@efinancialcareers.com in the first instance. Whatsapp/Signal/Telegram also available.
Bear with us if you leave a comment at the bottom of this article: all our comments are moderated by human beings. Sometimes these humans might be asleep, or away from their desks, so it may take a while for your comment to appear. Eventually it will – unless it’s offensive or libelous (in which case it won’t.)