Daten haben sich zu einer der größten Ressourcen der Welt entwickelt und untermauern alles, von Videoempfehlungs-Engines und digitalem Banking bis hin zur aufkeimenden KI-Revolution. Aber in einer Welt, in der Daten zunehmend über Standorte verteilt werden, von Datenbanken über Data Warehouses bis hin zu Data Lakes und darüber hinaus, kann es ein Mammut-Unterfangen sein, sie alle in einem kompatiblen Format für die Verwendung in Echtzeitszenarien zu kombinieren.
Für den Kontext können Anwendungen, die keinen sofortigen Datenzugriff in Echtzeit benötigen, Daten einfach kombinieren und in festgelegten Intervallen in Stapeln verarbeiten. Diese sogenannte „Batch-Datenverarbeitung“ kann beispielsweise für die Verarbeitung monatlicher Verkaufsdaten nützlich sein. Aber oft ein Unternehmen Wille benötigen Echtzeitzugriff auf Daten, während sie erstellt werden, und dies kann beispielsweise für Kundensupport-Software von entscheidender Bedeutung sein, die sich auf aktuelle Informationen über jeden einzelnen Verkauf stützt.
An anderer Stelle müssen Ride-Hail-Apps auch alle möglichen Datenpunkte verarbeiten, um einen Mitfahrer mit einem Fahrer zu verbinden – das kann nicht ein paar Tage warten. Diese Art von Szenarien erfordert eine sogenannte „Stream-Datenverarbeitung“, bei der Daten gesammelt und für den Echtzeitzugriff kombiniert werden, was weitaus komplexer zu konfigurieren ist.
Das ist was Bulldozer setzt sich dafür ein, indem es schnelle, schreibgeschützte APIs direkt von jeder Quelle über ein Plug-and-Play-Dateninfrastruktur-Backend unterstützt.
Dozer ist das Werk von Vivek Gudapuri Und Matteo Pelati, die das Unternehmen vor knapp einem Jahr von Singapur aus gegründet haben. Das Duo hat ein verteiltes Team von 10 Personen in Asien und Osteuropa aufgebaut, während es sich darauf vorbereitet, über das aktuelle Produkt hinaus zu expandieren Quelle vorhanden (dh nicht ganz Open Source) Inkarnation in ein vollständig monetarisierbares Produkt.
Dozer hat sein Produkt mit einer Handvoll nicht bekannt gegebener Designpartner getestet, und heute taucht es aus der Tarnung auf, auf das jeder Entwickler zugreifen kann. Das Unternehmen gab außerdem bekannt, dass es 3 Millionen US-Dollar an Seed-Finanzierung von erhalten hat Der Inder von Sequoia Capital Arm (über seine Anstieg Programm), Googles Gradient VenturesUnd Januar Hauptstadt.
Verteilt
Es gibt bereits unzählige Tools, die darauf ausgelegt sind, verteilte Daten zu transformieren, zu integrieren und nutzbar zu machen, einschließlich Streaming-Datenbanken und ETL-Tools (Extract, Transform, Load) wie z Apache Flink, Airbyte und Fivetran; Caching-Layer für transiente Datenspeicherung wie Redis; und Instant-APIs, die von Hasura oder Supabase unterstützt werden, um Daten zwischen Systemen zu leiten.
Dozer seinerseits arbeitet in all diesen verschiedenen Kategorien, übernimmt die seiner Meinung nach besten Teile und beseitigt die Reibung, die mit dem Aufbau der Infrastruktur und der Einrichtung von Echtzeit-Datenanwendungen einhergeht.
Benutzer schließen Dozer an ihren vorhandenen Datenstapel an, der Datenbanken, Data Warehouses und Data Lakes umfassen kann, und Dozer kümmert sich um die Datenextraktion, das Caching und die Indizierung in Echtzeit und stellt sie über APIs mit geringer Latenz zur Verfügung. Während also etwas wie Airbyte oder Fivetran dabei hilft, Daten in ein Data Warehouse zu bringen, konzentriert sich Dozer auf die andere Seite: „Diese Daten auf die effizienteste Weise zugänglich zu machen“, erklärte Gudapuri gegenüber TechCrunch.
Gudapuri sagte, dass Dozer „einen eigensinnigen Ansatz verfolgt“, der sehr spezifische Probleme angeht und nicht mehr. Zum Beispiel lösen etablierte Streaming-Datenbanken viele Probleme, die weit über das hinausgehen, was Dozer bietet, bei dem es darum geht, Echtzeit-Datenaktualisierungen und APIs in einem einzigen Produkt bereitzustellen.
„Wir lösen genau die richtige Menge an Problemen in jeder dieser Kategorien, um Entwicklern ein schnelles Bauerlebnis sowie sofort einsatzbereite Leistung zu bieten“, sagte Gudapuri. „Entwickler müssen (derzeit) mehrere Tools integrieren, um dasselbe zu erreichen.“
Beispielsweise wird eine vorhandene Streaming-Datenbank wahrscheinlich versuchen, dem Benutzer die gesamte Datenbankerfahrung zu präsentieren, vollgestopft mit Abfragemodul, Datenexploration, OLAP (Online-Analyseverarbeitung) usw. Dozer bietet diese Dinge bewusst nicht an, sondern konzentriert sich stattdessen auf das, was Pelati „vorberechnete Ansichten“ nennt, unter Verwendung von SQL, Python und JavaScript, die alle über eine niedrige Latenzzeit zugänglich sind gRPC Und AUSRUHEN APIs.
Aus diesem Grund, sagt Pelati, kann Dozer eine bessere Latenz bei Datenabfragen versprechen.
„Aufgrund dieser Designentscheidungen bietet Dozer eine weit überlegene Abfragelatenz, die für kundenorientierte Anwendungen erforderlich ist“, sagte Pelati. „Ein einziger Entwickler kann innerhalb von Minuten ganze Daten-Apps erstellen; das würde normalerweise monatelange Anstrengungen erfordern. Ein Team muss nicht mehrere Integrationen erstellen und pflegen, was Zeit und Geld spart.“
Der (nicht ganz) Open-Source-Faktor
Während Dozer als „Open Source“-Plattform angepriesen wird, ein kurzer Blick darauf Lizenz auf GitHub zeigt, dass es eine verwendet Elastic-Lizenz 2.0 (ELv2), dieselbe Lizenz wie das Enterprise-Search-Unternehmen Elastic vor zwei Jahren adoptiert als Teil seines Übergangs weg aus echter Open Source. In der Tat die Elastic-Lizenz wird nicht als Open Source anerkanntda es Dritte daran hindert, die Software zu übernehmen und sie selbst als gehosteten oder verwalteten Dienst anzubieten.
Genauer gesagt kann ELv2 als „source available“-Lizenz bezeichnet werden, was effektiv bedeutet, dass es viele der Vorteile einer freizügigeren Open-Source-Lizenz bietet wie MIT, einschließlich der Transparenz der Codebasis, der Möglichkeit, die Fähigkeiten von Dozer zu erweitern oder Funktionen zu optimieren und Fehler zu beheben. Dies allein wird wahrscheinlich ausreichen, um die Herzen und Köpfe von Unternehmen jeder Größe zu gewinnen, solange es nicht AWS oder ein anderer Cloud-Gigant ist, der direkt auf Dozer monetarisieren möchte.
Das Unternehmen sagte jedoch, dass es beabsichtige, „sehr bald“ auf eine Doppellizenz umzusteigen, in der sich alles im Dozer-Kernprojekt befinden wird MIT-lizenziert, außer für „ein Kernmodul“. Darüber hinaus betont das Unternehmen schnell, dass alle seine Client-Bibliotheken bereits MIT-lizenziert sind, einschließlich Python, Reagieren Und JavaScript.
Es ist erwähnenswert, dass einige Unternehmen interne Tools entwickelt haben, um ein ähnliches Problem zu lösen, das Dozer angeht, einschließlich Netflix, das Bulldozer gebaut hat mehrere Jahre zurück. Insbesondere einer der Hauptschöpfer von Bulldozer, Ioannis Papapanagiotouarbeitet jetzt als Berater für Dozer.
Es ist noch früh für Dozer, aber mit 3 Millionen US-Dollar auf der Bank von einer Vielzahl hochkarätiger Unterstützer ist das Unternehmen auf dem Weg zur Kommerzialisierung ziemlich gut finanziert, was die Einführung einer gehosteten SaaS-Version mit einer Reihe von beinhalten wird Zusatzfunktionen. Gudapuri sagte, es gehe davon aus, dass dies in den kommenden Monaten live gehen werde.
„Der gehostete Dienst kümmert sich um die automatische Skalierung, sofortige Bereitstellungen, Sicherheit, Compliance, Ratenbegrenzung und einige zusätzliche Funktionen“, sagte Gudapuri.