Kontinuierliche Analyse - Continuous analytics

Kontinuierliche Analytik ist ein Daten Wissenschaft Prozess , dass Abbrüche ETLs und komplexe Batch - Datenpipelines für Cloud -native und Microservices Paradigmen. Die kontinuierliche Datenverarbeitung ermöglicht Interaktionen in Echtzeit und sofortige Einblicke mit weniger Ressourcen.

Definiert

Analytics ist die Anwendung von Mathematik und Statistik auf Big Data. Datenwissenschaftler schreiben Analyseprogramme, um nach Lösungen für geschäftliche Probleme zu suchen, z. B. die Vorhersage der Nachfrage oder die Festlegung eines optimalen Preises. Bei dem kontinuierlichen Ansatz werden mehrere zustandslose Engines ausgeführt, die die Daten gleichzeitig anreichern, aggregieren, ableiten und darauf reagieren. Datenwissenschaftler, Dashboards und Client-Apps greifen alle auf dieselben Roh- oder Echtzeitdatenderivate mit angemessener identitätsbasierter Sicherheit, Datenmaskierung und Versionierung in Echtzeit zu.

Traditionell waren Datenwissenschaftler nicht Teil von IT- Entwicklungsteams wie normale Java- Programmierer. Dies liegt daran, dass sie sich durch ihre Fähigkeiten in ihrer eigenen Abteilung auszeichnen, die normalerweise nicht mit IT, dh Mathematik, Statistik und Datenwissenschaft, zusammenhängt. Es ist daher logisch zu schließen, dass ihr Ansatz zum Schreiben von Software-Code nicht die gleiche Effizienz aufweist wie der des traditionellen Programmierteams. Insbesondere die traditionelle Programmierung hat den Continuous Delivery-Ansatz zum Schreiben von Code und die agile Methodik übernommen . Dadurch wird Software in einem kontinuierlichen Kreis freigegeben , der als Iterationen bezeichnet wird .

Continuous Analytics ist dann die Erweiterung des Softwareentwicklungsmodells für die kontinuierliche Bereitstellung auf das Entwicklungsteam für Big Data Analytics. Das Ziel des Praktikers für kontinuierliche Analytik besteht dann darin, Wege zu finden, um das Schreiben von Analytikcode und die Installation von Big-Data-Software in das agile Entwicklungsmodell zu integrieren, bei dem Einheiten- und Funktionstests automatisch ausgeführt und das Umgebungssystem mit automatisierten Tools erstellt werden.

Damit dies funktioniert, müssen Datenwissenschaftler ihren Code in dasselbe Code-Repository schreiben , das normale Programmierer verwenden, damit die Software ihn von dort abrufen und durch den Erstellungsprozess ausführen kann. Dies bedeutet auch, dass die Konfiguration des Big-Data-Clusters (Sätze virtueller Maschinen ) auch in einer Art Repository gespeichert wird. Dies erleichtert das Versenden von Analysecode und Big-Data-Software und -Objekten auf dieselbe automatisierte Weise wie der kontinuierliche Integrationsprozess.

Externe Links

Verweise