Aggregatfunktion - Aggregate function

In der Datenbankverwaltung ist eine Aggregatfunktion oder Aggregationsfunktion eine Funktion, bei der die Werte mehrerer Zeilen zu einem einzigen Summenwert gruppiert werden .

Zu den allgemeinen Aggregatfunktionen gehören:

Durchschnitt (d. h. arithmetisches Mittel )
Zählen
Maximal
Median
Minimum
Modus
Bereich
Summe

Andere sind:

Nanmean (Mittelwert ohne Berücksichtigung von NaN-Werten, auch bekannt als "nil" oder "null")
Stddev

Formal nimmt eine Aggregatfunktion als Eingabe eine Menge , eine Multimenge (bag) oder eine Liste aus einem Eingabebereich $I$ und gibt ein Element eines Ausgabebereichs $O aus$ . Die Eingabe- und Ausgabedomänen können gleich sein, beispielsweise für SUM, oder können unterschiedlich sein, wie beispielsweise für COUNT.

Aggregatfunktionen kommen häufig in zahlreichen Programmiersprachen , in Tabellenkalkulationen und in der relationalen Algebra vor .

Die listaggFunktion, wie im SQL:2016- Standard definiert, aggregiert Daten aus mehreren Zeilen in einer einzigen verketteten Zeichenfolge.

Zerlegbare Aggregatfunktionen

Aggregatfunktionen stellen einen Engpass dar , da sie möglicherweise alle Eingabewerte gleichzeitig benötigen. Beim verteilten Rechnen ist es wünschenswert, solche Berechnungen in kleinere Teile aufzuteilen und die Arbeit, die normalerweise parallel gerechnet wird , über einen Divide-and-Conquer-Algorithmus zu verteilen .

Einige Aggregatfunktionen können berechnet werden, indem das Aggregat für Teilmengen berechnet und dann diese Aggregate aggregiert werden; Beispiele sind COUNT, MAX, MIN,und SUM. In anderen Fällen kann das Aggregat berechnet werden, indem Hilfszahlen für Teilmengen berechnet werden, diese Hilfszahlen aggregiert werden und schließlich die Gesamtzahl am Ende berechnet wird; Beispiele sind AVERAGE(Summe und Zählung verfolgen, am Ende dividieren) und RANGE(Max und Min verfolgen, am Ende subtrahieren). In anderen Fällen kann das Aggregat nicht berechnet werden, ohne die gesamte Menge auf einmal zu analysieren, obwohl in einigen Fällen Näherungen verteilt werden können; Beispiele sind DISTINCT COUNT, MEDIAN,und MODE.

Solche Funktionen werden als zerlegbare Aggregationsfunktionen oder zerlegbare Aggregatfunktionen bezeichnet . Die einfachste kann als selbstzerlegbare Aggregationsfunktionen bezeichnet werden , die als solche Funktionen $f$ definiert sind, so dass es einen Zusammenführungsoperator gibt, so dass $\diamond$

f(X\uplus Y)=f(X)\diamant f(Y)

wo ist die Vereinigung von Mehrfachmengen (siehe Monoid-Homomorphismus ). ${\displaystyle\upplus}$

Zum Beispiel SUM:

\operatorname {SUM} ({x})=x

, für einen Singleton;

\operatorname {SUM} (X\uplus Y)=\operatorname {SUM} (X)+\operatorname {SUM} (Y)

, was bedeutet, dass Merge einfach eine Addition ist.

\diamond

COUNT:

\operatorname {COUNT} ({x})=1

,

\operatorname {COUNT} (X\uplus Y)=\operatorname {COUNT} (X)+\operatorname {COUNT} (Y)

.

MAX:

\operatorname {MAX} ({x})=x

,

\operatorname {MAX} (X\uplus Y)=\max {\bigl (}\operatorname {MAX} (X),\operatorname {MAX} (Y){\bigr }

.

MIN:

{\textstyle \operatorname {MIN} ({x})=x}

,

\operatorname {MIN} (X\uplus Y)=\min {\bigl (}\operatorname {MIN} (X),\operatorname {MIN} (Y){\bigr )}

.

Beachten Sie, dass selbstzerlegbare Aggregationsfunktionen kombiniert werden können (formal das Produkt nehmend), indem man sie separat anwendet, so dass man zum Beispiel sowohl die SUMals auch COUNTgleichzeitig berechnen kann , indem man zwei Zahlen verfolgt.

Allgemeiner kann man eine zerlegbare Aggregationsfunktion $f$ als eine definieren, die als die Zusammensetzung einer endgültigen Funktion $g$ und einer selbstzerlegbaren Aggregationsfunktion $h$ , ausgedrückt werden kann . Zum Beispiel = / und = − . $f=g\circ h,f(X)=g(h(X))$ AVERAGESUMCOUNTRANGEMAXMIN

Im MapReduce- Framework sind diese Schritte als InitialReduce (Wert auf einzelnem Datensatz/Singleton-Set), Combine (binäre Zusammenführung auf zwei Aggregationen) und FinalReduce (letzte Funktion auf Hilfswerten) und Verschieben der zerlegbaren Aggregation bekannt, bevor die Shuffle-Phase bekannt ist als InitialReduce-Schritt,

Zerlegbare Aggregationsfunktionen sind in der Online-Analyseverarbeitung (OLAP) wichtig , da sie die Berechnung von Aggregationsabfragen anhand der vorab berechneten Ergebnisse im OLAP-Cube statt anhand der Basisdaten ermöglichen. Zum Beispiel ist es einfach COUNT, MAX, MIN,und SUMin OLAP zu unterstützen, da diese für jede Zelle des OLAP-Würfels berechnet und dann zusammengefasst ("aufgerollt") werden können, aber es ist schwierig zu unterstützen MEDIAN, da das für jede Ansicht separat berechnet werden muss .

Andere zerlegbare Aggregatfunktionen

Um den Durchschnitt und die Standardabweichung aus aggregierten Daten zu berechnen, müssen für jede Gruppe verfügbar sein: die Summe der Werte (Σx _i = SUM(x)), die Anzahl der Werte (N=COUNT(x)) und die Summe der Quadrate der Werte (Σx _i² = SUM(x ² )) jeder Gruppe.

AVG:

\operatorname {AVG} (X\upplus Y)={\bigl (}\operatorname {AVG} (X)*\operatorname {COUNT} (X)+\operatorname {AVG} (Y)*\operatorname { ANZAHL} (Y){\bigr)}/{\bigl (}\operatorname {COUNT} (X)+\operatorname {COUNT} (Y){\bigr )}

.

oder

\operatorname {AVG} (X\upplus Y)={\bigl (}\operatorname {SUM} (X)+\operatorname {SUM} (Y){\bigr )}/{\bigl (}\operatorname {COUNT} (X)+\Betreibername {COUNT} (Y){\bigr)}

.

oder nur wenn COUNT(X)=COUNT(Y)

\operatorname {AVG} (X\uplus Y)={\bigl (}\operatorname {AVG} (X)+\operatorname {AVG} (Y){\bigr)}/2

.

SUM(x²): Die Quadratsumme der Werte ist wichtig, um die Standardabweichung von Gruppen zu berechnen

\operatorname {SUM} (X^{2}\uplus Y^{2})=\operatorname {SUM} (X^{2})+\operatorname {SUM} (Y^{2})

STDDEV:
Für eine endliche Population mit gleichen Wahrscheinlichkeiten an allen Punkten gilt

\operatorname {STDDEV} (X)=s(x)={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{ \overline {x}})^{2}}}={\sqrt {{\frac {1}{N}}\left(\sum_{i=1}^{N}x_{i}^{2 }\right)-({\overline {x}})^{2}}}={\sqrt {\operatorname {SUM} (x^{2})/\operatorname {COUNT} (x)-\operatorname { AVG} (x)^{2}}}

Dies bedeutet, dass die Standardabweichung gleich der Quadratwurzel der Differenz zwischen dem Mittelwert der Quadrate der Werte und dem Quadrat des Mittelwerts ist.

\operatorname {STDDEV} (X\uplus Y)={\sqrt {\operatorname {SUM} (X^{2}\upplus Y^{2})/\operatorname {COUNT} (X\uplus Y) -\operatorname {AVG} (X\upplus Y)^{2}}}

.

\operatorname {STDDEV} (X\uplus Y)={\sqrt {{\bigl (}\operatorname {SUM} (X^{2})+\operatorname {SUM} (Y^{2}){ \bigr )}/{\bigl (}\operatorname {COUNT} (X)+\operatorname {COUNT} (Y){\bigr )}-{\bigl (}(\operatorname {SUM} (X)+\operatorname {SUMME} (Y))/(\Betreibername {COUNT} (X)+\Betreibername {COUNT} (Y)){\bigr)}^{2}}}

.

Siehe auch

Verweise

Zitate

Literaturverzeichnis

Yu, Yuan; Gunda, Pradeep Kumar; Isard, Michael (2009). Verteilte Aggregation für datenparalleles Computing: Schnittstellen und Implementierungen . ACM SIGOPS 22. Symposium zum Thema Betriebssystemprinzipien. ACM . S. 247–260. doi : 10.1145/1629575.1629600 .
Jesus, Paulo; Baquero, Carlos; Almeida, Paulo Sergio (2011). „Eine Übersicht über verteilte Datenaggregationsalgorithmen“. arXiv : 1110.0725 [ cs.DC ].
Zhang, Chao (2017). Symmetrische und asymmetrische Aggregatfunktion in Massively Parallel Computing (Technischer Bericht).

Weiterlesen

Grabisch, Michel; Marichal, Jean-Luc; Mesiar, Radko; Pap, Endre (2009). Aggregationsfunktionen . Enzyklopädie der Mathematik und ihrer Anwendungen. 127 . Cambridge: Cambridge University Press . ISBN 978-0-521-51926-7. Zbl 1196.00002 .
Oracle-Aggregatfunktionen: MAX, MIN, COUNT, SUM, AVG Beispiele

Externe Links

Aggregatfunktionen (Transact-SQL)

Languages

In other projects