[FIXED] Behandeln Sie zu späte Daten in Spark Streaming

Ausgabe

Mit Wasserzeichen können verspätet ankommende Daten für einen bestimmten Zeitraum unter Verwendung von Fenstern für die Einbeziehung in bereits berechnete Ergebnisse berücksichtigt werden. Seine Prämisse ist, dass es bis zu einem Zeitpunkt nachverfolgt wird, vor dem angenommen wird, dass keine späten Ereignisse mehr eintreffen sollen, aber wenn dies der Fall ist, sind sie nichtsdestoweniger discarded.

Gibt es eine Möglichkeit, die verworfenen Daten zu speichern, die später für Abstimmungszwecke verwendet werden können? Angenommen, in meinem strukturierten Streaming habe ich das Wasserzeichen auf 1 Stunde gesetzt. Ich mache alle 10 Minuten einen Fensterbetrieb und erhalte ein späteres Ereignis 20 Minuten zu spät. Gibt es eine Möglichkeit, die verworfenen Daten an einem anderen Ort zu speichern, anstatt sie zu verwerfen?

Lösung

Nein, es gibt keine Möglichkeit, diesen Aspekt zu erreichen.


Beantwortet von –
thebluephantom


Antwort geprüft von –
Katrina (FixError Volunteer)

0 Shares:
Leave a Reply

Your email address will not be published. Required fields are marked *

You May Also Like