Ausgabe
Ich habe einen DatetimeIndex aus einer “date” -Spalte erstellt:
sales.index = pd.DatetimeIndex(sales["date"])
Nun sieht der Index wie folgt aus:
DatetimeIndex(['2003-01-02', '2003-01-03', '2003-01-04', '2003-01-06',
'2003-01-07', '2003-01-08', '2003-01-09', '2003-01-10',
'2003-01-11', '2003-01-13',
...
'2016-07-22', '2016-07-23', '2016-07-24', '2016-07-25',
'2016-07-26', '2016-07-27', '2016-07-28', '2016-07-29',
'2016-07-30', '2016-07-31'],
dtype='datetime64[ns]', name='date', length=4393, freq=None)
Wie Sie sehen, ist das freq
Attribut None. Ich vermute, dass spätere Fehler durch das Fehlen von freq
. Wenn ich jedoch versuche, die Frequenz explizit einzustellen:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-148-30857144de81> in <module>()
1 #### DEBUG
----> 2 sales_train = disentangle(df_train)
3 sales_holdout = disentangle(df_holdout)
4 result = sarima_fit_predict(sales_train.loc[5002, 9990]["amount_sold"], sales_holdout.loc[5002, 9990]["amount_sold"])
<ipython-input-147-08b4c4ecdea3> in disentangle(df_train)
2 # transform sales table to disentangle sales time series
3 sales = df_train[["date", "store_id", "article_id", "amount_sold"]]
----> 4 sales.index = pd.DatetimeIndex(sales["date"], freq="d")
5 sales = sales.pivot_table(index=["store_id", "article_id", "date"])
6 return sales
/usr/local/lib/python3.6/site-packages/pandas/util/_decorators.py in wrapper(*args, **kwargs)
89 else:
90 kwargs[new_arg_name] = new_arg_value
---> 91 return func(*args, **kwargs)
92 return wrapper
93 return _deprecate_kwarg
/usr/local/lib/python3.6/site-packages/pandas/core/indexes/datetimes.py in __new__(cls, data, freq, start, end, periods, copy, name, tz, verify_integrity, normalize, closed, ambiguous, dtype, **kwargs)
399 'dates does not conform to passed '
400 'frequency {1}'
--> 401 .format(inferred, freq.freqstr))
402
403 if freq_infer:
ValueError: Inferred frequency None from passed dates does not conform to passed frequency D
Anscheinend wurde also eine Häufigkeit abgeleitet, die aber weder im Attribut freq
noch inferred_freq
des DatetimeIndex gespeichert ist – beide sind None. Kann jemand die Verwirrung aufklären?
Lösung
Sie haben hier ein paar Möglichkeiten:
pd.infer_freq
pd.tseries.frequencies.to_offset
Ich vermute, dass Fehler auf der Straße durch die fehlende Frequenz verursacht werden.
Du liegst absolut richtig. Hier ist, was ich oft benutze:
def add_freq(idx, freq=None):
"""Add a frequency attribute to idx, through inference or directly.
Returns a copy. If `freq` is None, it is inferred.
"""
idx = idx.copy()
if freq is None:
if idx.freq is None:
freq = pd.infer_freq(idx)
else:
return idx
idx.freq = pd.tseries.frequencies.to_offset(freq)
if idx.freq is None:
raise AttributeError('no discernible frequency found to `idx`. Specify'
' a frequency string with `freq`.')
return idx
Ein Beispiel:
idx=pd.to_datetime(['2003-01-02', '2003-01-03', '2003-01-06']) # freq=None
print(add_freq(idx)) # inferred
DatetimeIndex(['2003-01-02', '2003-01-03', '2003-01-06'], dtype='datetime64[ns]', freq='B')
print(add_freq(idx, freq='D')) # explicit
DatetimeIndex(['2003-01-02', '2003-01-03', '2003-01-06'], dtype='datetime64[ns]', freq='D')
Using asfreq
wird tatsächlich fehlende Daten neu indizieren (füllen), seien Sie also vorsichtig, wenn Sie nicht danach suchen.
Die primäre Funktion zum Ändern von Frequenzen ist die
asfreq
Funktion. Für aDatetimeIndex
ist dies im Grunde nur ein dünner, aber bequemer Wrapper, um den herum ein undreindex
generiert wird .date_range
reindex
Beantwortet von – Brad Solomon
Antwort geprüft von – Senaida (FixError Volunteer)