-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathfeatures02.py
More file actions
411 lines (357 loc) · 12.4 KB
/
features02.py
File metadata and controls
411 lines (357 loc) · 12.4 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
# feature_calculations.py
import numpy as np
from datetime import datetime
from typing import List
from pyspark.sql import DataFrame
from pyspark.sql import functions as F
def filter_active_records(df: DataFrame, start_date: datetime, end_date: datetime) -> DataFrame:
"""
Filtra registros ativos entre `start_date` e `end_date` em uma tabela SCD Type 2.
Parameters
----------
df : DataFrame
DataFrame contendo colunas __START_AT e __END_AT como Timestamps.
start_date : datetime
Início do intervalo de vigência.
end_date : datetime
Fim do intervalo de vigência.
Returns
-------
DataFrame
Subconjunto de `df` com apenas registros ativos no intervalo.
"""
return df.filter(
(F.col("__START_AT") <= F.lit(end_date)) &
(F.col("__END_AT") > F.lit(start_date))
)
def vsoma_rtrit_reneg_atvo(
df: DataFrame,
pk_ids: DataFrame,
pk_cols: List[str],
ref_date: datetime,
lag
) -> DataFrame:
"""
Soma os valores monetários de renegociações ativas no período filtrado.
Parameters
----------
df : DataFrame
DataFrame já filtrado por `filter_active_records`.
pk_ids : DataFrame
DataFrame contendo as PKs do público-alvo.
pk_cols : list[str]
Colunas que formam a chave primária composta.
ref_date : datetime
Data de referência para gravação em dreft_sist.
lag : int or str
Intervalo de lag (não usado diretamente aqui, mas passado para uniformidade).
Returns
-------
DataFrame
PKs + coluna vsoma_rtrit_reneg_atvo + coluna dreft_sist.
"""
agg = df.groupBy(pk_cols).agg(
F.sum("vrtrit_reneg_atv").alias("vsoma_rtrit_reneg_atvo")
)
out = pk_ids.join(agg, on=pk_cols, how="left").fillna({ "vsoma_rtrit_reneg_atvo": np.nan })
return out.withColumn("dreft_sist", F.lit(ref_date))
def vmax_grau_svrdade_rtrit_reneg_atvo(
df: DataFrame,
pk_ids: DataFrame,
pk_cols: List[str],
ref_date: datetime,
lag
) -> DataFrame:
"""
Máximo do grau de severidade de renegociações ativas no período.
Parameters
----------
df : DataFrame
DataFrame já filtrado por `filter_active_records`.
pk_ids : DataFrame
DataFrame contendo as PKs do público-alvo.
pk_cols : list[str]
Colunas que formam a chave primária composta.
ref_date : datetime
Data de referência para gravação em dreft_sist.
lag : int or str
Intervalo de lag (não usado diretamente aqui, mas passado para uniformidade).
Returns
-------
DataFrame
PKs + coluna vmax_grau_svrdade_rtrit_reneg_atvo + coluna dreft_sist.
"""
agg = df.groupBy(pk_cols).agg(
F.max("grau_svrdade_rtrit_reneg_atv")
.alias("vmax_grau_svrdade_rtrit_reneg_atvo")
)
out = pk_ids.join(agg, on=pk_cols, how="left").fillna({ "vmax_grau_svrdade_rtrit_reneg_atvo": np.nan })
return out.withColumn("dreft_sist", F.lit(ref_date))
def nrtrit_reneg_atvo(
df: DataFrame,
pk_ids: DataFrame,
pk_cols: List[str],
ref_date: datetime,
lag
) -> DataFrame:
"""
Contagem de renegociações ativas no período.
Parameters
----------
df : DataFrame
DataFrame já filtrado por `filter_active_records`.
pk_ids : DataFrame
DataFrame contendo as PKs do público-alvo.
pk_cols : list[str]
Colunas que formam a chave primária composta.
ref_date : datetime
Data de referência para gravação em dreft_sist.
lag : int or str
Intervalo de lag (não usado diretamente aqui, mas passado para uniformidade).
Returns
-------
DataFrame
PKs + coluna nrtrit_reneg_atvo + coluna dreft_sist.
"""
agg = df.groupBy(pk_cols).agg(
F.count("*").alias("nrtrit_reneg_atvo")
)
out = pk_ids.join(agg, on=pk_cols, how="left").fillna({ "nrtrit_reneg_atvo": np.nan })
return out.withColumn("dreft_sist", F.lit(ref_date))
# features.py
import re
from datetime import datetime
from dateutil.relativedelta import relativedelta
from typing import List, Union, Optional, Dict
from pyspark.sql import DataFrame, SparkSession
from pyspark.sql import functions as F
from feature_calculations import (
filter_active_records,
vsoma_rtrit_reneg_atvo,
vmax_grau_svrdade_rtrit_reneg_atvo,
nrtrit_reneg_atvo
)
def gerar_description_map(
df: DataFrame,
pk_cols: List[str],
base_descriptions: Dict[str, str]
) -> Dict[str, str]:
"""
Gera automaticamente o description_map para cada coluna de `df`.
Parameters
----------
df : DataFrame
DataFrame resultante com todas as features já calculadas.
pk_cols : list[str]
Colunas que compõem a chave primária composta.
base_descriptions : dict
Descrições para cada feature base (sem lag), ex.:
{'vsoma_rtrit_reneg_atvo': 'Soma monetária de renegociações ativas', ...}
Returns
-------
dict
Mapeamento coluna -> descrição (para uso no DDL).
"""
desc_map: Dict[str, str] = {}
# PKs
for c in pk_cols:
desc_map[c] = f"Chave primária: {c}"
# Data de referência
desc_map["dreft_sist"] = "Data de referência para cálculo das features"
# Regex para identificar base + lag
pattern = re.compile(r"^(.+?)(?:_ultim_(\d+)([dwmy]))?$")
unit_map = {'d': 'dia', 'w': 'semana', 'm': 'mês', 'y': 'ano'}
for col in df.columns:
if col in desc_map:
continue
m = pattern.match(col)
if not m:
desc_map[col] = col
continue
base, val, uni = m.groups()
base_desc = base_descriptions.get(base, f"Feature {base}")
if val and uni:
period = f"{val} {unit_map[uni]}{'s' if int(val)>1 else ''}"
desc_map[col] = f"{base_desc} nos últimos {period}"
else:
desc_map[col] = base_desc
return desc_map
class ComputedFeatures:
"""
Wrapper que guarda o DataFrame de features calculadas e gera DDL para Delta Lake.
"""
def __init__(
self,
df: DataFrame,
pk_cols: List[str],
description_map: Optional[Dict[str, str]] = None
):
self.df = df
self.pk_cols = pk_cols
self.description_map = description_map or {}
def print_ddl_schema(self) -> str:
"""
Gera um DDL string para criação de tabela Delta com NOT NULL, PRIMARY KEY e COMMENTS.
Returns
-------
str
DDL completo para uso em Databricks Delta Lake.
"""
def spark_to_sql(s: str) -> str:
m = {
'timestamp': 'TIMESTAMP',
'double': 'DOUBLE',
'long': 'BIGINT',
'int': 'INT',
'string': 'STRING'
}
return m.get(s, s.upper())
lines = []
for f in self.df.schema.fields:
sql_type = spark_to_sql(f.dataType.simpleString())
not_null = " NOT NULL" if f.name in self.pk_cols else ""
comment = self.description_map.get(f.name, "")
comment_clause = f" COMMENT '{comment}'" if comment else ""
lines.append(f" {f.name} {sql_type}{not_null}{comment_clause}")
pk_line = f" PRIMARY KEY ({', '.join(self.pk_cols)})"
ddl = (
"CREATE TABLE your_delta_table (\n"
+ ",\n".join(lines) + ",\n"
+ pk_line + "\n"
+ ") USING DELTA"
)
return ddl
class Features:
"""
Classe para computar features autorregressivas em tabelas SCD Type 2.
Parameters
----------
spark : SparkSession
Sessão Spark já configurada.
"""
def __init__(self, spark: SparkSession):
self.spark = spark
self.spark.conf.set("spark.sql.session.timeZone", "America/Sao_Paulo")
# Associa nome -> função do módulo feature_calculations
self.feature_funcs = {
'vsoma_rtrit_reneg_atvo': vsoma_rtrit_reneg_atvo,
'vmax_grau_svrdade_rtrit_reneg_atvo': vmax_grau_svrdade_rtrit_reneg_atvo,
'nrtrit_reneg_atvo': nrtrit_reneg_atvo
}
self.computed_features: Optional[ComputedFeatures] = None
def list(self) -> List[str]:
"""
Lista todas as features disponíveis para computação.
Returns
-------
list[str]
"""
return list(self.feature_funcs.keys())
def compute(
self,
feature_names: List[str],
pk_ids: DataFrame,
df: DataFrame,
reference_date: Optional[Union[str, datetime]] = None,
freq: str = '1w',
lags: List[Union[int, str]] = [0]
) -> DataFrame:
"""
Computa as features para o público-alvo e salva em `self.computed_features`.
Parameters
----------
feature_names : list[str]
Nomes das features a computar (devem existir em `self.feature_funcs`).
pk_ids : DataFrame
DataFrame com colunas de chave primária composta (ex.: ['cli_id','segmento']).
df : DataFrame
DataFrame SCD Type 2 contendo __START_AT, __END_AT e colunas numéricas.
reference_date : str or datetime, optional
Data de referência inicial (ex.: '2025/03/01'). Se None, usa hoje.
freq : str
Frequência de geração de múltiplas datas de referência (e.g. '7d','1m').
lags : list[int or str]
Lista de lags (e.g. [0,'7d','1m']).
Returns
-------
DataFrame
DataFrame com todas as PKs, dreft_sist e features calculadas.
"""
# prepara datas
if isinstance(reference_date, str):
ref_start = datetime.strptime(reference_date, '%Y/%m/%d')
elif isinstance(reference_date, datetime):
ref_start = reference_date
else:
ref_start = datetime.today()
ref_end = datetime.today()
delta = self._parse_time_delta(freq)
# gera lista de datas de referência
refs = []
cur = ref_start
while cur <= ref_end:
refs.append(cur)
cur += delta
result_df: Optional[DataFrame] = None
pk_cols = pk_ids.columns
for ref in refs:
for lag in lags:
lag_delta = self._parse_time_delta(lag)
start = ref - lag_delta
filt = filter_active_records(df, start, ref)
for feat in feature_names:
if feat not in self.feature_funcs:
raise ValueError(f"Feature '{feat}' não implementada.")
out = self.feature_funcs[feat](filt, pk_ids, pk_cols, ref, lag)
result_df = out if result_df is None else result_df.join(out, on=pk_cols+['dreft_sist'], how='outer')
# salva wrapper
self.computed_features = ComputedFeatures(result_df, pk_cols)
return result_df
def _parse_time_delta(self, t: Union[int, str]) -> relativedelta:
"""
Converte string de intervalo (e.g. '7d','1m') ou int em relativedelta exato.
Parameters
----------
t : int or str
Número de dias (int) ou formato '<n><d|w|m|y>'.
Returns
-------
relativedelta
"""
if isinstance(t, int):
return relativedelta(days=t)
m = re.match(r'(\d+)([dwmy])', t)
if not m:
raise ValueError(f"Formato inválido: {t}")
v, u = m.groups()
v = int(v)
return {
'd': relativedelta(days=v),
'w': relativedelta(weeks=v),
'm': relativedelta(months=v),
'y': relativedelta(years=v)
}[u]
###### COMO USAR #######
"""
from features import Features, gerar_description_map
# 1. instância
features = Features(spark)
# 2. compute
df_feat = features.compute(
['vsoma_rtrit_reneg_atvo','nrtrit_reneg_atvo'],
pk_ids_df,
df=scd2_df,
reference_date='2025/03/01',
freq='1w',
lags=[0,'7d','1m']
)
# 3. gerar description_map e associar
base_descriptions = {
'vsoma_rtrit_reneg_atvo': 'Soma monetária de renegociações ativas',
'nrtrit_reneg_atvo': 'Contagem de renegociações ativas'
}
desc_map = gerar_description_map(df_feat, pk_ids_df.columns, base_descriptions)
features.computed_features.description_map = desc_map
# 4. imprimir DDL
print(features.computed_features.print_ddl_schema())
"""