import pandas as pd
import os
from datetime import datetime

# Caminhos
pasta_entrada = r"C:\Users\andressa.rocha\OneDrive - GRUPO GINSENG\2025\Indicadores_Melhoria\Acompanhamento_Indicadores_Sup\RUPTURA\MAR"
pasta_saida = r"C:\Users\andressa.rocha\OneDrive - GRUPO GINSENG\2025\Indicadores_Melhoria\Acompanhamento_Indicadores_Sup\RUPTURA\RUPTURA_2025"

# Lista para armazenar os DataFrames
dfs = []

# Iterar pelos arquivos na pasta
for nome_arquivo in os.listdir(pasta_entrada):
    if nome_arquivo.endswith(".csv"):
        caminho_arquivo = os.path.join(pasta_entrada, nome_arquivo)
        
        # Leitura do CSV
        df = pd.read_csv(caminho_arquivo, sep=None, engine='python')  # Detecta separador automaticamente
        
        # Obter data de modificação do arquivo
        timestamp = os.path.getmtime(caminho_arquivo)
        data_modificacao = datetime.fromtimestamp(timestamp).strftime('%Y-%m-%d')
        
        # Adiciona coluna com data da última atualização
        df["data_ultima_atualizacao"] = data_modificacao
        
        # Adiciona à lista
        dfs.append(df)

# Unir todos os DataFrames
df_unificado = pd.concat(dfs, ignore_index=True)

# Garantir que a pasta de saída existe
os.makedirs(pasta_saida, exist_ok=True)

# Caminho do arquivo de saída
arquivo_saida = os.path.join(pasta_saida, "ruptura_unificada_2025.parquet")

# Salvar em formato Parquet
df_unificado.to_parquet(arquivo_saida, index=False)

print("Arquivo Parquet gerado com sucesso:", arquivo_saida)