시계열 2

미세먼지 데이터 분석 (4)

이번 글에서는 미세먼지 데이터 분석의 마무리를 짓겠습니다. 분석을 위해 모델을 만드는 방법은 이전과 같기 때문에 설명은 생략하겠습니다.# 두 번째 모델의 데이터 처리 (cleaned_data_ko)train_size_ko % select(-c(pm25, date))test_label_ko % select(-c(pm25, date))train_xgb_ko  한국의 콤팩트 시티와 일반 도시의 미세먼지 분석 모델이 만들어졌습니다. 이제 해외 모델과 가중치를 줘서 결합합니다.# 길이 확인length_results  이제 계산된 앙상블 가중치를 적용하여 최종 모델을 생성합니다.# 최적의 가중치를 사용한 앙상블 예측값 계산ensemble_results$predicted_ensemble % mutate(date ..

R 2025.01.19

미세먼지 데이터 분석 (2)

이전 글에 이어서 이번 글에서는 해외의 콤팩트 시티의 데이터를 사용해 시계열 예측을 하는 모델을 만들어 볼 것입니다. 먼저 예측을 위해 데이터를 8:2의 비율로 나눠줍니다.#train:test = 8:2train_size  그다음 xgboost를 사용하기 위해 라벨링과 matrix 형태로 변환 시켜줍니다.#train 데이터 라벨링train_label % select(-c(pm25, date))#test 데이터 라벨링test_label % select(-c(pm25, date))#xgboost를 위해 matrix 형태로 바꿔주고 xgb.DMatrix를 사용해 모델에 적합한 형태로 변환train_xgb  최적의 하이퍼 파라미터 값을 추정하기 위해 random search를 진행합니다. 이 과정에서 시간이 오..

R 2024.08.30