부스팅 3

미세먼지 데이터 분석 (2)

이전 글에 이어서 이번 글에서는 해외의 콤팩트 시티의 데이터를 사용해 시계열 예측을 하는 모델을 만들어 볼 것입니다. 먼저 예측을 위해 데이터를 8:2의 비율로 나눠줍니다.#train:test = 8:2train_size  그다음 xgboost를 사용하기 위해 라벨링과 matrix 형태로 변환 시켜줍니다.#train 데이터 라벨링train_label % select(-c(pm25, date))#test 데이터 라벨링test_label % select(-c(pm25, date))#xgboost를 위해 matrix 형태로 바꿔주고 xgb.DMatrix를 사용해 모델에 적합한 형태로 변환train_xgb  최적의 하이퍼 파라미터 값을 추정하기 위해 random search를 진행합니다. 이 과정에서 시간이 오..

R 2024.08.30

R로 주식 거래 정지 기업 예측하기 (2)

오늘은 저번 시간에 이어 예측 부분을 모델링 하겠습니다.#0은 거래 정지, 1은 일반halt_df_fin  주석이 쓰여 있는 대로 0은 거래 정지 기업, 1은 거래 중인 기업이라고 라벨을 추가합니다. 합쳐진 데이터를 훈련 데이터와 검증 데이터로 분할합니다.train_indi % select(-survival)), label = train_label)validation_label % select(-survival))) createDataPartition 함수를 이용하여 전체 데이터를 7:3의 비율로 train 세트와 validation 세트로 나눠줍니다. 그다음 xgboost에 넣을 수 있는 형식으로 데이터를 변환합니다. R에서의 xgboost는 data frame 형태는 인식하지 못하고, matrix 형..

R 2024.07.28

R로 주식 거래 정지 기업 예측하기 (1)

거래 정지 종목으로 지정되게 되면 해당 주식을 투자하고 있는 투자자에겐 불리한 결과로 이어집니다. 거래 정지가 되기 전에 미리 예측하여 피할 수 있다면 큰 손실을 예방할 수 있을 것입니다. 유가증권 시장에서도 미리 불성실한 기업들을 찾아낸다면 건강한 시장을 만들 수 있을 것입니다. 따라서, 이번엔 주식 거래 정지 기업을 미리 예측해 보도록 하겠습니다.  들어가기에 앞서 코드를 실행하기 위해 필요한 패키지들을 다운로드하고 로드합니다.#필요한 라이브러리 다운로드 및 로드required_packages 0) { install.packages(packages_to_install)}remotes::install_github("cran/DMwR")lapply(required_packages, library, c..

R 2024.07.26