r 6

타이타닉 생존자 예측 - Kaggle

이번 글에서는 유명한 데이터 분석 중 하나인 kaggle의 titanic 생존자 예측을 해보도록 하겠습니다. R을 이용한 타이타닉 생존자 예측을 검색해 보면 대부분의 글이 Random Forest나 Logistic Regression을 사용하는 것을 확인할 수 있습니다.따라서, 여기서는 Xgboost를 이용하여 예측을 진행하겠습니다. Xgboost는 의사결정 나무 모형을 기반으로 하는 모델입니다. 앞서 설명한 Random Forest도 의사결정 나무 모형을 기반으로 하는 모델입니다. 다만, Random Forest와 달리 Xgboost는 부스팅 기법을 적용하여 더 효율적인 평가를 내려 더 나은 결과를 제공합니다.  Random Forest와 Xgboost 사이에는 Gradient Boosting이라는 모..

R 2025.01.20

미세먼지 데이터 분석 (4)

이번 글에서는 미세먼지 데이터 분석의 마무리를 짓겠습니다. 분석을 위해 모델을 만드는 방법은 이전과 같기 때문에 설명은 생략하겠습니다.# 두 번째 모델의 데이터 처리 (cleaned_data_ko)train_size_ko % select(-c(pm25, date))test_label_ko % select(-c(pm25, date))train_xgb_ko  한국의 콤팩트 시티와 일반 도시의 미세먼지 분석 모델이 만들어졌습니다. 이제 해외 모델과 가중치를 줘서 결합합니다.# 길이 확인length_results  이제 계산된 앙상블 가중치를 적용하여 최종 모델을 생성합니다.# 최적의 가중치를 사용한 앙상블 예측값 계산ensemble_results$predicted_ensemble % mutate(date ..

R 2025.01.19

미세먼지 데이터 분석 (2)

이전 글에 이어서 이번 글에서는 해외의 콤팩트 시티의 데이터를 사용해 시계열 예측을 하는 모델을 만들어 볼 것입니다. 먼저 예측을 위해 데이터를 8:2의 비율로 나눠줍니다.#train:test = 8:2train_size  그다음 xgboost를 사용하기 위해 라벨링과 matrix 형태로 변환 시켜줍니다.#train 데이터 라벨링train_label % select(-c(pm25, date))#test 데이터 라벨링test_label % select(-c(pm25, date))#xgboost를 위해 matrix 형태로 바꿔주고 xgb.DMatrix를 사용해 모델에 적합한 형태로 변환train_xgb  최적의 하이퍼 파라미터 값을 추정하기 위해 random search를 진행합니다. 이 과정에서 시간이 오..

R 2024.08.30

미세먼지 데이터 분석 (1)

현재 한국은 저출산 노령화 문제와 함께 수도권 집중화 현상도 두드러지게 나타나고 있습니다. 이러한 문제들이 해결되지 않으면 장기적 관점에서 인구 감소와 지방 소멸 등의 문제를 피해 가기 어렵기 때문에 자치단체 차원에서나 국가 차원에서도 콤팩트 시티(Compact City)라는 도시 모델을 계획하고 개발하고 있습니다. 콤팩트 시티의 개념은 대중교통을 기반으로 하여 도시의 기능들을 집약하여 도시의 에너지 사용량을 줄이고 남은 부분은 녹지로 활용한다는 것입니다. 여기서 유심히 살펴본 점은 '콤팩트 시티의 집약도가 미세먼지 농도에 어떠한 영향을 미치는 가'입니다. 다양한 선행 연구를 통하여 미세먼지는 인체에 유해한 영향을 끼침을 알고 있습니다. 따라서, 콤팩트 시티를 우리나라에 도입했을 때 미세먼지의 농도가 어..

R 2024.08.03

R로 주식 거래 정지 기업 예측하기 (2)

오늘은 저번 시간에 이어 예측 부분을 모델링 하겠습니다.#0은 거래 정지, 1은 일반halt_df_fin  주석이 쓰여 있는 대로 0은 거래 정지 기업, 1은 거래 중인 기업이라고 라벨을 추가합니다. 합쳐진 데이터를 훈련 데이터와 검증 데이터로 분할합니다.train_indi % select(-survival)), label = train_label)validation_label % select(-survival))) createDataPartition 함수를 이용하여 전체 데이터를 7:3의 비율로 train 세트와 validation 세트로 나눠줍니다. 그다음 xgboost에 넣을 수 있는 형식으로 데이터를 변환합니다. R에서의 xgboost는 data frame 형태는 인식하지 못하고, matrix 형..

R 2024.07.28

R로 주식 거래 정지 기업 예측하기 (1)

거래 정지 종목으로 지정되게 되면 해당 주식을 투자하고 있는 투자자에겐 불리한 결과로 이어집니다. 거래 정지가 되기 전에 미리 예측하여 피할 수 있다면 큰 손실을 예방할 수 있을 것입니다. 유가증권 시장에서도 미리 불성실한 기업들을 찾아낸다면 건강한 시장을 만들 수 있을 것입니다. 따라서, 이번엔 주식 거래 정지 기업을 미리 예측해 보도록 하겠습니다.  들어가기에 앞서 코드를 실행하기 위해 필요한 패키지들을 다운로드하고 로드합니다.#필요한 라이브러리 다운로드 및 로드required_packages 0) { install.packages(packages_to_install)}remotes::install_github("cran/DMwR")lapply(required_packages, library, c..

R 2024.07.26