상장폐지 예측4(Performance)_Data Analysis/Analaze Delisting Stock

in kr •  6 years ago  (edited)

드디어 상장폐지 예측 마지막 포스팅입니다.

지난 포스팅까지 데이터를 분석모델에 적용시켜 보았습니다. 오늘은 마지막으로 데이터를 바탕으로 예측모형을 만들고 예측성과를 비교해보겠습니다.

예측 성과에 앞서 제가 이번 분석에서 사용한 분석 툴을 잠깐 소개드리겠습니다. 제가 사용한 툴은 Rapid Miner인데요. 프로그래밍을 하지 않더라도 drag and drop방식으로 이루어지는 아주 쉬운 툴입니다. 개인이 쓰는데는 무료이므로 혹시나 RapidMiner를 이용하시는 분들은 다음 카페를 이용하여 알아보시면 좋을 것 같습니다ㅎㅎ.

데이터 불균형 문제

예측 모델을 만들기 앞서 데이터가 가지고 있는 데이터 불균형 문제를 해결할 필요가 있었습니다. 현재 데이터 셋은 상장폐지 기업 162개, 상장중 기업 1312개로 1:8의 데이터 불균형을 안고 있습니다. 데이터 불균형의 데이터를 예측모델에 사용할 시 크게 두 가지 문제가 발생하는데요, 첫번째는 표준 알고리즘이 다수 집단에 편향되게 되어, 소수집단의 특징은 노이즈로 인식되어 무시되어 버리는 경향이 있습니다. 두번째는 이러한 데이터로 학습된 모델은 기본적으로 높은 정확도를 가집니다. 모든 기업이 상장중이라고 예측해도, 70퍼센트 이상의 정확도를 가지게 되는 것입니다. 따라서 모델간 성능 비교가 어려워집니다.

BootStrapping

데이터 불균형을 해결하기 위해 BootStrapping기법을 사용하였습니다. BootStrapping은 소수집단의 데이터를 임의로 복제하여 다수 집단과 균형을 맞추어 주는 것입니다. 따라서 저희는 BootStrpping 을 통하여 50:50의 데이터 균형을 만들어 주었습니다.

교차검증

성과 측정은 교차검증을 통해 이루어졌습니다. 훈련용과 테스트용을 6:4로 나누어 총 5번 랜덤 샘플링을 진행, 5개의 데이터 Set으로 모델을 검증하였습니다.

C5.0(정확도)


C5.0은 크게 가지 깊이와 사전 가지치기 적용 여부로 모델을 생성해 보았습니다. 가지깊이와 관계없이 사전가지치기를 적용하지 않을 경우 더 좋은 성과가 나타났습니다. (최고 정확도: 94.84)

CART(정확도)


CART도 마찬가지로 가지 깊이와 사전 가지치기 적용 여부로 모델을 생성해 보았습니다. 가지깊이와 관계없이 사전가지치기를 적용하지 않을 경우 더 좋은 성과가 나타났습니다. (최고 정확도: 95.77)

Logistic Regression(정확도)


로지스틱 회귀 모델은 4가지의 함수를 사용하여 성능을 비교하였습니다. L_BFGS를 제외하고는 모두 87.03%의 정확도를 나타내었습니다.(최고 정확도: 87.03)

NN(Neural Net)

추가로 예측모델 생성시 인공신경망을 사용하였습니다. 가장 기본적인 MLP를 사용하여 각 Layer의 노드 수를 변경하여 모델 성과를 비교하였습니다.

3계층 MLP(정확도)


3층 신경망은 Hidden Layer의 노드 수가 5일때 가장 좋은 성과를 보였습니다.(최고 정확도: 87.79 Epoch=500, learning_rate=0.3)

4계층 MLP(정확도)


4층 신경망은 Hidden Layer의 노드 수가 30일때 가장 좋은 성과를 보였습니다.(최고 정확도: 87.39 Epoch=500, learning_rate=0.3)

종합결과


종합적으로 가장 높은 성과를 보인 것은 CART모델이었습니다. 의사결정트리 모델인 C5.0와 CART 모두 다른 모델보다 좋은 성능을 보였는데요. 사실 이것은 알고리즘의 차이에서 오는 당연한 결과일지 모릅니다. 로지스틱 회귀 모델은 훈련데이터를 학습하여 데이터를 일반화된 하나의 회귀 곡선으로 나타냅니다. 인공 신경망 또한 가중치 매트릭스를 통해 데이터를 나타내는데요, 이 모델들은 훈련데이터를 학습했다고 해서 다시 훈련데이터가 들어왔을 때 올바르게 예측할 수는 없습니다. 하지만 의사결정트리 모델은 훈련데이터를 통하여 조건을 추가하는 방식으로 학습된 모델에 다시 훈련데이터가 들어올 시 정확하게 예측이 가능하다는 것입니다. 따라서 BootStrapping 방식으로 상장폐지의 데이터가 복제되어 훈련데이터와 같은 데이터를 일부분 가지는 테스트용 데이터는 의사결정트리 모델에게 높은 성과를 낼 수 있는 데이터라고 할 수 있습니다.

지금까지 코스피 코스닥 종목의 상장폐지 요인 분석 및 예측을 진행해보았습니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!