가상화 프로젝트를 위해 3일의 여유가 있다면, 무엇을 해야 할까?

in rhipe •  7 years ago 

해당 질문은 필자가 약 10여년전 VMware Certified Professional (VCP) 3을 취득할 때, 나왔던 문제였다. 왜 10년도 지난, 이질문을 기억하고 있냐고? 실제로 이 문제의 답 대로 진행해서 프로젝트에서 큰 도움을 받았었기 때문이다.

해당 질문에 대해서 어떠한 답변이 나올 것 같은가? 힌트를 드린다고 하면, ‘돌다리도 두들겨 보라.’정도가 될 것 같다. 정답 공개는, 생각할 시간을 드리고 천천히 이야기 하도록 하겠습니다.

지금은 가상화가 아니라 클라우드 시스템 구축이 이야기되고 있지만, 10년전에는 가상화를 한다는 것이 쉽지 않았습니다. 가상화로 변경된 시스템에서 어떤 문제라도 생기면, 해당 문제가 가상화로 인해서 발생된 문제가 아니라는 것을 입증해야만 하곤 했었습니다. 덕분에 가상화 제품의 로그 뿐만 아니라, OS, Application, H/W 로그들을 무던히도 많이 살펴봐야 했고, 많은 것들을 배울 수 있는 계기가 되었다.

시스템을 운영하는 사람의 입장에서 제일 힘든 시간이 언제일까? 원인 불명의 장애를 분석해 내야만 하는 순간이 아닐까 싶다. 이미 발생된 장애를 되돌릴 수는 없고, 최선의 선택을 통해서 장애를 복구한 뒤에는, 어김없이 원인 분석과 재발방지 대책을 강구해 내야만 하는데, 원인 불명인 경우를 만나면 답답할 수 밖에 없다.

소프트웨어의 경우 로그를 남기기 때문에 로그를 기반으로 원인 분석을 할 수 있지만, H/W의 경우에는 로그라고 부르기 보다는 이벤트 기록이 남는 수준이며, 그나마 이벤트 기록이 남지 않거나 남더라도 이것이 H/W 문제라고 인정하지 받지 못하는 경우가 종종 발생된다.
 

H/W 엔지니어를 비난할 생각은 없으며, 벤더에서 제시하는 방법이 제한되어 있기 때문에, 지침대로 따라서 진행할 수 밖에 없다는 것을 알지만, 그럼에도 아키텍쳐상 H/W으로부터 전달받은 신호로 인해서 S/W이 가동이 정지되었다는 로그가 있어도, 제한된 방법으로만 진행되는 부팅시디를 이용한 하드웨어 점검후에 "아무런 문제가 없다”고 답변을 받을 경우, 더 이상 원인 분석을 진행하다는 것 자체가 어렵고 답답하기만 하다. 게다가 동일 파트에서 동일한 원인으로 발생된 문제가 아니면, 해당 파트 교체조차도 쉽지가 않다.

이 정도면 살짝 눈치채신 분들이 있지 않을까 싶다. 프로젝트상에 3일의 여유가 있다면,  부하테스트를 통해서 하드웨어의 안정성을 테스트 하는 것이 정답이다.

사실 프로젝트를 진행하다 보면, 3일 동안 하드웨어  안정성 검증을 하겠다는 내용을 프로젝트 일정에 반영하기는 쉽지 않다. 대부분 빠른 시간내에 프로젝트를 진행해야만 하고, 인프라단에서는 빨리 셋업해서 어플리케이션이나 개발자들에게 테스트를 진행할 수 있도록 넘겨야 하기 때문에 기회는 많이 주어지지 않는다. 필자도 고객사 실무자의 전폭적인 신뢰를 기반으로 몇 번의 기회만을 부여 받았다. 그 몇번의 기회에서 하드웨어 안정성 검증은 정말로 탁월한 성과를 보여줬다.

공장 라인의 주요업무를 담당하는 시스템을 가상화 시키는 프로젝트에서, 도입된 시스템 5대 중에서 1대의 시스템에서 1일만에 문제가 발생되었고, System Crash Dump에서 하드웨어 부분 점검을 요한다는 내용이 나왔다. 가상화 프로젝트가 완료된 이후에 해당 문제가 발생되었다면, 가상화 소프트웨어의 문제가 아니냐는 지적을 받았겠지만, 동일 조건으로 수행된 5대의 시스템에서 유독 1대의 시스템에서만1일만에 발생되었기에 하드웨어 문제로 인정받을 수 있었다. 물론 그 이후에 해당 시스템만 따로 3일간 추가로 부하테스트를 진행해서 안정성을 검증했었다.

한 번은 공장의 시스템들과 그룹사의 그룹웨어를 포함한 시스템을 한번에 가상화 시키는, 규모의 크기보다는 그 내용에 있어서 상당히 의미가 있던 프로젝트가 있었습니다. 오랫동안 BMT/POC를 진행했고, 실행에 있어서도 신중하게 단계를 밟아서 진행했기 때문에, 하드웨어 안정성 테스트를 진행할 수 있었습니다. 그룹내에서도 처음 블레이드 시스템 도입과 SSD를 활용한 스토리지 시스템의 도입이었기 때문에, 실질적으로 발생될 부하보다 더 많은 부하에서도 안정적으로 동작되는 것을 보고나서야, 관련된 많은 인원들이 근심을 덜 수 있었습니다.
 

더 이상 해당 문제가 VMware의 시험문제로는 출제되지 않는 것 같지만, 누구라도 가상화나 클라우드 시스템을 구축한다고 하면, 가능하다면 금요일에 부하를 발생시켜 월요일에 검증완료후에 종료하는 것을 제안했으면 좋겠다. 최소한의 신뢰를 쌓기 위한, 첫 단추가 되어 줄 것이라고 생각한다. 서로 신뢰할 수 있다면 이미 프로젝트의 성공은 보장 받고 있는 것 아닐까?
 

관련하여 상담 문의가 필요하다면, http://cloudsolutions.rhipe.com/korea/ 에서 문의하기를 이용해 주시길 바랍니다.  

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!