왜 "Encrypted Data" 인가??
DNA profile match
Medical predictions
Spam detection
Face recognition
Financial prediction
사전지식: Homomorphic encryption (동형이체암호화)
동형이체: 같은 형태를 가진 다른 몸체
특성: 암호화된 상태에서 연산한 값을 통해 원본 데이터에서 연산한 값을 알아낼 수 있음
즉, 암호가 걸린 상태에서도 통계적인 분석을 할 수 있음. (mul/add)
A. Machine Learning Classification over Encrypted Data(MIT)
다차원 분류기나 의사결정트리, 나이브베이지언(확률적) 등의 머신러닝모델에서는 비교문과 argmax등을 주로 사용하게 되는데, 이 부분을 mul/add로 구성된 다차함수로 근사하여 암호화된 데이터 그대로를 사용가능하도록 한다. Boost도 가능
(https://www.ndss-symposium.org/ndss2015/ndss-2015-programme/machine-learning-classification-over-encrypted-data/) , (https://eprint.iacr.org/2014/331.pdf)
B. Crypto-Nets: Neural Networks over Encrypted Data(Carnegie mellon/MS)
자신이 암호화한 데이터를 네트워크(클라우드) 에 제출하고, 결과를 받아 자신만 볼 수 있는 형태. 동형암호를 사용하고, mul/add로 구성된 다차함수로 치환한 네트워크를 사용
네트워크의 연산을 수행하는 클라우드는 데이터의 내용을 알지 못함
(https://arxiv.org/abs/1412.6181)
C. CryptoDL: Deep Neural Networks over Encrypted Data()
Conv/activation function으로 이뤄진딥러닝의 경우, conv는 이미 mul/add로 구현되어 있으므로 non-linear function인 tanh/Relu등을 다차함수로 트레이닝하여 사용함.
(기존 테일러급수등의 근사보다 성능이 좋음)
(https://arxiv.org/abs/1711.05189)
=> 기존 모델들은 input으로 raw data에 접근하는 형태
=> 제안된 모델들은 암호화된 프라이버시 데이터를 input으로 사용하는 기법들임.