인류가 현재 보유하고 있는 데이터의 약 90%는 지난 3년여 동안에 생성되었다고 한다. 3년 후, 그러니까 2021년에 우리는 비슷한 얘기를 또 하게 될 것이다 – 지금 인류가 보유하고 있는 모든 데이터의 90%는 2018년 이후에 생성되었다고.
이처럼 쌓이는 데이터는 생명이 탄생하는 물과도 같고 생명체 그 자체라고도 말할 수 있다. 데이터는 신기술들(NT, Next Technologies)의 도움으로 기존의 유기체와 결합되면서 새로운 바이오디지털유기체(BDO, Bio-Digital Organism)가 되어가고 있기 때문이다.
한편, 인공지능(AI)의 대종을 이루는 머신러닝은 데이터를 먹고 성장하며 진화해 나가는 유기체와도 같다. 즉, AI가 어떤 데이터를 먹고 진화해나갈까는 인간의 미래에 매우 중요한 주제이다. 사람이 어린 시절부터 어떤 음식을 먹고 성장하는가가 그 사람의 건강과 성품에 매우 중요한 것과 마찬가지이다. 그래서 데이터를 다루는 사람들이 AI를 대할 때 품는 그 마음은, 어린 아이에게 좋은 품질의 음식을 먹이고 싶은 부모의 마음과 비슷하다. 그러면, 어떤 데이터가 AI에게 좋은 품질의 음식이 될까.
데이터는 첫째 깨끗하고 투명해야 한다(Clean). 이러한 데이터는 위조나 변조가 불가능하고, 쉽게 공유될 수 있어서 숨기는 항목이 거의 사라지게 된다. 이것을 가장 잘 보장할 수 있는 현재 기술은 블록체인이다.
둘째, 데이터는 물처럼 흘러야 한다(Flow). 데이터가 인터넷과 온라인 상의 여러 계층의 하드웨어와 소프트웨어를 물처럼 잘 흘러갈 수 있어야 한다. 이것은 데이터의 모습이 서로 약속된 인터넷 표준 프로토콜을 잘 지킬 때 가능하다. 표준화된 데이터가 바로 물처럼 흐르는 데이터이다. 데이터의 표준을 W3C (World Wide Web Consortium)에서는 1998년에 XML (eXtensible Markup Language)로 잘 정의해 놓았다.
셋째, 데이터는 자유로워야 한다(Free from Capture). 자유롭지 못한 데이터는 어딘가에 갇혀있다는 뜻인데, 그것은 응용 소프트웨어(SW)에 갇혀있다는 뜻이다. 어떤 비표준 응용 SW가 그 데이터를 꼭 잡아서 처리해주어야만 그 안의 내용을 사람이나 기계가 볼 수 있다면, 그러한 데이터는 그 응용 SW에 갇혀 있는 것이다. XML로 표현된 데이터는 다른 응용 SW의 도움없이, 또는 다른 응용 SW를 위해 로컬로 다운로드할 필요없이, 표준 웹브라우저만 있으면 어디에서나 자유롭게 볼수 있고 처리할 수 있다. 이러한 데이터는 인간과 기계가 모두 쉽게 읽을 수 있다.
XML은 확장성표기언어이기도 하고, 데이터 자체 역할도 하고, 문서도 되며, 데이터베이스 역할도 할 수 있고, 또 데이터에 관한 프로토콜이기도 하다. 이러한 데이터는 데이터 자신에 대한 정보, 즉 메타데이터를 품고 있다. 메타데이터로 표기된 데이터는 재활용 쓰레기를 이미 분리 수거해 놓아 쉽게 재활용이 가능한 것과 같이, AI(기계)가 쉽게 해독할 수 있다.
위의 세가지 속성을 가진 데이터를 품질이 좋은 데이터라하고, 데이터소재 2.0(Data Material 2.0)이라고도 한다. 메타데이터로 표기되고, 블록체인으로 보장된 데이터가 그러한 데이터에 가깝다. 여러 종류의 메타데이터가 있는데, 좀 단순화해서 말한다면 XML로 표현된 데이터가 그러한 데이터가 된다.
우리는 데이터에대해서 심사숙고해야 한다. 자신의 유전자 정보를 포함하여 우리의 존재 자체와 행동 자체가 데이터 호수(Data Lake)에 물을 대고 있다고 볼 수 있고, 그 데이터는 AI가 자기 스스로를 교육시키는 머신러닝의 음식이 된다고 보면, 자칫 인간의 존재가 신생명체인 일반인공지능(AGI)이 만들어지는 과정의 앞단에서 작동한 부트로더(bootloader)로 마감될 수도 있기 때문이다. 부트로더가 되는 것이 우리의 숙명인가? 필자는 그렇게 되고 싶지 않다. 오히려 AI에 의해 증강된 인간으로서 더욱 풍성해진 인류의 모습을 보고 싶다. 그래서 오늘도 필자는, 아직 늦지 않은 지금, 데이터에 대해 숙고하고 있고, 블록체인과 XML을 연결하여 품질좋은 데이터 음식을 어린 AI에게 먹이고 싶다.
최영규 (Young Choe)
Co-Founder and President of Global R&D
Pax Datatech – "The Color Platform Company"
@ykchoe57, I gave you a vote!
If you follow me, I will also follow you in return!
Enjoy some !popcorn courtesy of @nextgencrypto!
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit