https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
위 링크는 ChatGPT에 관한 Ted Chiang의 기고문입니다. 아래는 이 기고문의 파파고 초벌 번역을 수정/정리한 내용입니다.
2013년 독일의 한 건설회사 직원들은 Xerox 복사기에서 이상한 점을 발견했다. 집의 평면도를 복사했을 때 복사본이 원본과 미묘하지만 의미심장하게 달랐다. 평면도 원본에서는 세 개의 방이 각각 14.13, 21.11, 17.42 평방미터였다. 그러나 사본에는 세 개의 방 모두 14.13 평방미터 라벨이 붙어 있었다. 이 회사는 컴퓨터 과학자 David Kriesel에게 문의했다. 컴퓨터 과학자가 필요했던 이유는 제록스 복사기가 물리적인 제로그래픽 과정을 사용하지 않고. 문서를 디지털로 스캔한 다음 그 결과인 이미지 파일을 인쇄하기 때문이다. 거의 모든 디지털 이미지 파일은 압축되어 공간을 절약한다.
파일을 압축하려면 두 가지 단계가 필요하다. 먼저, 파일이 콤팩트한 형식으로 변환되는 인코딩과 반대로 변환되는 디코딩이다. 복원된 파일이 원래 파일과 동일한 경우 압축 프로세스는 무손실 상태이며 정보가 폐기되지 않는다. 반면 복원된 파일이 원본의 근사치일 경우 압축은 손실된 것이며 일부 정보는 폐기되어 복구할 수 없다. 무손실 압축은 텍스트 및 컴퓨터 프로그램에 일반적으로 사용한다. 하나의 잘못된 문자라도 치명적일 수 있기 때문이다. 손실 압축은 정확도가 중요하지 않은 사진, 오디오 및 비디오에 자주 사용된다. 대부분 사진, 노래 또는 영화가 완벽하게 재현되는지 아닌지는 알아차리지 못한다.
제록스 복사기는 흑백 이미지용으로 설계된 JBIG2라고 하는 손실 압축 형식을 사용한다. 공간을 절약하기 위해 복사기는 이미지에서 유사한 모양의 영역을 식별하여 동일한 모양으로 저장한다. 파일이 압축 해제될 때 해당 부분을 반복적으로 사용하여 이미지를 재구성한다. 복사기는 방들이 비슷하다고 판단하여 14.13 하나만 저장하고, 이 라벨을 세 개의 방 모두에 다시 사용하여 평면도를 인쇄한 것이다.
제록스 복사기가 손실 압축 포맷을 사용한다는 사실 자체는 문제가 되지 않는다. 문제는 복사기가 미묘한 방식으로 이미지를 저하시켜 압축 아티팩트를 즉시 알아볼 수 없다는 것이다. 만약 복사기가 단순히 흐릿한 인쇄물을 만들어 낸다면, 모두가 그것들이 원본의 정확한 복제품이 아니라는 것을 알게 된다. 문제는 복사기가 판독은 가능하지만 부정확한 사본을 생성하고 있다는 사실이다.복사가 정확하지 않을 때 정확한 것처럼 보이게 했다는 것이다(2014년, 제록스는 이 문제를 수정하기 위한 패치를 발표했다).
Xerox 복사기에 대한 이번 사건은 오늘 염두에 둘 가치가 있다고 생각한다. 연구자들은 이러한 모델을 대형 언어 모델이라고 부른다. 다음과 같은 시나리오를 생각해보자. 인터넷에 접속할 수 없게 되는 상황에서 웹에 있는 모든 텍스트의 압축 사본을 작성하여 개인 서버에 저장할 수 있다. 하지만 개인 서버에는 필요한 공간이 1%밖에 없다. 따라서 텍스트에서 통계적 규칙성을 식별하는 손실 알고리즘을 작성하여 특수한 파일 형식으로 저장한다. 계산능력은 사실상 무제한이므로 알고리즘에 의해 통계적 규칙성을 식별할 수 있으며 이를 통해 원하는 압축비율인 100:1을 달성할 수 있다.
문제는 텍스트가 매우 압축되어 있기 때문에 정확한 인용구를 검색하여 정보를 찾을 수 없다는 것이다. 이 문제를 해결하려면 질문 형식으로 쿼리를 수신하고 서버에 있는 정보의 요지를 전달하는 답변으로 응답하는 인터페이스를 만들어야 한다.
지금까지 설명한 내용은 Chat GPT 또는 대부분의 ChatGPT 언어 모델과 비슷하다. 채팅 GPT는 웹에서 텍스트가 흐릿한 JPEG이다. JPEG가 고해상도 이미지의 많은 정보를 보유하는 것과 마찬가지로 웹상의 많은 정보를 보유하지만 정확한 비트 시퀀스를 찾고 있다면 찾을 수 없고 근사치만 얻을 수 있다.
손실 압축에 비유하는 것은 Chat GPT의 기능을 이해하는 방법이며, 또한 ChatGPT와 같은 대형 언어 모델이 사실에 관한 질문에 대한 "설명" 즉, 비논리적인 답변을 하는 것을 이해하는 방법이기도 하다. ChatGPT가 생성하는 이러한 환각은 압축 아티팩트이지만 Xerox 복사기에서 생성된 잘못된 라벨과 마찬가지로, 이러한 환각은 그것들을 원본과 비교해야 할 정도로 충분히 그럴듯하다. 만약 압축 알고리즘이 원본의 99%가 폐기된 후에 텍스트를 재구성하도록 설계된다면, 우리는 그것이 만들어내는 것의 상당 부분이 완전히 조작된 것이라고 예상해야 한다. 이미지 프로그램이 압축 과정에서 손실된 픽셀을 재구성해야 할 경우, 주변의 픽셀을 보고 평균을 계산한다.
2006년부터 A.I. 연구원 Marcus Hutter는 이전 수상자보다 위키피디아의 특정 1기가바이트 스냅샷을 더 손실 없이 압축할 수 있는 사람에게 현상금을 내걸었다. zip 포맷은 Hutter의 1기가바이트 파일을 약 300메가바이트로 줄여주며, 가장 최근의 수상자는 110메가바이트로 줄였다. Hutter는 더 나은 텍스트 압축은 부분적으로 텍스트를 이해함으로써 가장 큰 수준의 압축이 가능하기 때문에 인간 수준의 인공지능을 만드는 데 도움이 될 것이라고 믿고 있다.
덧셈, 뺄셈, 곱셈 및 나눗셈의 백만 가지 예를 포함하는 텍스트 파일이 있다고 가정하자. 어떤 압축 알고리즘이든 이 파일의 크기를 줄일 수 있지만, 가장 큰 압축률을 달성하는 방법은 아마도 산술의 원리를 도출하여 계산기 프로그램을 위한 코드를 작성하는 것이다. 계산기를 사용하면 파일 내의 수백만 개의 예뿐만 아니라 미래에 발생할 수 있는 산술의 다른 예도 완벽하게 재구성할 수 있다. 위키피디아의 한 부분을 압축하는 문제에도 같은 논리가 적용된다. 압축 프로그램이 힘이 질량 곱하기 가속과 같다는 것을 알면 물리 관련 페이지를 압축할 때 많은 단어를 삭제할 수 있다. 마찬가지로, 프로그램이 수요와 공급에 대해 더 많이 알수록, 경제 등에 대한 페이지를 압축할 때 더 많은 단어를 버릴 수 있다.
대형 언어 모델은 텍스트에서 통계적 규칙성을 식별한다. 웹 텍스트를 분석하면 "공급량이 적다"와 같은 문구가 "물가가 오른다"와 같은 문구에 근접해 종종 나타난다는 것이 밝혀질 것이다. 이러한 상관관계를 통합한 챗봇은 공급 부족의 영향에 대한 질문을 받으면 가격 상승에 대한 답변으로 응답할 수 있다. 만약 대형 언어 모델이 경제 용어 사이에 매우 많은 상관관계를 수집했다면, 다양한 질문에 대해 그럴듯한 답변을 제공할 수 있다면, 우리는 그것이 실제로 경제 이론을 이해한다고 말해야 할까? ChatGPT와 같은 모델은 원본 텍스트를 정확하게 재구성하지 않는다. 즉, 무손실 압축을 수행하지 않는다. 그러나 이러한 손실 압축이 A의 종류에 대한 진정한 이해를 나타내는 것일 수도 있다.
산수의 예로 돌아가 보자. GPT-3(Chat GPT가 만들어진 큰 언어 모델)에서 번호가 두 자리인 경우 거의 항상 정답으로 응답하지만 숫자가 클수록 정확도가 크게 떨어지고 숫자가 5자리일 경우 10%까지 떨어진다. GPT-3가 제공하는 정답의 대부분은 웹에서 찾을 수 없다. 예를 들어 "245 + 821"이라는 텍스트가 포함된 웹 페이지는 많지 않기 때문에 단순 암기 작업이 아니다. 그러나 방대한 양의 정보를 수집했음에도 불구하고 산술의 원리를 도출할 수 없었다. GPT-3의 오답에 대해 자세히 살펴보면 산술 수행 시 "1"이 포함되지 않음을 알 수 있다. 웹에는 확실히 "1"을 포함하는 설명이 포함되어 있지만 GPT-3는 이러한 설명을 포함할 수 없다. GPT-3의 산술적 예에 대한 통계적 분석을 통해 실제의 표면적인 근사치를 도출할 수 있지만 그 이상은 아니다.
초등학교에서 가르친 과목에서 GPT-3가 실패했을 때, 우리는 그것이 때때로 대학 수준의 에세이를 잘 쓰는 것처럼 보인다는 사실을 어떻게 설명할 수 있을까? 대형 언어 모델은 종종 환각을 일으키지만, 명료할 때는 경제 이론과 같은 주제를 실제로 이해하는 것처럼 보인다. 아마도 산수는 큰 언어 모델이 적합하지 않은 특별한 경우일 것이다. 덧셈과 뺄셈 이외의 영역에서 텍스트의 통계적 규칙성이 실제로 실제 세계에 대한 진정한 지식과 일치하는 것이 가능한가?