갑작스럽게 날씨가 엄청 추워진 듯 싶다. 원래 계획대로 일단 정리할 abstract 이론을 한참 공부중이었는데, 저녁 때 디스커션 할 거리에 대해서 연락 받아서, 저녁 이후론 계속 그것만 생각한 듯 싶다. leading group이 한 일을 일단 그들의 notation으로 이해하긴 했는데, 뭔가 논리적 결함이 있어 상당히 아쉽다.
새로 하고자 하는 방법론의 경우 가장 일반론을 생각하자면 일단 set-up을 비슷하게 맞출수는 있는데, 지금 하고자 하는 것은 그 결과나 방법론을 다른 방식으로 유도하거나 보이는 것이라 시작 setting이 매우 중요해 보이는데, 여기에 대해서 좀 더 이야기를 나누어 봐야 할 듯 싶다.
원래 오전에 잠깐 휴식하는 겸에 deepseek R1을 로컬로 설치하고 몇가지 테스트도 좀 해봤는데 (웹으로 사용하면 정보 관련해서 예민하다고 해서...) 확실히 R1 추론 모델들이 좋긴 한 듯 싶다. 하이퍼파라메타가 많아야 로컬에서도 잘 돌아가는데 그럴려면 용량이 또 엄청 많이 필요해서, 사실상 o3가 더 좋긴 한데, 아마 제한적 무료에서 앞으로 더 무료로 풀릴 듯 싶다. 중국이 이런 AI 시장에 들어와서 오픈소스로 다 공개해버리니까 미국 기업들이 확실히 발에 불이 나긴 한 듯 싶다. ollema 를 통해 오픈소스로 제공되는 다른 모델들도 로컬로 사용가능하긴 한데... 로컬로 chat GPT와 동급 혹은 이상의 것을 보려면 컴퓨터 사양이 많이 좋아야 할듯 싶다.
딥시크의 강화학습과 관련된 GRPO 공부를 좀 해보고 싶은데, 갑자기 이런저런 일감들이 생겨서 뒤로 좀 미뤄질 듯 싶다. 뭐 일하느라 바쁜면 좋은 거긴 하니까... 주말부터는 만든 세미나 자료 수정 및 정돈에만 신경 쓸 수 있도록 주중에 일들을 많이 해놓도록 하자.
Upvoted! Thank you for supporting witness @jswit.
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit