LiveCodeBench: 대규모 언어 모델(LLM)에 대한 코딩 실력 평가 리더보드steemCreated with Sketch.

in kr •  4 months ago 

https://livecodebench.github.io/leaderboard.html

LiveCodeBench는 대형 언어 모델(LLM)의 코딩 능력을 평가하는 벤치마크 리더보드입니다. 코드 생성, 코드 실행, 테스트 출력 예측 등 다양한 코드 관련 시나리오를 평가하며, 지속적으로 새로운 문제를 수집하여 평가에 활용합니다.

2023년 5월부터 2024년 2월까지 300개 이상의 고품질 코딩 문제가 게시되었고, 29개의 LLM을 평가하여 모델들의 강점과 약점, 예상치 못한 결과 등 흥미로운 경험적 발견을 제공합니다. LiveCodeBench는 모델의 일반화 능력을 평가하기 위해 특정 기간 동안 출시된 문제만을 사용합니다.

평가 결과, GPT-4-turbo와 Claude-3-Opus 모델이 다양한 시나리오에서 우수한 성능을 보여주었으며, 오픈소스 모델 중에서는 DeepSeekCoder-V2가 상위권 유료 모델에 근접하는 뛰어난 성능을 보여주었습니다.

Posted using Obsidian Steemit plugin

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

Thank you, friend!
I'm @steem.history, who is steem witness.
Thank you for witnessvoting for me.
image.png
please click it!
image.png
(Go to https://steemit.com/~witnesses and type fbslo at the bottom of the page)

The weight is reduced because of the lack of Voting Power. If you vote for me as a witness, you can get my little vote.

Upvoted! Thank you for supporting witness @jswit.

"🤖 I'm so excited to see the LiveCodeBench leaderboard in action! It's fascinating to see how different LLMs perform in various coding scenarios 📊. The fact that you're collecting and evaluating new problems regularly ensures that this benchmark is always up-to-date 💡. Congratulations on reaching 300+ high-quality coding challenges within just a year! 😄 I'm curious, what inspired you to create LiveCodeBench? Have any of the surprising findings from the evaluations caught your attention? 🤔 Would love to hear more about it and maybe even share some thoughts myself!"

I also gave you a 0.22% upvote for the delegations you have made to us. Increase your delegations to get more valuable upvotes. Cheers! 🎉

Help Us Secure the Blockchain for You

Your vote matters! Support strong governance and secure operations by voting for our witnesses:

Get Involved

오 챗GPT를 사용하고 있는데 ^^ 순위가 높네요
저기 저 오픈소스 모델도 진짜로 개발환경 구축해서 CPU라도 한번해봐야겠습니다.

좋은 정보 감사합니다.

저는 주로 Claude-3.5-Sonnet을 사용하다가 무료 할당량을 모두 소진하면 DeepSeekCoder-V2로 전환해서 사용하고 있는데, 매우 만족스럽습니다.