메뉴 건너뛰기

S+ in K 4 JP

QnA 質疑応答

2025.02.18 22:03

What's New About Deepseek

조회 수 2 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 수정 삭제
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 수정 삭제

First, there may be DeepSeek V3, a big-scale LLM model that outperforms most AIs, including some proprietary ones. 바로 직후인 2023년 11월 29일, DeepSeek LLM 모델을 발표했는데, 이 모델을 ‘차세대의 오픈소스 LLM’이라고 불렀습니다. 불과 두 달 만에, DeepSeek는 뭔가 새롭고 흥미로운 것을 들고 나오게 됩니다: 바로 2024년 1월, 고도화된 MoE (Mixture-of-Experts) 아키텍처를 앞세운 DeepSeekMoE와, 새로운 버전의 코딩 모델인 DeepSeek-Coder-v1.5 등 더욱 발전되었을 뿐 아니라 매우 효율적인 모델을 개발, 공개한 겁니다. 이 소형 모델은 GPT-4의 수학적 추론 능력에 근접하는 성능을 보여줬을 뿐 아니라 또 다른, 우리에게도 널리 알려진 중국의 모델, Qwen-72B보다도 뛰어난 성능을 보여주었습니다. 이렇게 ‘준수한’ 성능을 보여주기는 했지만, 다른 모델들과 마찬가지로 ‘연산의 효율성 (Computational Efficiency)’이라든가’ 확장성 (Scalability)’라는 측면에서는 여전히 문제가 있었죠. 이렇게 한 번 고르게 높은 성능을 보이는 모델로 기반을 만들어놓은 후, 아주 빠르게 새로운 모델, 개선된 버전을 내놓기 시작했습니다. 특히 DeepSeek-V2는 더 적은 메모리를 사용하면서도 더 빠르게 정보를 처리하는 또 하나의 혁신적 기법, MLA (Multi-Head Latent Attention)을 도입했습니다. DeepSeek 모델은 처음 2023년 하반기에 출시된 후에 빠르게 AI 커뮤니티의 많은 관심을 받으면서 유명세를 탄 편이라고 할 수 있는데요. AI 커뮤니티의 관심은 - 어찌보면 당연하게도 - Llama나 Mistral 같은 모델에 집중될 수 밖에 없지만, Free DeepSeek r1이라는 스타트업 자체, 이 회사의 연구 방향과 출시하는 모델의 흐름은 한 번 살펴볼 만한 중요한 대상이라고 생각합니다. 이 회사의 소개를 보면, ‘Making AGI a Reality’, ‘Unravel the Mystery of AGI with Curiosity’, ‘Answer the Essential Question with Long-termism’과 같은 표현들이 있는데요.


DeepSeek : anatomie d'un tsunami 역시 중국의 스타트업인 이 DeepSeek의 기술 혁신은 실리콘 밸리에서도 주목을 받고 있습니다. AI 학계와 업계를 선도하는 미국의 그늘에 가려 아주 큰 관심을 받지는 못하고 있는 것으로 보이지만, 분명한 것은 생성형 AI의 혁신에 중국도 강력한 연구와 스타트업 생태계를 바탕으로 그 역할을 계속해서 확대하고 있고, 특히 중국의 연구자, 개발자, 그리고 스타트업들은 ‘나름의’ 어려운 환경에도 불구하고, ‘모방하는 중국’이라는 통념에 도전하고 있다는 겁니다. 그리고 2024년 3월 말, Free DeepSeek는 비전 모델에 도전해서 고품질의 비전-언어 이해를 하는 모델 DeepSeek-VL을 출시했습니다. 특히, DeepSeek만의 혁신적인 MoE 기법, 그리고 MLA (Multi-Head Latent Attention) 구조를 통해서 높은 성능과 효율을 동시에 잡아, 향후 주시할 만한 AI 모델 개발의 사례로 인식되고 있습니다. 2023년 11월 2일부터 DeepSeek의 연이은 모델 출시가 시작되는데, 그 첫 타자는 DeepSeek Coder였습니다. 그 이후 2024년 5월부터는 DeepSeek-V2와 DeepSeek-Coder-V2 모델의 개발, 성공적인 출시가 이어집니다. 처음에는 Llama 2를 기반으로 다양한 벤치마크에서 주요 모델들을 고르게 앞서나가겠다는 목표로 모델을 개발, 개선하기 시작했습니다. 중국 AI 스타트업 DeepSeek이 GPT-4를 넘어서는 오픈소스 AI 모델을 개발해 많은 관심을 받고 있습니다.


crop 허깅페이스 기준으로 지금까지 DeepSeek이 출시한 모델이 48개인데, 2023년 DeepSeek과 비슷한 시기에 설립된 미스트랄AI가 총 15개의 모델을 내놓았고, 2019년에 설립된 독일의 알레프 알파가 6개 모델을 내놓았거든요. 또 한 가지 주목할 점은, DeepSeek의 소형 모델이 수많은 대형 언어모델보다 상당히 좋은 성능을 보여준다는 점입니다. 더 적은 수의 활성화된 파라미터를 가지고도 DeepSeekMoE는 Llama 2 7B와 비슷한 성능을 달성할 수 있었습니다. DeepSeek Coder는 Llama 2의 아키텍처를 기본으로 하지만, 트레이닝 데이터 준비, 파라미터 설정을 포함해서 처음부터 별도로 구축한 모델로, ‘완전한 오픈소스’로서 모든 방식의 상업적 이용까지 가능한 모델입니다. 시장의 규모, 경제적/산업적 환경, 정치적 안정성 측면에서 우리나라와는 많은 차이가 있기는 하지만, 과연 우리나라의 생성형 AI 생태계가 어떤 도전을 해야 할지에 대한 하나의 시금석이 될 수도 있다고 생각합니다. ‘장기적인 관점에서 현재의 생성형 AI 기술을 바탕으로 AGI로 가는 길을 찾아보겠다’는 꿈이 엿보이는 듯합니다. DeepSeek is unique due to its specialised AI model, DeepSeek-R1, which offers distinctive customization, seamless integrations, and tailored workflows for businesses and builders. DeepSeek has unveiled its newest model, DeepSeek-R1, marking a big stride toward advancing artificial basic intelligence (AGI) - AI able to performing mental duties on par with people. Distilled models have been educated by SFT on 800K information synthesized from DeepSeek-R1, in an analogous approach as step 3. They were not educated with RL. For example, latest knowledge reveals that DeepSeek fashions often perform well in duties requiring logical reasoning and code generation.


Even when data is simply accessed by professional employees with proper clearances, extra methods to entry information equals extra methods security will be breached. Reinforcement Learning: The model utilizes a extra refined reinforcement learning approach, together with Group Relative Policy Optimization (GRPO), which uses feedback from compilers and check cases, and a learned reward model to tremendous-tune the Coder. Another major distinction lies in Reinforcement Learning (RL). DeepSeek-Coder-V2, costing 20-50x occasions lower than different fashions, represents a major improve over the original DeepSeek-Coder, with extra in depth coaching data, larger and extra environment friendly fashions, enhanced context dealing with, and superior techniques like Fill-In-The-Middle and Reinforcement Learning. Handling lengthy contexts: DeepSeek-Coder-V2 extends the context length from 16,000 to 128,000 tokens, permitting it to work with much bigger and extra complex projects. DeepSeek-Coder-V2 makes use of the identical pipeline as DeepSeekMath. Each skilled has a corresponding expert vector of the identical dimension, and we resolve which consultants will develop into activated by looking at which ones have the very best interior merchandise with the present residual stream. This doesn't mean the trend of AI-infused purposes, workflows, and companies will abate any time quickly: famous AI commentator and Wharton School professor Ethan Mollick is fond of saying that if AI technology stopped advancing in the present day, we'd nonetheless have 10 years to figure out how to maximize the use of its current state.


List of Articles
번호 제목 글쓴이 날짜 조회 수
150883 Discovering Safe Korean Gambling Sites With Nunutoto's Expert Verification Services new BrigitteOel4809400 2025.02.20 0
150882 Your Trip To Success Begins With Tennis Coaching Dubai new BrianButz8586423167 2025.02.20 0
150881 Gain From Professionals: Finest Tennis Mentoring In Dubai new JudeKeating633948285 2025.02.20 0
150880 Truck Driving Schools - Something Which Won't Tell You new TeriHawthorn889 2025.02.20 0
150879 Unlocking Safe Korean Sports Betting: Your Guide To Nunutoto's Toto Verification Platform new CharoletteFlood834 2025.02.20 0
150878 Deepseek And Love Have Five Things In Common new GennieI1557103898 2025.02.20 0
150877 Slate Tiles - Or Even A Flooring Installation new ClarissaAlbritton3 2025.02.20 0
150876 Reach New Heights With Professional Badminton Coaching Dubai new MarissaU41205093544 2025.02.20 0
150875 Specialist Training In Bournemouth: Cutting-Edge Curriculum new Kelly78S83331376923 2025.02.20 3
150874 Diy Steel Cable Balustrading new LauraFvb77843434 2025.02.20 0
150873 Top Tips In Fitness Equipment Home Emergency Generator new Betty3386956187488545 2025.02.20 0
150872 Budget Moving Truck Review And Promotional Code new FSMRodrick4905617644 2025.02.20 0
150871 Tonneau Truck Covers - 5 1 Tip For Choosing new GloriaHyatt7688563942 2025.02.20 0
150870 Roofing - How To Purchase Materials new ElanaMayers23646 2025.02.20 0
150869 Cable Sweater: How To Take Care Of Your Knitted Items new HarrisonCroft151687 2025.02.20 0
150868 Train Like A Pro With Premium Tennis Training In Dubai new CarmelaCroll079927 2025.02.20 0
150867 What Seem For In A Rental Truck new RickeyKqc678640 2025.02.20 0
150866 Safe Sports Toto: Maximizing Your Experience With Nunutoto's Verification Platform new MathiasStolp85659 2025.02.20 0
150865 Slate Tiles For Durability And A Rustic Charm For Roofs And Floors new SyreetaDarrell287 2025.02.20 0
150864 The Nice, The Bad And Deepseek Chatgpt new NickBermudez1785 2025.02.20 2
Board Pagination Prev 1 ... 92 93 94 95 96 97 98 99 100 101 ... 7641 Next
/ 7641
위로