일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- DP
- speaking
- English
- 최단경로
- 그래프이론
- 머신러닝
- LLM
- 플로이드와샬
- Lora
- Study
- Scaling Laws
- paper review
- 프로그래머스
- peft
- 데이터분석
- 파인튜닝
- 완전탐색
- 스터디
- Generative AI
- 코딩테스트
- 코딩테스트실력진단
- bfs/dfs
- Python
- 파이썬
- Fine-Tuning
- Coursera
- 판다스
- 이분탐색
- 코드트리
- 알고리즘
- Today
- Total
목록Scaling Laws (2)
생각하는 아져씨

오늘은 귀여운 친칠라 논문에 대해 리뷰해보겠습니다. 1. Introduction 최근 5000억개의 파라미터를 가지는 LLM이 많이 공개되었다. 또한 Large Autoregressive 트랜스포머 모델들은 Zero-shot, Few-shot, Fine-tuning 같은 프로토콜을 활용해 다양한 task에서도 좋은 성능을 보여주고 있다. 이런 LLM을 학습시키는데 상당한 컴퓨팅 예산이 들기 때문에, 모델 사이즈에 따른 컴퓨팅 비용을 고려해야 한다. 더군다나 이렇게 큰 모델은 현실적으로 1번 정도 학습할 수 있기 때문에 주어진 컴퓨팅 예산 안에서 최적의 모델을 정확하게 평가할 수 있는 것이 매우 중요하다. Kaplan et al.(2020)의 논문에서 이 문제에 대해 다뤘다. 모델의 파라미터 수와 성능의 ..

앤드류 응 교수님의 강의를 듣고 정리 및 공부한 글임을 알려드립니다. Generative AI with LLMs In Generative AI with Large Language Models (LLMs), created in partnership with AWS, you’ll learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. 이제 LLM은 사전학습 시 단일 GPU가 아니라 Multi-GPU를 사용해야 할 만큼 크기가 매우 크고 많은 예산이 필요하게 되었습니다. 무작정 컴퓨팅 예산만 투자한다고 해서 최적의 모델을 만들 수 있을까요? 더 적은 컴퓨팅 예산으로 비슷한 수준의 성능을 ..