일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Scaling Laws
- 파인튜닝
- 코드트리
- 코딩테스트
- 파이썬
- 플로이드와샬
- 스터디
- Study
- 이분탐색
- speaking
- Python
- 프로그래머스
- 완전탐색
- Coursera
- peft
- Lora
- Generative AI
- 데이터분석
- 최단경로
- DP
- LLM
- 머신러닝
- Fine-Tuning
- 알고리즘
- 판다스
- English
- 그래프이론
- 코딩테스트실력진단
- bfs/dfs
- paper review
- Today
- Total
목록Machine & Deep Learning (24)
생각하는 아져씨

LLM의 효율적인 파인튜닝인 PEFT 연구의 중요성과 현재까지의 흐름을 정리해보았다. 주로 공부할 땐 노션에 정리한 후 다듬어 블로그에 올리는데, 이번 포스팅은 양이 많아서 노션 링크를 공유한다. PEFT의 최신 연구 동향에 대해 대략적으로 파악할 수 있도록 요약해봤다. PEFT를 공부하는 분들께 조금이라도 도움이 되었으면 좋겠다. 부족한 부분은 계속해서 보완할 예정이다. https://www.notion.so/azeomi/LLM-PEFT-182685e9cfc447f7bbb651e7c80eef7d?pvs=4 LLM의 효율적인 파인튜닝, PEFT 연구는 어떻게 흘러왔을까?🤩 Why is the Fine-Tuning LLMs important? www.notion.so

앤드류 응 교수님의 강의를 듣고 정리 및 공부한 글임을 알려드립니다. Generative AI with LLMs In Generative AI with Large Language Models (LLMs), created in partnership with AWS, you’ll learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. LoRA(Low Rank Adaptation) PEFT 중 Reparameterization 테크닉에 속하는 기법으로, 사전학습 모델에 학습이 가능한 Rank decomposition 행렬을 삽입한 것으로 파인튜닝 동안 학습되는 파라미터를 줄이는 전략 오리..

앤드류 응 교수님의 강의를 듣고 정리 및 공부한 글임을 알려드립니다. Generative AI with LLMs In Generative AI with Large Language Models (LLMs), created in partnership with AWS, you’ll learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. LLM의 Full Fine-Tuning은 너무 많은 계산과 메모리가 소요됩니다. 학습 weights와 Optimizer States, Gradients, Forward Activations, Temp memory 등을 계산하고 저장하는데 많은 비용이 필요하..

Data Scaling?! 데이터 스케일링은 데이터의 범위와 분포를 조정하는 작업을 의미한다. 이를 통해 모든 특성이 동일한 스케일을 갖게 되며, 모델 학습 과정을 안정화시키고 수렴 속도를 높이며, 이상치의 영향을 줄여 모델의 성능을 개선하는데 도움을 주는 전처리 방법 중 하나이다. 데이터를 분석하다 보면 feature들마다 데이터 값의 범위가 다 제각각임을 볼 수 있다. 만약 범위 차이가 크다면 모델을 학습할 때 0으로 수렴하거나 무한으로 발산할 수 있다는 문제점이 있으므로 데이터 스케일링을 해주는 것이 좋다. 여기를 참고해 총 5가지 데이터 스케일링 방법에 대해 연습했다. StandardScaler MinMaxScaler MaxAbsScaler RobustScaler Normalizer 데이터 스케일..

머신러닝에서 범주형 변수를 인코딩해야 하는 이유는 정말 중요하다. 왜냐하면, 머신러닝 모델은 숫자 데이터만 이해할 수 있어서, 범주형 변수를 숫자로 변환해야 한다. 모델에게 맞게 언어를 해석하도록 하는 것이다. 범주형 변수를 인코딩하면 모델이 범주 간의 관계를 파악하고 예측에 활용할 수 있다. 인코딩을 통해, 범주형 변수의 유용한 정보를 보존할 수도 있다. 때론 모델의 성능을 향상해 준다. 원-핫 인코딩과 같은 효과적인 방법을 사용하면, 범주형 변수의 다양한 범주를 이진 형태로 표현할 수 있고 모델이 이해하기 쉽게 만들어준다. 모델의 예측 정확도를 향상시키고, 데이터 분석 및 예측 프로세스를 더 효과적으로 수행하는 핵심 도구로 범주형 변수의 인코딩은 반드시 고려해야 한다. 말그대로 머신러닝의 비결이다...

머신러닝에서 모델의 성능을 높이는데 정제된 데이터, 좋은 알고리즘을 사용하는 것도 있지만 무엇보다도 데이터를 목적에 맞게 추출하고 가공하는 것도 중요하다. 오늘은 데이터를 분석할 때 빈번하게 등장하는 groupby, merge, agg를 사용해서 간단한 문제를 연습해봤다. Problem. 2개의 데이터 프레임이 있다. '년도' 컬럼을 기준으로 그룹화하여 나라명 개수, 행복기대치의 평균/표준편차/중간값을 구해보자. 정답은 다음의 형태를 띄도록 출력해보자. 정답은 다음의 형태를 띄도록 하시오. |년도|나라명 개수|mean|std|median| |---|---|---|---|---| |내용 1|내용 2|내용 3|내용 4|내용 5| |내용 5|내용 6|내용 7|내용 8|내용 9| |내용 9|내용 10|내용 11..