AI8 [LLM] How Transformer LLMs Work : Self Attention 이전 강의에서 이해 못해서 머리 아팠던 부분 여기서 다 배운다ㅡㅡ Architectual Overview대규모 언어모델에서는 입력프롬프트와 출력 텍스트가 있다. 여기서 중요한 건 모델이 토큰을 하나씩 출력한다는 것이다. LLM 모델에서는 대표적으로 세가지 단계가 있는데 앞서 배운 토크나이저가 먼저 실행된다. 그리고 이 출력은 트랜스포머 블록 스택으로 전달된다. 이 부부분이 대부분의 연산이 일어나는 신경망이다. 그 다음 이 트랜스포머이 출력은 언어 모델링 헤드(LM Head) 신경망으로 들어간다. tokenizer은 다음과 같이 토큰 voca가 있고, 모델은 이 각각 토큰에 대한 토큰 임베딩 벡터를 가직고 있다.그 다음 언어 모델링 헤드엣는 그 다음 토큰이 무엇이어야 하는지를 기반으로 확률계산이 이루어진.. 2025. 12. 1. [LLM] How Transformer LLMs Work : Understanding Language Models 이젠 진짜 해야함 https://www.deeplearning.ai/short-courses/how-transformer-llms-work/?utm_source=pytorchkr&ref=pytorchkr How Transformer LLMs WorkUnderstand the transformer architecture that powers large language models (LLMs) to use them more effectively.www.deeplearning.ai이 강의를 들어보기로 했음한시간반 강의이고 실습 + 강의임무료라서 좋은데 한국말 자막이 안나옴!그래도 영어 스크립트는 줘서 지피티한테 번역시켜서 이해해보려고 함Introduction여기선 llm 아키텍쳐 트랜스포머를 가르쳐준다고 함.. 2025. 11. 2. 2025 LG전자 채용계약학과 합격 후기 안녕하세요 제가 드디어 취뽀를 했습니다.사실 아직 학부생이지만, 상반기부터 준비를 했다보니 취준 기간은 한 6개월정도 되었던 것 같아요.이 전형을 준비할 때 정보가 많이 없기도 했고, 이전년도 합격자분들이 블로그에 써주신 글이 많이 도움이 되었어서 저도 써보려고 합니다.혹시 문제가 되는 정보가 있다면 바로 삭제처리 하겠습니다. 우선 LG전자 채용계약학과는 바로 입사를 하는 전형은 아니고, 정해진 대학교의 대학원에서 석사 학위를 취득하고 LG전자로 입사를 하게 되는 전형입니다.부서는 졸업 후 정해지고, SW R&D 직무로 근무를 하게 될 것 같습니다석사 기간 2년동안에는 학비 + 약간의 생활비와 해외학회 참석비용, 인턴 근무 기회가 제공됩니다!수혜기간의 2배 즉, 4년을 의무근무를 해야한다는 조항이 있긴 .. 2025. 9. 30. [LLM] 안드레이 카파시 : ChatGPT와 같은 LLM 기술의 심층 분석(훈련 과정) 컨택한 랩실 교수님께 LLM에 대해서 기초적인 지식을 쌓고 싶다고 말씀드렸더니 석사분들을 통해서 강의를 추천해주셨다! Pretraining(사전 훈련 단계)download, preprocesspretraining의 첫번째 단계는 인터넷에서 정보를 다운받는 것이다.(데이터 수집)우리는 고품질, 아주 많은 데이터를 얻고자 노력한다. 이것을 달성하기 위해서는 위와 같은 단계를 거친다.url filtering은 데이터를 수집하고싶지 않은 사이트(광고, 유해사이트 등등)을 필터링하고, text extraction에서는 html 코드에서 필요한 정보 텍스트만 얻는 등의 과정을 거친다.또한 language filtering은 데이터셋에 언어를 어떤 비율로 포함시킬 것인지를 정할 수 있다. 만약 영어 비율을 높인다면 .. 2025. 9. 24. UCSD Qualcomm Institute AI Project 5주차 마지막 주차다이 주는화요일까지 논문, 워크플로우 제출수요일 위클리 프레젠테이션금요일 최종발표로 굉장히 바빴다ㅜㅜ 알고리즘시간관계상 하이퍼파라미터 종류가 많은 xgboost나 adaboost를 쓰는 것 보다 종류가 적은 lr과 랜덤포레스트를 활용하라는 피드백을 받고 이전에 했던 건 그냥 덮기로 했다.그래도 랜덤포레스트를 계속 시도하던 팀원이 있어서 다행이었다. 나는 lr을 중점적으로 다뤘다. Logistic Regression이번에도 유튜브와 지피티를 활용해서 공부해보았다. 박사님께서 lr은 하이퍼파라미터 조정이 필요없고, 컴버지때의 값이 하이퍼파라미터 값이라고 하셨다.컴버지가 뭐지...아는게 없으니 막막했다. 그래서 TA분께 여쭤봤다. 인도분이셨는데 내 허술한 영어도 친절하게 다 받아주셨고, 설명도 정말.. 2025. 2. 23. UCSD Qualcomm Institute AI Project 4주차 사실 이제 한국에 왔다. 4주차랑 5주차는 너무너무 바빠서 바로바로 블로그를 쓰지 못했다ㅜㅜ지금이라도 쭉 정리해보려고 한다. 아 그리고 우리팀의 논문 1저자는 내가 되었다.. 잘 완성시켜야지 피쳐분석우리가 박스플롯, 파이차트 등으로 분석한 피쳐들을 가지고 박사님과 미팅을 하였다.이런식으로 30개의 피쳐를 모두 분석했다!박사님께서 이상치가 있는 것들은 그 값을 분석해서 정말 이상치인 것들은 제거하라고 하셨고 결측값이 많거나 예약 취소와 관련 없는 피쳐들은 빼라고 하셨다. 그리고 이 날 해결하지 못한 부분이런 것들은 추후 다시 분석해서 가져갔다알고리즘 공부이 주부터는 모델을 만들어보아야한다고 하셨다.그래서 조원마다 각자 공부하고 돌려볼 알고리즘들을 정해주었다.] 나는 XGBOOST와 ADABOOST를 공부하.. 2025. 2. 23. 이전 1 2 다음