본문 바로가기

AI/LLM4

[LLM] How Transformer LLMs Work : Self Attention 이전 강의에서 이해 못해서 머리 아팠던 부분 여기서 다 배운다ㅡㅡ Architectual Overview대규모 언어모델에서는 입력프롬프트와 출력 텍스트가 있다. 여기서 중요한 건 모델이 토큰을 하나씩 출력한다는 것이다. LLM 모델에서는 대표적으로 세가지 단계가 있는데 앞서 배운 토크나이저가 먼저 실행된다. 그리고 이 출력은 트랜스포머 블록 스택으로 전달된다. 이 부부분이 대부분의 연산이 일어나는 신경망이다. 그 다음 이 트랜스포머이 출력은 언어 모델링 헤드(LM Head) 신경망으로 들어간다. tokenizer은 다음과 같이 토큰 voca가 있고, 모델은 이 각각 토큰에 대한 토큰 임베딩 벡터를 가직고 있다.그 다음 언어 모델링 헤드엣는 그 다음 토큰이 무엇이어야 하는지를 기반으로 확률계산이 이루어진.. 2025. 12. 1.

[LLM] How Transformer LLMs Work : Understanding Language Models 이젠 진짜 해야함 https://www.deeplearning.ai/short-courses/how-transformer-llms-work/?utm_source=pytorchkr&ref=pytorchkr How Transformer LLMs WorkUnderstand the transformer architecture that powers large language models (LLMs) to use them more effectively.www.deeplearning.ai이 강의를 들어보기로 했음한시간반 강의이고 실습 + 강의임무료라서 좋은데 한국말 자막이 안나옴!그래도 영어 스크립트는 줘서 지피티한테 번역시켜서 이해해보려고 함Introduction여기선 llm 아키텍쳐 트랜스포머를 가르쳐준다고 함.. 2025. 11. 2.

[LLM]안드레이 카파시: ChatGPT와 같은 LLM 기술의 심층 분석(강화학습 등) Models need tokens to think 사람: "Emily가 사과 3개와 오렌지 2개를 삽니다. 오렌지 하나의 가격은 $2입니다. 모든 과일의 총 가격은 $13입니다. 사과의 가격은 얼마입니까?"어시스턴트 1: "정답은 $3입니다. 오렌지 2개는 개당 $2이므로 총 $4입니다. 따라서 사과 3개의 가격은 $9이고, 각각의 사과 가격은 $9 ÷ 3 = $3입니다."어시스턴트 2: "오렌지 2개의 총 가격은 $4입니다. 13 - 4 = 9, 따라서 사과 3개의 가격은 $9입니다. 9 ÷ 3 = 3, 그래서 각각의 사과 가격은 $3입니다. 정답은 $3입니다."위에 두가지 답변을 번역한 것이다.둘 다 답은 맞지만, 하나는 좋지 못한 답변이다.앞서 설명했듯이 일정 토큰 뒤에 올 토큰을 정할 때 이런식으.. 2025. 9. 25.

[LLM] 안드레이 카파시 : ChatGPT와 같은 LLM 기술의 심층 분석(훈련 과정) 컨택한 랩실 교수님께 LLM에 대해서 기초적인 지식을 쌓고 싶다고 말씀드렸더니 석사분들을 통해서 강의를 추천해주셨다! Pretraining(사전 훈련 단계)download, preprocesspretraining의 첫번째 단계는 인터넷에서 정보를 다운받는 것이다.(데이터 수집)우리는 고품질, 아주 많은 데이터를 얻고자 노력한다. 이것을 달성하기 위해서는 위와 같은 단계를 거친다.url filtering은 데이터를 수집하고싶지 않은 사이트(광고, 유해사이트 등등)을 필터링하고, text extraction에서는 html 코드에서 필요한 정보 텍스트만 얻는 등의 과정을 거친다.또한 language filtering은 데이터셋에 언어를 어떤 비율로 포함시킬 것인지를 정할 수 있다. 만약 영어 비율을 높인다면 .. 2025. 9. 24.

이전 1 다음

티스토리툴바