본문 바로가기

AI System7

시스템(스토리지) 기본기 다지기 안녕하세요지금 LMCache를 하고있지만, 하고있는 연구가 스토리지도 같이 봐야하는 연구라서 한번 정리해보려고 합니다. RAMRAM은 빠르게 접근 가능하지만, 비용이 비싸다. 휘발성이라 컴퓨터를 끄면 날아간다는 특징을 가지고 있다. DRAMSRAM과 DRAM의 차이를 알아보겠다.DRAM은 1 트랜지스터와 1 커페시터로 구성되어있다.트랜지스터는 커패시터에 접근을 제어하는 스위치 역할을 하고, 커페시터는 전하를 저장하는 저장소 역할을 한다. DRAM은 단위 셀의 구조가 단순하고 집적도가 높아 고용량이 가능하지만, 전원 공급시에도 데이터가 손실되는 휘발성의 특징을 가진다. SRAM보다는 느리지만 충분히 빠르다고 볼 수 있다.HBMHBM은 GPU에 붙어있는 DRAM으로 고대역폭 초고속 메모리다. 따라서 다량의 .. 2026. 3. 13.
[LLM] LMCache 코드 분석 - prefetch,eviction prefetchprefetch는 곧 필요할 kv캐시를 미리 당겨오는 background 작업이다. 시작점은 cache_engine.py 내의 async_lookup_and_prefetch 함수이다.이 함수는 토큰을 캐시키로 변환해서 해당 키에 맞는 캐시를 미리 가져오는 역할을 한다. def async_lookup_and_prefetch( lookup_id: str, tokens: Optional[Union[torch.Tensor, List[int]]] = None, hashes: Optional[List[int]] = None, offsets: Optional[List[int]] = None, search_range: Optional[List[str]] = None, pi.. 2026. 1. 10.
[LLM] LMCache 코드 분석 - store, retrieve 이제 논문을 봤으니 코드를 분석해보아야한다 vLLM과 LMCache 연결def _init_lmcache_engine( lmcache_config: LMCacheEngineConfig, vllm_config: "VllmConfig", role: str,) -> LMCacheEngine: """Initialize the LMCache engine by the given model config and parallel config. This function will check the environment variable `LMCACHE_CONFIG_FILE` to load the configuration file. If that environment variable is n.. 2025. 12. 31.
[LLM] How Transformer LLMs Work : Self Attention 이전 강의에서 이해 못해서 머리 아팠던 부분 여기서 다 배운다ㅡㅡ Architectual Overview대규모 언어모델에서는 입력프롬프트와 출력 텍스트가 있다. 여기서 중요한 건 모델이 토큰을 하나씩 출력한다는 것이다. LLM 모델에서는 대표적으로 세가지 단계가 있는데 앞서 배운 토크나이저가 먼저 실행된다. 그리고 이 출력은 트랜스포머 블록 스택으로 전달된다. 이 부부분이 대부분의 연산이 일어나는 신경망이다. 그 다음 이 트랜스포머이 출력은 언어 모델링 헤드(LM Head) 신경망으로 들어간다. tokenizer은 다음과 같이 토큰 voca가 있고, 모델은 이 각각 토큰에 대한 토큰 임베딩 벡터를 가직고 있다.그 다음 언어 모델링 헤드엣는 그 다음 토큰이 무엇이어야 하는지를 기반으로 확률계산이 이루어진.. 2025. 12. 1.
[LLM] How Transformer LLMs Work : Understanding Language Models 이젠 진짜 해야함 https://www.deeplearning.ai/short-courses/how-transformer-llms-work/?utm_source=pytorchkr&ref=pytorchkr How Transformer LLMs WorkUnderstand the transformer architecture that powers large language models (LLMs) to use them more effectively.www.deeplearning.ai이 강의를 들어보기로 했음한시간반 강의이고 실습 + 강의임무료라서 좋은데 한국말 자막이 안나옴!그래도 영어 스크립트는 줘서 지피티한테 번역시켜서 이해해보려고 함Introduction여기선 llm 아키텍쳐 트랜스포머를 가르쳐준다고 함.. 2025. 11. 2.
[LLM]안드레이 카파시: ChatGPT와 같은 LLM 기술의 심층 분석(강화학습 등) Models need tokens to think 사람: "Emily가 사과 3개와 오렌지 2개를 삽니다. 오렌지 하나의 가격은 $2입니다. 모든 과일의 총 가격은 $13입니다. 사과의 가격은 얼마입니까?"어시스턴트 1: "정답은 $3입니다. 오렌지 2개는 개당 $2이므로 총 $4입니다. 따라서 사과 3개의 가격은 $9이고, 각각의 사과 가격은 $9 ÷ 3 = $3입니다."어시스턴트 2: "오렌지 2개의 총 가격은 $4입니다. 13 - 4 = 9, 따라서 사과 3개의 가격은 $9입니다. 9 ÷ 3 = 3, 그래서 각각의 사과 가격은 $3입니다. 정답은 $3입니다."위에 두가지 답변을 번역한 것이다.둘 다 답은 맞지만, 하나는 좋지 못한 답변이다.앞서 설명했듯이 일정 토큰 뒤에 올 토큰을 정할 때 이런식으.. 2025. 9. 25.