사실 이제 한국에 왔다.
4주차랑 5주차는 너무너무 바빠서 바로바로 블로그를 쓰지 못했다ㅜㅜ
지금이라도 쭉 정리해보려고 한다.
아 그리고 우리팀의 논문 1저자는 내가 되었다..
잘 완성시켜야지
피쳐분석
우리가 박스플롯, 파이차트 등으로 분석한 피쳐들을 가지고 박사님과 미팅을 하였다.
이런식으로 30개의 피쳐를 모두 분석했다!
박사님께서 이상치가 있는 것들은 그 값을 분석해서 정말 이상치인 것들은 제거하라고 하셨고 결측값이 많거나 예약 취소와 관련 없는 피쳐들은 빼라고 하셨다.
그리고 이 날 해결하지 못한 부분
이런 것들은 추후 다시 분석해서 가져갔다
알고리즘 공부
이 주부터는 모델을 만들어보아야한다고 하셨다.
그래서 조원마다 각자 공부하고 돌려볼 알고리즘들을 정해주었다.]
나는 XGBOOST와 ADABOOST를 공부하고 돌려보았다.
근데 문제점
나는 인공지능을 단 한번도 공부해본적이 없다...
그래서 기본적인 것부터 공부해보았다.
의사결정트리
의사결정트리는 단순하게 트리를 바탕으로 요소들을 분리하는 것이다.
랜덤포레스트
결정트리를 키운 것이다.
결정트리 문제점 → 과적합문제 (이상한 질문이 생길 수 있다.)
랜덤포레스트의 과정
우선 데이터를 랜덤으로 추출한다.
디시전트리는 큰 나무이고, 랜덤포레스트는 작은 나무가 여러 개 있는 것이다.
디시전트리가 오버피팅되면 이거의 대체제가 랜더포레스트이다.
디시전트리는 가장 위에 있는 것이 가장 중요한 질문인데, 랜덤포레스트는 그냥 질문도 랜덤이다.
여기서 디시전트리는 트리 하나라서 사과로 결론을 냄
근데 랜덤포레스트는 각 트리가 결정한 정보 중 많은 것으로 결론을 낸다.
즉 사과 4표 오렌지 2표니까 사과라는 결론이 난다.
XGBOOST
이제 드디어 xgboost!
사실 xgboost는 유튜브 강의를 봐도 잘 모르겠었다...
그래서 지피티를 많이 활용해보았다.
지피티는 참 눈치 안보고 물어볼 수 있어서 좋다
이런식으로 노션에 각 개념과 궁금한 점을 모아서 정리하였다.(32장 나왔다..)
주로 모델의 동작 원리와 하이퍼파라미터가 무엇인지, 그 하이퍼파라미터가 모델생성에 있어서 어떤 영향을 미치는지를 중심으로 공부하였다.
이제 어느정도 알게되었으니 모델을 돌려보았다.
이런식으로 모델에 대한 간단한 설명과 오버피팅 여부를 알 수 있도록 테스트데이터와 트레이닝 데이터를 비교하여 올려두었다.
워크플로우는 위와 같았다.
ADABOOST
이것도 xgboost와 마찬가지로 진행하였다.
이런식으로 개념을 정리하고
위와 같은 워크플로우로 모델을 돌려보았다.
성능은 위와 같았다.
발표, 피드백
이런 질문을 영어로 받고 영어로 대답했다.
처음에는 좀 힘들었는데 나중엔 틀리면 머 어때 라는 생각으로 밀고나갔다. 그러다보니 좀 영어로 말하는 실력이 늘어난 것 같기도 하다.
우선 많은 ta님들이 우리 데이터는 밸런스드 데이터라 smote를 돌릴 때 주의하라고 하셨다. 40대 60정도였는데 당연히 언밸런스드일줄 알았었다..
그리고 전처리와 normailzation은 test data와 training data를 나눈 다음에 하는 것이 좋다고 하셨다. 왜냐하면 z-normailzation을 하면 test data와 training data를 합친 평균을 기준으로 정규화가 되는데 이는 unfair하기 때문
그리고 우리가 모델을 설정한 이유를 단순히 선행논문에서 사용했기 때문이라고 하였는데 이 모델이 왜 좋은지 더 알아보라고 하셨고, 모델을 평가하는데 다른 지표도 활용하는게 좋을것이라고 하셨다.
또한 ta님은 wating days라는 피쳐가 중요해보이는데 왜 제외했냐고 물어보셨다.
wating days 피쳐는 사용자가 예약을 하고 얼마만에 확정을 받았는지를 의미한다. 하지만 우리는 현재 호텔을 예약하는 사람 기준으로 이 예약이 취소될지 말지를 예측해야하기 때문에 예약하는 시점에서는 이를 확인하기 어렵다. 그래서 모델을 만드는데 제외했다.
이 부분을 설명해드리니 이해하신 것 같았다!
발보아파크
수요일에 다같이 발보아파크에 갔다.
너무 바쁜 시기였지만 그래도 기분전환은 된 것 같다.
파크를 간단하게 둘러보고 단체로 박물관을 구경했다.
한국 작가님의 작품도 있어서 신기했다.
아 그리고 학생증도 나왔다.
가끔 이름이 잘못 나오는 경우도 있던데
나는 제대로 나왔다 오예!
'UCSD Qualcomm Institute > AI Project' 카테고리의 다른 글
UCSD Qualcomm Institute AI Project 5주차 (1) | 2025.02.23 |
---|---|
UCSD Qualcomm Institute AI Project 3주차 (1) | 2025.02.08 |
UCSD Qualcomm Institute AI Project 2주차 (1) | 2025.01.28 |
UCSD Qualcomm Institute AI Project 1주차 (1) | 2025.01.28 |