에이블 스쿨에서 처음으로 미니 프로젝트를 실시했습니다.
3일간 진행되고, 8명의 팀원이것이 하나가되었습니다.
주어진 작업을 해제하는 형식이었다.
강사는 KT실무팀 이호준 강사씨였다.
미니 프로젝트의 취지는 다음과 같습니다.
배운 이론과 실천 내용을 바탕으로 실제 사례에 적용해보자
문제 해결 능력을 상향하기 위해서입니다.
전에 배운 것이 데이터의 전처리였습니다.
1차 미니 프로젝트는 데이터 전처리 실습이었다.
목차
1. 강의 구성
2. 정리하는 내용
3. 해당 기간의 문제
4. 개인 회고
1. 강의 구성
매일 취급하고 있던 데이터는 다음과 같습니다.
서울시 모기예보제 정보
https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do
서울시 버스 정류장 위치 정보
https://data.seoul.go.kr/dataList/OA-15067/S/1/datasetView.do
서울시 지하철호선별역별 승하차 인원정보
https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do
서울 생활 이동 데이터: 2022.12.01~2022.12.31
https://data.seoul.go.kr/dataVisual/seoul/seoulLivingMigration.do
Fifa World Cup 2022: Complete Dataset
https://www.kaggle.com/datasets/die9origephit/fifa-world-cup-2022-complete-dataset
2. 정리하는 내용
전처리 프로세스
- 도메인 이해 : 기사 검색, Google, 논문 검색 등을 통해 도메인 이해를 선제해야합니다.
- 데이터 분석: 경량 분석을 의미하며 데이터 유형, 행, 열 등의 기본 정보를 파악하는 프로세스가 필요
- 데이터 전처리: 이전에 배운 전처리 방법으로 데이터 정제
공공 데이터 활용
공공 데이터를 제공하는 사이트는 다수 존재하는 것을 알고 있었지만,직접 취급해 보고 전처리해 본 것은 처음인 것 같다.
매우 재미있었습니다.
한 가지 팁이 정말 도움이 되었지만, 제공되는 데이터에 대한 정보를 보는 것이다.
전처리 시간을 크게 줄입니다.
주로 취급한 크롤링으로 취급한 데이터는
내가 분석하고 싶은 것에 대한 적절한 데이터를 손상시켜야 했기 때문에 도메인 지식이 전제였습니다.
한편, 공공 데이터에 대해서는 이해도가 저하될 가능성이 높다.
따라서 별도로 검색하고 찾기 전에 제공된 데이터 매뉴얼을 먼저 살펴보면
최소 행, 열에 대한 정보를 캡처할 수 있습니다.
3. 해당 기간의 문제
이슈라기보다 미니 프로젝트 진행 방법을 간략하게 설명하면,
오전 시간강사는 오늘 다루는 데이터에 대한 설명과 전처리를 보여줍니다.
그리고 개인 실습 시간을 조금 제공해 준다.
오후 시간팀원들끼리 줌으로 모여 주어진 태스크 10종류 정도의 질문지에 답을 추출해야 한다.
팀 프로젝트 자료를 제출해야 한다고 알기 시작하기 전에는 팀 멤버 전원이 어느 정도 긴장을 했지만,
팀 자료의 제출을 1차 미니 프로젝트가 아니었다.
각 클래스의 에이블러와 친해진다는 취지도 내포된 것 같다.
4. 개인 회고
공공 데이터를 취급하고 전처리 과정을 AZ 직접 해 본 것이 유의했다.
학부과정에서는 주로 어느 정도 제공되는 가이드를 따르면 됩니다만,
좀 더 자율성이 주어지므로 보다 다양하게 분석해 볼 수 있었다.
기계 학습, 딥 러닝에 들어가기 전에
전처리 부분을 제대로 익히기 위해 집중되어 왔다.
대부분의 코드를 보면 기계 학습과 딥 러닝 코드는 비슷한 것을 가져옵니다.
한편, 전처리가 어떻게 작동하는지에 따라 완전히 다른 결과가 나온다.
이제 지도 교수가 말한 서둘러 있지 않다는 조언이 닿는다.
이론이 완벽하지 않으면 배움의 속도가 어려울 것 같다.
특히 텍스트 분석에서는 더욱 그렇다.
텍스트의 비정형성이 높기 때문에 그만큼 전처리 과정이 더욱 중요해진다.
전처리 이론을 확실히 가지고 가고, 이것을 활용할 수 있을 정도로 끓여야 한다.