빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색
1. 데이터 탐색 * 탐색적 자료분석(EDA) - EDA - 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것 - 데이터 탐색 도구 - 도표, 그래프, 요약통계 - 특징 1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호 2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 , 보통과 다른 특징, 왜 존재하는지 탐색 3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 , 데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등) 4. 시각화 (현시성)(Repres..
2023. 3. 16.
빅데이터분석 필기[2과목]빅데이터 탐색 1.데이터전처리
1. 데이터 전처리 * 데이터 전처리 - 데이터 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정, 반드시 거쳐야하는과정이고 반복적인 전처리 수행이 필요, 데이터 분석단계중 가장많은 시간이 소요됨 * 데이터 전처리 순서 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리 * 데이터 정제 - 분석전단계에 수행하며 결측값, 잡음 , 이상값 등을 제거하는 것을 말함 결측값(Missing Value): 누락된 값(입력 X, NA, NaN, NULL, inf, 999999) 처리 방법: 평균값, 중앙값, 최빈값 등의 중심 경향값 넣기, 분포 기반 처리 노이즈(Noise): 잘못 판단된 값(입력되지 않았는데, 입력되었다고 판단됨) 처리 방법: 일정 간격으로 이동하면서 평균값 대체, 일..
2023. 3. 16.
빅데이터분석필기[1과목] 빅데이터 분석 기획 - 3.데이터 수집 및 저장 계획
1.3 데이터수정및 저장계획 * 데이터구조적 분류 - 정형데이터, 비정형 데이터, 반정형 데이터 (실시간데이터는 존재형태로 분류) 1. 정형데이터 - 고정된 구조로 정해진 필드에 저장된 데이터를 의미 , 엑셀,csv, RDBMS 가 대표적 2. 비정형데이터(외부데이터) - 정해진 구조가 없는 데이터, 동영상, 소셜네트워크 댓글, 위치데이터등, 크기가 크고 복잡 3. 반정형데이터 - 데이터와 메타데이터, 스키마 등을 포함하는 데이터를 의미 , XML, HTML, JSON 이 대표적 * 데이터 수집방법 * 데이터 유형에 따른 수집방법 유형 정형 데이터 비정형 데이터 반정형 데이터 방법 -ETL: 추출, 변환, 적재 -FTP: 파일 송수신 프로토콜 -API: 실시간 데이터 수신 인터페이스 -DBToDB: 데이..
2023. 3. 14.