[빅분기] 빅데이터분석기사 4장 정리본

Date:

카테고리:

태그:

Introduction
빅분기 실기 문제를 바로 접하기 전에, 우선 단답형 정리본을 한 번 훑고 들어가는 것이 더 중요하다고 느꼈다.
(사실 문제 풀다가 이건 아닌 것 같아서 정리본 봐야겠다는 생각이 들었다)

군집분석 평가 방법

외부평가
자카드계수 (두 데이터 군집간의 유사도 게산)
분류 모형 평가 방법 응용 (혼돈행렬, ROC)

내부평가
단순 계산법
군집간의 거리를 계산 (유클리드, 맨해튼, 민코스피스키, 표준화, 마할라노비스, 캔버라, 체비셰프)
엘보메소드

분류분석 평가지표

혼돈행렬 평가 지표

정확도
Accuracy
tp + tn / tp + tn + fP + fn
전체 데이터에서 올바르게 분류한 데이터의 비율

정밀도
Precision
tp / tp + fp
Positive로 예측한 것 중 실제 값이 Postive인 비율

재현율
Recall, 민감도(Sensitivity), 참 긍정률(TPR)
tp / tp + fn
실제 Positive인 값 중 positive로 분류한 비율

특이도
Specificity, 참부정율(TNR)
tn / tn + fp
실제 Negative인 값 중 Negative로 분류한 비율

거짓긍정률
FPR
1 - (tn / tn + fp) = fp / tn + fp
실제 Negative인 값 중 Positive로 잘못 분류한 비율
1 - Specitificity

`F1-Score`
2 X Precision X Recall / Precision + Recall
정밀도와 재현율의 조화 평균.

ROC

ROC곡선은 임계값을 다양하게 조절해 분류 모형의 성능을 비교할 수 있는 그래프.
TPR을 y, FPR을 x축에 두어 시각화.
면적이 넓을 수로 좋음

회귀 평가지표

지표 오차상쇄처리 이상치
MAE 절대값 유리
MSE 제곱 불리
RMSE 제곱 불리
MAPE 절대값 유리

교차검증

교차검증은 데이터를 나누고 학습하는 과정을 여러 차례 반복함으로써 일반화 성능을 평가
K폴드 교차검증 : 데이터를 K개의 폴드 파티션으로 나누어 k-1을 학습, 나머지를 검증용으로 사용, K번 학습하여 얻은 결과의 평균을 사용
홀드아웃 : 가장 단순한 종류의 교차검증 (train-test-split)
리브-P-아웃 : P개의 관측치만 검증용으로 사용, 나머지 관측치는 모두 모형을 학습하는데 사용함.

모수 검정과 비모수 검정 비교할

모수 검정 : 가정된 분포의 모수에 대해 가설 설정
표본평균, 표본 분산
검정력 : 강함
비모수 검정 : 분포의 형태에 대한 가설 설정
순위, 부호
검정력 : 약함

적합도 검정

카이제곱검정 : 범주형 데이터를 대상으로 관측된 값들의 빈도수기대 빈도수가 의미있게 다른지 비교
샤피로 윌크 검정 : 데이터가 정규분포로부터 추출된 표본인지
콜모고로프 스미르노프 : 데이터의 누적분포함수와 임의 분포의 누적분포함 수 간의 최대차이 D를 검정통계량
Q-Q플롯 : 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법

과적합을 방지하는 방법

학습데이터 확보, 교차검증, 피처수 감소, 정규화

매개변수 최적화와 경사하강법

경사하강법 : 현재 위치에서 기울기를 구해 함수의 값이 급격히 감소하는 방향으로 매개 변수 값을 조정하는 것을 반복, 전역 최솟값을 찾아 나가는 것.
확률적 경사하강법 : 무작위로 샘플리된 하나의 샘플로 그레이디언트 계산, 매개변수를 업데이트
미니배치확률적경사하강법 : 한번 매개변수를 업데이트 할 때 마다 전체 데이터셋을 사용하는 방식
모멘텀 : SGD가 가는 방향에 가속도를 부여
AdaGrad : 매개변수별 적응 학습률을 사용하는 알고리즘
Adam : 오래된 기울기의 영향력을 지수적으로 줄여 RMSprop에 모멘텀을 더함

앙상블 기법

보팅 : 서로 다른 알고리즘을 두고 최종 예측 결과를 결정함.
배깅 : 간단하고 강력한 앙상블 기법
랜덤포레스트 : 의사결정 트리를 개별 모형으로 사용하는 모형 결합
부스팅 : 여러 개의 연결된 약한 분석 모형을 순차적으로 학습

BSC 성과관리

고객, 프로세스, 학습과 성장의 관점을 추가해 다각적으로 성과관리

KPI 빅데이터 활용

영업 : 타깃 세그멘테이션, 마케팅 영역 데이터 분석 활용
사기 : 보험사기 방지, 코로나 경로 분석
비즈니스 : 생산 효율화, 공정관리 업무 효율 향상

시각화 분류

데이터 시각화 : 시각적 표현, 속성 변수 단위 포함 정보, 명확하고 정확하게 커뮤니케이션 목적, 데이터간의 연결과 그루핑 표현, 마인드맵, 의사결정트리, 통계 그래픽
정보 시각화 : 인터넷 네트워크 관계 등 집합에 대한 시각적 표현 연구, 대규모 비수량 정보 시각적 표현, 데이터 시각화보다 한 단계 더 정보 형태로 가공, 트리맵, 분기도, 수지도, 히트맵 등

시각화 종류

그래프, 도표, 이미지, 인포그래픽, 히스토그램, 상자그림, 산점도 등

시각화 프로세스

구조화 > 시각화 > 시각표현단계

종류 주요시각화도구
시각 막대그래프, 점, 산점도, 선, 계단식, 영역
공간 지도, 등치선도,버블플롯, 도트플롯
분포 파이,도넛,트리맵,누적막대/연속그래프
관계 산점도,버블,히스토그램,밀도
비교 막대,플로팅바,히트맵,체르노프,스타,평행

시각화 단계

특성화 > 추상화 > 상호작용 > 개발

✏️ 개인 공부 기록용 블로그입니다! 틀린 부분이 있으면 언제든지 댓글로 알려주세요!
👍 항상 감사합니다!

BigData 카테고리 내 다른 글 보러가기

댓글 남기기