문제 풀이 중 기억하지 못하거나, 헷갈림, 잘 모르겠는 개념을 따로 정리한 글.
빅데이터 분석은 소량의 데이터로도 가능하긴 하다.
빅데이터 위기 요인과 해결 방법
- 사생활 침해 → 동의제를 책임제로 전환
- 책임 훼손의 원칙 → 결과 기반 책임 원칙
- 데이터의 오용 → 알고리즘 허용
산업 분야 데이터 분석 애플리케이션의 사례에서 트레이딩, 공급 및 수요 예측은 에너지에 속한다.
- 표출화 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
- 공통화 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것
- 연결화 : 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것
- 내면화 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득
알고리즈미스트는 데이터 사이언티스트, 분석가, 인공지능 전문가 등이 만들어낸 알고리즘으로 인해 피해를 본 사람(기업)을 구제하기 위해 생겨난 직업군
| 유형 | 분석대상 | 분석방법 | 주요 특징 |
| 최적화 (Optimization) | 명확 | 명확 | 기존 모델을 개선하거나 주어진 문제를 가장 효율적으로 해결하는 유형 (예: 공정 효율화, 물류 경로 최적화) |
| 통찰 (Insight) | 명확 | 불명 | 대상은 알지만 분석 방법을 몰라 데이터를 탐색하며 규칙과 원인을 찾는 유형 (예: 고객 이탈 요인 분석) |
| 솔루션 (Solution) | 불명 | 명확 | 분석 대상과 방법 모두 몰라 데이터를 기반으로 새로운 패턴과 가치를 찾아내는 유형 (예: 신규 고객 세분화 모델 개발) |
| 발견 (Discovery) | 불명 | 불명 | 대상이 무엇인지(문제의 원인)는 모르지만, 적용할 분석 기법은 정해져 있는 유형 (예: 새로운 범죄 예측 패턴 도출) |
분석 과제의 주요 5가지 특성 관리 영역
- Data Size(데이터 크기)
- Data Complexity(데이터 복잡성)
- Speed(속도)
- Analytic Complexity(분석 복잡성)
- Accuracy & Precision(정확도 및 정밀도)
- 상향식 접근 방식: 문제에 대한 정의가 어려운 경우에 데이터를 바탕으로 문제를 지속적으로 개선해 나가는 접근 방식
- 하향식 접근 방식: 분석 과제가 정해져 있는 상태에서 과제를 체계적으로 분석하는 방법
- 데이터 마이닝: 다양한 수학 알고리즘을 이용해 DB의 데이터로부터 의미 있는 정보를 찾아내는 방법이다. 데이터 마이닝 방법론의 종류로는 SEMMA, KDD, CRISP-DM 등이 있다.
- 데이터 크롤링: 컴퓨터 프로그램(크롤러)이 인터넷 웹페이지를 자동으로 돌아다니며 필요한 정보를 수집하고 분류하여 저장하는 기술
- 데이터 스크래핑: 웹사이트에서 원하는 특정 데이터를 자동으로 추출해 엑셀이나 데이터베이스 같은 구조화된 형식으로 저장하는 기술
- 데이터 전처리: 수집한 원시 데이터를 머신러닝 모델 훈련이나 데이터 분석에 적합한 형태로 정리하고 변환하는 과정
- 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치
- 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성
- 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임
- 데이터 변환 : 정규화, 표준화 등의 작업 수행, 데이터의 형식 변환
분석 조직 구조 유형에는 집중형, 기능형, 분산형이 있다.
프로젝트 위험 대응 방법으로는 회피, 전이, 완화, 수용이 있다.
정확도(Accuracy)는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고
정밀도(Precision)은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것
데이터 거버넌스의 구성요소에는 원칙, 조직, 절차가 있다.
확률밀도함수는 연속형 확률변수의 확률분포를 의미한다.
자료의 척도
- 명목 척도: 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적. 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함.
- 서열(순위) 척도: 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음. 항목들 간에 서열이나 순위가 존재.
- 등간 척도: 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함. 절대 0점이 존재하지 않음.
- 비율 척도: 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
R에서 숫자 및 문자를 그냥 합쳐 넣으면 문자형 벡터가 됨.
통계적 추정
샘플을 랜덤하게 추출해서 95% 신뢰구간을 구하면, 스무번 중 한 번은 전체 평균이 벗어날 수 있다는 의미이다. 스무번 중 한 번이란 확률적으로는 5%이고, 이를 유의수준이라고 표현한다.
검정 통계량
F 분포는 두 모집단 간 분산의 동일성 검정에 사용한다.
이상값 검색 기법
ESD는 평균으로부터 표준편차의 K배보다 떨어진 값을 이상치로 판별하는 방법이다.
분석 기법
- 다중 회귀 분석: 여러 개의 독립 변수의 값이 변화함에 따라 종속 변수의 값이 어떻게 변화하는가를 보여주는 최적의 회귀식을 도출하는 기법
- 판별 분석: 분류된 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수둘로 이루어진 최적 판별식을 찾기 위한 통계적 기법
- 요인 분석: 수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법
- 주성분 분석: 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환. 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법.
사분위수는 범위(InterQuartile Range, IQR) = 3사분위수 - 1사분위수, IQR은 자료들의 중간 50%(75%-25%)에 해당되는 자료들의 범위이다.
표본특성이 2개 이상일 때의 비모수 검정은 부호 검정, 크루스칼-왈리스 검정, 맨-휘트니 검정, 카이스퀘어 독립성 검정이 있다.
포아송 분포는 단위 시간 내에 사건이 몇 번 발생할 것인지를 나타내는 이산형 확률분포 중 하나이다.
신경망 모델 학습 모드에는 온라인, 확률적, 배치 학습 모드가 있다.
- 온라인 학습 모드: 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트
- 확률적 학습 모드: 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트
- 배치 학습 모드: 전체 데이터를 동시에 입력하여 학습
활성화 함수(Activation Function)는 입력으로부터 전달받은 값을 연산한 결과를 내보낼 때 사용하는 함수이다. 계단 함수, 부호 함수, 시그모이드함수, softmax 함수, ReLU 함수, tanh 함수 등이 있다.
소프트맥스 함수는 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수이다.
연관 분석
- 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
- 너무 세부화된 품목을 가지고 연관규칙을 찾으려 하면 의미없는 분석 결과가 나올 수도 있다.
- 향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 관계로 품목 간에 연관성이 없다.
- 시차 연관분석은 인과관계 분석이 가능하지 않다.
오분류표
F1 score = 2 x precision x recall / (precision + recall)
정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표
분류를 위해 사용되는 데이터마이닝 기법으로서 로지스틱 회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, K 최근접 이웃 알고리즘 등이 해당된다.
로지스틱 회귀 모형은 반응변수가 범주형인 경우에 적용되는 회귀분석 모형이다.