분석 기획이란?
실제 분석하기 전, 분석을 할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 작업하는 것.
어떤 목표를 달성하기 위해, 어떤 데이터를 가지고, 어떤 방식으로 수행할지 계획을 수립하는 사전 작업!
분석 대상과 방법에 따른 4가지 분석 주제

아는 것과 모르는 것을 따져 어떤 분석 주제가 필요한지 알아내는 표
목표 시점별 분석 기획
| 당면한 분석 주제 해결 | 지속적 분석 문화 내제화 | |
| 1차 목표 | 빠르게 테스트 | 정확히 배치 |
| 과제 유형 | 빠르게 해결 | 긴 기간으로 확인 |
| 접근 방식 | 문제 해결 | 문제 정의 |
분석 기획 시 고려사항
1. 가용 데이터 고려
- 분석의 기본인 데이터가 확보될 수 있는지 고려 필요
- 데이터 확보가 우선이고, 그 다음 데이터 유형에 따라 분석 방법이 달라 데이터 유형 분석을 선행해야 함.
2. 적절한 활용 방안과 유스케이스 탐색
- 기존에 잘 구현되어있는 유사 분석 시나리오 및 솔루션을 최대한 활용하자
3. 장애요소에 대한 사전 계획 수립
- 분석할 때 발생 가능한 장애요소에 대한 사전 계획 수립이 필요
- 일회성 분석이 아닌, 조직의 역량으로 내재화하기 위해서 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리를 고려해야 함
데이터의 유형
| 유형 | 정형 데이터 | 반정형 데이터 | 비정형 데이터 |
| 특징 | 형태가 존재하며 연산이 가능함 | 형태가 있지만 연산 불가능, 주로 파일 형태, 분석을 위해선 메타 정보 필요 | 형태도 없고 연산 불가능, 데이터 자체로 분석 불가 |
| 예시 | 관계형 데이터베이스, 스프레드시트, CSV | XML, HTML, JSON 등 | 소셜데이터, 영상, 이미지, 텍스트 등 |
분석 방법론
상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어있다.
방해요소 3가지
- 고정관념
- 편향된 생각
- 프레이밍 효과: 동일한 사건이나 상황에서 개인의 판단이나 선택이 달라질 수 있는 현상

분석 방법론의 생성 과정
기본적으로 개인의 암묵지가 조직의 형식지로 발전(형식화) 체계화하여 문서로 최적화된 형식지로 방법론이 되어 다시 개인에게 전파되어 내재화 과정을 통해 암묵지가 된다.
분석 방법론이 적용되는 모델
1. 폭포수 모델
- 단계별로 진행
- 이전 단계가 완료되어야 이후 진행 가능. 하향식 방향
- 문제 및 개선사항이 발견되면 바로 이전 단계로 돌아가 피드백 과정 수행 가능
2. 프로토타입 모델
- 점진적으로 시스템 개발
- 고객의 요구를 이해하지 못하면 프로토타입 적용
- 일부분을 개발해 제공하여 요구를 분석, 정당성 점검, 성능 평가해 개선 작업
3. 나선형 모델
- 반복해 점진적 개발
- 프로토타입과 유사하지만 사용자 요구보다 위험요소 사전 제거 초점
- 처음 시도하는 프로젝트에는 용이하지만 관리 체계를 효과적으로 갖춰지지 못하면 복잡도 상승
4. 계층적 프로세스 모델
- 일반적으로 다 이걸로 구성
- 최상 몇 단계 구성, 하나의 단계 안에 여러 개 테스크, 하나의 테스크 안에 여러 개의 스텝(보통 5단계)
- 스텝은 WBS1 워크패키지에 해당, '입력 자료, 처리 및 도구, 출력'으로 구성된 단위 프로세스

전통적인 분석 방법론 두 가지
KDD 분석 방법론
데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
| 1단계 데이터셋 선택 | 분석 대상의 비즈니스 도메인 이해, 프로젝트 목표 설정 DB에서 분석에 필요한 데이터 선택(타겟 데이터 생성) |
| 2단계 데이터 전처리 | 추출된 분석 대상 데이터 셋에 포함된 잡음, 이상치, 결측치를 파악해 제거하거나 의미 있는 데이터로 재가공 추가 요구 데이터 셋이 있으면 데이터 선택 프로세스 재실행 |
| 3단계 데이터 변환 | 정제된 데이터에 분석 목적에 맞는 변수 생성, 선택해 데이터 차원 축소 이후 프로세스 진행을 위해 데이터 셋 변경 |
| 4단계 데이터 마이닝 | 학습용 데이터로 분석 목적에 맞는 데이터 마이닝 기법 선택, 적절한 알고리즘으로 데이터 마이닝 작업 실행 필요에 따라 데이터 전처리 프로세스 추가 실행 |
| 5단계 해석과 평가 | 데이터 마이닝 결과 해석과 평가, 분석 목적과의 일치성 확인 필요한 지식을 업무에 활용하기 위한 방안 마련 필요에 따라 1단계~4단계 반복 수행 |
CRISP-DM 분석 방법론
KDD보다 더 세분화. 단반향이 아닌, 단계 간 피드백으로 단계별 완성도↑

| 1단계 비즈니스(업무) 이해 | 업무 목적, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
| 2단계 데이터 이해 | 초기 데이터 수집, 데이터 기술 분석, 탐색, 품질 확인 |
| 3단계 데이터 준비 | 분석용 데이터 셋 선택 후 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 |
| 4단계 모델링 | 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
| 5단계 평가 | 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
| 6단계 전개 | 전개 계획 수립, 모니터링 및 유지보수 계획 수립, 프로젝트 종료 보고서, 프로젝트 리뷰 |
빅데이터 분석 방법론
계층적 프로세스 모델로서 단계, 태스크, 스텝 3계층 레벨과 5단계로 구성되어 있다.
| 분석 기획 | 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립 |
| 데이터 준비 | 데이터 수집 및 정합성 체크 |
| 데이터 분석 | 모델링 및 모델 평가 |
| 시스템 구현2 | 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현 |
| 평가 및 전개 | 프로젝트 평가 및 보고 |
분석 기획
태스크
- 비즈니스 이해 및 범위 설정(SOW 작성)
- 프로젝트 정의 및 계획 수립(WBS 작성)
- 프로젝트 위험계획 수립(회피, 전이, 완화, 수용)
데이터 준비
태스크
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
데이터 분석
태스크
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
시스템 구성
태스크
- 설계 및 구현
- 시스템 테스트 및 운영
평가 및 전개
태스크
- 모델 발전 계획 수립
- 프로젝트 평가 및 보고
분석 과제 발굴

일반적으론 하향식, 빅데이터 등장 이후로는 상향식. 두 방식이 상호 보완 관계일 때 분석의 가치를 제일 높일 수 있다.
하향식 접근법
문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 평가
1. 문제 탐색 단계
빠짐없이 문제를 도출하고 식별하는 게 중요
세부적 구현 및 솔루션보다는 해결함으로써 발생하는 가치에 중점
1. 비즈니스 모델 기반 문제 탐색: 업무, 제품, 고객 단위로 문제를 발굴하고 규제와 감사 영역과 지원 인프라 두 가지 영역에 대한 기회를 추가로 도출
2. 분석 기회 발굴의 범위 확장
- 거시적 관점의 메가트랜드: 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대 관점: 대체제, 경젱자, 신규 진입자
- 시장의 니즈 탐색 관점: 고객, 채널, 영향자
- 역량의 재해석 관점: 내부 역량, 파트너와 네트워크
3. 외부 참조 모델 기반 문제 탐색 및 유즈케이스 정의
2. 문제 정의 단계
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
3. 해결 방안 탐색 단계
데이터 분석 문제를 해결하기 위한 방안을 모색

4. 타당성 검토 단계
탐색한 해결 방법이 타당한지 경제적·데이터 및 기술적 타당성 검토
상향식 접근법
디자인 사고
공감 → 정의 → 아이디어 → 프로토타입 → 테스트
- 지도학습: 명확한 목적으로 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것
- 비지도학습: 정답 없는 학습을 시키는 것. 대부분 상향식은 이 방법을 채택.
시행착오를 통한 문제 해결(프로토타이핑)
사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고, 데이터 소스도 파악하기 어려울 때 일단 분석을 하고 결과를 확인하며 반복적으로 개선하는 방법.
분석 프로젝트의 특성
데이터의 양, 데이터 복잡도, 분석의 속도, 분석 복잡도, 정확도와 정밀도를 고려해 관리를 해야 한다.
인사이트
기존 데이터를 분석하는 방식과, 빅데이터로 인해 많은 데이터를 통해 분석하는 방식이 크게 다른 느낌이 들어 흥미로웠다.
이론으로만 학습되는 느낌이라서 정확히 이해했는지는 스스로 잘 모르겠다.
자격증 따는 목적이라 그런지 정말, 전부 이론인데.
머리가 너무 아파요 튜터님.
확실히 실습 파트가 있어야지 더 쉽게 이해할 수 있을 것 같은 느낌이다. 실습 툴이라도 알려주면 좋겠습니다...
연습 문제도 있긴 한데, 이론에 대해 맞추는 것뿐이라서 복습(암기) 효과는 있지만 이해하는데에는……
이해하는데는 난이도가 높진 않지만 한번에 많은 양의 정보값이 들어오는 것 같습니다요.