[ADsP] 모르는 개념 정리

9191

ʚ♡ɞ

Today :
Yesterday :

프로그램_시스템/데이터

[ADsP] 모르는 개념 정리

9191 2026. 6. 19. 12:16

문제 풀이 중 기억하지 못하거나, 헷갈림, 잘 모르겠는 개념을 따로 정리한 글.

빅데이터 분석은 소량의 데이터로도 가능하긴 하다.

빅데이터 위기 요인과 해결 방법

사생활 침해 → 동의제를 책임제로 전환
책임 훼손의 원칙 → 결과 기반 책임 원칙
데이터의 오용 → 알고리즘 허용

산업 분야 데이터 분석 애플리케이션의 사례에서 트레이딩, 공급 및 수요 예측은 에너지에 속한다.

표출화 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
공통화 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것
연결화 : 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것
내면화 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득

알고리즈미스트는 데이터 사이언티스트, 분석가, 인공지능 전문가 등이 만들어낸 알고리즘으로 인해 피해를 본 사람(기업)을 구제하기 위해 생겨난 직업군

유형	분석대상	분석방법	주요 특징
최적화 (Optimization)	명확	명확	기존 모델을 개선하거나 주어진 문제를 가장 효율적으로 해결하는 유형 (예: 공정 효율화, 물류 경로 최적화)
통찰 (Insight)	명확	불명	대상은 알지만 분석 방법을 몰라 데이터를 탐색하며 규칙과 원인을 찾는 유형 (예: 고객 이탈 요인 분석)
솔루션 (Solution)	불명	명확	분석 대상과 방법 모두 몰라 데이터를 기반으로 새로운 패턴과 가치를 찾아내는 유형 (예: 신규 고객 세분화 모델 개발)
발견 (Discovery)	불명	불명	대상이 무엇인지(문제의 원인)는 모르지만, 적용할 분석 기법은 정해져 있는 유형 (예: 새로운 범죄 예측 패턴 도출)

분석 과제의 주요 5가지 특성 관리 영역

Data Size(데이터 크기)
Data Complexity(데이터 복잡성)
Speed(속도)
Analytic Complexity(분석 복잡성)
Accuracy & Precision(정확도 및 정밀도)

상향식 접근 방식: 문제에 대한 정의가 어려운 경우에 데이터를 바탕으로 문제를 지속적으로 개선해 나가는 접근 방식
하향식 접근 방식: 분석 과제가 정해져 있는 상태에서 과제를 체계적으로 분석하는 방법

데이터 마이닝: 다양한 수학 알고리즘을 이용해 DB의 데이터로부터 의미 있는 정보를 찾아내는 방법이다. 데이터 마이닝 방법론의 종류로는 SEMMA, KDD, CRISP-DM 등이 있다.
데이터 크롤링: 컴퓨터 프로그램(크롤러)이 인터넷 웹페이지를 자동으로 돌아다니며 필요한 정보를 수집하고 분류하여 저장하는 기술
데이터 스크래핑: 웹사이트에서 원하는 특정 데이터를 자동으로 추출해 엑셀이나 데이터베이스 같은 구조화된 형식으로 저장하는 기술
데이터 전처리: 수집한 원시 데이터를 머신러닝 모델 훈련이나 데이터 분석에 적합한 형태로 정리하고 변환하는 과정
- 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치
- 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성
- 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임
- 데이터 변환 : 정규화, 표준화 등의 작업 수행, 데이터의 형식 변환

분석 조직 구조 유형에는 집중형, 기능형, 분산형이 있다.

프로젝트 위험 대응 방법으로는 회피, 전이, 완화, 수용이 있다.

정확도(Accuracy)는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고

정밀도(Precision)은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것

데이터 거버넌스의 구성요소에는 원칙, 조직, 절차가 있다.

확률밀도함수는 연속형 확률변수의 확률분포를 의미한다.

자료의 척도

명목 척도: 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적. 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함.
서열(순위) 척도: 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음. 항목들 간에 서열이나 순위가 존재.
등간 척도: 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함. 절대 0점이 존재하지 않음.
비율 척도: 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도

R에서 숫자 및 문자를 그냥 합쳐 넣으면 문자형 벡터가 됨.

통계적 추정

샘플을 랜덤하게 추출해서 95% 신뢰구간을 구하면, 스무번 중 한 번은 전체 평균이 벗어날 수 있다는 의미이다. 스무번 중 한 번이란 확률적으로는 5%이고, 이를 유의수준이라고 표현한다.

검정 통계량

F 분포는 두 모집단 간 분산의 동일성 검정에 사용한다.

이상값 검색 기법

ESD는 평균으로부터 표준편차의 K배보다 떨어진 값을 이상치로 판별하는 방법이다.

분석 기법

다중 회귀 분석: 여러 개의 독립 변수의 값이 변화함에 따라 종속 변수의 값이 어떻게 변화하는가를 보여주는 최적의 회귀식을 도출하는 기법
판별 분석: 분류된 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수둘로 이루어진 최적 판별식을 찾기 위한 통계적 기법
요인 분석: 수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법
주성분 분석: 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환. 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법.

사분위수는 범위(InterQuartile Range, IQR) = 3사분위수 - 1사분위수, IQR은 자료들의 중간 50%(75%-25%)에 해당되는 자료들의 범위이다.

표본특성이 2개 이상일 때의 비모수 검정은 부호 검정, 크루스칼-왈리스 검정, 맨-휘트니 검정, 카이스퀘어 독립성 검정이 있다.

포아송 분포는 단위 시간 내에 사건이 몇 번 발생할 것인지를 나타내는 이산형 확률분포 중 하나이다.

신경망 모델 학습 모드에는 온라인, 확률적, 배치 학습 모드가 있다.

온라인 학습 모드: 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트
확률적 학습 모드: 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트
배치 학습 모드: 전체 데이터를 동시에 입력하여 학습

활성화 함수(Activation Function)는 입력으로부터 전달받은 값을 연산한 결과를 내보낼 때 사용하는 함수이다. 계단 함수, 부호 함수, 시그모이드함수, softmax 함수, ReLU 함수, tanh 함수 등이 있다.

소프트맥스 함수는 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수이다.

연관 분석

품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
너무 세부화된 품목을 가지고 연관규칙을 찾으려 하면 의미없는 분석 결과가 나올 수도 있다.
향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 관계로 품목 간에 연관성이 없다.
시차 연관분석은 인과관계 분석이 가능하지 않다.

오분류표

F1 score = 2 x precision x recall / (precision + recall)

정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표

분류를 위해 사용되는 데이터마이닝 기법으로서 로지스틱 회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, K 최근접 이웃 알고리즘 등이 해당된다.

로지스틱 회귀 모형은 반응변수가 범주형인 경우에 적용되는 회귀분석 모형이다.

현재글[ADsP] 모르는 개념 정리

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

9191

[ADsP] 모르는 개념 정리

'프로그램_시스템/데이터'의 다른글

티스토리툴바

[ADsP] 모르는 개념 정리

'프로그램_시스템/데이터'의 다른글

관련글

티스토리툴바