프로그램_시스템/데이터

[ADsP] 모르는 개념 정리

9191 2026. 6. 19. 12:16

문제 풀이 중 기억하지 못하거나, 헷갈림, 잘 모르겠는 개념을 따로 정리한 글.


빅데이터 분석은 소량의 데이터로도 가능하긴 하다.

 

 

빅데이터 위기 요인과 해결 방법

  • 사생활 침해 → 동의제를 책임제로 전환
  • 책임 훼손의 원칙 → 결과 기반 책임 원칙
  • 데이터의 오용 → 알고리즘 허용

 

 

산업 분야 데이터 분석 애플리케이션의 사례에서 트레이딩, 공급 및 수요 예측은 에너지에 속한다.

 

 

  • 표출화 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
  • 공통화 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것
  • 연결화 : 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것
  • 내면화 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득

 

 

알고리즈미스트는 데이터 사이언티스트, 분석가, 인공지능 전문가 등이 만들어낸 알고리즘으로 인해 피해를 본 사람(기업)을 구제하기 위해 생겨난 직업군

 

 

유형 분석대상 분석방법 주요 특징
최적화 (Optimization) 명확 명확 기존 모델을 개선하거나 주어진 문제를 가장 효율적으로 해결하는 유형 (예: 공정 효율화, 물류 경로 최적화)
통찰 (Insight) 명확 불명 대상은 알지만 분석 방법을 몰라 데이터를 탐색하며 규칙과 원인을 찾는 유형 (예: 고객 이탈 요인 분석)
솔루션 (Solution) 불명 명확 분석 대상과 방법 모두 몰라 데이터를 기반으로 새로운 패턴과 가치를 찾아내는 유형 (예: 신규 고객 세분화 모델 개발)
발견 (Discovery) 불명 불명 대상이 무엇인지(문제의 원인)는 모르지만, 적용할 분석 기법은 정해져 있는 유형 (예: 새로운 범죄 예측 패턴 도출)

 

 

분석 과제의 주요 5가지 특성 관리 영역

  • Data Size(데이터 크기)
  • Data Complexity(데이터 복잡성)
  • Speed(속도)
  • Analytic Complexity(분석 복잡성)
  • Accuracy & Precision(정확도 및 정밀도)

 

 

  • 상향식 접근 방식: 문제에 대한 정의가 어려운 경우에 데이터를 바탕으로 문제를 지속적으로 개선해 나가는 접근 방식
  • 하향식 접근 방식: 분석 과제가 정해져 있는 상태에서 과제를 체계적으로 분석하는 방법

 

 

  • 데이터 마이닝: 다양한 수학 알고리즘을 이용해 DB의 데이터로부터 의미 있는 정보를 찾아내는 방법이다. 데이터 마이닝 방법론의 종류로는 SEMMA, KDD, CRISP-DM 등이 있다.
  • 데이터 크롤링: 컴퓨터 프로그램(크롤러)이 인터넷 웹페이지를 자동으로 돌아다니며 필요한 정보를 수집하고 분류하여 저장하는 기술
  • 데이터 스크래핑: 웹사이트에서 원하는 특정 데이터를 자동으로 추출해 엑셀이나 데이터베이스 같은 구조화된 형식으로 저장하는 기술
  • 데이터 전처리: 수집한 원시 데이터를 머신러닝 모델 훈련이나 데이터 분석에 적합한 형태로 정리하고 변환하는 과정
    • 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치
    • 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성
    • 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임
    • 데이터 변환 : 정규화, 표준화 등의 작업 수행, 데이터의 형식 변환

 

 

분석 조직 구조 유형에는 집중형, 기능형, 분산형이 있다.

 

 

프로젝트 위험 대응 방법으로는 회피, 전이, 완화, 수용이 있다.

 

 

정확도(Accuracy)는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고

정밀도(Precision)은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것

 

 

데이터 거버넌스의 구성요소에는 원칙, 조직, 절차가 있다.

 

 

확률밀도함수는 연속형 확률변수의 확률분포를 의미한다.

 

 

자료의 척도

  • 명목 척도: 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적. 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함.
  • 서열(순위) 척도: 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음. 항목들 간에 서열이나 순위가 존재.
  • 등간 척도: 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함. 절대 0점이 존재하지 않음.
  • 비율 척도: 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도

 

 

R에서 숫자 및 문자를 그냥 합쳐 넣으면 문자형 벡터가 됨.

 

 

통계적 추정

샘플을 랜덤하게 추출해서 95% 신뢰구간을 구하면, 스무번 중 한 번은 전체 평균이 벗어날 수 있다는 의미이다. 스무번 중 한 번이란 확률적으로는 5%이고, 이를 유의수준이라고 표현한다.

 

 

검정 통계량

F 분포는 두 모집단 간 분산의 동일성 검정에 사용한다.

 

 

이상값 검색 기법

ESD는 평균으로부터 표준편차의 K배보다 떨어진 값을 이상치로 판별하는 방법이다.

 

 

분석 기법

  • 다중 회귀 분석: 여러 개의 독립 변수의 값이 변화함에 따라 종속 변수의 값이 어떻게 변화하는가를 보여주는 최적의 회귀식을 도출하는 기법
  • 판별 분석: 분류된 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수둘로 이루어진 최적 판별식을 찾기 위한 통계적 기법
  • 요인 분석: 수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법
  • 주성분 분석: 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환. 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법.

 

 

사분위수는 범위(InterQuartile Range, IQR) = 3사분위수 - 1사분위수, IQR은 자료들의 중간 50%(75%-25%)에 해당되는 자료들의 범위이다.

 

 

표본특성이 2개 이상일 때의 비모수 검정은 부호 검정, 크루스칼-왈리스 검정, 맨-휘트니 검정, 카이스퀘어 독립성 검정이 있다.

 

 

포아송 분포는 단위 시간 내에 사건이 몇 번 발생할 것인지를 나타내는 이산형 확률분포 중 하나이다.

 

 

신경망 모델 학습 모드에는 온라인, 확률적, 배치 학습 모드가 있다.

  • 온라인 학습 모드: 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트
  • 확률적 학습 모드: 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트
  • 배치 학습 모드: 전체 데이터를 동시에 입력하여 학습

 

 

활성화 함수(Activation Function)는 입력으로부터 전달받은 값을 연산한 결과를 내보낼 때 사용하는 함수이다. 계단 함수, 부호 함수, 시그모이드함수, softmax 함수, ReLU 함수, tanh 함수 등이 있다.

 

 

소프트맥스 함수는 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수이다.

 

 

연관 분석

  • 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
  • 너무 세부화된 품목을 가지고 연관규칙을 찾으려 하면 의미없는 분석 결과가 나올 수도 있다.
  • 향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 관계로 품목 간에 연관성이 없다.
  • 시차 연관분석은 인과관계 분석이 가능하지 않다.

 

 

오분류표

F1 score = 2 x precision x recall / (precision + recall)

정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표

 

 

분류를 위해 사용되는 데이터마이닝 기법으로서 로지스틱 회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, K 최근접 이웃 알고리즘 등이 해당된다.

로지스틱 회귀 모형은 반응변수가 범주형인 경우에 적용되는 회귀분석 모형이다.