일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Stack
- 코딩테스트
- programmers
- collections
- Queue
- CodingTest
- coding
- lv4
- sql
- 코테
- counter
- import re
- itertools
- 프로그래머스
- coding test
- join
- BFS
- level4
- time complexity
- Level2
- 조합
- 완전탐색
- lambda
- 연습문제
- python
- 파이썬
- 시간복잡도
- 데이터분석
- 코딩
- mysql
- Today
- Total
ror_coding
[ADsP 오답] 데이터분석 준전문가 오답 정리 본문
[ 1 과목 ]
1. 빅데이터의 성공 사례 중 구글의 자동번역 시스템은 빅데이터의 어떤 특징에 해당?
- 규모 (Volume) => 방대한 데이터를 기반으로 정확도 보다는 번역시스템을 구축하여 서비스 제공.
2. 빅데이터 위기 요인과 해결 방법 연결.
- 사생활 침해 -> 동의제를 책임제로 전환.
- 책임 훼손의 원칙 -> 결과 기반 책임 원칙.
- 데이터의 오용 -> 알고리즘 허용.
3. 빅데이터의 위기 요인 중 사생활 침해에 따른 포괄적인 해결책은 무엇인가?
결과 기반 책임 원칙- 사용자의 책임 강화
4. 미래 사회 특성으로 보기 어려운 것은?
- 다양한 기술들의 융합과 관련하여 창조력이 요구.
- 다양한 위험 사항(리스크)에 대해 대응력이 요구.
확실성에 대한 통찰력이 요구. => 불확실성에 대한 통창력이 요구.- 스마트한 경쟁력이 요구.
5. 빅데이터 활용 기술에 관한 설명.
- 택배 차량을 어떻게 배치하는 것이 비용에 효율적 ?
-> 분류 분석=> 유전 알고리즘 - 응급실에서 의사 어떻게 배치하는 것이 효율적 ? -> 유전자 알고리즘
- 우유 구매자가 기저귀를 더 많이 구매? -> 연관 분석
- 사용자의 만족도가 충성도에 어떤 영향 미침? -> 회귀 분석
6. 다양한 데이터 유형 중 정형 데이터 - 반정형 데이터 - 비정형 데이터 순서로 가장 알맞은 것은?
- SCM 데이터 - 기상청 날씨 데이터 - QR 코드
- 정형 데이터 : ERP, SCM, CRM (=> 기업 내부 DB)
- 반정형 데이터 : XML, JSON, HTML, 웹 로그, 모바일 데이터
- 비정형 데이터 : 동영상, 텍스트, 오디오, 사진, 온도, RFID, QR코드, 이메일
7. 정보(information)에 대한 정의로 옳지 않은 것은?
- 데이터를 조직하고 해석하여 의미를 부여한 결과물
- 모호함 없이 정확하고
완전한 사실=> 모호함 없이 정확하지만 완전하거나 모든 사실을 포함하지는 않음. - 의사 결정에 도움을 주는 유용한 지식
- 컴퓨터 시스템이나 네트워크를 통해 전송되는 내용
8. 다음 중 상용DB가 아닌 것은?
- DB2
Tableau- SQL Server
- Oracle
9. 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 솔루션은?
- SCM => 공급망 관리, 외부 or 제휴업체와 통합된 정보시스템 연계 => 시간 & 비용 최적화.
- CRM => 고객 관계 관리, 각종 마케팅 전략 펼침.
10. 빅데이터 가치 패러다임의 변화 순서로 가장 적절한 것은?
- Digitalization -> connection -> agency (복잡한 연결을 효과적/믿을만하게 관리)
11. 데이터 사이언티스트가 갖춰야 할 인문학적 사고의 특성과 역할 중 6가지 핵심 질문에 해당하는 것.
- 정보 : 리포팅, 경고, 추출
- 통찰력 : 모델링, 실험 설계, 추측&시뮬레이션
[ 2 과목 ]
1. 전체 업무를 분류하여 구성 요소로 만든 것으로서 각 요소를 평가하고 일정별로 계획하며 그것을 완수할 수 있는 사람에게 할당해주는 역할을 수행하는 것은?
ERD- WBS => 전체 업무를 분류하여 구성 요소로 만든 것으로서, 프로젝트 계획을 시각적 형태로 표현한 것.
2. 다음 설명에 해당하는 데이터 분석 방법론의 적용 업무 특성에 따른 모델은 무엇인가?
- 나선형 모델 = 폭포수 모형 + 프로토타입 모형의 장점을 수용하고 위험분석을 추가한 점증적 개발 모델이며, 프로젝트 수행 시 발생하는 위험을 관리하고 최소화하려는 것이 목적임.
프로토타입 모델폭포수 모델
3. 먼저 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법으로, 시행착오를 겪어가면서 문제 해결을 위해 사용하는 방법은?
- 프로토타이핑 => 사용자 요구사항을 정확히 파악하기 어렵고 데이터를 규정하기 어려운 상황에서 먼저 분석을 시도해보고 결과를 확인해가며 반복적으로 모델을 개선해 나가는 방법.
디자인 싱킹
4. 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법은?
- 디자인 싱킹 => 인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법.
- 공감적 관찰을 통해 문제를 재해석하고,
- 시각적 아이디어 도출을 통해 직접적인 고객(사용자)를 포함한 이해 관계자를 이끌어내, 빠른 시일 내에 가시적인 프로토타입을 공동 제작하는 액션 전략임.
브레인스토밍프로토타이핑
5. 다음 중 SPICE는 프로세스 수행능력단계에서 정의된 자원의 한도 내에서 그 프로세스가 작업산출물을 인도하는 단계는?
수행 (Performed)- 관리 (Managed)
확립 (Estabilished)예측 (Predictable)
- SPICE "프로세스 수행능력단계" : 불완전 -> 수행 -> 관리 -> 확립 -> 예측 -> 최적화.
6. 다음 분석과제의 우선순위 선정 관련 설명 중 틀린 것은?
- 우선순위를 시급성에 둔다면 III - IV - II 순서로 진행한다.
- 우선순위를 난이도에 둔다면 III - I - II 순서로 진행한다.
시급성과 난이도 둘 다 높은 것이 우선순위가 가장 높다.=> 1사분면은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있음.- 시급성의 판단기준은 전략적 중요도가 핵심이다.
7. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
데이터 확보가 가장 중요하다.=> 데이터 확보보다 목표와 목적이 더 중요하다.- 데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
- 분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
- 프로젝트 진행 중에도 변경될 수 있다.
8. 데이터 분석 준비도 프레임워크에서 운영 시스템 데이터 통합, EAI, ETL 등 데이터 유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 비주얼 분석 환경 등과 관련된 항목은?
- 분석인프라
9. 상향식 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴단계를 반복하여 과제를 발굴하는 접근법은?
- 디자인 사고
10. 다음 <보기>의 설명에 맞는 분석 프로젝트 관리 방안으로 가장 적절한 것은?
< 보기 >
프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있다. PoC(Proof of Concept) 형태의 프로젝트는 인프라 구매가 아니라 클라우드 등의 다양한 방안을 검토할 필요가 있다.
- 조달 (Procurement)
품질범위통합
11. 다음 중 분석 로드맵의 단계인 ‘데이터 분석 체계 도입→데이터 분석 유효성 검증→데이 터 분석 확산 및 고도화’에서 유효성 검증에 해당하는 것으로 가장 적절한 것은?
- 분석기회 발굴 및 분석과제 정의 => 1 (분석 기회 발굴, 분석 시스템 구축)
- 분석 알고리즘 및 아키텍처 설계 => 2 (파일럿 테스트)
- 업무 프로세스 내재화를 위한 변화 관리 => 3 (유관 시스템 고도화)
- 빅데이터 분석-활용 시스템 구축 => 3
12. 분석 성숙도 (도활확최)
- 도입 : 데분 처음 시작, 기본적 분석 도구와 방법 도입
- 활용 : 도입된 분석 도구/방법 -> 실제 업무에 적용&활용
- 확산 : 데분의 가치 인식, 조직 전반으로 분석 문화/방법 확산시킴.
- 최적화 : 지속적 개선, 혁신 추구 및 성과 향상.
13. CRISP-DM 분석 방법론 중 각 단계에 수행해야 하는 업무. (업데데 모델 평가전)
- 업무이해 : 데이터 마이닝 목표 설정
- 데이터 이해 : 초기 데이터 수집, 데이터 탐색
- 데이터 준비 : 분석용 데이터셋 선택, 데이터 통합
- 모델링 : 모델링 기법 선택, 모델 평가
- 평가 : 모델 적용성 평가
- 전개
14. 협의의 분석 플랫폼의 구성요소로 올바른 것은?
- 분석 라이브러리 & 분석 엔진, 데이터 처리 프레임워크 : 협의의 분석 플랫폼
- 하드웨어, 운영체제 : 컴퓨터 시스템
- API, 분석 서비스 제공 엔진 : 광의의 분석플랫폼
[ 3 과목 ]
1. 다음 통계적 추정에 관한 설명 중 올바르지 않은 것?
- 추정(estimation)은 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정.
- 표본크기가 커질수록 신뢰구간 좁아짐. 이는 정보가 많을수록 추정량이 더 정밀하다는 것을 의미.
신뢰수준 95% 의미는 추정값이 신뢰구간에 존재할 확률이 95%라고 할 수 있음.=> 모수(전체 평균)가 이 구간에 포함될 확률이 95% 이상이라는 뜻.
2. 두 집단의 분산이 같은지 검정할 때 사용하는 검정 통계량은 어떤 분포를 활용하는가?
- F 분포 -> 두 집단의 분산의 동일성 검정.
카이제곱 분포-> 두 집단의 "동질성" 검정 or 단일 집단 모분산에 대한 검정. (범주형 데이터의 적합도/독립성 검정)z 분포-> 모집단의 표준편차를 알고있을 때, 표본 크기 (>= 30) 모집단이 정규분포를 따를 때.
3. 다음 중 신경망 모델 학습 모드에 해당되지 않는 것은?
- 온라인 학습 모드 : 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트.
- 확률적 학습 모드 : 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트.
- 배치 학습 모드 : 전체 데이터를 동시에 입력하여 학습.
재귀 학습 모드
4. 회귀모형의 변수 선택법이 아닌 것은?
주성분 분석=> 변수 요약, 축소.- 모든 조합의 회귀 분석
- 라쏘 (Lasso)
- 단계별 변수 선택
5. 다중 공선성에 대한 설명 중 올바르지 않은 것은?
- 다중 공선성 문제가 발생하면 문제가 있는 변수를 제거하고 분석할 수 있다.
- 다중 공선성 문제로 불확실성이
감소할 수 있다. => 증가할 수 있다. - 독립변수 간에 상관관계가 높아서 데이터를 분석할 때 부정적 영향을 미치는 경우 발생한다.
- VIF가 4보다 크면 다중 공선성이 존재하는 것으로 해석한다.
6. 다음 앙상블 모형 중 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려하여 성능을 높이는 방법?
배깅부스팅- 랜덤 포레스트 => 트리 구성 시 일부 특성을 랜덤하게 선택하여 각 분할에서 최적의 특성을 선택.
의사결정나무
7. 다음 중 공분산과 상관계수에 대한 설명.
- 공분산은 측정 단위에 영향을 받기 때문에 -1~1 사이로 표준화하여 두 변수 사이의 상관관계 표현.
- 공분산이 0이라면 ) 두 변수 간에는 아무런 선형 관계가 없고 서로 독립적인 관계.
- 상관 분석은 두 변수의 인과 관계 성립 여부를 확인할 수 없음.
- 상관계수를 통하여 상관관계의 표준화된 크기를 측정할 수 있음.
8. 분류 분석 알고리즘에 해당되지 않는 것은?
- 의사결정트리
- 로지스틱 회귀분석
- 신경망
연관분석
9. 수면유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
수면유도제 2가 수면유도제 1보다 효과적이다.=> 두 집단의 평균이 동일하다라는 귀무가설을 채택할 수 있으므로, 수면유도제 2가 더 효과적이라 할 수 없다.- 유의수준 0.05이하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
- 두 개의 표본집단이 크기가 클 경우 (N>30) 집단의 정규성 검정없이 이 표본 t검정을 사용할 수 있다.
- 독립표본 t 검정 분석 전에 등분산 검정을 실시한다.
10. 증거가 확실할 때 가설검정으로 증명하고자 하는 것은?
귀무가설: 가설검정의 대상이 되는 가설, 연구자가 부정하고자 하는 가설, 알고 있는 것과 같음, 변화, 영향력, 연관성, 효과 없음에 대한 가설.영가설- 대립가설 : 연구자가 연구를 통해 입증/증명되기를 기대하는 예상이나 주장, 귀무가설이 기각되면 채택되는 가설.
기각가설
11. 데이터 분할에 대한 설명 중 틀린 것은?
- 데이터마이닝 적용 후 결과의 신빙성 검증을 위해 데이터를 학습, 검증, 테스트 데이터로 나누어 사용한다.
검증용 데이터는 모델 성능 평가에 사용한다.=> Validation Data는 학습 단계에서 사용되며, 학습 중 성능 확인용 데이터 (Overfitting 여부 확인, Early Stopping 등을 위해 사용)- 테스트용 데이터와 학습 데이터는 섞여서는 안된다.
- 검증용 데이터는 학습 단계에서 사용된다.
12. 신경망 노드 중 무작위로 노드를 선정하여 다수의 모형을 구성하고 학습한 뒤 각 모형의 결과를 결합해 분류 및 예측하는 기법을 무엇이라고 하는가?
- Mini-Batch
- Bagging
- Drop-out
- AdaBoost : 강한 분류기를 약한 분류기로 학습시키는 앙상블 방법으로, 각 모델은 이전 모델의 에러를 보완하도록 가중치를 조절하면서 순차적으로 학습된다. 이때 각 모델은 이전 모델이 잘못 분류한 샘플에 집중하여 학습.
13. 다음 중 선형 회귀분석의 오차항 가정으로 가장 적절한 것은?
- 등분산성, 정규성,
선형성<- 선형성은 x, y의 관계 - 등분산성, 정규성, 독립성
14. 다음 중 다차원 척도법(MDS)에 대한 설명으로 가장 적절하지 않은 것은?
- 데이터의 차원을 2차원이나 3차원으로 축소한다.
- 데이터 간의 상대적 거리나 유사도를 시각적으로 표현하는 방법이다.
- 유사도 또는 거리 행렬을 기반으로 한다.
데이터 위치가 완벽하게 보존된다.=> 완벽 보존 : SOM
15. 다음 중 상관계수에 대한 설명으로 가장 적절하지 않은 것은?
- 관련성의 방향과 강도를 알려준다.
- 범위가 -1~1이다.
- 단위가 없다.
상관계수 0이면 독립이다.
16. 다음 중 시계열 분석에 대한 설명.
- AR 모형은 과거의 값과 예측오차를 사용하여 현재의 값을 예측한다.
AR 모형의 ACF는 시간이 지남에 따라 점차적으로 감소하고, PACF는 절단면 이후 급격히 감소하지 않는다.- ARMA 모형은 약한 정상성을 가진 확률적 시계열을 표현하는데 사용한다.
- ARMA는 과거 시점의 관측자료와 과거 시점의 백색잡음을 선형결합으로 현 시점의 자료를 표현하는 모델이다.
- MA의 PCAF는 시간이 지남에 따라 점차적으로 감소하고, ACF는 절단면 이후 급격히 감소한다.
- 정상시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기 공분산을 측정하더라도 동일한 값을 갖는다.
- 시계열의 평균이 일정하지 않은 경우에는 차분을 통해서 정상시계열로 전환이 가능하다.
지수평활법은 단순히 과거 자료의 평균을 구해서 미래를 예측하는 방법이다.
17. 다음 중 다중공선성에 대한 설명으로 가장 적절하지 않은 것은?
- 회귀 분석에서 두 개 이상의 독립 변수 간에 높은 상관관계가 있을 때 발생하는 현상이다.
다중공선성이 발생하면 회귀계수의 설명력이 낮아진다.- 다중공선성이 높으면, 회귀계수의 표준오차가 증가한다.
- 다중공선성이 높으면, 추정치의 불확실성이 증가한다.
18. 다음 중 각 개체의 영향력 진단에 대한 설명으로 가장 적절하지 않은 것은?
- 쿡의 거리(Cook's distance)가 크면, 그 관측치가 회귀분석 결과에 큰 영향을 미친다는 것을 의미한다.
- 높은 레버리지 값은 해당 관측치가 회귀선에 큰 영향을 줄 수 있음을 의미한다.
- DFBETAS는 특정 관측치가 회귀계수 추정치에 미치는 영향의 크기와 방향을 나타낸다.
영향력 진단은 영향력이 큰 관측값의 영향을 최대화한다.
19. 다음 중 연관분석에 대한 설명으로 가장 적절하지 않은 것은?
- Apriori 알고리즘은 최소지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 찾는 방법이다.
- FP-Growth 알고리즘은 Apriori 알고리즘의 약점을 보완하기 위해 고안된 것이다. => 훨씬 빠른 속도로 계산 되지만, 여전히 대용량 데이터 세트에서 메모리는 비효율적이고 설계가 어렵다.
- 고객들의 구매 패턴을 분석하여 의미있는 규칙을 나타내는 분석이다.
품목 A와 품목 B가 독립이면 지지도가 1이다.
20. 다음 <보기>에서 설명하는 군집분석 모델의 평가지표로 옳은 것은?
<보기>
- 클러스터 내 최대 거리에 대한 클러스터 간의 최소 거리의 비율이다.
- 군집 간 거리는 멀수록, 군집 내 분산은 작을수록 좋은 군집화이며, 값이 클수록 좋다.
실루엣 계수중심 연결법Elbow Method- Dunn Index
21. 다음 중 결측값에 대한 설명으로 옳지 않은 것은?
- 결측값은 입력이 빠진 값으로 R에서는 NA, NAN(0으로 나누는 것이 불가능한 값) 등으로 표현된다.
- 완전 무작위 결측이란 어떤 변수에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우이다.
- 무작위 결측이란 어떤 변수의 누락 데이터가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우이다.
처리 절차는 ‘부호화-대체-식별’ 순으로 진행 된다.=> '식별 - 부호화 - 대체' 순으로 진행.
22. 결측값 처리에 활용되는 완전 분석법에 대한 설명으로 옳지 않은 것은?
- 누락된 데이터가 발생한 데이터를 제외하고 분석을 수행한다.
- 부분적으로 무시되는 자료로 인해 통계적 추론의 타당성 문제가 발생한다.
- 분석이 간단해진다는 장점이 있다.
통계량의 표준오차가 과소 추정될 수 있다.
23. 시계열분석의 분석절차로 옳은 것은?
- 시간 그래프 작성 -> 추세와 계절성 제거 -> 잔차 예측 -> 잔차에 대한 모델 적합 -> 미래 예측
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 제43회 ADsP 1일 합격 후기 (독학 공부법, 시험 난이도, 빅분기 필기 비교) (0) | 2024.11.22 |
---|