ganadara135 / knou-stat-prob-concept-appl

방송대 확률의 개념과 응용 2022 출석수업 과제

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

title output
확률의 개념과 응용 출석수업과제 2022
github_document
knitr::opts_chunk$set(echo = TRUE)

rpub.com 주소 : https://rpubs.com/kcod/891232

1번문제

  • 주사위 눈금별 상대도수에 대한 히스토그램 : 주사위를 반복수행하면 눈금별로 1/6에 수렴한다.
par(mfrow=c(2,2))
set.seed(2614)
dice12 = sample(1:6, 12, replace = TRUE)
 barplot(table(dice12)/12, ylim=c(0,0.3), main="(a) n=12")
 abline(b=0, a=1/6, col=2)
dice120 = sample(1:6, 120, replace = TRUE)
 barplot(table(dice120)/120, ylim=c(0,0.3), main="(b) n=120")
 abline(b=0, a=1/6, col=2)
dice1200 = sample(1:6, 1200, replace = TRUE)
 barplot(table(dice1200)/1200, ylim=c(0,0.5), main="(c) n=1,200")
 abline(b=0, a=1/6, col=2)
dice12000 = sample(1:6, 12000, replace = TRUE)
 barplot(table(dice12000)/12000, ylim=c(0,0.5), main="(d) n=12,000")
 abline(b=0, a=1/6, col=2)

2번문제

0.05 : D
0.95 : D-
0.926 : T+ | D
0.074 : T- | D
0.914 : T- | D-

0.086 : T+ | D-

P(T) = P(T ^ D) + P(T ^ D-)
= P(T | D)P(D) + P(T | D-)P(D-) P(T-) = P(T- | D)P(D) + P(T- | D-)P(D-)
= 0.05 * 0.926 0.050.926 + 0.950.086

formula
formula
formula

formula
formula

formula

# P(D|T^{+})= \frac{P(D \cap T^{+})}{P(T^{+})}
# P(D|T^{+})= \frac{P(T^{+} \cap D)P(D)}{P(T^{+} | D)P(D) + P(T^{+} | D^{-})P(D^{-})}
# P(D|T^{+})= \frac{0.05*0.926}{0.05*0.926+0.95*0.086}

(0.05*0.926) / ((0.05*0.926) + (0.95*0.086))

3번 문제

확률을 이용한 최신사례 타이틀 : 전 국민을 진단키트로 검사하지 않는 수학적 이유: 조건부 확률 출처 : https://youtu.be/RCf4KZa9IfQ

"전 국민을 진단키트로 검사하면 바로 해결되는거 아니야?"

하지만 상황은 생각보다 복잡합니다. 완벽에 가까운 진단키트라 해도 수학적으로 오류율이 상당하기 때문입니다.

민감도와 특이도에 대해 정리하고, 왜 전 국민을 대상으로 검사하는 것이 좋은 생각이 아닌지 다루어보았습니다.

진양성,진음성,위양성,위음성, 제1종 오류, 제2종 오류 등의 가설검정 용어의 정리와 조건부 확률에 관한 내용, 그리고 정확도와 위발견율(FDR)의 개념을 정리합니다

일반적인 사람은 상황을 매우 단순하게 보는 경황이 있다. 즉, 감염된 사람과 아닌 사람으로 나눠서 본다 하지만, 어떤 사람이 정확히 감염되었는지 현미경을 통해서 확인하기 전까지는 정확하지 않고, 이 방법은 오랜 시간과 자원이 필요하다. 따라서 진단키트를 사용하는데, 기본적으로 불확실성을 갖고 있다 진단키트로 검사시에 총 4가지 상황이 생깁니다. 첫째, 감염되었고 검사에서도 양성으로 나온경우 둘째, 감염되었고 검사에서는 음성으로 나온경우 셋째, 감염되지 않았고 검사에서는 양성이 나온 경우 넷째, 감염되지 않았고 검사에서도 음성이 나온 경우우

첫번째와 넷번째는 정상적인 경우이므로 문제가 없다. 하지만, 둘째와 셋째는검사의 불확실성이 만들어내는 문제가 발생하였다. 둘째는 공중보건에 심각한 문제를 이르킨다. 감염되었지만 음성이 나왔기 때문에 주변에 전파 가능성이 높다 셋째는 정상적인 사람에게 의료 자원을 투입하므로 개인 및 공중보건의 낭비를 초래합니다. 따라서 진단키트의 불확실성으로 인해서 이런 문제는 언제나 존재할 수 밖에 없는 위험요소입니다

진단키트의 성능지표는 민감도와 특이도로 구성됩니다. 민감도(Sensitivity)는 감염된 사람을 진단키트가 양성으로 판정하는 비율입니다. 민감도가 낮으면, 위에 둘째 경우처럼 감염된 사람이 음성으로 나와서 주변에 전파 가능성이 높습니다. 이런 오류를 위음성, 또는 제 2종 오류라고 합니다. 특이도(Specificity)는 감염되자 않은 사람을 진단키트가 음성으로 판정하는 확률입니다. 특이도가 낮으면 감염되지 않은 사람에게 불필요한 치료를 하게 됩니다. 이런 경우를 위양성, 또는 제 1종 오류라고 합니다.

아래의 예에서 진단키트의 불확실성을 평가해보도록 하자 전체 인구 1만명인 나라에서 2% 감염율을 가정해보겠습니다. 감염된 사람은 200명, 감염되지 않은 사람은 9,800명이다. 민감도와 특이도가 각 99%인 진단키트로 검사를 진행한다고 하자. 감염된 200명을 99% 민감도로 검사시에 198명이 진양성이고 2명이 위음성을 받는다. 비감염된 9,800명을 99% 특이도로 검사시에 9,702명인 진음성을 받고, 98명이 위양성을 받는다. 드디어 진단키드의 성능을 평가할 수 있다. 즉, 조건부 확률을 이용한다 위발견율(FDR)을 구하면되는데, 위양성자를 전체 양성자수로 나눠주면 됩니다. 98 / 198+98 = 33%

정확도는 전체 검사 중에서 진단키트가 제대로 된 판정을 내린 비율이므로 진양성 + 진음성을 전체 진단건수로 나눠준 결과입니다. 198 + 9,702 / 1,000 = 99%

이것은 매우 큰 충격을 주는데, 99% 정확도(민감도,특이도)여도 양성이 나온 3명중에 1명은 실제로 감염되지 않는 것이기 때문입니다. 따라서 역학조사와, 의사들의 종합 소견, 추가적인 검사들이 병행되어야 하는 것이 필수이다. 전수조사를 하지 않는 이유는 여기에 있다. 진단키드 한 번의 검사로 바이러스 감염 여부를 판단한다면 의무 없는 지출을 초래하고 병원 업무를 과중시킬 것이다. 위양성 33%, 진양성 67% 위양성도 문제이지만, 전염병의 경우 위음성이 더 큰 문제일 것이다.

About

방송대 확률의 개념과 응용 2022 출석수업 과제