[06-22-2021] 데이터사이언스스쿨 - 6장 확률론 기초 복습
확률변수
표본을 실수 데이터로 바꿔서 현실에 보내주는 것
- 1 동전 앞 뒤 중 하나 뽑기 : 베르누이 확률변수
- 2 트펌프 카드 뭉치에서 한 장 뽑기 : 카테고리 확률변수
- 3 동전 두변 던진 결과 : 다변수 확률변수
- 4 약속날짜가 31일인가 아닌가 : 베르누이 확률변수
- 5 손님이 과일가게에서 산 과일은? : 카테고리 확률변수
- 6 삼성전자 주식은 몇 %나 내일 오를까? : 연속확률변수
- 7 회전하는 원판에 화살 박힌 각도는 ? : 연속확률변수
- 8 체온 측정 결과는? : 연속확률변수
확률문제 : 확률적 데이터 생성하는 문제
확률의 수학적 정의 : ‘확률은 함수다’
확률론 용어 정리
- 표본 : 1회 시행 결과
- 표본공간 : ‘가능한’ 모든 표본의 집합
- 사건 : 표본공간의 부분집합 & 표본들의 집합
- 이산확률변수 : 표본과 표본 사이에 다른 실수가 들어갈 수 있으면 이산확률변수 (불연속)
- 연속확률변수 : 표본과 표본 사이 다른 실수 못 들어가면 연속확률변수 (연속적, 개수 : 무한대)
- 확률 : 함수다. {입력 : 사건, 출력 : 실숫값(확률값)}
itertools : 새로운 반복자를 만들어주는 모듈
- chain() : iterable 객체 여러개를 연결시켜서 하나의 반복자로 만들어준다.
combinations(iterator, 조합 크기)
- combinations(iterator, 조합 크기)
- 입력받은 크기의 조합 예시를 만들어준다.
1
2
3
4
5
6
# 다시해보자.
omega = {1,2,3,4}
from itertools import chain, combinations
def get_set_of_subsets(omega) :
return set([frozenset(s) for s in chain.from_iterable(combinations(omega, r) for r in range(len(omega)+1))])
get_set_of_subsets(omega)
확률은 함수[입력-출력 사이 대응관계]다.
- 입력 : 사건(확률변숫값)
- 출력 : 실숫값(확률값)
확률의 기본공리 [콜모고로프 공리]
- 모든 확률값은 0이상이다.
- 표본공간 (전체)의 확률값은 1이다.
- 두 사건 교집합이 공집합 일 때, 두 사건 합집합 확률은 개별사건 확률합과 같다.
확률변숫값은 1개 표본(표본, 사건) 이고 확률밀도함수 이용해서 확률 정의할 수 있다.
핵심 : 확률값은 콜모고로프 3 공리만 만족하면 뭐든 할당해도 된다.
확률값이 불공정하게 배당된다는 증거가 없으면 공정하다고 보고, 다음 식을 확률함수 식으로 사용한다.
- 표본공간 크기에 대한 특정 사건 크기
아무 의미없는 확률값에 의미부여 : 빈도주의 관점, 베이지안 관점
- 빈도주의 관점에서는 [반복에 대한 비율] 을 확률값으로 삼는다.
- 베이지안 관점에서는 [주장에 대한 신뢰도] 를 확률값으로 삼는다.
베이지안 관점에서
특정 사건이 발생했다 = 선택된 표본이 그 사건 원소중 하나였다 = 그 사건이 말하는 주장이 진실임을 알게 되었다.
1개 사건 & 확률값에 대해 빈도주의관점과 베이지안 관점 모두 설명 가능하다.
- 빈도주의 관점 & 베이지안 관점은 양립가능하다.
확률의 3가지 주요 성질
- 여집합 확률
- 포함-배제 원리
- 전체확률의 법칙
확률분포함수
- 확률분포 : 확률값 [분포위치],[분포정도] 나타낸다.
- 확률분포함수 : 바로 이 확률분포를 묘사해주는 함수가 확률분포함수다.
세 가지 확률분포함수
- 확률질량함수 : 단순사건 확률값 정의하는 함수 [확률변숫 값이 이산적. 불연속적 일 때 사용] [실질적으로 표본 하나에 대한 확률 정의하는 함수다]
- 확률밀도함수 : 특정 표본값 근처 미세 구간 dx 길이에 대한 확률값 정의하는 함수 [확률변숫 값이 연속적. 갯수가 무한할 때 사용]
- 누적분포함수 : 음의 무한대~x까지 특수한 구간 확률 정의하는 함수
다시 정리 : 확률변수 개념을 이용할 때
- 확률질량함수는 이산확률변수일 때 사용한다.
- 각 이산확률변숫값 하나하나에 대한 확률 정의한다.
- 확률밀도함수는 연속확률변수일 때 사용한다.
- 각 연속확률변숫값 하나하나에 대한 확률 정의한다.