안녕하세요 다비드s입니다. 

오늘은 수학의 모차르트라고 여겨지는 인물의 이야기를 풀어가려고 합니다.






1) 콜모고로프의 전체적 업적

크게 구분하면 두가지로 나눌수 있습니다.


(1) 통계학, 확률론에 큰 업적 남겼습니다.


(2) 제자들에게 방향을 제시해 주었습니다. (쉬르야예프, 글리벤코 등 후학들)




2) 콜모고로프가 통계혁명과 관련해 해결한 2가지 문제 

*콜모고로프의 통계학 연구

 

(1) 확률에 대한 수학적 기초는 무엇인가를 제시하였습니다. (확률적 기초, 공리)

 

(2) 지진(지하 핵실험 등)이 발생하기전 발생되는 지진파처럼 시간에 걸쳐 수집한 자료(독립이 아닌 사건)를 분석하는 방법을 보였습니다.

* 확률과정에 관한 분석방법


(3) 측도론이라는 수학분야를 확률계산에 도입. 측도론을 바탕으로 확률론의 근본적인 공리를 발견하였습니다.

  * 확률의 공리

   ① 확률은 0~1사이의 값을 가진다.

   ② 모든 범위에서 확률의 합은 1이다.

   ③ 상호 배타적인 사건의 합사건의 확률은 각 사건의 확률의 합니다.

   - 확률계산의 유효성에 대한 모든 의문을 해소시키므로써 오늘날 확률에 대한 유일한 관점이 되었습니다.


(4) 확률과정(stochastic process)

- 시간에 걸쳐 측정함으로써 이전 자료와 연관을 갖는 자료를 지칭하는데 당시 모든 통계학자들은 통계적 방법을 적용하기 위해 모든 자료가 독립임을 가정하였습니다.

하지만 대부분의 자료는 독립이지 않고 이전 자료와 연관을 가지고 있었습니다.

(* 피셔의 아들 몸무게 측정 자료). 

그러나 콜모고로프의 선구적인 연구 덕에 이러한 확률과정을 분석할 수 있게 되었습니다.

 (* 전파망원경에 잡히는 여러 신호의 근원을 식별할 수 있게 되었고, 지진계에 기록된 지진파가 지진에 의한 것인지 지하 핵실험에 의한 것인지 식별 가능해졌습니다.)





3) 콜모고로프도 해결하지 못한 철학적 문제


(1) 실세계에서 확률은 무엇인가 ?

확률론은 콜모고로프가 만든 확고한 수학적 이론 때문에 내적 일관성을 가지고 있습니다. (내적 일관성이란 같은 방법을 쓰면 같은 결과가 나온다는 것으로 생각하면 됩니다.) 

 하지만 통계적 방법은 실세계의 문제에 적용되므로 확률에 대한 추상적인 모형에 대응하는 실세계의 개념을 찾아야 합니다. 왜냐하면 통계분석결과의 해석이 확률에 의존하기 때문입니다.


 (2) 확률론의 공리

기본사건으로 구성된 추상공간이 존재합니다.

추상 공간의 부분집합인 ‘사건’이 발생할 확률은 면적, 부피와 같이 측정 가능하다 가정을 하는것 입니다.

이 추상공간 상의 정의된 확률이란 측도가 확률론의 공리를 만족하면 이 추상공간을 ‘확률공간’ 이라 하고 실세계에서 확률을 사용하기 위해서는 이 추상공간에 대응하는 실세계의 개념을 정의해야 합니다.


고셋 : 추상공간은 모든 가능한 결과의 집합과 같다고 정의하였습니다.

 하지만 그 공간상에서 확률을 측정하는 방법은 설명하지 못하였습니다.

* 추상공간=복소수, 사건=허수 라면 복소수 중 허수일 확률은 못구한다는....


하지만 콜모고로프는 다른 방법으로 확률의 의미를 찾으려 노력하였습니다.





부가설명

콜모고로프는 소련사람이지만 소련이 통계학으로부터 아무것도 얻지 못한 이유가 있습니다.

정통 공산주의 이론이 통계활동에 영향을 미쳐 소련에서 수리통계학을 적용하는 연구가 급격히 위축되었다.


 (1) 전제군주 시대 후반과 러시아 혁명 초기에는 상당히 활발하게 연구되었습니다. 연방 내 각 공화국에도 통계국이 설치되었었습니다.

 하지만 ‘1930년 스탈린 시대(정통 공산주의).. 통계학을 사회과학의 한 분야로 취급. 공산주의 이론에 따르면 사회과학은 중앙정부 통제 하에 있어야 했습니다(예를 들어 계획경제). 

그러나 통계학의 ‘확률변수’는 러시아어로 “우연히 나타내는 양”이라는 용어로 쓰였으며  이는 곧 모든 산업과 사회활동은 마르크스와 레닌의 이론에 따라 수립되므로 어떤 것도 우연히 나타날 수 없다 라는 공산주의 이론에 모욕에 가까운 것이었습니다. (우연은 자본주의에나 나타날 수 있다고 생각하였다.)

따라서 통계학연구는 당연히 위축되는게 맞았습니다.


이에 따른 중앙통계국의 수치의 신뢰도는 하락하였고 이런 수치에 기반한 경제계획에 의해 토지황폐화, 공장 비효율화 심화되었습니다.

그러나 개선점 없이 여전히 변화율, 변화율의 변화율 등으로 눈속임을 하였습니다. 

  *반면에 미국은 전쟁수행에 활용(위너), 통계적 품질관리(슈하트 등) 등 산업에 활용하여 높은 품질과 결과를 얻을수 있었습니다.

다행히도 1990년대 말 소련 해체 후, 중앙정부 경제계획 시스템 붕괴되고 나서야 통계학이 러시아 산업에 적용되었다고 합니다.


이책을 읽고 난후 엄청난 통계학, 수리학자가 있었어도 사용법을 부정하면 어떠한 결과가 초래되는지 알게 되었습니다.

어떤 학문이든 배척하지 않는 사람이 되어야 겠다는 다짐을 하며 

글을 마무리하려고 합니다.


이상 다비드s였습니다.




블로그 이미지

다비드s

,

안녕하세요 다비드s입니다. 오늘부터 David Salsburg가 쓴 "통계학의 피카소는 누구일까?"라는 책을 리뷰하려고 합니다.

하루에 한두 Chapter씩 내용을 정리하고 저의 생각 또한 정리해 보려고 합니다.

 

 

 

0. 통계 패러다임의 시작

 

 기계론적 세계관에 기초한 19세기 과학은 데카르트 이론들, 뉴턴의 운동법칙이나 보일의 법칙과 같은 몇 개의 방정식으로 실세계를 나타낼 수 있다고 보았습니다. 따라서 이 방정식들과 관련된 정확한 측정값만 있으면 미래를 예측할 수 있을 것이라고 생각하였습니다. 우주는 과거에 의해 그 미래가 결정되어 있으며, 신이 개입하지 않아도 영원히 작동한다는 기계론적 세계관에 많은 사람들에게 신세계였습니다. 기계론적 세계관을 지지하는 과학적 증거들이 등장하였고, 뉴턴은 수리적 법칙으로 다른 행성의 존재를 예측할 수 있었으며, 그 예측을 바탕으로 해왕성을 발견했습니다.

하지만 관찰된 행성과 혜성의 실제위치와 예측결과가 정확히 일치하지 않았기 때문에 오차함수가 필요하게 되었습니다.

그럼에도 불구하고 당시 과학자들은 대기의 불안정이나 인간의 실수로 인한 "측정오차" 때문이라는 생각이 주를 이뤘습니다.

그래서 모든 오차들을 통합하여 하나의 항으로 통합하였고 예측수식에 오차항을 추가 하였습니다. 그러면서 측정이 정확해지면, 오차함수는 필요없을것이다 라고 생각했습니다.

하지만 측정도구가 아무리 정밀해져도 오차는 더 커졌고, 여러 분야에서의 기계론적 법칙은 실패하였고 기계론적 세계관은 흔들리기 시작했습니다.

 

 

그 결과 통계적 모형이라는 새로운 패러다임으로 과학은 이동하기 시작하였고 20세기가 끝날 무렵 과학 전반으로 확산되었습니다.

 

 "일어날 것 같지 않은 것도 일어나는 것이 확률의 본질이다" 라는 아리스토 텔레스의 말처럼 고대부터 시작된 통계에 관련된 법칙들과 인물들의 이야기를 시작하려고 합니다.

 

1. 차 맛을 가리느 여인

 

차에 우유를 따르느냐 우유에 차를 따르느냐에 따라 차 맛이 달라진다는 한 여성의 주장으로부터 이야기는 시작됩니다.

싱거운 주장, 시간낭비다라고 생각 되어질수 있으나 통계적으로 생각해 본다면 실험의 설계가 들어갈 만한 가설이 될수 있다는 것입니다. 이처럼 작은 실험설계로부터 이야기는 시작됩니다.

 

 피셔는 농업실험연구소가 축척해온 오류를 해결하고 90년간 강수량과 생산량 자료를 검토한 결과 기후변화가 생산량에 미치는 효과가 비료의 효과보다 훨씬 더 크다는 논문을 발표하였는데 그 전에 자료들은 기후와 비료의 효과는 서로 교락되어 있어서 효과를 분리해 내는게 불가능하며 90년간의 자료는 아무런 쓸모가 없음을 알게 되었습니다그 후 피셔는 실험과 실험설계에 대해서 연구하게 되었습니다. 그리고 실험결과는 수학적 모형으로부터 시작해야한다고 하며 방정식으로 표현하여 알고자하는 바를 수학식으로 계산해 내었습니다.

 

[ * 실험설계법;

 피셔가 만든 법칙으로 실험설계를 통해 실험을 실시하고가능하다는 가정하에 각 결과가 나올 확률과, 불가능하다는 가정하에서의 확률을 계산하여 실험에서 나올수 있는 가능성을 나타내는 것으로 20세기 초 과학 전반을 휩쓴 통계 패러다임에서 중요한 역활을 하였습니다.

즉 실험을 할때 무조건 실험을 시작하면 안되며 깊은 사고와 상당한 수학적 노력을 통해 실험설계를 실시하여야 한다고 강조하였습니다.

 

  *교락;

  두개 이상의 원인이 한꺼번에 영향을 끼침으로써 분리불능의 원인을 말합니다. ]

 

 

피셔는 실험설계법에서 좋은 실험설계의 예를 제시하고, 이로부터 일반적인 실험설계의 기본원칙을 도출하였습니다.
하지만 피셔가 사용한 수학적 방법은 너무 복잡하였기 때문에 다른 과학자들이 그방법으로 새로운 실험설계를 유도하는게 거의 불가능하였습니다. 그러나 여러가지의 실험설계법이 개발되어 농업분야에서 널리 사용되었으며 이외의 의학, 화학, 품질관리에도 적용되었습니다.

 

 오늘 읽어본 이야기 속 실험계획법은 통계학 뿐만 아니라 여러 학문들을 연구할 때에도 필요하다고 생각합니다. 어떠한 변수가 있을지, 어떠한 결과가 나올지 먼저 예측하며 어떤 원인으로부터 나온 것인가를 한번 더 확인하는 것이기에좀 더 다양한 방법의 실험이 가능하케 합니다

 그리고 삶 속에서도 필요하다고 생각합니다. 삶은 한번뿐이며 중요하기에 수학공식에 대입하기에는 어렵겠지만 설계를 명확히 한다면 좀 더 행복한 삶을 살지 않을까? 라는 생각을 통계학 속에서 생각해 봅니다.

 

 

 

 

블로그 이미지

다비드s

,

 

 

 

 

1. 통계학이란


관심 또는 연구 대상이 되는 모집단(Population)의 특성을 파악하기 위해, 모집단에서 일부의 표본(Sample)을 수집하여 자료를 정리, 요약 그리고 분석을 통하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문입니다.

 

 

여기서 중요한 단어가 있습니다. 그 단어는 방법입니다.

'방법을 연구한다'라는 것 즉 통계학은 쉽게 말하여 도구라고 할수 있습니다.

사회현상이나 과학적현상을 관찰하고 분석하기까지의 과정을 통계학이라고 할 수 있고(단편적인 예로 남녀의 신장은 차이가 있다) 그 결과를 활용하여 다른 분야의 전문가들이 자신의 생각이나 이론을 뒷받침하고 결론을 도출해 냅니다.

 

통계학 = 수퍼서브학문 이라고 칭하고 싶습니다.

 

 

 

통계적 자료 분석은 먼저 예비조사를 통해 개념적 규정이 된 대상에 대하여 가설을 설정하고 조사를 디자인하여 조사방법을 선택합니다(탐색조사, 기술조사, 인과조사)

그 후 자료수집을 실사하고 분석을 통해 결과를 도출해내는 과정입니다.

아래의 이론들은 분석과정에서 필요한 방법들입니다.

 

1) 시공간적 및 경제적인 제약 조건들과 분석결과의 정확성을 고려하여 연구 목적에 필요한 자료와 정보를 최적의 방법으로 수집하는 것(표본추출법, 실험계획법)

 

2) 수집된 자료의 특성을 알아내기 위해 시각적인 방법과 수치적인 방법으로 자료를 정리하고 요약하는 방법(기술통계학)

 

3) 변이성이 내포되어 있는 표본을 이용하여 분석하고자 하는 연구 대상인 모집단의 성질에 대해 추론( 기술통계학; 추측통계학)

 

4) 비결정론적 현상을 수학적으로 기술하는 것을 목적으로 연구하는 방법(확률론)

 

5) 여러 단계를 거쳐 얻어진 최종 결과를 이용하여 행위에 대한 의사를 결정(의사결정론)

 

 

 

통계학에서 연구하려는 대상은 표본이 아니라 모집단입니다. 여러가지 제약조건 때문에 모집단의 전체를 직접 분석하기 어렵기 때문에 모집단에서 추출된 일부의 표본들의 특성을 유도하고 이것을 활용하여 모집단의 특수성을 추론하는 것입니다.

 

 

 

 

2. 통계 기본 용어

 

* 모집단(Population)

 - 연구의 대상이 되는 모든 개체들의 모임입니다.

 - 일반적으로 시간,공간, 경제적 제약의 문제로 모집단 전체에 관한 자료를 얻어 분석하는 방법이 불가능합니다. 하지만 요즘 빅데이터라는 방대한 자료의 수집으로 하여금 가능하게 될 것 같습니다.

예) 전국대학생집단

 

* 표본

 - 모집단에서 실제로 뽑은 측정값이나 관측값의 모임입니다.

 - 수집된 자료에는 항상 변이가 존재합니다.

 예) 대학생들에서 뽑은 1000~3000명 정도의 학생들

 

* 정규분포

 - 모집단의 분포가 어떤 모양을 하고 있던 표본의 크기가 점차 커지면(>30) 표본의 분포 를 그림으로 표현하면 모평균을 중심으로 대칭이며 종 모양(bell-shaped)의 형태와 비슷한 확률분포로 근사할 수 있습니다. 이분포를 정규분포라고 하며 통계학에서 가장 기본이 되는 확률분포 입니다. *단 정규분포의 근사 정도는 모집단의 분포모양과 표본의 크기에 관련이 있습니다.

 

 

 

* 표준정규분포

 - 평균이 0이고 분산이 1인 분포를 말합니다. 

 

-표준정규분포 그래프

 

 

 

 

* 중심극한정리

 - 평균이 μ이고 분산이 σ^2인 모집단에서 표본의 크기(n)가 30개 이상을 뽑으면 표본의 평균은 근사적으로 N( μ, σ^2/n)을 따르게 됩니다.

즉 표본평균의 분포는 n이 커짐에 따라 표준정규분포로 수렴한다는 것입니다.

 

 

다음시간에는 통계학의 기본에 대해 좀더 알아보도록 하겠습니다.
읽어주셔서 감사합니다.

 

 

 

 

 

 

블로그 이미지

다비드s

,