안녕하세요 다비드s입니다. 

오늘은 수학의 모차르트라고 여겨지는 인물의 이야기를 풀어가려고 합니다.






1) 콜모고로프의 전체적 업적

크게 구분하면 두가지로 나눌수 있습니다.


(1) 통계학, 확률론에 큰 업적 남겼습니다.


(2) 제자들에게 방향을 제시해 주었습니다. (쉬르야예프, 글리벤코 등 후학들)




2) 콜모고로프가 통계혁명과 관련해 해결한 2가지 문제 

*콜모고로프의 통계학 연구

 

(1) 확률에 대한 수학적 기초는 무엇인가를 제시하였습니다. (확률적 기초, 공리)

 

(2) 지진(지하 핵실험 등)이 발생하기전 발생되는 지진파처럼 시간에 걸쳐 수집한 자료(독립이 아닌 사건)를 분석하는 방법을 보였습니다.

* 확률과정에 관한 분석방법


(3) 측도론이라는 수학분야를 확률계산에 도입. 측도론을 바탕으로 확률론의 근본적인 공리를 발견하였습니다.

  * 확률의 공리

   ① 확률은 0~1사이의 값을 가진다.

   ② 모든 범위에서 확률의 합은 1이다.

   ③ 상호 배타적인 사건의 합사건의 확률은 각 사건의 확률의 합니다.

   - 확률계산의 유효성에 대한 모든 의문을 해소시키므로써 오늘날 확률에 대한 유일한 관점이 되었습니다.


(4) 확률과정(stochastic process)

- 시간에 걸쳐 측정함으로써 이전 자료와 연관을 갖는 자료를 지칭하는데 당시 모든 통계학자들은 통계적 방법을 적용하기 위해 모든 자료가 독립임을 가정하였습니다.

하지만 대부분의 자료는 독립이지 않고 이전 자료와 연관을 가지고 있었습니다.

(* 피셔의 아들 몸무게 측정 자료). 

그러나 콜모고로프의 선구적인 연구 덕에 이러한 확률과정을 분석할 수 있게 되었습니다.

 (* 전파망원경에 잡히는 여러 신호의 근원을 식별할 수 있게 되었고, 지진계에 기록된 지진파가 지진에 의한 것인지 지하 핵실험에 의한 것인지 식별 가능해졌습니다.)





3) 콜모고로프도 해결하지 못한 철학적 문제


(1) 실세계에서 확률은 무엇인가 ?

확률론은 콜모고로프가 만든 확고한 수학적 이론 때문에 내적 일관성을 가지고 있습니다. (내적 일관성이란 같은 방법을 쓰면 같은 결과가 나온다는 것으로 생각하면 됩니다.) 

 하지만 통계적 방법은 실세계의 문제에 적용되므로 확률에 대한 추상적인 모형에 대응하는 실세계의 개념을 찾아야 합니다. 왜냐하면 통계분석결과의 해석이 확률에 의존하기 때문입니다.


 (2) 확률론의 공리

기본사건으로 구성된 추상공간이 존재합니다.

추상 공간의 부분집합인 ‘사건’이 발생할 확률은 면적, 부피와 같이 측정 가능하다 가정을 하는것 입니다.

이 추상공간 상의 정의된 확률이란 측도가 확률론의 공리를 만족하면 이 추상공간을 ‘확률공간’ 이라 하고 실세계에서 확률을 사용하기 위해서는 이 추상공간에 대응하는 실세계의 개념을 정의해야 합니다.


고셋 : 추상공간은 모든 가능한 결과의 집합과 같다고 정의하였습니다.

 하지만 그 공간상에서 확률을 측정하는 방법은 설명하지 못하였습니다.

* 추상공간=복소수, 사건=허수 라면 복소수 중 허수일 확률은 못구한다는....


하지만 콜모고로프는 다른 방법으로 확률의 의미를 찾으려 노력하였습니다.





부가설명

콜모고로프는 소련사람이지만 소련이 통계학으로부터 아무것도 얻지 못한 이유가 있습니다.

정통 공산주의 이론이 통계활동에 영향을 미쳐 소련에서 수리통계학을 적용하는 연구가 급격히 위축되었다.


 (1) 전제군주 시대 후반과 러시아 혁명 초기에는 상당히 활발하게 연구되었습니다. 연방 내 각 공화국에도 통계국이 설치되었었습니다.

 하지만 ‘1930년 스탈린 시대(정통 공산주의).. 통계학을 사회과학의 한 분야로 취급. 공산주의 이론에 따르면 사회과학은 중앙정부 통제 하에 있어야 했습니다(예를 들어 계획경제). 

그러나 통계학의 ‘확률변수’는 러시아어로 “우연히 나타내는 양”이라는 용어로 쓰였으며  이는 곧 모든 산업과 사회활동은 마르크스와 레닌의 이론에 따라 수립되므로 어떤 것도 우연히 나타날 수 없다 라는 공산주의 이론에 모욕에 가까운 것이었습니다. (우연은 자본주의에나 나타날 수 있다고 생각하였다.)

따라서 통계학연구는 당연히 위축되는게 맞았습니다.


이에 따른 중앙통계국의 수치의 신뢰도는 하락하였고 이런 수치에 기반한 경제계획에 의해 토지황폐화, 공장 비효율화 심화되었습니다.

그러나 개선점 없이 여전히 변화율, 변화율의 변화율 등으로 눈속임을 하였습니다. 

  *반면에 미국은 전쟁수행에 활용(위너), 통계적 품질관리(슈하트 등) 등 산업에 활용하여 높은 품질과 결과를 얻을수 있었습니다.

다행히도 1990년대 말 소련 해체 후, 중앙정부 경제계획 시스템 붕괴되고 나서야 통계학이 러시아 산업에 적용되었다고 합니다.


이책을 읽고 난후 엄청난 통계학, 수리학자가 있었어도 사용법을 부정하면 어떠한 결과가 초래되는지 알게 되었습니다.

어떤 학문이든 배척하지 않는 사람이 되어야 겠다는 다짐을 하며 

글을 마무리하려고 합니다.


이상 다비드s였습니다.




블로그 이미지

다비드s

,




 안녕하세요 다비드s입니다. 지난 포스팅은 표본의 키기와 오차에 대해 알아보았습니다. 오차와 표본크기는 밀접한 관계를 맺고 있습니다. 그러기에 표본을 뽑는 방법 또한 중요하다고 생각합니다. 그러기에 오늘은 표본 추출방법에 대해 글을 써보도록 하겠습니다.


표본의 크기에 맞는 데이터를 얻기 위하여 채택된 표본을 추출방법에 따라 실제로 선정하는 일로 표본추출 방법은 고정 표본추출법(fixed sampling)과 축차적 표본추출법(sequential sampling)으로 구분하거나 확률표본 추출법(probability sampling)과 비확률표본 추출법(nonprobability sampling)으로 구분할 수 있습니다.


*고정 추출법

- 조사에 필요한 표본의 크기를 사전에 확정하여 추출하고 조사결과를 평가하는 방법입니다.


*축차적 표본추출법

- 신뢰구간과 같은 일정한 기준을 결정해 놓고 소규모의 표본을 추출하여 조사결과를 평가하고 그결과가 사전에 정한 기준에 미치지 못할 떄 표본의 크기를 점차적으로 증대시켜 가는 방법입니다.


설문조사에서 가장많이 쓰이는 확률표본 추출법(probability sampling)과 비확률표본 추출법(nonprobability sampling)에 대해 알아보겠습니다.





1) 확률표본추출법

조사자는 모집단의 각 구성원이 표본으로 선정될 확률을 사전에 알 수 있도록 추출하며, 그러한 확률에 따라 표본구성원이 선정되므로 표본추출에 있어서 조사자나 면접자의 주관적인 판단이 전혀 개입되지 않아야 합니다.

이 때 모집단의 각 구성원이 표본의 구성원으로 추출된다는 확률이 있는것은 무작위성에 대한 실질적인 기준이 되며, 이와 같은 방법으로 표본을 확률화하는 일은 표본자료부터 오차를 제거하지 않지만 조사자에게 생길수 있는 표본오차의 범위를 평가할 수 있도록 하며, 이는 정보를 활용하는 데에 매우 중요한 요건입니다. 확률적으로 표본을 추출하기 떄문에 사전에 알려진 확률은 여러 표본 추출법에 따라 달라지겠지만, 단순무작위 추출법에서는 모든 모집단이 동일한 확률입니다.


쉽게 설명하자면 모집단의 크기와 구성형태에 대해 잘 알고 있는 경우에 사용하는 방법으로 모집단의 리스트를 가지고 있는 경우로 추출단위가 표본으로 선정되어지는 확률을 아는 경우입니다.


(1) 단순임의추출(simple random sampling)

모집단의 각 추출단위에 일련번호를 부여하고 비복원으로 난수를 뽑아 대응되는 추출단위를 표본으로 선정하는 방법입니다.

(표본추출목록으로 부터 표본을 선정하기 위해 난수표를 작성하여 뽑는 방법; 난수표본추출방법)


(2) 집락추출(cluster sampling)

모집단을 집락으로 구성하여 먼저 집락을 추출하고 추출된 집락 내의 일부 또는 전체를 조사하는 방법입니다.

예) 시골 농가를 조사할때 면(읍)단위로 추출하는 것


(3) 층화임의추출(stratified random sampling)

모집단의 추출단위들을 서로 중복되지 않는 몇 개의 층으로 나누고 이들 각 층에서 배정된 표본을 단순임의추출법에 따라 추출하는 방법입니다.


(4) 계통표본추출(systematic random)

모집단의 추출틀에서 처음의 k(=N/n)개 단위들 중에서 랜덤하게 하나의 단위를 추출하고 그 이후 매 k번째 간격마다 하나씩 표본으로 추출하는 방법입니다.


실제 사용될 때에는 추출법들이 개별적으로 사용된다기 보다 서로 결합된 방식으로 사용됩니다.

예)  층화집락임의추출




1) 비확률표본추출법

일반적인 경우에 모집단의 수를 모르는 경우가 많고, 모집단의 리스트를 구하는 것은 매우 어렵습니다. 그러므로 추출단위가 표본으로 선정되어지는 확률을 모르며, 추출단위들이 동일한 확률로 추출되었다고 확신하기가 어렵습니다.

따라서 개별 연구자들이 시행하는 설문조사의 대부분이 비확률표본추출법이 해당됩니다. 이 방법의 대표적인 방법은 보행자 조사법인데 예를들어 쇼핑센터 앞에서 쇼핑객들의 의식을 알기위해 면접조사를 실시하는 것입니다. 이러한 조사에는 모집단 리스트가 없고, 표본이 모집단을 잘 대표하는지에 대한 불확실성이 있습니다.


이러한 비확률추출번을 이용하는 경우, 추출단위들이 동일한 확률로 추출되었다고 할 수 없기에 이론적으로 정규분포 가정에 의해서 표본자료를 분석할 수도 없고, 표본과 관련되는 표본오차를 추정할 수 없습니다. 따라서 조사결과는 표본 자체에 대한 결과로 해석되어야 하며, 원칙적으로는 모집단에 대한 일반화가 불가능하다는 사실을 염뒤해 둬야합니다.


(1) 편의표본추출

조사자의 편의에 따라 표본을 선정하는 방법입니다. 하지만 모집단에 대한 표본의 대표성을 확신할 수 없기 때문에 표본오차를 추정하고 모집단 특성에 관한 통계적 진술을 실행 할수 없습니다. 따라서 편의표본은 기술적 조사나 인과적 조사에 이용할 수 없으며, 단지 연구조사와 관련된 아이디어나 통찰을 얻거나 통계적 가설을 구성하기 위한 탐색적 조사에 사용할 수 있습니다.

예) 자료수집방법으로는 부적당하며 아이디어나 가설을 추출하기 위한 탐색적 조사연구나 설문지의 사전조사에 사용


(2) 판단표본추출

조사문제에 대해 적절한 해답을 줄 수 있다고 판단되는 전문가들을 표본으로 선정하는 방법이며, 표본은 의도에 따라 선정됩니다.
이 표본추출법 또한 표본의 대표성을 확신할 수 없기 떄문에 표본오차를 추정하거나 조사결과에 대한 일반화가 불가능 합니다. 그러나 전문가의 판단이 유효하다면 편의표본추출법보다 좋습니다.


(3) 할당표본추출

각각의 층이 전체 모집단에서 동일한 비율을 갖는 표본으로 나타나는 층화표본추출과 비슷한 추출법입니다. 다른 비확률 표본추출에 비해 추출한 표본이 상대적으로 모집단의 속성을 좀 더 많이 반영할 수 있습니다. 일정한 특성을 갖는 표본의 비율이 모집단내에서 그러한 특성을 가지는 표본비율과 유사하도록 추출하는 방법입니다.

모집단을 구성하고 있는 계층을 골고루 대표할 수 있어 대표성이 높아지지만 모집단 분류에 있어 분류자의 편견이 개입되고 Quota의 작위적 표출은 오차의 개입가능성을 증대시킵니다. 


(4) 눈덩이추출

누적표본추출이라고도 하며 연구자가 임의로 선정한 제한적 표본에 해당하는 사람으로부터 추천을 받아 다른 표본을 선정하는 과정을 되풀이 하는 것으로 눈덩이를 굴리듯 표본을 누적한다 해서 눈덩이 추출법이라고 합니다.

이 방법은 연구자가 모집단의 구성원 전부를 파악하지 못할때 적절한 방법입니다.




오늘은 표본추출방법에대해 알아보았습니다.


확률표본추출과 비확률표본추출을 상황에 맞게 적용하여 표본추출을 한다면 양질의 조사와 원하는 연구결과가 도출될 것 입니다..

오늘도 읽어주셔서 감사합니다. 이상 다비드s였습니다




'통계학_탐험기 > 통계자료분석 (Spss, Excel)' 카테고리의 다른 글

설문조사분석-4  (0) 2018.01.11
설문조사분석-3  (0) 2018.01.09
설문자료분석-2  (0) 2018.01.06
설문자료분석-1  (0) 2018.01.05
블로그 이미지

다비드s

,







 안녕하세요 다비드s입니다. 계속적으로 선문조사에 필요한 이론을 알아보고 있습니다. 그전 포스팅에서 조사방법까지 알아보았다면 오늘은 설문조사에서 발생되는 오차와 설문조사분석을 위해 필요한 표본의 크기에 대해 알아보도록 하겠습니다.



1) 오차


 표본의 크기는 조사의 정확성을 어느 수준으로 할 것인가(즉, 오차를 어느 정도로 할 것인가)에 따라 결정됩니다(인적, 물적자원 등 상화에 따라 결정되기도 함). 따라서 오차를 먼저 설정하느냐에 따라 표본의 크기가 결정됩니다.

조사에서 오차는 항상 발생된다고 보셔야 합니다.


오차의 발생원인은 여러 가지 요인이 있으며, 오차는 크게 표본오차(sampling error)와 비표본오차(non-sampling error)로 나눌수 있습니다.


대부분의 조사에서 모집단 전체를 조사하는건 불가능 합니다. 그래서 그 일부인 표본을 조사하여 모집단의 특성을 추정하는데, 이렇게 전체를 다 조사하지 않고 그 일부인 표본만을 조사하여 모집단의 특성을 추정하기 때문에 발생하는 오차를 표본오차(sampling error)라고 합니다.


*전수조사는 모집단 전체를 조사하는 것이며 표본조사는 모집단의 일부를 조사하는 것입니다. 따라서 전수조사에서는 표본오차는 발생하지 않습니다. 그러기에 표본의 크기를 증가시면 오차는 감소하게 됩니다.


이에 반해, 비표본오차(non-sampling error) 실제 조사나 집계, 분석에서 일어나는 오차(; 회답오차, 무회답오차, 표본선출의 오차 등)를 말합니다. 
예를 들어 응답자가 거짓으로 답하거나, 무응답 또는 표본을 잘못 뽑았을때 발생하며 이 외에도 설문지 응답오류, 자료 입력 및 처리 오류 등으로 발생되는 경우가 있습니다. 따라서 비표본 오차는 표본조사나 전수조사 둘다 발생하며 일반적으로 전수조사에서 더 크게 발생합니다.


표본을 조사하는 것보다 모집단 전체를 조사하는 것이 훨씬 정확하며 표본조사를 불신하는 경향이 있지만 정치적으로 이용하고 시각화로 왜곡시키지 않는다면 믿어도 된다고 생각되어지며 일반적으로 조사 대상수를 늘리면 표본오차는 감소하지만 비표본오차는 증가하기에 합리적인 방법을 선택하는게 좋습니다.



2) 표본의 크기


표본의 크기는 조사의 정확성을 어느 수준으로 할 것인가 즉 오차를 어느 정도로 할 것인가에 따라 결정됩니다. 설문조사는 모비율(p)를 추정하고자 하는 경우가 대부분이므로 모비율 추정시 표본의 크기를 결정하는 방법이 있는데 두가지가 있습니다.





모집단 크기가 100,000이 넘으면 대규모 집단으로 간주할 수 있으며, 모집단 크기가 50,000만 넘어도 표본 크기는 거의 변하지 않습니다.



제가 표본크기 구할때 쓰는 엑셀입니다. 파일을 첨부하니 표본을 쉽게 구하실수 있습니다.




표본크기 구하기.xlsx





오늘도 끝까지 읽어주셔서 감사합니다. 이상 다비드s였습니다.~!!







'통계학_탐험기 > 통계자료분석 (Spss, Excel)' 카테고리의 다른 글

설문조사분석-5  (0) 2018.01.12
설문조사분석-3  (0) 2018.01.09
설문자료분석-2  (0) 2018.01.06
설문자료분석-1  (0) 2018.01.05
블로그 이미지

다비드s

,

 


 안녕하세요 다비드s입니다. 

겨울인게 실감이 나는 날씨입니다. 아직까지 이불밖은 위험한것 같습니다. 그래도 파이팅하시는 날이 되었으면 좋겠습니다.

오늘도 설문자료분석에 대해 이론적으로 알아보려고 합니다. 측정도구의 문제점을 파악하는 사전조사와 조사방법들에 대해 알아보도록 하겠습니다.


1 사전조사란?


사전조사는 통계적인 추론의 목적이 아니라 설문지 구성의 전반적인 질에 대한 검토에 목적이 있습니다. 따라서 사전조사 대상자 선정에서 정확성(확률표본추출법에 의한 추출)을 요구할 필요가 없으며 사전조사 대상자가 실제 연구조사 모집단과 유사하다고 인정 될수 있으면 됩니다. 표본의 크기는 일반적으로 40~50명 정도면 충분하고 대부분 30명정도를 실시합니다. 사전조사를 통하여 얻어진 자료를 이용하여 문항의 타당도 및 신뢰도를 측정하고 필요하다면 설문지 내용을 수정합니다. 만약 수정해야 할 내용이 많다면 수정후 사전조사를 재실시 해야하며 수정할 내용이 많지 않다면 본조사에서 사용될 최종 설문지를 작성합니다.

본조사에 들어가기 전 마지막으로 측정도구의 오류를 집어내기 때문에 사전조사는 중요합니다.



2. 조사방법


설문조사의 경우 조사방법을 크게 나누면 우편조사, 전화조사, 인터넷조사, 면접조사, 집단조사 등이 있습니다.


1) 우편조사

질문지를 우편으로 보낸후 동봉한 반송용 봉투를 이용하여 응답을 받는 조사방법으로 자기기입식 조사방법입니다.

최소의 비용과 노력으로 광범위한 지역조사가 가능하며 만나기 어려운 대상에게 접근이 용이합니다. 또한 익명성의 확신을 주며, 질높은 자료를 얻을수 있습니다. 반면에 응답률이 매우 낮고 주소목록을 구하기가 어렵습니다. 그리고 대리응답자가 응답하는 것을 통제할수 없으며 추가적인 질문이나 캐어묻기등을 할 수 없습니다.


회수율이 보통 20~30%이며, 응답자에게 인센티브를 제공하면 약간 높아지는데, 회수율이 50%정도를 대성공으로 봐야합니다. 이를 위해서는 2차 확인우편이 필수적이며 그만큼 시간과 노력이 많이 소요되므로 일반적으로 사용되고 있지 않은 방법입니다.


2) 전화조사

조사원이 전화기를 연결한 컴퓨터앞이나 컴퓨터 프로그램이 질문을 읽어주고 응답자의 응답내용이 컴퓨터에 저장되어 조사하는 방법입니다.

비용과 시간면에서 경제적이어서 최근 각종 여론조사에서 많이 이용되는 방법이며 방문에 대한 경계심이 큰 경우 접근성이 높습니다. 또한 비교적 쉽고 정확하게 모든 표본에 접근이 가능하며 익명성이 어느정도 보장되기에 표본에 접근이 용이합니다. 반면 통화가 불가능할때에는 많은 제약을 받고 개인적 연구에서는 이용히가 어렵습니다. 또한 조사거절율이 상당히 높습니다.


3) 인터넷 조사

컴퓨터를 이용한 자료수집의 유형중 대표적인 방법입니다.

추츨틀의 형태에 따라 회원조사, 방분자 조사, 전자우편조사, 전자설문조사등의 유형으로 구분됩니다. 단시간내에 많은 표본을 확보 할 수 있으며 조사기간을 단축 시킬 수 있습니다. 또한 조사비절감이 가능하며 사진,그림등을 포함하는 다양한 형태의 조사를 대규모로 실시 할수 있고 시간, 공간의 제약이 없으며 설문지를 선별적으로 보여줄수 있기에 질문에 빠르고 쉽게 응답이 가능합니다. 그러나 인터넷 이용자가 편중되어 있기에 대표성이 결여되며 우편조사와 마찬가지로 응답률이 매우 떨어집니다. 또한 민감한 질문에 대한 응답의 신뢰도가 떨어지는 단점이 있습니다.


4) 면접조사

면접원이 응답자를 한사람씩 직접 찾아가서 조사하는 방법으로 3가지 면접법으로 나눌수 있습니다.


- 표준화 면접 ; 미리준비된 설문지의 내용 및 순서에 따라 모든 응답지에게 동일한 방법으로 융통성 없이 기계적으로 이루어지는 면접방식을 말합니다.

면접원에 따른 편차를 최소화 하여 조사의 일관성과 신뢰도가 높습니다.,또한 폐쇄형질문으로 조사결과를 수량화하여 분석이 용이 합니다.


- 비표준화 면접 ; 연구목적에 따라 큰 테두리 내에서 형식이나 순서에 구애받지 않고 자유롭게 진행하는 면접방법입니다. 면접지침 정도만 주어지고 질문지나 면접표는 없습니다. 

그래서 집중면접과 임상면접에 많이 사용됩니다. 

 집중면접은 특정한 경험에 관해 집중적으로 질문함으로써 응답자의 경험에 대한 내면적 상황과 행위성향을 파악하고자 하는 방법입니다.

 임상면접은 개인의 감정이나 개인의 생활사 전반에 관해 광범위하게 면담함으로써 응답자 스스로가 자기 행동에 영향을 미친 요인이나 결과 등을 발견할 수 있도록 하는 면접방식 입니다.


- 준표준화 면접 ; 표준화면접과 비표준화면접이 혼합된 형태이며 목적이 분명하여 중요한 질문은 표준화면접으로, 확실하지 않은 질문은 비표준화 면접으로 가능합니다.



면접조사의 장점으로는 표본의 대표성과 응답률을 최대로 높일수 있으며 신뢰성이 있는 대답을 얻을 수 있고 복잡한 형태의 질문도 가능합니다. 그러나 시간과 비용이 많이 소요되며 면접원간 개인차가 발생될수 있으며 특수층의 대상자와는 만나기가 어렵습니다. 또한 면접원의 오기 또는 부정행위가 발생될수 있다는 단점이 있습니다.


5) 집단조사

 한 장소에서 응답자들을 모아 놓고 질문지를 나누어 준 후 응답자가 직접 기재하도록 한 후에 설문지를 회수하는 방법으로 응답자들이 집단의 일반적인 주장이나 여론에 영향을 받을수 있습니다.

응답률이 높고, 비용과 시간절약, 그리고 조사가 간편하다는 장점이 있는 반면에 응답자를 한자리에 모이게 하는게 쉽지 않으며 집단여론에 영향이 가능하고, 통제가 여려우며 개인의 차이를 감안하지 못하므로 조사자체의 타당도가 낮아지기 쉽습니다.



오늘은 본조사전 실시하는 사전조사의 의미와 이유를, 그리고 여러가지 조사방법에 대해 살펴보았습니다.

어떤 일이든 그에 맞는 방법을 찾는게 중요한것 같습니다. 조사전에 어떠한 조사법이 필요한지 효율적인지를 알아보고 실시하는게 가장 필요하다고 생각 되어집니다.


오늘도 지루한글 읽어주셔서 감사합니다.

여기까지 다비드s였습니다. 다음시간에 또뵈요!!

'통계학_탐험기 > 통계자료분석 (Spss, Excel)' 카테고리의 다른 글

설문조사분석-5  (0) 2018.01.12
설문조사분석-4  (0) 2018.01.11
설문자료분석-2  (0) 2018.01.06
설문자료분석-1  (0) 2018.01.05
블로그 이미지

다비드s

,

 

 

 

 안녕하세요! 다비드s입니다. 오늘은 설문조사분석에서 필요한 개념인 조사방법론에 대해 알아보도록 하겠습니다.

 

 

 

 

1. 조사방법론의 개념

 

조사연구는 연구대상이 되는 집단을 연구자가 직접조사하고 특성을 파악하며 변수간 관계를 분석하여 가설검증을 하는 연구 방법이라고 어제 이야기 해보았습니다.

 

조사연구는 편리하기에 널리 사용되고있는데 그 목적에 대해 알아보도록 하겠습니다.

조사의 연구목적으로는

 

탐색

연구하고자 하는 대상에 대한 사전정보가 없을 떄 앞으로의 연구를 위하여 실시하느 조사로 본격적인 연구과제의 도출을 위한 탐색을 위한 것입니다.

모집단의 특성에 대한 추론이 아니라 모집단의 특성을 나타낼수 있는것들이 무엇인가를 파악하는데 있습니다.

 

- 기술

관찰된 사실들을 일반적인 수준에서 요약하고 정리하여 모집단의 현상이나 특징적인 상태등을 체계적으로 기술, 묘사하기 위해 실시하는 조사로 각종 사회지표조사 실태조사 등이 있습니다. 모집단 자체의 특성을 기술하는 것이 주된 목적입니다.

 

- 설명

 그 현상이나 상태에 대한 인과관계를 밝힘으로써 왜 그러한 현상이 나타나게 되는지 규명하기 위해 실시하는 조사입니다.

 

연역적 설명 ; 어떤 현상이 확립되어 있는 보편적 법칙으로부터 도출될 수 있다는 것을 보여주어 현상을 설명하는 것입니다.

 

귀납적 설명(확률적 설명) ; 보편적 법칙이 확립되어 있지 않은 경우, 특정사건이나 현상을 설명하기 위하여 관찰된 내용을 토대로 설명하기 위해 확률적 법칙에 의존하는 것을 말합니다.

 

- 검증

 어떠한 가설의 진위여부를 가리거나 이론을 수정, 보완하기위하여 실행하는것 입니다.

 

* 가설

 이론의 내용을 검증하거나 현상을 예측하기 위해 이론으로부터 도출된 관찰 가능한 명제

* 가설검증

경헙적 일반화 내용과 가설을 비교하여 어떤 가설을 선택할지 결정하는 과정으로 쉽게말해 확증된 사실과 내가 주장하고 싶은 가설 중 어떤 것을 받아들여야 할지 판단하는 과정입니다.

 

 

조사연구의 내용으로는

 여러가지 객관적 자료를 확보하며 겉으로 잘 드러나지 않는 사람들의 생각이나 태도를 파악하고 객관적, 주관적 자료도 조사를 통하여 수집이 가능합니다. 또한 다양한 사회현상의 원인과 과정, 결과등을 조사하는 것입니다.

 

* 조사연구에서 중점은 여러가지 요소들을 서로 연관시켜 그 관계를 분석하는 것이며 사회적 쟁점들에 대한 생각을 파악하고 그 결과를 대응책이나 정책 수립에 기초자료로 활용하는것 입니다.

 

 

2.조사연구의 단계

 

최초로 기획준비단계가 필요합니다.

조사연구의 주제 및 조사 설계를 통하여 연구문제, 연구목적을 설정하여 이후 연구주제를 결정하게 됩니다.

예비조사를 거쳐 문제의식과 접근방향을 구제적으로 결정하게 됩니다.

 

*예비조사란 기존의 문헌 및 사례연구 등을 자세히 검토하고 제구성하여 연구하고자 하는 문제를 구체화하거나 이론적 추론을 통하여 가설을 설정하는 조사를 말합니다.

 

두번째로 기초작업단계입니다.

탐색조사를 통해 조사의 현실적 가능성, 접근 가능성, 자료수집 가능성, 표본추출의 실질성, 조사과정의 관리 가능성 등에 대해 탐색하는 작업입니다.

탐색작업 후 연구대상을 구체적으로 결정하고 모집단을 정의하여 개체들의 조사가능성을 고려하여 표본을 뽑게 될 표본틀(추출틀)을 작성할수 있는 요건을 규정해야합니다. 표본을 추출하기 위한 표본설계를 실시하여 표본의 크기와 표본추출방법을 결정합니다.

표본에 대해 얻을 데이터에 대한 측정도구를 설계해야합니다. 보편적으로 질문지(설문지)를 활용합니다. 측정도구가 설계된 후 발생될수 있는 문제점을 보완하기 위해 사전조사를 실시합니다. 그리고 설문조사원에게 데이터수집에 관한 교육을 실시한다면 두번째 단계가 끝이납니다.

 

세번째로 현지작업단계입니다.

간단하게 본조사라고 하며 조사원교육이 끝난 후 실시되며 치밀한 감독과 통제로 오차발생률을 낮춰야하며 확인과 검토작업이 필요합니다.

 

마지막으로 결과분석단계입니다.

측정도구를 수치화시키는 코딩작업과 데이터 클리닝 작업을 거친후 여러가지 통계적 기법을 활용하여 자료를 분석하고 마지막으로 조사의 목적과 연구문제, 가설, 이론과의 관련성 등을 여러가지 변인들간의 관계를 고려하여 최종적으로 연구보고서로 작성을 하면 조사연구가 다단원에 막을 내립니다.

 

*표본틀(추출틀) 표본이 뽑히는 추출 단위의 목록이며 모든 기본단위가 중복되거나 누락이 없어야합니다.

 

 

오늘까지 조사연구에 대한 개념과 실시단계에 대해 공부하였습니다. 다음 포스팅 또한 개념들과 방법들 , 즉 좀더 깊숙히 알아보도록 하겠습니다.

 

미흡한 설명이지만 열심히 썼습니다.

오늘도 읽어주셔서 감사합니다.

'통계학_탐험기 > 통계자료분석 (Spss, Excel)' 카테고리의 다른 글

설문조사분석-5  (0) 2018.01.12
설문조사분석-4  (0) 2018.01.11
설문조사분석-3  (0) 2018.01.09
설문자료분석-1  (0) 2018.01.05
블로그 이미지

다비드s

,

 안녕하세요? 다비드s입니다. 통계자료분석중 설문조사분석과 개념에 대해 설명하고자 합니다. 간단하게 받아들 일수도 있겠지만 이해를 돕기위해 파트를 나눠 포스팅 하고자 합니다.

 

 

1. 조사(survey)란

사물의 내용을 명확히 알기 위하여 자세히 살펴보거나 찾아보는 것을 말합니다.

 

▶ 사회조사(통계조사) ; 일정한 집단 또는 사회에 있어서의 여러 사회적 현상에 대한 자료수집하는 활동을 통하여 관찰하고 분석하는 과정과 방법이며 대상집단에 대한 특정자료, 정보를 과학적인 방법으로 알아내기 위한 목적입니다.

 

조사대상을 모집단 전체나 일부를 활용하는가에 따라 전수조사(census)와 표본조사(sampling survey)로 구분할 수 있습니다. 보편적으로 사회조사(통계조사)는 표본조사를 지칭합니다.

 

사회조사는 보이지 않는 생각, 태도, 사회현상 등을 수치화하여 시각화가 가능하고 표본만을 조사해서 모집단의 특성치를 확인, 예측이 가능하다는 장점이 있습니다. 그러나 사회적 현상을 수치화하는 객관적 척도가 없으며 개발중이여도 논란의 여지가 있습니다.(만족도, 부패지수, 청렴도 등) 또한 자의적인 방법의 조사는 의미도 없습니다.

 

그래서 사회조사를 하기위해서 객관적인 척도를 만들며 과학적인 방법과 절차에 따라 조사하는게 중요합니다.

 

 

2. 데이터의 구조

- 케이스 ; 특성을 나타내는 관측값들의 모임

- 변수 ; 각 특성을 열로 구성

 

변수의 종류

- 수치형 변수 ; 데이터를 연산이 가능한 변수

- 연속형 변수 ; 연속적인 값을 취하는 변수

- 이산형 변수 ; 셀수 있는 실험 결과를 나타내는 변수 

- 범주형 변수 ; 수를 이용하여 범주형 데이터를 표현 변수

- 순서형 변수 ; 범주를 순서가 있도록 숫자로 표현한 변수

- 명목형 변수 ; 어떤 순서나 연산이 불가능한 변수

 

* 변수의 관계

두 변수 사이에 서로 관련이 없는 변수는 독립변수라고 하며 변수 사이에 관계가 있다면 연관 또는 종속 변수라고 합니다.

 

3. 데이터의 수집

 

데이터 수집하는 방법은 크게 네 종류가 있습니다.

 

- 실험 ; 다른 조건들을 통제하였을 때 하나의 변수가 다른 변수에 어떤 영향을 미치는지 알아보는 방법으로 자연과학 뿐만아니라 심리학이나 교육학 등 사회과학 분야에서도 많이 활동되고 있습니다.

 

- 참여관찰 ; 조사자가 연구대상자들의 생활공간 속에 직접 들어가 그 현상을 직접 관찰하면서 기술하는 방법입니다.

 1) 직접 관찰법(Participant observation) ; 연구하고자 하는 현상이나 대상을 연구자가 직접 보고, 듣고 관찰하는것을 말합니다.

2) 간접 관찰법 ; 남아있는 기록이나 다른 사람들의 경험 또는 관찰을 면접을 통하여 알아내는 것을  말하며 주로 소규모의 사례연구에 많이 활동됩니다.

 

- 내용분석 ; 연구에 필요한 내용(기록, 신문, 잡지 등)을 일정한 분석틀에 따라 체계적으로 분석하는 것으로 문헌을 대상으로 하는 표본조사법을 떠올리면 쉽습니다.

 

- 조사연구 ; 연구대상이 되는 집단을 체계적으로 조사, 특성을 파악하거나 가설을  검증하는 연구방법으로 여론조사, 선거조사, 시장조사 등에 많이 이용되고 있습니다. 비교적 적은 경비와 노력으로 대규모의 대상을 연구 할수 있으며, 연구결과를 일반화시킬 수 있는 가능성이 크고, 많은 변수를 효과적으로 다룰 수 있습니다. 그러나 표준화된 방법이나 구조화된 질문을 사용하게 되므로 유연성이 떨어지고 응답자의 외면적인 표현에 의존할 수 밖에 없습니다.

 

 

*실험이나 조사를 통하여 연구를 시작할 때 첫 번째 해야할 일은 연구주제 또는 질문을 구체적으로 기술 하는 것 입니다. 또한 데이터는 어떠한 방법으로 실험하거나 수집해야 믿을수 있는 데이터를 얻을 수 있는 지를 사전에 신중하게 고려해 봐야 합니다.

 

또한 주변에서 손쉽게 얻은 데이터를 일화적인 증거 또는 입증되지 않은 증거라고 합니다.  이러한 증거가 사실일 수도 있지만 단지 몇몇 특정 케이스만 대표하기 때문에 전체로 확대 해석하지 말아야 합니다.

 

 

 

오늘은 조사방법들과 데이터 수집방법을 간단이 이야기 해보았습니다. 제가 마지막으로 하고 싶은말은 어떤 연구든 데이터가 오염되어 있다면 결과도 내기전에 그 연구는 잘못된 것이라고 말하고 싶습니다.

그만큼 데이터를 수집하는게 어렵고 중요한 단계입니다. 그래서 상황에 맞는 방법을 선택하고 측정도구를 개발하는 초기단계가 가장 중요하다고 생각합니다.

 

오늘도 글 읽어주셔서 감사합니다.

다음시간에는 여러분야에서 잘 쓰이는 조사연구법과 설문조사방법에 대해 알아보도록 하겠습니다.

 

 

 

 

 

'통계학_탐험기 > 통계자료분석 (Spss, Excel)' 카테고리의 다른 글

설문조사분석-5  (0) 2018.01.12
설문조사분석-4  (0) 2018.01.11
설문조사분석-3  (0) 2018.01.09
설문자료분석-2  (0) 2018.01.06
블로그 이미지

다비드s

,

안녕하세요 다비드s입니다. 오늘부터 David Salsburg가 쓴 "통계학의 피카소는 누구일까?"라는 책을 리뷰하려고 합니다.

하루에 한두 Chapter씩 내용을 정리하고 저의 생각 또한 정리해 보려고 합니다.

 

 

 

0. 통계 패러다임의 시작

 

 기계론적 세계관에 기초한 19세기 과학은 데카르트 이론들, 뉴턴의 운동법칙이나 보일의 법칙과 같은 몇 개의 방정식으로 실세계를 나타낼 수 있다고 보았습니다. 따라서 이 방정식들과 관련된 정확한 측정값만 있으면 미래를 예측할 수 있을 것이라고 생각하였습니다. 우주는 과거에 의해 그 미래가 결정되어 있으며, 신이 개입하지 않아도 영원히 작동한다는 기계론적 세계관에 많은 사람들에게 신세계였습니다. 기계론적 세계관을 지지하는 과학적 증거들이 등장하였고, 뉴턴은 수리적 법칙으로 다른 행성의 존재를 예측할 수 있었으며, 그 예측을 바탕으로 해왕성을 발견했습니다.

하지만 관찰된 행성과 혜성의 실제위치와 예측결과가 정확히 일치하지 않았기 때문에 오차함수가 필요하게 되었습니다.

그럼에도 불구하고 당시 과학자들은 대기의 불안정이나 인간의 실수로 인한 "측정오차" 때문이라는 생각이 주를 이뤘습니다.

그래서 모든 오차들을 통합하여 하나의 항으로 통합하였고 예측수식에 오차항을 추가 하였습니다. 그러면서 측정이 정확해지면, 오차함수는 필요없을것이다 라고 생각했습니다.

하지만 측정도구가 아무리 정밀해져도 오차는 더 커졌고, 여러 분야에서의 기계론적 법칙은 실패하였고 기계론적 세계관은 흔들리기 시작했습니다.

 

 

그 결과 통계적 모형이라는 새로운 패러다임으로 과학은 이동하기 시작하였고 20세기가 끝날 무렵 과학 전반으로 확산되었습니다.

 

 "일어날 것 같지 않은 것도 일어나는 것이 확률의 본질이다" 라는 아리스토 텔레스의 말처럼 고대부터 시작된 통계에 관련된 법칙들과 인물들의 이야기를 시작하려고 합니다.

 

1. 차 맛을 가리느 여인

 

차에 우유를 따르느냐 우유에 차를 따르느냐에 따라 차 맛이 달라진다는 한 여성의 주장으로부터 이야기는 시작됩니다.

싱거운 주장, 시간낭비다라고 생각 되어질수 있으나 통계적으로 생각해 본다면 실험의 설계가 들어갈 만한 가설이 될수 있다는 것입니다. 이처럼 작은 실험설계로부터 이야기는 시작됩니다.

 

 피셔는 농업실험연구소가 축척해온 오류를 해결하고 90년간 강수량과 생산량 자료를 검토한 결과 기후변화가 생산량에 미치는 효과가 비료의 효과보다 훨씬 더 크다는 논문을 발표하였는데 그 전에 자료들은 기후와 비료의 효과는 서로 교락되어 있어서 효과를 분리해 내는게 불가능하며 90년간의 자료는 아무런 쓸모가 없음을 알게 되었습니다그 후 피셔는 실험과 실험설계에 대해서 연구하게 되었습니다. 그리고 실험결과는 수학적 모형으로부터 시작해야한다고 하며 방정식으로 표현하여 알고자하는 바를 수학식으로 계산해 내었습니다.

 

[ * 실험설계법;

 피셔가 만든 법칙으로 실험설계를 통해 실험을 실시하고가능하다는 가정하에 각 결과가 나올 확률과, 불가능하다는 가정하에서의 확률을 계산하여 실험에서 나올수 있는 가능성을 나타내는 것으로 20세기 초 과학 전반을 휩쓴 통계 패러다임에서 중요한 역활을 하였습니다.

즉 실험을 할때 무조건 실험을 시작하면 안되며 깊은 사고와 상당한 수학적 노력을 통해 실험설계를 실시하여야 한다고 강조하였습니다.

 

  *교락;

  두개 이상의 원인이 한꺼번에 영향을 끼침으로써 분리불능의 원인을 말합니다. ]

 

 

피셔는 실험설계법에서 좋은 실험설계의 예를 제시하고, 이로부터 일반적인 실험설계의 기본원칙을 도출하였습니다.
하지만 피셔가 사용한 수학적 방법은 너무 복잡하였기 때문에 다른 과학자들이 그방법으로 새로운 실험설계를 유도하는게 거의 불가능하였습니다. 그러나 여러가지의 실험설계법이 개발되어 농업분야에서 널리 사용되었으며 이외의 의학, 화학, 품질관리에도 적용되었습니다.

 

 오늘 읽어본 이야기 속 실험계획법은 통계학 뿐만 아니라 여러 학문들을 연구할 때에도 필요하다고 생각합니다. 어떠한 변수가 있을지, 어떠한 결과가 나올지 먼저 예측하며 어떤 원인으로부터 나온 것인가를 한번 더 확인하는 것이기에좀 더 다양한 방법의 실험이 가능하케 합니다

 그리고 삶 속에서도 필요하다고 생각합니다. 삶은 한번뿐이며 중요하기에 수학공식에 대입하기에는 어렵겠지만 설계를 명확히 한다면 좀 더 행복한 삶을 살지 않을까? 라는 생각을 통계학 속에서 생각해 봅니다.

 

 

 

 

블로그 이미지

다비드s

,

 

 

 

 

1. 통계학이란


관심 또는 연구 대상이 되는 모집단(Population)의 특성을 파악하기 위해, 모집단에서 일부의 표본(Sample)을 수집하여 자료를 정리, 요약 그리고 분석을 통하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문입니다.

 

 

여기서 중요한 단어가 있습니다. 그 단어는 방법입니다.

'방법을 연구한다'라는 것 즉 통계학은 쉽게 말하여 도구라고 할수 있습니다.

사회현상이나 과학적현상을 관찰하고 분석하기까지의 과정을 통계학이라고 할 수 있고(단편적인 예로 남녀의 신장은 차이가 있다) 그 결과를 활용하여 다른 분야의 전문가들이 자신의 생각이나 이론을 뒷받침하고 결론을 도출해 냅니다.

 

통계학 = 수퍼서브학문 이라고 칭하고 싶습니다.

 

 

 

통계적 자료 분석은 먼저 예비조사를 통해 개념적 규정이 된 대상에 대하여 가설을 설정하고 조사를 디자인하여 조사방법을 선택합니다(탐색조사, 기술조사, 인과조사)

그 후 자료수집을 실사하고 분석을 통해 결과를 도출해내는 과정입니다.

아래의 이론들은 분석과정에서 필요한 방법들입니다.

 

1) 시공간적 및 경제적인 제약 조건들과 분석결과의 정확성을 고려하여 연구 목적에 필요한 자료와 정보를 최적의 방법으로 수집하는 것(표본추출법, 실험계획법)

 

2) 수집된 자료의 특성을 알아내기 위해 시각적인 방법과 수치적인 방법으로 자료를 정리하고 요약하는 방법(기술통계학)

 

3) 변이성이 내포되어 있는 표본을 이용하여 분석하고자 하는 연구 대상인 모집단의 성질에 대해 추론( 기술통계학; 추측통계학)

 

4) 비결정론적 현상을 수학적으로 기술하는 것을 목적으로 연구하는 방법(확률론)

 

5) 여러 단계를 거쳐 얻어진 최종 결과를 이용하여 행위에 대한 의사를 결정(의사결정론)

 

 

 

통계학에서 연구하려는 대상은 표본이 아니라 모집단입니다. 여러가지 제약조건 때문에 모집단의 전체를 직접 분석하기 어렵기 때문에 모집단에서 추출된 일부의 표본들의 특성을 유도하고 이것을 활용하여 모집단의 특수성을 추론하는 것입니다.

 

 

 

 

2. 통계 기본 용어

 

* 모집단(Population)

 - 연구의 대상이 되는 모든 개체들의 모임입니다.

 - 일반적으로 시간,공간, 경제적 제약의 문제로 모집단 전체에 관한 자료를 얻어 분석하는 방법이 불가능합니다. 하지만 요즘 빅데이터라는 방대한 자료의 수집으로 하여금 가능하게 될 것 같습니다.

예) 전국대학생집단

 

* 표본

 - 모집단에서 실제로 뽑은 측정값이나 관측값의 모임입니다.

 - 수집된 자료에는 항상 변이가 존재합니다.

 예) 대학생들에서 뽑은 1000~3000명 정도의 학생들

 

* 정규분포

 - 모집단의 분포가 어떤 모양을 하고 있던 표본의 크기가 점차 커지면(>30) 표본의 분포 를 그림으로 표현하면 모평균을 중심으로 대칭이며 종 모양(bell-shaped)의 형태와 비슷한 확률분포로 근사할 수 있습니다. 이분포를 정규분포라고 하며 통계학에서 가장 기본이 되는 확률분포 입니다. *단 정규분포의 근사 정도는 모집단의 분포모양과 표본의 크기에 관련이 있습니다.

 

 

 

* 표준정규분포

 - 평균이 0이고 분산이 1인 분포를 말합니다. 

 

-표준정규분포 그래프

 

 

 

 

* 중심극한정리

 - 평균이 μ이고 분산이 σ^2인 모집단에서 표본의 크기(n)가 30개 이상을 뽑으면 표본의 평균은 근사적으로 N( μ, σ^2/n)을 따르게 됩니다.

즉 표본평균의 분포는 n이 커짐에 따라 표준정규분포로 수렴한다는 것입니다.

 

 

다음시간에는 통계학의 기본에 대해 좀더 알아보도록 하겠습니다.
읽어주셔서 감사합니다.

 

 

 

 

 

 

블로그 이미지

다비드s

,