Статистика
Статистиката е наука, която се занимава със събирането, организирането, анализа, интерпретацията и представянето на данни.[1][2][3]
В прилагането на статистиката към научни, стопански или обществени проблеми обикновено се изхожда от дадена статистическа съвкупност или статистически модел, които се подлагат на изследване. Съвкупностите могат да бъдат различни групи от хора или предмети, като „всички хора, живеещи в дадена страна“ или „всички атоми, съставляващи даден кристал“. Статистиката се занимава с всички страни на данните, включително планирането на тяхното събиране чрез разработване на статистически проучвания и експерименти.[4][5]
Когато е невъзможно да бъдат събрани данни чрез пълно преброяване, статистиците събират данни чрез разработването на специални експериментални и проучвателни извадки. Представителните извадки дават възможност изводите и заключенията в приемлива степен да се разширят от извадката към съвкупността като цяло. Дадено експериментално изследване включва извършването на измервания върху изследваната система, нейното манипулиране и след това извършване на същите измервания, за да се установи дали манипулацията е променила измерваните величини. Обратно, наблюдателните изследвания не включват експериментални манипулации.
При анализа на данните се използват два основни статистически метода – описателна статистика, която обобщава данните от извадката с използване на показатели, като средна стойност или стандартно отклонение, и изводна статистика, която извлича заключения от данните, отчитайки случайните отклонения и грешки в тях.[6] Описателната статистика най-често се занимава с две групи свойства на дадено разпределение (извадка или съвкупност): централната тенденция се стреми да опише средната или типична стойност за разпределението, докато разсейването характеризира степента, в която единиците в разпределението се отклоняват от центъра и една от друга. Теоретична основа на анализа на данните е математическата статистика, която от своя страна се базира на теорията на вероятностите, изучаваща случайните явления.
Един обичаен статистически процес включва събирането на данни, което води до проверка на връзката между две множества от статистически данни или между едно множество и синтетичните данни, извлечени от идеализиран модел. Предлага се хипотеза за статистическата връзка между двете множества данни, след което тя се сравнява като алтернатива на идеализирана нулева хипотеза, според която между тях няма никаква връзка. Отхвърлянето или опровергаването на нулевата хипотеза се постига чрез статистически проверки, които оценяват количествено смисъла, в който нулевата хипотеза може да се докаже като погрешна при зададените за проверката данни. При работата с нулева хипотеза се отчитат два основни вида грешки – от първи род (нулевата хипотеза е невярно отхвърлена, давайки фалшив положителен резултат) и от втори род (нулевата хипотеза не е отхвърлена и е пропусната действителна връзка между съвкупностите, давайки фалшив отрицателен резултат).[7]
Процесите на измерване, чрез които се получават статистически данни, също могат да създават грешки. Те обикновено се класифицират като случайни (шум) или системни, но има и други видове грешки (например, груби грешки, като описване на данни с невярна мерна единица). Наличието на пропуски в данните или на цензура може да доведе до системни грешки в оценките, като за избягването на такива проблеми са разработени специални техники.
Статистиката възниква във връзка с нуждите на емпиричната наука и се отличава от повечето клонове на математиката по своята приложна насоченост.[8][9] Най-ранните текстове, посветени на статистически методи, базирани на теорията на вероятностите, са на ислямски математици и криптографи от VIII-IX век, като Халил Фарахиди и Ал-Кинди.[10][11][12] От XVIII век математическата статистика започва да използва задълбочаващите се резултати на математическия анализ, добивайки постепенно съвременния си вид. От средата на XX век централна роля в ключовите за статистиката обработка и анализ на големи обеми данни играят компютрите с разработвания за тях специализиран статистически софтуер.[13]
История
редактиранеПървите текстове, посветени на вероятностите и статистиката датират от Златния век на исляма (VIII-XIII век), когато те са изучавани най-вече във връзка с криптографията. Халил Фарахиди (717 – 786) пише „Книга за скритие послания“, включваща първата употреба на пермутации и комбинации, за да изброи всички възможни арабски думи, със и без гласни.[10] Първата статистическа книга е трактатът на Ал-Кинди (801 – 873) „Ръкопис за разшифроването на скрити послания“, която включва подробно описание на начините за използване на статистика и честотен анализ за разшифроване на криптирани съобщения. Този трактат поставя началото както на статистиката, така и на криптоанализа.[11][12] Ал-Кинди описва и първото известно използване на статистически изводи. Али ибн Адлан (1187 – 1268) развива въпроса за ролята на размера на извадката в честотния анализ.[10]
Най-ранният европейски труд по статистика датира от 1663 година – „Природни и политически наблюдения върху регистрите на смъртността“ („Natural and Political Observations upon the Bills of Mortality“) на английския демограф Джон Граунт.[14] Ранните приложения на статистическото мислене са свързани с нуждите на държавното управление, което се стреми да се води в политиката си от демографски и икономически данни – оттук и етимологията на думата от среднолатински: statisticum е лекционен курс по държавни въпроси (от stat-, подобно на state – държава, estate – земя, владение, собственост (англ.), état (фр.) – държава, от лат. status – положение, състояние[15][16]) Обхватът на дисциплината статистика се разширява в началото на XIX век, обхващайки събирането и анализа на данни като цяло. Днес статистиката е широко използвана в държавното управление, бизнеса, природните и обществените науки.
Математическите основи на съвременната статистика са положени през XVII век с разработването на теорията на вероятностите от Джероламо Кардано, Блез Паскал и Пиер дьо Ферма. Математическата теория на вероятностите се появява от изследванията на игрите на късмета, макар че понятието за вероятност вече е разглеждано в средновековното право и от философи като Хуан Карамуел.[17] Важният за развитието на статистиката метод на най-малките квадрати е публикуван за пръв път през 1805 година от Адриан-Мари Льожандър, макар по-късно Карл Фридрих Гаус да твърди, че му е бил известен още през 1795 година.
Съвременната статистика се формира в края на XIX и началото на XX век на 3 етапа.[18] Първата вълна, на границата на двете столетия, е доминирана от работите на англичаните Френсис Галтън и Карл Пиърсън, които превръщат статистиката в строга математическа дисциплина, използвана не само в науката, но и в стопанството и политиката. Приносът на Галтън включва въвеждането на понятията за стандартно отклонение, корелация, регресионен анализ и прилагането на тези методи към изследването на различни човешки характеристики, като височина, тегло и дължина на миглите.[19] Пиърсън създава корелационния коефициент,[20] метода на моментите за съгласуване на разпределения към извадки и разпределението на Пиърсън.[21] Галтън и Пиърсън основавата „Биометрика“, първото научно списание за математическа статистика и биостатистика, а по-късно Пиърсън създава и първият в света университетски департамент по статистика в Университетски колеж Лондон.[22]
Вторият етап от 10-те и 20-те години на XX век е започнат от Уилям Сийли Госет и достига своята кулминация в работите на Роналд Фишър, който съставя учебниците, дефинирали статистиката като академична дисциплина по целия свят. Сред най-важните му текстове са публикацията му от 1918 година „The Correlation between Relatives on the Supposition of Mendelian Inheritance“ (в която за пръв път се използва статистическият термин вариация), класическият му труд от 1925 година „Statistical Methods for Research Workers“ и книгата му от 1935 година „The Design of Experiments“,[23][24][25] където разработва строги модели за планиране на експерименти. Фишър въвежда понятията за достатъчна статистика, линеен дискриминантен анализ и информация на Фишър.[26] В книгата си от 1930 година „The Genetical Theory of Natural Selection“ той прилага статистиката към биологията, извеждайки различни концепции, като принципа на Фишър[27] (който Антъни Едуардс нарича „вероятно най-знаменитият аргумент в еволюционната биология“) и Фишеровото убягване.[28][29][30] Фишър въвежда и понятието за нулева хипотеза – такава, която „никога не е доказана или потвърдена, но е възможно да бъде опровергана“, – при известния си експеримент с дамата, опитваща чай.
Последната вълна на активно развитие на статистиката, свързан главно с прецизиране и разширяване на дотогавашните разработки, води началото си от сътрудничеството между Егон Пиърсън и Йежи Нейман през 30-те години на XX век. Те въвеждат понятията за фалшив отрицателен резултат, статистическа мощност и доверителен интервал. През 1934 година Нейман демонстрира, че стратифицираната случайна извадка е като цяло по-добър метод за оценяване от квотната извадка.[31]
Днес статистически методи се прилагат във всички области, свързани с вземане на решения, за постигане на точни изводи от масиви от данни и за вземане на решения в ситуации на несигурност. Използването на съвременни компютри дава възможност за ефективното извършване на мащабни статистически изчисления и дава тласък на развитието на нови методи, които не могат да се прилагат с ръчни изчисления. Статистиката остава област на активни изследвания, например на проблема за анализа на големи данни.[32]
Основни понятия
редактиране- Масово явление – когато в множество единични явления се повтарят определени закономерности, валидни за общността от единици като цяло.
- Статистическа съвкупност – това е съвкупност от голям брой единици (случаи), които характеризират масовото явление:
- Генерална съвкупност – обхваща случаи на изследваното масово явление.
- Представителна съвкупност (извадка) – обхваща част от случаите на генералната съвкупност, като чрез нейните характеристики се правят изводи за характеристиките на генералната съвкупност.
- Статистически признаци – изразяват свойствата (качествата, проявите и отношенията) на отделните единици на дадено явление. Най-общо статистическите признаци са качествени и количествени.
- Статистически единици – това са отделните единици (случаи, представители), които образуват статистическата съвкупност. Чрез статистическа групировка отделните статистически единици се разпределят по групи, обособени въз основа на наблюдаваните признаци, характеризиращи съвкупността.
- Статистически данни – са събраната, организирана и анализирана информация, необходима за изследване на дадено явление. За представяне на измерените данни (числата) от наблюденията при статистическата групировка се използват статистически редове. Когато при статистическата групировка са обособени интервали с долна и горна граница, статистическият ред е интервален. В статистическите таблици се нанасят статистическите редове, т.е. резултатите от групировката. В таблиците се подреждата не само статистическите данни, но и резултатите от статистическата им обработка.
Статистическите таблици се онагледяват графично чрез диаграми, където с определен мащаб се нанасят данните на признаците върху осите на подходящо избрана координатна система:
- Линейни диаграми – графичният образ е линия, свързваща отделните точки, представящи данните.
- Плоскостни диаграми – графичните образи са правоъгълници, триъгълници, кръгове и други.
Размерът на изучаваните явления се изразява с честота:
- Абсолютна честота – изразява броя на единиците от статистическата съвкупност, които се отличават по някакъв признак.
- Относителна честота (статистическа вероятност). Според закона за големите числа, колкото е по-голям броят на изследваните единици на генералната съвкупност, толкова по-малко наблюдаваните признаци се влияят от случайни причини и относителната честота се доближава до съответната вероятност.
Статистически данни
редактиранеСъбиране на данни
редактиранеИзвадки
редактиранеКогато е невъзможно събирането на данни за цялата статистическа съвкупност, статистиците събират данни от извадка, разработвайки специфични експерименти. При използването на извадка като източник на информация за цялата съвкупност е важно извадката да представлява вярно съвкупността. Представителните извадки дават възможност изводите и заключенията да се разпрострат надеждно от извадката към съвкупността като цяло. Затова е от изключителна важност да се определи до каква степен избраната извадка е наистина представителна. Статистиката използва различни методи за оценка и корекция на системните отклонения в извадката и процедурите за събиране на данни. Една от целите на методите за планиране на експерименти също е да се ограничат тези проблеми още в самото начало на изследването, подобрявайки възможностите му да достига до коректни изводи за съвкупността.
Теорията на извадките е част от математическата теория на вероятностите. Вероятностите се използват в математическата статистика за изследване на извадковите разпределения и, по-общо, на характеристиките на статистическите процедури. Използването на даден статистически метод е валидно, когато разглежданата система или съвкупност съответства на допусканията на метода. Разликата в подхода на класическата теория на вероятностите и теорията на извадките е най-вече в това, че теорията на вероятностите изхожда от дадени параметри на съвкупността, за да извлече дедуктивно вероятностите, отнасящи се за извадките, докато при статистическите методи е обратното – те изхождат индуктивно от извадките, за да получат параметрите на съвкупността.
Експерименти
редактиранеНаблюдения
редактиранеВидове данни
редактиранеПриложение на изчислителната техника
редактиранеБързото и постоянно увеличаване на мощността на изчислителната техника от средата на 20 век оказва сериозно влияние върху статистическата дейност. Ранните статистически модели почти винаги са линейни, но появата на мощни компютри с подходящи изчислителни алгоритми предизвиква по-силен интерес към нелинейни модели, като невронните мрежи, и довежда до появата на напълно нови методи, като обобщените линейни и йерархичните модели.
Широката достъпност до относително мощни компютри увеличава популярността на тежки от изчислителна гледна точка методи, като пермутационни тестове или извадки на Гибс. Компютърната революция води и до увеличаване на значението на експерименталната и емпирична статистика.
Бележки
редактиране- ↑ Oxford University Press 2021.
- ↑ Romijn 2014.
- ↑ Cambridge University Press 2021.
- ↑ Moses 1986, с. 1 – 3.
- ↑ Dodge 2006.
- ↑ Lund Research 2014.
- ↑ About.com 2015.
- ↑ Moore 1992, с. 14 – 25.
- ↑ Chance 2005.
- ↑ а б в Broemeling 2011, с. 255 – 257.
- ↑ а б Singh 2000.
- ↑ а б Al-Kadi 1992, с. 97 – 126.
- ↑ Answers Consulting 2018.
- ↑ Willcox 1938, с. 321 – 328.
- ↑ Online Etymology Dictionary 2010a.
- ↑ Online Etymology Dictionary 2010b.
- ↑ Franklin 2002.
- ↑ Walker 1975.
- ↑ Galton 1877, с. 492 – 553.
- ↑ Stigler 1989, с. 73 – 79.
- ↑ Pearson 1900, с. 157 – 175.
- ↑ Department of Statistical Science – University College London 2008.
- ↑ Box 1980, с. 1 – 7.
- ↑ Yates 1964, с. 307 – 321.
- ↑ Stanley 1966, с. 223 – 229.
- ↑ Agresti 2005, с. 298.
- ↑ Edwards 1998, с. 564 – 569.
- ↑ Fisher 1915, с. 184 – 192.
- ↑ Andersson 1994.
- ↑ Andersson 2006, с. 296 – 302.
- ↑ Neyman 1934, с. 557 – 625.
- ↑ Wood 2013.
- Цитирани източници
- What Is the Difference Between Type I and Type II Hypothesis Testing Errors? // about.com. About.com, 2015. Архивиран от оригинала на 2017-02-27. Посетен на 2015-11-27. (на английски)
- Agresti, Alan et al. Bayesian Inference for Categorical Data Analysis // Statistical Methods & Applications 14 (3). 2005. DOI:10.1007/s10260-005-0121-y. p. 298. (на английски)
- Al-Kadi, Ibrahim A. The origins of cryptology: The Arab contributions // Cryptologia 16 (2). 1992. p. 97 – 126. (на английски)
- Andersson, Malte. Sexual Selection. Princeton University Press, 1994. ISBN 0-691-00057-3. (на английски)
- Andersson, M. et al. Sexual selection and mate choice // Trends, Ecology and Evolution (21). 2006. p. 296 – 302. (на английски)
- How to Calculate Descriptive Statistics // answers.org.za. Answers Consulting, 2018-02-03. Архивиран от оригинала на 2018-07-21. Посетен на 2018-02-03. (на английски)
- Box, JF. R.A. Fisher and the Design of Experiments, 1922 – 1926 // The American Statistician 34 (1). February 1980. DOI:10.2307/2682986. p. 1 – 7. (на английски)
- Broemeling, Lyle D. An Account of Early Statistical Inference in Arab Cryptology // The American Statistician 65 (4). 2011. DOI:10.1198/tas.2011.10191. p. 255 – 257. (на английски)
- statistics // Cambridge Dictionary. Cambridge University Press, 2021. Посетен на 2021-03-13. (на английски)
- Chance, Beth L. et al. Preface // Investigating Statistical Concepts, Applications, and Methods. Duxbury Press, 2005. ISBN 978-0495050643. (на английски)
- Karl Pearson (1857 – 1936) // Department of Statistical Science – University College London, 2008. Архивиран от оригинала на 2008-09-25. Посетен на 2021-03-28. (на английски)
- Dodge, Y. The Oxford Dictionary of Statistical Terms. Oxford University Press, 2006. ISBN 0-19-920613-9. (на английски)
- Edwards, A. W. F. Natural Selection and the Sex Ratio: Fisher's Sources // American Naturalist 151 (6). 1998. DOI:10.1086/286141. p. 564 – 569. (на английски)
- Fisher, R. A. The evolution of sexual preference // Eugenics Review (7). 1915. p. 184 – 192. (на английски)
- Franklin, James. The Science of Conjecture: Evidence and Probability Before Pascal. Taylor & Francis, 2002. ISBN 9780801871092. (на английски)
- Galton, F. Typical laws of heredity // Nature 15 (388). 1877. DOI:10.1038/015492a0. p. 492 – 553. (на английски)
- Descriptive and Inferential Statistics // statistics.laerd.com. Lund Research, 2014. Посетен на 2014-03-23. (на английски)
- Moore, David. Teaching Statistics as a Respectable Subject // Statistics for the Twenty-First Century. Washington, DC, The Mathematical Association of America, 1992. p. 14 – 25. (на английски)
- Moses, Lincoln E. Think and Explain with statistics. Addison-Wesley, 1986. p. 1 – 3. (на английски)
- Neyman, J. On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection // Journal of the Royal Statistical Society 97 (4). 1934. DOI:10.2307/2342192. p. 557 – 625. (на английски)
- state // Online Etymology Dictionary, 2010a. Посетен на 26 август 2010. (на английски)
- estate // Online Etymology Dictionary, 2010b. Посетен на 26 август 2010. (на английски)
- Statistics // Oxford Reference. Oxford University Press, 2021. Архивиран от оригинала на 2021-01-29. Посетен на 2021-03-13. (на английски)
- Pearson, K. On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling // Philosophical Magazine 50 (302). 1900. DOI:10.1080/14786440009463897. p. 157 – 175. (на английски)
- Romijn, Jan-Willem. Philosophy of statistics // Stanford Encyclopedia of Philosophy. 2014. (на английски)
- Singh, Simon. The code book : the science of secrecy from ancient Egypt to quantum cryptography. New York, Anchor Books, 2000. ISBN 978-0-385-49532-5. (на английски)
- Stanley, Julian C. The Influence of Fisher's „The Design of Experiments“ on Educational Research Thirty Years Later // American Educational Research Journal 3 (3). 1966. DOI:10.3102/00028312003003223. p. 223 – 229. (на английски)
- Stigler, S. M. Francis Galton's Account of the Invention of Correlation // Statistical Science 4 (2). 1989. DOI:10.1214/ss/1177012580. p. 73 – 79. (на английски)
- Walker, Helen Mary. Studies in the history of statistical method. Arno Press, 1975. ISBN 9780405066283. (на английски)
- Willcox, Walter. The Founder of Statistics // Review of the International Statistical Institute 5 (4). 1938. p. 321 – 328. Архивиран от оригинала на 2022-03-31. (на английски)
- Wood, Chris. Science in a Complex World – Big Data: Opportunity or Threat? // santafe.edu. Santa Fe Institute, 2013. Посетен на 2020-04-11. (на английски)
- Yates, F. Sir Ronald Fisher and the Design of Experiments // Biometrics 20 (2). June 1964. DOI:10.2307/2528399. p. 307 – 321. (на английски)
Вижте също
редактиранеВъншни препратки
редактиране- ((en)) Онлайн ресурс за статистически пресмятания (УКЛА)
- ((en)) Статистическа електронна книга (Ebook) (УКЛА)