千家网-智能建筑与智能家居产品解决方案平台

統計學簡史

2019-01-24 · 作者:人機與認知實驗室

[導讀]有人說當前的人工智能就是統計學

【有人說當前的人工智能就是統計學】      


統計學簡史、起源,分布統計是初產生于研究對國家,特別是對其經濟以及人口的描述。當時現代數學尚未形成。因此那時的統計史基本上是經濟史的范疇。現代統計主要起源于研究總體(population),變差(variation)和簡化數據(reduction of data)。第一個經典文獻屬于John Graunt(1620-1674),其具有技巧的分析指出了把一些龐雜、令人糊涂的數據化簡為幾個說明問題的表格的價值。他注意到在非瘟疫時期,一個大城市每年死亡數有統計規律,而且出生兒的性別比為1.08,即每生13個女孩就有14個男孩。大城市的死亡率比農村地區要高。在考慮了已知原因的死亡及不知死亡年齡的情況下,Graunt估計出了六歲之前兒童的死亡率,并相當合理地估計出了母親的死亡率為1.5%。因此,他從雜亂無章的材料中得出了重要的結論。他還給出了一個新的生命表。

(哈雷)(1656-1742)利用了Breslau的記有死亡年齡的數據,改進了Graunt的生命表并引進了死亡率的定義。瑞士數學家  Leonhard  Euler(歐拉)(1707-1783)提出了平穩生命表的概念。John DeWitt(625-1672)等人最早討論退休金和人壽保險的方案。Thomas Robert Malthus(馬爾薩斯)(1766-1834),Alfred  James lotke(1880-1949),Ronald Aylmer Fisher(費歇)(1890-1962),及 William Feller(費勒)(1906-1970)等人用漸趨復雜的數學來研究生命表的理論,這對人類及其它總體的動方學描述具有顯著意義。

(1623-1687)是Graunt同時代的經濟學家及朋友。他認為需要建立中央統計部來利用人口統計學的知識;由行政區利用列出記錄年齡,性別,婚姻狀況等細節的記錄表格來收集數據;要有出生,死亡,婚姻,收入,教育和商業等方面的統計數據。

當時在研究諸如死亡等時間序列時,Graunt注意到了隨機的起伏;但他僅以機械的術語加以描述一把這些與鐘表運動的忽動忽停相聯系。實際上,這種不規則的變化也影響賭博和天文學。因此,其后進一步導致了隨機誤差的誤差分布概念的出現。

賭博產生了第一個機會事件的模型:如果硬幣就骰子的每一面都有相同概率,則導致估計拋一個均衡的硬幣所出現的正面次數或擲一個均衡的骰子的總點數。更一般地,Abraham de Moivre(棣美佛)(1667-1754)導出了對二項分布的一個近似;這使每一個概率都等于正態曲線下的一塊面積,這是一種的中心極限定理。Pierre simon Laplace(拉普拉斯)(1749-1827)導出了對男子出生比例的類似的漸近公式。Jacob Bernoulli(伯努利)(1654-1705)以弱大數定律支持了對大樣本均值的使用。Tomas simpson(辛普森)(1710-1761)計算了同分布隨機變量和的精確分布,同樣也支持了對大樣本均值的使用。

在天文學中,要對一些運動星體位置的未知參數進行估計,通常某種意義上“最好的”估計都是來源于一些注定不和諧的觀察值,因為只要觀察值在數量上超過參數,就會產生度量誤差。Roger Cotes(1682-1716),Thomas Bayes(貝葉斯)(1702-1761),Euler,Johann Toblas Mayer(1723-1762),Rudger Josif Boskovic(1711-1787),Laplace,和Adrien Marie Legendre(勒讓德)(1752-1833)都在研究這個問題。后來被 Friedrich Gauss(高斯)(1777-1855)解決。John Michell(米歇爾)(1724-1793)用統計方法證明了雙星的存在。

然而,認定現代統計理論是由精算科學,人口學和天文學的需要而發展來的觀點是不正確的;事實上,它是由心理學,醫學,人體測量學,遺傳學和農業的需要發展出來的。

直到1830年,幾乎所有的經驗分布都是關于一維誤差或一個非數值變量。在1830年之后,天文學家和社會學家 Adolphe Jacques Quetele(1796-1874)使得諸如身高體重之類的度量值的變量的經驗分布通俗化。他在生物統計研究中大量利用了理論二項分布和正態分布。后來 Ladislaus von Bortkiewicz(1868-1931)報告了在普魯士兵團中由馬踢造成的受傷事故,發現Poisson(普阿松)分布和官方統計學有關。在計算血紅細胞數目上,Poisson分布也被 Ernst Abbe(1840-1905)所用。從那時起,該分布被大量地用于計數的試驗中,比如閃光的計數。

在生物學上,統計方法使得Johann Gregor Mendel(孟德爾)(1822-1884)認識到某些主要遺傳基因的存在,它們在0,l和2三個水平顯現,其中水平0(雙隱性)能和水平1和2區別開來。他能確定有相同或不相同的水平的個體之間交配的結果,而且提出了某些生物學事件等價于擲一個硬幣的模型;他能對任意交配的結果給出概率并用實驗來驗證其假設。

雖然經濟學沒有產生超出用初等理論來求解問題,但在較早的醫學統計中卻夾生了有意思的問題。Philippe Pinel(1745-1826)和 Pierre Charles alexandre Louis(1787-1872)開始了建立疾病分類的困難課題;這些工作人員保存了精確和完整的所有病例的記錄,并且能給出和預后有關的統計數字。Louis能有利用跟蹤調查的方法反駁以當時廣泛濫用的放血療法。他的三個學生是值得一提的:Jules Gavarret(1808-1890)寫了一本醫學統計的教科書;書中有應用Simeon Dents Poisson(1780-1840)理論來對兩個比例進行檢驗的許多應用;Oliver Wendell Holmes(1809-1894)和他的不知名的數學顧問對一系列分娩熱病例給出了有趣的分析,證明該病是傳染的,這優于任何十九世紀的類似研究;William Farr(1807-1883)在官方統計學中建立了新的慣例。

更直接的原動力來自于遺傳學(確切地說是優生學)。Francis Galton(1822一1911)在1886年研究了兩代豌豆重量之間的相關時發現了Y關于一個正態變量X的線性回歸及類似于橢圓的等概率線。從此,多元正態分布就經常出現在文獻之中;而兩個和三個變量的正態分布在Lapface時就已經知道了。該聯合分布能夠由互相獨立的正態隨機變量的線性變換而構造,例如Giovanni Antonio amedeo Plana(1781-1863)和Irenee-Jules Bravais(1811-1863)和Irenee-Jules Bravais(1811-1863)所做,而且,反過來它能分解為互相獨立的正整隨機變量的積,如 Auguste Bravais(l820-l884)在最小二乘理論上導出了一般形式的多元正態分布;Arthur Cayley(1821-1895)把xTAx化簡為平方和并確定了該常數值。這些人都未對A-1=V的非對角線元素感興趣,這里V是協方差矩陣。Galton后來說“這些誤差或偏差正是我想要研究并了解的。”

正態分布在理論統計中扮演了一個非常重要角色。有許多理由來說明這一點;一般來說,如果一個模型包含著正態分布的幾個非平凡特性,則它必須具備所有的特性。

在 1895年,Karl Pearson(皮爾森)(1857-1936)認識到更理論的統計分布的需要,并且得到作為微分方程(Pearson方程組)解的密度函數;和另外一些統計學家一樣,Andrei andreevic Markov(馬爾科夫)(1856-1922)不愿意用Pearson分布方程組,因為即使得了皮爾森Г曲線作為一個極限分布,也沒有明顯的模型來產生它們。Markov進一步證明Pearsonχ2統計量為樣本尺寸乘以Wihelm Hector Bichard albrecht Lexis(1837一1914)的離散系數。Walter Frank Raphael Weldon(1860-1906)利用取獨立初第二項變量和的方法得到二項變量的聯合分布。許多作者,比如 Alexander Craig Aitken(1895-1967),已經參與了發展該思想;但是許多其它思想已經被用來獲得聯合分布。在KarlPearson的方法不能產生更多的聯合分布之后,Sergei Natanovic Bernstein(1880-1968)認為一個更具有生產價值的方法可能存在于隨機過程的領域中。

、KarPearson時代,1890-到1920年為止的英國生物統計學派的主要就為(i)收集并化簡了許多經驗數據;(ii)定義了具有多重和總相關系數ρ的聯合正態分布,還定義了估計誤差的聯合分布;(iii)關于擬合度的χ2檢驗,比較觀察分布和理論分布,包括由 Herbert Edward Soper(1865-1930)引進的條件Poisson變量;(iV)分析列聯表,特別是利用χ2統計量;(V)當邊緣分布充分細分時由最大似然法估計ρ;(Vi)當邊緣分布沒有充分定義時估計ρ;(Vii)由一個統一的參數估計系統來描述一組曲線,即矩方法;(Viii)利用正態定理到遺傳選擇問題;(iX)通往獨立性一般定理的某些進展;(X)通往估計和檢驗估計精確性的一個理論的進展;(Xi)構造了適當的表。

與此同時,在法國的 Feli院x Edouard Justin emile borel(1871-1956),Maurice Frenchet(1878-1973)及Jules Henri Poincare(1854-1912),和在俄國的 Alekandr Aleksandrovic Cuprov(1874-1926),A.A.Markov和Vsevolod Ivanovic Romanovsky(l879-1954)作出許多貢獻,特別是把數據的數學處理嚴格化。

、R.A.FISHER時代,所有的皮爾森的方法都可以應用于大樣本,而且可以對方差作出較精確的估計。但對于出現在實際應用中的小樣本,這些方法就未必奏效了。William Sealy Gosset(1876一1937)國此導出了一個檢驗;按照R.A.Fisher的建議該檢驗在作了一個變換之后成為現在熟和的t-檢驗。

以其四篇值得紀念的論文開創了一個新紀元;相關系數估計的精確分布;協調一致了Mendelian和生物統計對遺傳學的不同方法;正確解釋了列聯表;估計和推斷的一般定理。在1920年之后,在Rothamsted實驗室,Fisher發展了有廣泛應用價值的方差分析和試驗與分析的理論。Fisher有很強的數學功底,特別是在組合論(combinatorics)方面,他能吸引其他數學家作為助手。他對應用領域的選擇是很幸運的;研究結果都能立即應用并有明顯的經濟效應;能夠有效地簡化假設,比如誤差的正態性和獨立性;和一些頑固的教條斗爭;試驗的花費都很低;沒有倫理問題。許多重要的步驟用來發展上面提到的Pearson學派的工作的一些分支。在(iii)和(iV)中的許多重要問題被解決了;給出了正確的自由度;K.Pearson已經為該目標前進了一段;在(Vii)中Fisher發明了更有效的方法來估計;他拒絕了用矩方法來確定分布;在(Vi)中Fisher和Yate發表了統計表。

在誤差分布和互相獨立性的假設使其能用正交變換來保持線性和二次型之間的獨立性,這樣就可合理地利用t-檢驗和F-檢驗。Fisher看到農業試驗能利用更復雜的設計。于是,雙向表的影響能夠按地理因素(行和列)及處理來分別分析。這能推廣到n維Latin方的應用,把處理用于Latin方相應的不同字母的位置上;該方法通過實行Graeco-Latin方來實現。Fisher及其助手和同事研究了設計問題,缺損值問題,非正交性等等;這些人包括Maurice Stevenson Bartlett(1910-),William Gemmell cochran(1909-1982),他們后來在美國特別有影響。此外,還有 David John Finney(1917-),Joseph Oscar Irwin(1898-1982),Kanneth Mather(1911一),及 Frank Yates(1902-)。

、NEYMAN-PEARSON時代,1937-(1894-1981)及 Egon sharpe Pearson(1895一1980)在一系列的杰出的文章中澄清了推斷理論,特別是有關顯著性檢驗的基本原理一其合理性以往是常被批評。早期的顯著性檢驗為關于二項變量之間或均值之間的,它們被 K.Pearson推廣至χ2檢驗,被R.A.Fisher推廣到F-檢驗,推廣了Student T-檢驗。Neyman和 E.S.Fearson看出,為了更有效,應該考慮與待檢驗的零假設相對應的備選假設。他們在這樣的檢驗中設立兩種誤差并因素導致了他們的基本引理,似然比檢驗,及勢的概念;他們順便驗證了大多數常見的顯著性檢驗的應用;他們還引進了置信限;但是他們的體系從未被Fisher所承認。Neyman和Pearson的工作影響了許多人,特別是美國人。

、現代,統計變得越來越數學化了。為了解對分布和推斷理論的一般描述,需要測度論;Fourie分析成為研究波動最自然的工具;在分析方差的推斷上,和在具對稱性的設計以及在諸如 Graeco Latin方及 Steiner三元體的特別結構的代數的推斷上需要應用群論和數論。組合理論能用于編碼理論和有限幾何。因此統計數學成為純粹數學的一部分,并且因其在各種領域的廣泛應用而被研究。因為通常的統計檢驗已經徹底地研究了,而且往往被置身于某些具體應用領域的實際工作者所應用,所以在研究人員和實際工作者之間出現了一個距離;但是這種現象在其他開拓性的領域中也能看到。

電子計算機已經帶來了巨大的變化。數據,比如海洋學中水面的高程,電磁能(特別是無線電波)的流量,工業過程的狀態,生物的狀態,都能用計算機收集;沒有計算機這些是不實際或不可能的。計算機節省了大量人力,特別是在同樣輸出的重復計算上,例如在計算多元分析的相關系數和其它檢驗統計量時。由于計算軟件包可用于所有通常的檢驗,特別是關于方差分析,則節省更多。高速計算使得有可能運用匹配和排列檢驗。當分布不能寫成一個封閉的分析公式時,顯著性水平也能計算;另外,計算機能用 Monte Carlo方法計算每一個事件的概率或近似顯著性水平。由于利用軟件包很方便,有時導致對統計問題欠考慮而產生的結論,特別是在多重比較上。

模型在統計和科學工作中的作用現已被廣泛承認;雖然基于應用領域的經驗和知識,模型的選擇在某種程度上是美學上的和任意的;但是一旦模型被選定,所有的推斷都是數學的,用不著進一步的假設或原則。所用的推斷體系在某種程度上也是任意的;備選體系已經被大量研究。基于信仰的推斷不再扮演重要的角色。貝葉斯模型在 Fisher時代曾一度失色,之后又被更廣泛地應用。信息論已被引進;多數統計推斷看來仍然以和Neyman-Pearson理論一致的方式來運作,運用在K.Pearson和Fisher時代引人的檢驗。

現代國家的增長的能力和興趣要求以低花費收集更多的數據。Antlers Nicolai Kiaer(1838-1919)有遠見地建議概率抽樣應補充到人口普查方法中。這樣的抽樣已經在其被Prasanta chandra Mahalanobis(1893-1972)引進之后成為在印度和其它地方的標準實踐。被Andrew Shewhart(1891-1967)所推廣的工業質量控制方法也有類似的意圖。

許多新的分支或專門化和應用已經被發展了:決策論,時間序列,多元分析,經濟計量學,博奕論,臨床試驗,非參數推斷,序貫分析,數學生物分類學,及可靠性。數量統計及其應用正在繼續發展和擴大。


來源(湖南省統計局)[H.O.Lancaster 中國人民大學統計學系 吳喜之 譯][譯自  Encyclopedia of Statistical Science,wiley,New Yoyk 1988]

版權聲明
本文由智客號作者上傳并發布,智客號僅提供信息發布平臺。文章僅代表作者個人觀點,不代表千家智客立場。

相關推薦

評論文章

全部評論(0)

人機與認知實驗室

北京郵電大學人機交互與認知工程實驗室 聯系方式:twhlw@163.com

格式jpg品質60圖片即可
主站蜘蛛池模板: 汽车标签|医疗标签|电子标签|手机电池标签|电脑电池标签|电源标签|耐高温标签|防静电标签|手机出厂膜|手机全裹膜|手机包裹膜|手机卖点膜|热转印标签|遮阳板标签|天势科技|-标签印制专家! | 山东装卸登车桥_液压装卸升降平台_固定|移动登车桥_山东牛斗重工厂家 | 智齿科技-智齿客服 | 在线客服_呼叫中心_客户联络中心方案 | 氢能展,氢能展会,燃料电池展,加氢设备_氢气储运_制氢设备_氢燃料汽车_加氢站成套设备 | 气动隔膜调节阀,气动比例调节隔膜阀|川熙流体设备百科 | 汽车标签|医疗标签|电子标签|手机电池标签|电脑电池标签|电源标签|耐高温标签|防静电标签|手机出厂膜|手机全裹膜|手机包裹膜|手机卖点膜|热转印标签|遮阳板标签|天势科技|-标签印制专家! | 中国焊接协会网站—中国焊接信息网;焊接行业最权威访问量最大的专业网站:焊接信息、焊接材料,焊接机器,焊接设备,焊机,焊材,辅助设备,焊机配件,仪器仪表,电动工具,钎焊,送丝机,表面处理,自动化专机,焊锡丝,助焊剂 | 真空系统,真空泵租赁技术服务-兆德机械(上海)有限公司 | 学校洗碗机-郑州洗碗机厂家-商用洗碗机-郑州旭申环保科技有限公司 | 运动控制器_数控系统_廊坊市九盈数控技术公司「官网」 | 河北瑞峰医疗-河北护理床-河北医用病床-河北养老院护理床-河北护理床厂家-河北病床厂家-河北瑞峰医疗 | 山东货架,山东仓库货架,临沂仓库货架,临沂仓储货架-山东兴博物流设备有限公司 | 河北太尚园林-太尚雕塑厂家_石雕_不锈钢雕塑厂家_铸铜雕塑_雕塑设计定制 | 咪咕体育直播,咪咕直播,CCTV5直播,体育直播,高清直播,腾讯体育直播,篮球直播,足球直播 | 西克制冷官网│制冷机组冷风机冷库设备厂家-西克制冷(无锡)有限公司_西克制冷(无锡)有限公司 | 机械配件加工_数控车床加工_零件加工_精密件加工_cnc加工定制—深圳精密机械加工 | 河南反渗透设备-河南EDI超纯水设备-郑州纯净水设备-郑州友邦水处理设备有限公司 | 长春互联网运营值选星广传媒,长春短视频运营,长春新媒体运营,长春互联网运营,长春抖音运营,吉林视频号代运营,吉林快手代运营,短视频推广公司,公众号运营,微博运营,新媒体运营 | 绿夏技术导航 - 收录精选资源及优质站点网址! | 深圳钢成培训专业从事,五轴培训,车铣复合培训,数控车床,CNC数控编程,模具编程 ,钣金机械与模具设计,powermill,mastercam,solidworks,ug,hypermill培训 | 家具板|橱柜衣柜家具板|木饰面定制|榉木胶合板|防水胶合板|胶合板厂家-佛山吉盛唐朝木业-大坂木业 | 自动烘干线,工业烘箱生产厂家-湖南耐美特智能装备有限公司官方网站 | 轮转印刷机_商标印唛机_超声波切唛机_瑞安市明辉机械有限公司 | 永磁电机,防爆电机,调速电机,永磁同步电机_河南华信电机股份有限公司 | 智慧网格,智慧城市,智慧社区,精准扶贫,农村电商,网格化,网格化管理,智慧养老,北京瑞光极远数码科技有限公司 | 河北徐工鲲鹏工程机械有限公司无锡分公司 | 通用变频器|国产变频器|深圳变频器厂家-深圳市英捷思技术有限公司 | 欧美日韩人妻精品一区二区三区_欧美成人精品欧美一级乱黄_亚洲欧美日韩高清一区二区三区_国产一级做a爰片久久毛片_日韩一级视频在线观看播放_精品一区二区三区免费毛片爱_完整观看高清秒播国内外精品资源 | 智能调光模块,调光系统巨川电气-专注智能照明 | 升降机_举升机_液压升降机_化工防爆升降平台_山东华雄机械有限公司 | 首页-西安汉沣精密机械有限公司 首页-上海钢之杰智能建筑集团股份有限公司 | 扭力扳手_扭力扳手检定仪_数显扭力扳手_扭力测试仪_测力计_推拉力计_拉力测试仪_测试台架-上海实干实业有限公司 | 专业生产安检门-X光机-防爆罐-金属探测门-中警思创军警装备厂家 专业色素炭黑生产厂家,提供各种用途色素炭黑价格-枣庄鑫源化工 专业护工_医院护工_护工陪护_住家护工- 心陪护 | 深圳理津技术有限公司(REHLOGY)-全球工业品供应商:自动化产品|仪器仪表|设备|备品备件|工具|消耗品|非标设备|建筑工程等一站式综合服务! | 西安logo设计公司/西安包装设计公司/西安画册设计公司/西安广告公司/西安品牌设计公司/泰勒广告 雾度计-雾度仪-透光率测试仪-3nh品牌雾度仪生产厂家 | 喜来顺财经-专注于财经领域的综合性网站 | 围墙护栏,护栏网,围栏,锌钢栅栏,护栏网厂家--安平县沃达金属丝网制造有限公司 | 激光切割加工,佛山激光切割加工,钣金加工,机加工-佛山市华锐达金属制品有限公司 | 商用车之家——观点有态度 热点不缺席 靠谱的商用车门户网站 | 江苏华海诚科新材料有限公司、连云港华海诚科新材料有限公司、连云港新材料 | 济南德固机械|膨化食品生产线|早餐谷物玉米片生产线|拉丝蛋白生产线|速食米饭生产线 |