统计
Selected Works Of Kai Lai Chung 豆瓣
作者: Farid Aitsahlia 出版社: World Scientific Publishing Company 2008 - 10
This unique volume presents a collection of the extensive journal publications written by Kai Lai Chung over a span of 70-odd years. It is produced to celebrate his 90th birthday. The selection is only a subset of the many contributions that he has made throughout his prolific career. Another volume, Chance and Choice, published by World Scientific in 2004, contains yet another subset, with four articles in common with this volume. Kai Lai Chung's research contributions have had a major influence on several areas in probability. Among his most significant works are those related to sums of independent random variables, Markov chains, time reversal of Markov processes, probabilistic potential theory, Brownian excursions, and gauge theorems for the Schrödinger equation.
As Kai Lai Chung's contributions spawned critical new developments, this volume also contains retrospective and perspective views provided by collaborators and other authors who themselves advanced the areas of probability and mathematics.
Contents:On Mutually Favorable Events; Fluctuations of Sums of Independent Random Variables; Continuous Parameter Markov Chains; On Last Exit Times; On the Boundary Theory for Markov Chains; Crudely Stationary Counting Processes; Excursions in Brownian Motion; On Stopped Feynman Kac Functionals; The Lifetime of Conditional Brownian Motion in the Plane; Greenian Bounds for Markov Processes; and other papers.
Causal Inference 豆瓣 谷歌图书
作者: Hernán MA / Robins JM 出版社: Boca Raton: Chapman & Hall/CRC 2020
Causal inference is a complex scientific task that relies on evidence from multiple sources and a variety of methodological approaches. By providing a cohesive presentation of concepts and methods that are currently scattered across journals in several disciplines, Causal Inference: What If provides an introduction to causal inference for scientists who design studies and analyze data. The book is divided into three parts of increasing difficulty: causal inference without models, causal inference with models, and causal inference from complex longitudinal data.FEATURES:
- Emphasizes taking the causal question seriously enough to articulate it with sufficient precision
- Shows that causal inference from observational data relies on subject-matter knowledge and therefore cannot be reduced to a collection of recipes for data analysis
- Describes causal diagrams, both directed acyclic graphs and single-world intervention graphs
- Explains various data analysis approaches to estimate causal effects from individual-level data, including the g-formula, inverse probability weighting, g-estimation, instrumental variable estimation, outcome regression, and propensity score adjustment
- Includes software and real data examples, as well as 'Fine Points' and 'Technical Points' throughout to elaborate on certain key topicsCausal Inference: What If has been written for all scientists that make causal inferences, including epidemiologists, statisticians, psychologists, economists, sociologists, political scientists, computer scientists, and more. The book is substantially class-tested, as it has been used in dozens of universities to teach courses on causal inference at graduate and advanced undergraduate level.
时间序列分析 豆瓣
Time Series Analysis
作者: 詹姆斯·D·汉密尔顿 (James D.Hamilton) 译者: 夏晓华 出版社: 中国人民大学出版社 2015 - 1
近几年间,研究者分析时间序列数据的方式发生了显著的变化。因此,很有必要对这一日益重要的研究领域的新近发展进行综合,并整体呈现出来。作者第一次对时间序列分析的相关进展做出详细、全面的梳理与阐述。这些研究进展包括向量自回归、广义矩估计、单位根的经济与统计结果、非线性时间序列等。另外,作者在本书中还阐述了包括线性表征、自相关、生成函数、谱分析、卡尔曼滤波等动态系统的传统分析工具。这些内容有助于经济理论研究和解释现实世界的数据.
本书将为学生、研究者和预测人员提供对动态系统、计量经济和时间序列分析的独立而明确的全面分析。从最简单的原理出发,作者的清晰表达使得一年级研究生和非专业人士也能理解相关内容的历史进展和新近发展。同时,由于其全面性,使得该书为研究者了解学术前沿提供了宝贵的参考文献。作者一方面通过大量的例子展示理论结果如何运用于实践,另一方面在相关章节后面提供了详细的数学附录。作为为相关领域学生和研究者提供的理论路线图,该书将成为未来若干年相关领域的权威指导书。
抽样理论与方法 豆瓣
作者: 扎库拉・戈文达拉玉卢 出版社: 机械工业出版社 2005 - 6
本书全面介绍了抽样调查的基本理论和方法,并结合实践给出许多调查示例。参照这些例证过程,读者可以设计出精确度高、成本低的抽样调查方案。不同于一般介绍抽样调查的书籍,本书着重强调采用现代统计方法学来设计抽样调查方案及分析数据。书中介绍了许多流行的抽样调查方法,如不等概率抽样法、贝叶斯方法、刀切法、自助法、多重抽样法等。而且,每章的结尾都给出与具体数据相关的习题和参考文献。
本书只要求读者具备高等代数和概率统计基础知识,适合作为高等院校高年级本科生和研究生的教材,也可供进行抽样调查的实际工作者使用。
凸分析与优化 豆瓣
Convex Analysis and Optimization
作者: [美] Dimitri P. Bertsekas / [美] Angelia Nedic 出版社: 清华大学出版社 2006 - 2
阅读本书仅需要线性代数和数学分析的基本知识。通过学习本书,可以了解凸分析和优化领域的主要结果,掌握有关理论的本质内容,提高分析和解决优化问题的能力。因此,所有涉足系统分析领域的理论研究人员和实际工作者均可从学习或阅读本书中获得益处。此外,本书也可用作高年级大学生或研究生学习凸分析方法和理论的教材或辅助材料。
Python数据科学手册 豆瓣
Python Data Science Handbook: Essential Tools for Working with Data
作者: Jake VanderPlas 译者: 陶俊杰 / 陈小莉 出版社: 人民邮电出版社 2018 - 1
本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。
本书适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。
多变量分析 豆瓣
作者: 林震岩 出版社: 北京大学 2007 - 8
《多变量分析:SPSS的操作与应用》所介绍的多变量分析技术,除了SPSS/Base功能外,也针对Advanced等模块的功能加以说明,如平均数检定、一般线性模式、因素分析、集群分析、区别分析、回归分析等,并探讨一般书上少见的多元尺度法、TREE、Logistic、规则相关分析、联合分析、时间数列分析等进阶的多变量分析。此外,有关SPSS的外挂程序,包括结构方程模型AMOS与数据探勘Clementine等也多有着墨。
用STATA学微观计量经济学 豆瓣
Microeconometrics Using Stata
作者: A.科林卡梅伦 / 普拉温K.特里维迪 译者: 肖光恩 出版社: 重庆大学出版社 2015 - 5
由美国学者A.科林·卡梅伦和普拉温·K.特里维迪共同撰写的《用Stata学微观计量经济学》一书,是一本优秀的介绍微观计量经济学的专著,它同时也介绍了如何使用Stata来进行微观计量经济学研究。本书包括了微观计量经济学教材中省略的许多主题,同时也省略了对Stata基本使用知识的介绍。两位学者对Stata现有的微观计量经济学的方法进行了全面的和最新的总结。
基本有用的计量经济学 豆瓣
作者: 赵西亮 出版社: 北京大学出版社 2017 - 7
《基本有用的计量经济学》主要从因果推断的基本思想出发,详细介绍Rubin潜在结果框架、随机化实验、匹配方法、回归方法、工具变量法、倍差法、断点回归法等现代经验分析方法,对从事社会科学、统计学、医学统计等领域的学生或学者提供重要的因果推断工具。在计量经济学应用模型中,本书着重讨论了模型类型选择、模型变量选择、模型函数关系设定和模型变量性质设定的原则和方法。在详细介绍线性回归模型的数学过程的基础上,各章的重点不是理论方法的数学推导与证明,而是对实际应用中出现的实际问题的处理,并尽可能与中国的模型实例相结合。
本书适合作为高等院校经济、管理学科本科生和硕士研究生的教材或教学参考书,也可供具有一定数学、经济学和经济统计学基础的经济管理和研究人员阅读和参考。
Analyzing Linguistic Data 豆瓣
作者: R. H. Baayen 出版社: Cambridge University Press 2008 - 3
Statistical analysis is a useful skill for linguists and psycholinguists, allowing them to understand the quantitative structure of their data. This textbook provides a straightforward introduction to the statistical analysis of language. Designed for linguists with a non-mathematical background, it clearly introduces the basic principles and methods of statistical analysis, using 'R', the leading computational statistics programme. The reader is guided step-by-step through a range of real data sets, allowing them to analyse acoustic data, construct grammatical trees for a variety of languages, quantify register variation in corpus linguistics, and measure experimental data using state-of-the-art models. The visualization of data plays a key role, both in the initial stages of data exploration and later on when the reader is encouraged to criticize various models. Containing over 40 exercises with model answers, this book will be welcomed by all linguists wishing to learn more about working with and presenting quantitative data.
计量经济学及stata应用 豆瓣
作者: 陈强 出版社: 高等教育出版社 2015 - 7
《计量经济学及Stata应用》为既接轨现代计量经济学,又适合中国国情的本科计量经济学教材。在理论体系上,《计量经济学及Stata应用》充分借鉴*新国际主流教材,以大样本理论为主线,并针对中国学生的知识体系进行编写。《计量经济学及Stata应用》内容全面,包括横截面数据(多元回归、工具变量法、离散选择)、时间序列(平稳时间序列、单位根、协整),以及面板数据(随机效应、固定效应)等。
《计量经济学及Stata应用》力图以清晰而生动的语言、较多的插图与经济意义,来直观地解释计量方法。同时结合目前欧美最为流行的stata计量软件,及时地介绍相应的计算机操作与经典实例,为读者提供“一站式”服务。《计量经济学及Stata应用》还较多地使用计算机模拟(蒙特卡罗法),作为强有力的学习工具。
《计量经济学及Stata应用》适合高等学校经济管理类及社科类的本科生使用。先修课为微积分、线性代数与概率统计。阅读《计量经济学及Stata应用》可使读者掌握当代实证研究的精神实质与基本方法,并学会实际处理数据的重要技能,从而为毕业论文乃至读研深造打下良好基础。
广义最小二乘问题的理论和计算 豆瓣
作者: 魏木生 出版社: 科学出版社 2007
《广义最小二乘问题的理论和计算》总结了各种广义的最小二乘问题的理论与计算的最新成果。主要包括最小二乘问题、总体最小二乘问题、等式约束最小二乘问题以及刚性加权最小二乘问题等的理论与科学计算问题。
由于各种广义奇异值分解在解决矩阵论和数值代数问题中有着重要的作用,书中也较详细地介绍了广义的奇异值分解,并应用于解决若干矩阵论和数值代数问题。《广义最小二乘问题的理论和计算》需要的预备知识为数值代数和矩阵论。
《广义最小二乘问题的理论和计算》可作为研究生和高年级本科生的教材,也可作为计算数学及应用学科中需要科学计算的科技工作者的参考书。
ggplot2: Elegant Graphics for Data Analysis (Use R!) 豆瓣
作者: Hadley Wickham 出版社: Springer 2016 - 6
This new edition to the classic book by ggplot2 creator Hadley Wickham highlights compatibility with knitr and RStudio. ggplot2 is a data visualization package for R that helps users create data graphics, including those that are multi-layered, with ease. With ggplot2, it's easy to:
produce handsome, publication-quality plots with automatic legends created from the plot specification
superimpose multiple layers (points, lines, maps, tiles, box plots) from different data sources with automatically adjusted common scales
add customizable smoothers that use powerful modeling capabilities of R, such as loess, linear models, generalized additive models, and robust regression
save any ggplot2 plot (or part thereof) for later modification or reuse
create custom themes that capture in-house or journal style requirements and that can easily be applied to multiple plots
approach a graph from a visual perspective, thinking about how each component of the data is represented on the final plot
This book will be useful to everyone who has struggled with displaying data in an informative and attractive way. Some basic knowledge of R is necessary (e.g., importing data into R). ggplot2 is a mini-language specifically tailored for producing graphics, and you'll learn everything you need in the book. After reading this book you'll be able to produce graphics customized precisely for your problems, and you'll find it easy to get graphics out of your head and on to the screen or page.
ggplot2:数据分析与图形艺术 豆瓣
Ggplot2. elegant graphics for data analysis
作者: 哈德利·威克姆 (Hadley Wickham) 译者: 统计之都 出版社: 西安交通大学出版社 2013 - 5
中译本序
每当我们看到一个新的软件,第一反应会是:为什么又要发明一个新软件?ggplot2是R世界里相对还比较年轻的一个包,在它之前,官方R已经有自己的基础图形系统(graphics包)和网格图形系统(grid包),并且Deepayan Sarkar也开发了lattice包,看起来R的世界对图形的支持已经足够强大了。那么我们不禁要问,为什么还要发明一套新的系统?
设计理念
打个比方,想想我们小时候怎样学中文的。最开始的时候我们要识字,不认识字就没法阅读和写作,但我们并不是一直按照一个个汉字学习的,而是通过句子和具体的场景故事学习的。为什么不在小学时背六年字典呢?那样可能认识所有的汉字。原因很简单,光有单字,我们不会说话,也无法阅读和写作。缺的是什么?答案是对文字的组织能力,或者说语法。
R的基础图形系统基本上是一个“纸笔模型”,即:一块画布摆在面前,你可以在这里画几个点,在那里画几条线,指哪儿画哪儿。后来lattice包的出现稍微改善了这种情况,你可以说,我要画散点图或直方图,并且按照某个分类变量给图中的元素上色,此时数据才在画图中扮演了一定的中心角色,我们不用去想具体这个点要用什么颜色(颜色会根据变量自动生成)。然而,lattice继承了R语言的一个糟糕特征,就是参数设置铺天盖地,足以让人窒息,光是一份xyplot()函数的帮助文档,恐怕就够我们消磨一天时间了,更重要的是,lattice仍然面向特定的统计图形,像基础图形系统一样,有直方图、箱线图、条形图等等,它没有一套可以让数据分析者说话的语法。
那么数据分析者是怎样说话的呢?他们从来不会说这条线用#FE09BE颜色,那个点用三角形状,他们只会说,把图中的线用数据中的职业类型变量上色,或图中点的形状对应性别变量。有时候他们画了一幅散点图,但马上他们发现这幅图太拥挤,最好是能具体看一下里面不同收入阶层的特征,所以他们会说,把这幅图拆成七幅小图,每幅图对应一个收入阶层。然后发现散点图的趋势不明显,最好加上回归直线,看看回归模型反映的趋势是什么,或者发现图中离群点太多,最好做一下对数变换,减少大数值对图形的主导性。
从始至终,数据分析者都在数据层面上思考问题,而不是拿着水彩笔和调色板在那里一笔一划作图,而计算机程序员则倾向于画点画线。Leland Wilkinson的著作在理论上改善了这种状况,他提出了一套图形语法,让我们在考虑如何构建一幅图形的时候不再陷在具体的图形元素里面,而是把图形拆分为一些互相独立并且可以自由组合的成分。这套语法提出来之后他自己也做了一套软件,但显然这套软件没有被广泛采用;幸运的是,Hadley Wickham在R语言中把这套想法巧妙地实现了。
为了说明这种语法的想法,我们考虑图形中的一个成分:坐标系。常见的坐标系有两种:笛卡尔坐标系和极坐标系。在语法中,它们属于一个成分,可自由拆卸替换。笛卡尔坐标系下的条形图实际上可以对应极坐标系下的饼图,因为条形图的高可以对应饼图的角度,本质上没什么区别。因此在ggplot2中,从一幅条形图过渡到饼图,只需要加极少量的代码,把坐标系换一下就可以了。如果我们用纸笔模型,则可以想象,这完全是不同的两幅图,一幅图里面要画的是矩形,另一幅图要画扇形。
更多的细节在本书中会介绍,这里我们只是简略说明用语法画图对用纸笔画图来说在思维上的优越性;前者是说话,后者是说字。
发展历程
ggplot2是Hadley在爱荷华州立大学博士期间的作品,也是他博士论文的主题之一,实际上ggplot2还有个前身ggplot,但后来废弃了,某种程度上这也是Hadley写软件的特征,熟悉他的人就知道这不是他第一个“2”版本的包了(还有reshape2)。带2的包和原来的包在语法上会有很大的改动,基本上不兼容。尽管如此,他的R代码风格在R社区可谓独树一帜,尤其是他的代码结构很好,可读性很高,ggplot2是R代码抽象的一个杰作。读者若感兴趣,可以在GitHub网站上浏览他的包:https://github.com/hadley。在用法方面,ggplot2也开创了一种奇特而绝妙的语法,那就是加号:一幅图形从背后的设计来说,是若干图形语法的叠加,从外在的代码来看,也是若干R对象的相加。这一点精妙尽管只是ggplot2系统的很小一部分,但我个人认为没有任何程序语言可比拟,它对作为泛型函数的加号的扩展只能用两个字形容:绝了。
至2013年2月26日,ggplot2的邮件列表(http://groups.google.com/group/ggplot2 )订阅成员已达3394人,邮件总数为15185封,已经成为一个丰富、活跃的用户社区。未来ggplot2的发展也将越来越依赖于用户的贡献,这也是很多开源软件最终的走向。
关于版本更新
原书面世之时,ggplot2的版本号是0.8.3,译者开始翻译此书时是0.9.0版本;该版本较之0.8.3,内部做了一些大改动。此后,ggplot2频繁升级,目前版本号是0.9.3,当然这也给本书的翻译过程带来了相当大的麻烦。因为译者不但要修正原书中大量过时的代码、重新画图,还要修正过时的理念,以及处理数次版本更新的影响。所幸,在翻译过程中,译者得到了本书审校殷腾飞博士、ggplot2开发者Hadley Wickham和Wistong Chang的大力帮助。
如果你是老用户,那么可能需要阅读下面的小节。之后ggplot2有过多次更新,尤其是0.9.0之后,ggplot2的绘图速度和帮助文档有了质的飞跃。关于0.9的更新,读者可以从https://github.com/downloads/hadley/ggplot2/guide-col.pdf下载一份细致的说明文档,但原文档比较长,而且有些内部更新问题我们也不一定需要了解,因此这里给一段概述。
ggplot2的帮助文档大大扩充了,过去头疼的问题之一就是一个函数里面不知道有哪些可能的参数,例如theme()函数,现在已经有了详细说明。
新增图例向导函数guide_legend()和guide_colorbar(),前者可以用来指导图例的排版,例如可以安排图例中元素排为n行m列;后者增强了连续变量图例的展示,例如当我们把颜色映射到一个连续变量上时,过去生成的图例是离散的,现在可以用这个函数生成连续颜色的图例(渐变色)。
新增几何对象函数geom_map()(让地图语法变得更简单),geom_raster()(更高效的geom_tile()),geom_dotplot()(一维点图,展示变量密度分布)和geom_violin()(小提琴,实为密度曲线)。
新增统计变换函数stat_summary2d()(在二维网格上计算数据密度),stat_summary_hex()(在六边形“蜂巢”上计算数据密度),stat_bindot()(一维点图密度),stat_ydensity()(密度曲线,用于小提琴图)。
facet_grid()支持X轴和Y轴其中一者可以有自由的刻度(根据数据范围而定),以往要么所有切片使用同样的坐标轴刻度,要么所有都自由。
geom_boxplot()开始支持画箱线图的凹槽(notch),就像R基础图形系统中的boxplot()函数。
新增函数ggmissing()用来展示缺失值的分布,ggorder()按照数据观察顺序先后画折线图,ggstructure()展示数据热图。
另外这次更新涉及到一些函数参数名称的变化,如果旧代码在这个版本中报错说有未使用的参数,那么用户需要再次查看帮助文档,确保输入的参数在函数中存在。在所有这些表面的更新背后,实际上ggplot2很大程度上被重写了,例如开始使用R自带的S3泛型函数设计,以及将过去ggplot2的功能继续模块化为一些独立的包,一个典型的例子就是标度部分的功能被抽象到scales包中,从数据映射到颜色、大小等外观属性可以由这个包直接完成。这种分拆也使得其他开发者可使用过去ggplot2内部的一些功能函数。
0.9.1版本主要解决了0.9.0版本中的一些漏洞。ggplot2在2012年9月4日发布了新的版本0.9.2,其中一些特性和更新有必要提及:
采用了全新的主题(theme)系统,opts()函数已被标记为“不推荐使用”(deprecated),将在未来版本中被取消,取而代之的是theme()函数,主题元素(theme element)由属性列表构成,支持继承,主题之间可以直接进行合并等操作。详情参见wiki页面:https://github.com/wch/ggplot2/wiki/New-theme-system 。
依赖于新的gtable包。 用来更方便地调整修改ggplot2图形中的图元,ggplotGrob()会返回一个gtable类,这个对象可以利用gtable包中提供的函数和接口进行操作。
所有“模板”类型的图形函数,比如plotmatrix(),ggorder()等等,已被标记为“不推荐使用”(deprecated),将在未来版本中取消。
在本书出版之际,ggplot2更新到了版本0.9.3,修复了0.9.2的一些漏洞,其主要更新包括
不再支持plotmatrix()函数。
geom_polygon()提速,比如世界地图的绘制快了12倍左右。
新增部分主题,比如theme_minimal(),theme_classic()。
本书的所有代码和图片都是针对新版本0.9.3的,在内容方面也根据版本更新对原文做了适当的增删填补,以满足读者的需求。
本书把影响正文阅读的彩图集中放在附录后面,读者可以随时翻阅。
致谢
在听说我们翻译完这本书之后,本书原著Hadley很高兴,给我们发邮件说:
I am excited and honoured to have my book translated to Chinese. ggplot2 has become far more popular than I ever imagined, and I'm excited that this translation will allow many more people to learn ggplot2. I'm very grateful that Yihui and his team of translators (Nan Xiao, Tao Gao, Yixuan Qiu, Weicheng Zhu, Taiyun Wei and Lanfeng Pan) made this possible.
One of the biggest improvements to ggplot2 since the book was first written is the ggplot2 mailing list. This is a very friendly environment where you can get help with your visualisations, and improve your own knowledge of ggplot2 by helping others solve their problems. I'd strongly encourage you to join the mailing list, even if you think your English is not very good -- we are very friendly people.
我们感谢这本书的译者,包括邱怡轩(第1~2章)、主伟呈(第3~4章)、肖楠(第5~6章)、高涛(第7~8章)、潘岚锋(第9章)、魏太云(第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作)。所有译者均来自于统计之都(http://cos.name )。
爱荷华州立大学的殷腾飞博士、中国人民大学统计学院的孟生旺教授、浙江大学的张政同学通读了译稿,提出了很多有用的建议,殷腾飞博士还提供了大多数新版本中的解决方案,并担任本书的审校。肖凯老师和余光创博士分别对第1~4章、第8~10章以及附录提出了很多修改意见,此外,中国人民大学的陈妍、李晓矛、谢漫锜三位同学、中国再保险公司的李皞先生、百度公司的韩帅先生、eBay公司的陈丽云女士、Mango Solutions公司的李舰先生、京东商城的刘思喆先生、首钢总公司的邓一硕先生、新华社的陈堰平先生在此书的翻译过程中也曾提过不少宝贵的建议,在此一并表示感谢。
为了更好地服务社区,我们还建立了翻译主页:https://github.com/cosname/ggplot2-translation ,读者可以在这里得到最新的勘误和书中的代码,也可以随时提出任何问题。
谢益辉
2013年2月26日
Understanding Advanced Statistical Methods 豆瓣
作者: Peter Westfall / Kevin S. S. Henning 出版社: Chapman and Hall/CRC 2013 - 5
Providing a much-needed bridge between elementary statistics courses and advanced research methods courses, Understanding Advanced Statistical Methods helps students grasp the fundamental assumptions and machinery behind sophisticated statistical topics, such as logistic regression, maximum likelihood, bootstrapping, nonparametrics, and Bayesian methods. The book teaches students how to properly model, think critically, and design their own studies to avoid common errors. It leads them to think differently not only about math and statistics but also about general research and the scientific method. With a focus on statistical models as producers of data, the book enables students to more easily understand the machinery of advanced statistics. It also downplays the "population" interpretation of statistical models and presents Bayesian methods before frequentist ones. Requiring no prior calculus experience, the text employs a "just-in-time" approach that introduces mathematical topics, including calculus, where needed. Formulas throughout the text are used to explain why calculus and probability are essential in statistical modeling. The authors also intuitively explain the theory and logic behind real data analysis, incorporating a range of application examples from the social, economic, biological, medical, physical, and engineering sciences. Enabling your students to answer the why behind statistical methods, this text teaches them how to successfully draw conclusions when the premises are flawed. It empowers them to use advanced statistical methods with confidence and develop their own statistical recipes. Ancillary materials are available on the book's website.
纳博科夫最喜欢的词 豆瓣
Nabokov’s Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing
7.2 (12 个评分) 作者: [美]本·布拉特 译者: 杜森 出版社: 低音·北京联合出版公司 2019 - 4
★★★
继《写作课》之后,用大数据分析文学、探究黄金写作法则的写作指导图书
……………………
◎ 编辑推荐
★ 马尔克斯、海明威、乔伊斯、纳博科夫、马克·吐温、福克纳、简·奥斯汀、斯蒂芬·金……这些伟大作家有怎样的创作偏好?
★ 布克奖、普利策奖作品、《纽约时报》畅销作品有何规律?
★《百年孤独》《老人与海》《尤利西斯》《洛丽塔》《傲慢与偏见》《动物农场》《哈利·波特》《五十度灰》的创作背后有怎样的趣味冷知识?
用大数据分析1500部文学作品,数百名伟大作者,数百万个奇妙单词,探求真相数字与文字的奇妙游戏。用理科生思维观测写作的隐秘模式,探索经典中的隐藏规律,发现难以忘怀的辞藻应用,继而优化自身,提高写作认知。
……………………
◎ 媒体推荐
一本由数字写成的关于文字的书
极具启发性和趣味性的阅读体验……是一部基于数据的文学评论。
——《科克斯书评》
太有趣了!本·布拉特这本书充满魅力,利用数学技巧解答文学风格的问题,梳理了诸如悬念、副词、美国人比英国人“写作嗓门”更大等观点。(没错!我们就是嗓门大!)
——《数学教你不犯错》作者乔丹·埃伦贝格
与其说是文学史研究,不如说是统计学著作。这本书只用了点儿纸和笔,便揭开了困扰世人几个世纪的《联邦党人文集》谜案。本·布拉特以专注的调查精神、令人意想不到的揭示能力和洞察力探索了文学的标准,最终出版了这样一本书:有节奏感的、发人深省的、有趣的文学侦探故事。
——《生存算法》(Algorithms to Live by)合著者布莱恩·克里斯蒂安
本·布拉特这本可爱的书给了我们一个研究伟大作家作品的新颖视角——大数据。它的幽默、洞见和对数据的应用十分迷人,甚至能够鼓励我们开始自己的写作生涯。
——哈佛大学统计学系荣誉教授卡尔·N. 莫里斯
……………………
◎ 内容简介
将文学大数据视为文学标准,探究出隐藏在世界上伟大作家作品里的有趣之处。作者收集了数千本书籍的数据库,和数百万个单词,并提出一些重要的问题来启发爱书人和怀有好奇心的人:我们最喜欢的作家最喜欢用的是什么词?男性与女性的写作会有不同吗?畅销书会变不畅销吗?当代哪位作家喜欢用“陈词滥调”?最棒的开篇第一个句子有何特征?如何从封面判断一本书?哪些写作建议值得遵守,哪些可以一笑置之?
作者运用现有的统计技巧,加上自己设计的适用方法,所有调查与实验都原创亲自执行,读者不需特殊数学知识也可以轻松理解得出的结果。作者将发现以清晰幽默的语言、充满说服力的视觉呈现,提供了一个认识经典作家作品——不论是其中隐含的模式结构,或者令人难以忘怀的词藻——的全新观点,对写作者而言也能有所启发。
追踪数据分析方法及其应用 豆瓣
作者: 刘红云 / 张雷 出版社: 教育科学出版社 2005
本书从应用的角度系统地介绍了几种常用的追踪数据分析方法,内容包括重复测量方差分析,多元方差分析,基于多层分析技术上的发展模型的方法和基于结构方程模型基础上的潜变量增长曲线模型的方法。本书除了介绍不同的方法、软件的操作以及对结果的解释外,还对不同方法在应用上的优缺点进行了比较分析,就追踪研究的设计、缺失值的处理等问题进行了探讨。本书可作为有关专业研究生的教科书和应用工作才者的参考书。
Graphical Models, Exponential Families, and Variational Inference 豆瓣
作者: Martin J Wainwright / Michael I Jordan 出版社: Now Publishers Inc 2008
The formalism of probabilistic graphical models provides a unifying framework for capturing complex dependencies among random variables, and building large-scale multivariate statistical models. Graphical models have become a focus of research in many statistical, computational and mathematical fields, including bioinformatics, communication theory, statistical physics, combinatorial optimization, signal and image processing, information retrieval and statistical machine learning. Many problems that arise in specific instances-including the key problems of computing marginals and modes of probability distributions-are best studied in the general setting. Working with exponential family representations, and exploiting the conjugate duality between the cumulant function and the entropy for exponential families, Graphical Models, Exponential Families and Variational Inference develops general variational representations of the problems of computing likelihoods, marginal probabilities and most probable configurations. It describes how a wide variety of algorithms- among them sum-product, cluster variational methods, expectation-propagation, mean field methods, and max-product-can all be understood in terms of exact or approximate forms of these variational representations. The variational approach provides a complementary alternative to Markov chain Monte Carlo as a general source of approximation methods for inference in large-scale statistical models.