数据分析
女士品茶 豆瓣 Goodreads
The Lady Tasting Tea:How Statistics Revolutionized Science in the Twentieth Century
7.7 (12 个评分) 作者: [美]戴维·萨尔斯伯格 译者: 刘清山 出版社: 江西人民出版社 2016 - 8
大数据时代最该懂的学科就是统计学
科学松鼠会推荐统计学领域入门必读书
...................
※编辑推荐※
★统计学入门首选读本,科学松鼠会强力推荐!
这是一本经典的入门级读物,每介绍一个新的概念,都会进行大量的背景介绍,再辅以相关奇闻异事。就算是对于一个门外汉来说,也能读懂一个特定概念是做什么用的。
★像小说一样的科普书,堪称统计学领域的《苏菲的世界》
在作者笔下,固执的皮尔逊、低调的戈塞特、天才的费舍尔,一如武林高手一样,在统计学的思想领域激烈交锋。他们和后续各个时代代表性的天才,共同演绎了二十世纪这场绚丽多彩又跌宕起伏的统计学革命。有读者评论,本书之于统计学,一如《苏菲的世界》之于哲学。
★了解统计学的人,运气都不会太差。大数据时代,你需要懂点统计学思想。
统计学从不猜想,而是测量未来!从买乐透到大数据,全都需要统计学,不懂统计学,你就等着被骗吧!
...................
※内容简介※
统计学之所以被滥用、误用,其实是因为它太有用,在某种程度上,可以说改变了世界上处理问题的方式。
这是一部统计学的史诗。一百多年来,统计学从无到有,以至于蔚为壮观。一部统计学的发展史,就是一部不断革新现有科学体系的历史。本书深入浅出地描绘了这一历程,为读者奉献了一场思想的饕餮盛宴。
这是一部关于叱咤风云的统计学学霸的传奇故事书。回望那段波澜壮阔的时代,一张张脸孔水一样掠过。在英国剑桥的某个午后,有位女士声称,把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻,但有位来访的瘦小绅士,R. A. 费希尔,提议要用科学的方法,来检验这位女士的假设……本书以这位喝下午茶的英国女士为起点,带领读者一一回顾“统计”这门应用范围最广的科学,了解若干重要理论的发展过程与应用,亲近那些隐身幕后的统计学家,看看统计究竟为今天这个世界,带来了什么样的改变。
这是一部大数据时代不容错过的实用之书。大数据时代,一切以数据说话,如何解读数据便与每个人的日常生活息息相关。统计学的本质就在于解读数据,读懂了本书,你就是大数据时代的明白人。
回归分析 豆瓣
作者: 谢宇 出版社: 社会科学文献出版社 2013 - 3
谢宇所著的《回归分析(修订版)》源于作者多年在密歇根大学教授回归 分析的课程讲义,从基本的统计概念讲起,对线性回归分析的基本假定、回 归中的统计推论和回归诊断做了详尽的介绍,同时还涵盖了很多在社会科学 中对实际研究 有用的内容,包括虚拟变量、交互作用、辅助回归、多项 式回归、样条函数回归和阶跃函数回归等。此外,《回归分析(修订版)》还 涉及通径分析、纵贯数据模型、多层线性模型和logit模型等方面的内容。
统计学七支柱 豆瓣
The Seven Pillars of Statistical Wisdom
作者: [美]史蒂芬·斯蒂格勒 译者: 高蓉 / 李茂 出版社: 人民邮电出版社 2018 - 1
本书介绍了统计学的七个基本思想——聚合、信息、似然、相互比较、回归、设计、残差,从其由来到引入,从基本概念到对“统计”这门学科的深远影响,并由此深入阐述统计学的科学本质。
The Fourth Paradigm 豆瓣 Goodreads 开放图书馆
作者: Tony Hey 出版社: Microsoft Research 2009 - 10 其它标题: The Fourth Paradigm: Data-Intensive Scientific Discovery / The fourth paradigm
This book presents the first broad look at the rapidly emerging field of data-intensive science, with the goal of influencing the worldwide scientific and computing research communities and inspiring the next generation of scientists. Increasingly, scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets. The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud-computing technologies. This collection of essays expands on the vision of pioneering computer scientist Jim Gray for a new, fourth paradigm of discovery based on data-intensive science and offers insights into how it can be fully realized.
问卷统计分析实务 豆瓣
作者: 吴明隆 出版社: 重庆大学出版社 2010 - 5
本书的内容架构,在于完整介绍问卷调查法中的数据处理与其统计分析流程,统计分析技术以SPSS统计软件包的操作界面与应用为主,内容除基本统计原理的解析外,着重的是SPSS统计软件包在量化研究上的应用。内容包括问卷编码、创建文件与数据处理转换、预试问卷之项目分析及信效度检验,以及正式问卷常用的统计方法介绍,包括相关、复选题及卡方检定、平均数的差异检定、单因子多变量变异数分析、回归分析、主成分回归分析、逻辑斯回归分析、区别分析等。
本书以实务应用及使用者界面为导向,对于以SPSS统计软件包来进行量化研究的使用者而言,相信有不少帮助,综括本书的内容,有五大特色:完整的操作步骤与使用程序介绍,研究者只要依书籍步骤,即能完成数据统计分析工作;操作画面与说明以SPSS14.0中文版窗口界面为主,符合多数研究者的需求;详细的报表解析与说明,让读者真正了解各种输出统计量的意义;报表结果的统整归纳,选用的范例可作为论文写作的参考;内容丰富而多元,兼顾基本统计与高等统计。
小样本多元数据分析方法及应用 豆瓣
作者: 张恒喜 出版社: 西北工业大学出版社 2002 - 9
《小样本多元数据分析方法及应用》深入揭示了小样本多元数据的实质和特点,对多元回归法和现代多种建模方法进行了剖析、比较、验证和拓展,提出了小样本多元数据分析的理论和方法,构建了从不同侧面克服小样本多元数据建模困难的完整的建模方法体系。
全书共8章,包括:绪论,多元线性回归分析,偏最小二乘回归分析,方差分量线性模型,自变量筛选和综合特征参数模型,贝叶斯统计分析方法,统计学习理论与支持矢量机,其他分析方法的探讨。
《小样本多元数据分析方法及应用》可供高等院校飞行器设计、系统工程、管理科学与工程、数量经济学和有关专业的本科生及研究生阅读,也可供研究人员、工程技术人员及有关人员参考。
R语言实战 豆瓣
R in Action
9.3 (6 个评分) 作者: 卡巴科弗 译者: 高涛 / 肖楠 出版社: 人民邮电出版社 2013 - 1
数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响, 相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。  本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能、展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!  本书内容:  R安装与操作
数据导入/导出及格式化双变量关系的描述性分析回归分析
模型适用性的评价方法以及结果的可视化
用图形实现变量关系的可视化
在给定置信度的前提下确定样本量
高级统计分析方法和高级绘图
正则表达式必知必会(修订版) 豆瓣
9.5 (12 个评分) 作者: 福达 (Ben Forta) 译者: 杨涛 出版社: 人民邮电出版社 2015 - 1
《正则表达式必知必会》从简单的文本匹配开始,循序渐进地介绍了很多复杂内容,其中包括回溯引用、条件性求值和前后查找,等等。每章都为读者准备了许多简明又实用的示例,有助于全面、系统、快速掌握正则表达式,并运用它们去解决实际问题。正则表达式是一种威力无比强大的武器,几乎在所有的程序设计语言里和计算机平台上都可以用它来完成各种复杂的文本处理工作。而且书中的内容在保持语言和平台中立的同时,还兼顾了各种平台之间的差异。通过阅读本书,读者能够在轻松的氛圉中迅速掌握正则表达式的精髓,并可立即运用所学,解决实际问题。
Bayesian Reasoning and Machine Learning 豆瓣 Goodreads
作者: David Barber 出版社: Cambridge University Press 2011 - 3
Machine learning methods extract value from vast data sets quickly and with modest resources. They are established tools in a wide range of industrial applications, including search engines, DNA sequencing, stock market analysis, and robot locomotion, and their use is spreading rapidly. People who know the methods have their choice of rewarding jobs. This hands-on text opens these opportunities to computer science students with modest mathematical backgrounds. It is designed for final-year undergraduates and master's students with limited background in linear algebra and calculus. Comprehensive and coherent, it develops everything from basic reasoning to advanced techniques within the framework of graphical models. Students learn more than a menu of techniques, they develop analytical and problem-solving skills that equip them for the real world. Numerous examples and exercises, both computer based and theoretical, are included in every chapter. Resources for students and instructors, including a MATLAB toolbox, are available online.
An Introduction to Statistical Learning 豆瓣 Goodreads
9.8 (12 个评分) 作者: Gareth James / Daniela Witten 出版社: Springer 2013 - 8
An Introduction to Statistical Learning provides an accessible overview of the field of statistical learning, an essential toolset for making sense of the vast and complex data sets that have emerged in fields ranging from biology to finance to marketing to astrophysics in the past twenty years. This book presents some of the most important modeling and prediction techniques, along with relevant applications. Topics include linear regression, classification, resampling methods, shrinkage approaches, tree-based methods, support vector machines, clustering, and more. Color graphics and real-world examples are used to illustrate the methods presented. Since the goal of this textbook is to facilitate the use of these statistical learning techniques by practitioners in science, industry, and other fields, each chapter contains a tutorial on implementing the analyses and methods presented in R, an extremely popular open source statistical software platform. Two of the authors co-wrote The Elements of Statistical Learning (Hastie, Tibshirani and Friedman, 2nd edition 2009), a popular reference book for statistics and machine learning researchers. An Introduction to Statistical Learning covers many of the same topics, but at a level accessible to a much broader audience. This book is targeted at statisticians and non-statisticians alike who wish to use cutting-edge statistical learning techniques to analyze their data. The text assumes only a previous course in linear regression and no knowledge of matrix algebra.
分层线性模型 豆瓣
作者: [美] Stephen W.Raudenbush / [美] Anthony S.Bryk 译者: 郭志刚 出版社: 社会科学文献出版社 2007 - 1
您一直等待的修订版就在这里!由于充满丰富的研究示例,并对分层线性模型(HLM)理论与应用有透彻的解释,其第1版就广受欢迎,现在这本书的第2版又重新组织为四大部分,并且加入了全新的4章内容。前两个部分,即第一部分“原理”和第二部分“基本应用”,紧密对应着上一版中的9章,但是已经大量扩展了内容,技术解释更为清晰,比如:
对HLM模型中的基本估计和推断程序提供了一个直观的介绍性总结。
在第6章中新加了一节多元增长模型。
第7章增加了对研究综合或元分析应用的讨论。
对数据分析中层-1自变量定位方法的建议以及可信值区间与稳健标准误方面的新材料。
虽然第1版主要是讨论层-1结果变量为连续分布的情况,然而现在的第 2版的第三部分中又包括了一系列其他类型结果变量的分析,比如:   新的第10章介绍分层模型在结果变量为二分类变量、计数变量、序次变量以及多项分类变量条件下的应用,并且每种情况都提供了详细的示例和说明。
新的第11章讨论了潜在变量模型,其中包括在HLM框架下对有缺失的数据以及在自变量有测量误差时如何进行回归估计,还包括了嵌入性分项反应模型。
第13章则是关于分层数据分析中贝叶斯推断原理的介绍。
作者在第四部分中对全书应用的统计理论以及计算方法进行了总结,包括层-1为正态分布误差的单变量模型、多元线性模型以及分层一般化线性模型。此外,还给读者提供了一个新的链接网址,可以下载有关数据并访问更多的技术资料。
大数据日知录 豆瓣
作者: 张俊林 出版社: 电子工业出版社 2014 - 9
大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。
《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。
《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。
机器学习与R语言 豆瓣
作者: Brett Lantz 出版社: 机械工业出版社 2015 - 4
随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下炙手可热的技术。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。
本书通过丰富的实际案例来探索如何应用R来进行现实世界问题的机器学习,如何从数据中获取可以付诸行动的洞察力。本书案例清晰而实用,讲解循序渐进,是一本用R进行机器学习的实用指南,既适用于机器学习的初学者,也适用于具有一定经验的老手,本书将帮助他们回答有关R的所有问题。
Phonetic Data Analysis 豆瓣
作者: Peter Ladefoged 出版社: Blackwell Publishing Limited 2003 - 9
Describing how people talk requires recording and analyzing phonetic data. This is true for researchers investigating the variant pronunciations of street names in Los Angeles, missionaries translating the Bible into a little-known tongue, and scholars obtaining data from a carefully controlled group in a laboratory experiment. Phonetic Data Analysis examines the procedures involved in describing the sounds of a language and illustrates the basic techniques of experimental phonetics, most of them requiring little more than a tape recorder, a video camera, and a computer.
This book enables readers to work with a speaker in a classroom setting or to go out into the field and make their own discoveries about how the sounds of a language are made. Peter Ladefoged, one of the world's leading phoneticians, introduces the experimental phonetic techniques for describing the major phonetic characteristics of any language. Throughout the book there are also comments, written in a more anecdotal fashion, on Ladefoged's own fieldwork.
语言研究中的统计方法 豆瓣
作者: Anthony Woods / Paul Fletcher 译者: 陈小荷 / 徐娟 出版社: 北京语言文化大学出版社 2000
由统计学家Woods和语言学家Hughes,Fletcher合著的《语言研究中的统计方法》(Statistics in language studies)是剑桥语言学系列教材之一。这本书结合语言习得、语言变异和语言测试等方面的大量研究实例,介绍了统计分析的基本概念、方法和技术。读者可以把这些技术应用到自己的研究领域中去,也可以作为一种知识基础,评价和利用统计分析文献。
统计自然语言处理(第2版) 豆瓣
作者: 宗成庆 出版社: 清华大学出版社 2013 - 8
《中文信息处理丛书:统计自然语言处理(第2版)》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
《中文信息处理丛书:统计自然语言处理(第2版)》可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书,也可供从事自然语言处理、数据挖掘和人工智能等研究的相关人员参考。
实用多元统计分析 豆瓣
出版社: 清华大学出版社 2008 - 11
《实用多元统计分析(第6版)》多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅需要对所研究的专业领域有很好的训练,而且要掌握必要的统计分析工具。对研究者来说,《实用多元统计分析》是学习掌握多元统计分析的各种模型和方法的一本有价值的参考书:首先,它做到了“浅入深出”,既可供初学者入门,又能使有较深基础的人受益;其次,它既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,又能在一定程度上了解“为什么”这样做;最后,它内涵丰富、全面,不仅基本包括各种在实际中常用的多元统计分析方法,而且对现代统计学的最新思想和进展有所介绍。
The Elements of Statistical Learning 豆瓣 Goodreads
9.8 (10 个评分) 作者: Trevor Hastie / Robert Tibshirani 出版社: Springer 2009 - 10
During the past decade there has been an explosion in computation and information technology. With it have come vast amounts of data in a variety of fields such as medicine, biology, finance, and marketing. The challenge of understanding these data has led to the development of new tools in the field of statistics, and spawned new areas such as data mining, machine learning, and bioinformatics. Many of these tools have common underpinnings but are often expressed with different terminology. This book describes the important ideas in these areas in a common conceptual framework. While the approach is statistical, the emphasis is on concepts rather than mathematics. Many examples are given, with a liberal use of color graphics. It is a valuable resource for statisticians and anyone interested in data mining in science or industry. The book's coverage is broad, from supervised learning (prediction) to unsupervised learning. The many topics include neural networks, support vector machines, classification trees and boosting---the first comprehensive treatment of this topic in any book. This major new edition features many topics not covered in the original, including graphical models, random forests, ensemble methods, least angle regression & path algorithms for the lasso, non-negative matrix factorization, and spectral clustering. There is also a chapter on methods for "wide" data (p bigger than n), including multiple testing and false discovery rates.
数值分析 豆瓣
作者: 索尔 (Timothy Sauer) 译者: 吴兆金 / 王国英 出版社: 人民邮电出版社 2010 - 1
《数值分析》以收敛性、复杂性、条件作用、压缩和正交性这5个主要思想为核心进行展开。内容包括求解方程组、插值、最小二乘、数值微分、数值积分、微分方程及边值问题、随机数及其应用、三角插值、压缩、最优化等。每章都有一个实例检验,有助于读者了解到相关应用领域。附录中介绍了矩阵代数和MATLAB,并提供了部分习题的答案。
《数值分析》内容广泛,实例丰富,可作为自然科学、工程技术、计算机科学、数学、金融等专业人员进行教学和研究的参考书。