数据挖掘
集体智慧编程 豆瓣
Programming Collective Intelligence
8.0 (17 个评分) 作者: Toby Segaran 译者: 莫映 / 王开福 出版社: 电子工业出版社 2009 - 1
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
数据挖掘中的新方法:支持向量机 豆瓣
作者: 邓乃扬 / 田英杰 出版社: 科学出版社 2004 - 6
支持向量机是数据挖掘中的一个新方法。支持向量机能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。希望本书能促进它在我国的普及与提高。
本书对象既包括关心理论的研究工作者,也包括关心应用的实际工作者。对于有关领域的具有高等数学知识的实际工作者,略去书中的某些理论部分,仍能对支持向量机的本质有一个概括的理解,从而用它解决自己的问题。
本书适合高等院校高年级学生、研究生、教师和相关科研人员及相关领域的实际工作者使用。
The Fourth Paradigm 豆瓣 Goodreads 开放图书馆
作者: Tony Hey 出版社: Microsoft Research 2009 - 10 其它标题: The Fourth Paradigm: Data-Intensive Scientific Discovery / The fourth paradigm
This book presents the first broad look at the rapidly emerging field of data-intensive science, with the goal of influencing the worldwide scientific and computing research communities and inspiring the next generation of scientists. Increasingly, scientific breakthroughs will be powered by advanced computing capabilities that help researchers manipulate and explore massive datasets. The speed at which any given scientific discipline advances will depend on how well its researchers collaborate with one another, and with technologists, in areas of eScience such as databases, workflow management, visualization, and cloud-computing technologies. This collection of essays expands on the vision of pioneering computer scientist Jim Gray for a new, fourth paradigm of discovery based on data-intensive science and offers insights into how it can be fully realized.
第四范式 豆瓣
2012 - 6
《第四范式:数据密集型科学发现》系统介绍了地球与环境科学、生命与健康科学、数字信息基础设施和数字化学术信息交流等方面基于海量数据的科研活动、过程、方法和基础设施,生动揭示了在海量数据和无处不在网络上发展起来的与实验科学、理论推演、计算机仿真这三种科研范式相辅相成的科学研究第四范式——数据密集型科学发现,进一步探讨了这种新范式的内涵和内容,包括利用多样化工具不间断采集科研数据、建立系统化工具和设施来管理整个数据生命周期、开发基于科学研究问题的数据分析及可视化工具与方法等,并深入探讨了这种新范式对科学研究、科学教育、学术信息交流及科学家群体的长远影响。
《第四范式:数据密集型科学发现》将帮助从事科学研究、科技研究规划、科技政策等领域的科研人员和管理者理解和把握科研环境与科研方法的革命性变化,也将为学术出版、文献情报、科学数据及其他从事信息与知识管理的人士提供未来的战略视角,同时也有助于有志于科学研究和学术信息交流管理的高层次学生了解未来的挑战和需求。
语音与语言处理 豆瓣
Speech and Language Processing
作者: Daniel Jurafsky / James H. Martin 出版社: 人民邮电出版社 2010
本书是第一本从各个层面全面介绍语言技术的书,自第1版出版以来,一直好评如潮,被国外许多著名大学选为自然语言处理和计算语言学课程的主要教材。本书将深入的语言分析与健壮的统计方法结合起来,新版更是涉及了大量的现代技术,将自然语言处理、计算语言学以及语音识别等内容融合在一本书中,把各种技术相互联系起来,让读者了解怎样才能最佳地利用每种技术,怎样才能将各种技术结合起来使用。本书写作风格引人入胜,深入技术细节而又不让人感觉枯燥。
本书不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,对于自然语言处理相关领域的研究人员和技术人员也是不可或缺的权威参考书。
R语言实战 豆瓣
R in Action
9.3 (6 个评分) 作者: 卡巴科弗 译者: 高涛 / 肖楠 出版社: 人民邮电出版社 2013 - 1
数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响, 相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。  本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能、展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!  本书内容:  R安装与操作
数据导入/导出及格式化双变量关系的描述性分析回归分析
模型适用性的评价方法以及结果的可视化
用图形实现变量关系的可视化
在给定置信度的前提下确定样本量
高级统计分析方法和高级绘图
Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences, 3rd Edition 豆瓣
作者: Jacob Cohen / Patricia Cohen 出版社: Routledge 2002 - 8
This classic text on multiple regression is noted for its nonmathematical, applied, and data-analytic approach. Readers profit from its verbal-conceptual exposition and frequent use of examples. The applied emphasis provides clear illustrations of the principles and provides worked examples of the types of applications that are possible. Researchers learn how to specify regression models that directly address their research questions. An overview of the fundamental ideas of multiple regression and a review of bivariate correlation and regression and other elementary statistical concepts provide a strong foundation for understanding the rest of the text. The third edition features an increased emphasis on graphics and the use of confidence intervals and effect size measures, and an accompanying website with data for most of the numerical examples along with the computer code for SPSS, SAS, and SYSTAT, at www.psypress.com/9780805822236 . Applied Multiple Regression serves as both a textbook for graduate students and as a reference tool for researchers in psychology, education, health sciences, communications, business, sociology, political science, anthropology, and economics. An introductory knowledge of statistics is required. Self-standing chapters minimize the need for researchers to refer to previous chapters.
Bayesian Reasoning and Machine Learning 豆瓣 Goodreads
作者: David Barber 出版社: Cambridge University Press 2011 - 3
Machine learning methods extract value from vast data sets quickly and with modest resources. They are established tools in a wide range of industrial applications, including search engines, DNA sequencing, stock market analysis, and robot locomotion, and their use is spreading rapidly. People who know the methods have their choice of rewarding jobs. This hands-on text opens these opportunities to computer science students with modest mathematical backgrounds. It is designed for final-year undergraduates and master's students with limited background in linear algebra and calculus. Comprehensive and coherent, it develops everything from basic reasoning to advanced techniques within the framework of graphical models. Students learn more than a menu of techniques, they develop analytical and problem-solving skills that equip them for the real world. Numerous examples and exercises, both computer based and theoretical, are included in every chapter. Resources for students and instructors, including a MATLAB toolbox, are available online.
An Introduction to Statistical Learning 豆瓣 Goodreads
9.8 (12 个评分) 作者: Gareth James / Daniela Witten 出版社: Springer 2013 - 8
An Introduction to Statistical Learning provides an accessible overview of the field of statistical learning, an essential toolset for making sense of the vast and complex data sets that have emerged in fields ranging from biology to finance to marketing to astrophysics in the past twenty years. This book presents some of the most important modeling and prediction techniques, along with relevant applications. Topics include linear regression, classification, resampling methods, shrinkage approaches, tree-based methods, support vector machines, clustering, and more. Color graphics and real-world examples are used to illustrate the methods presented. Since the goal of this textbook is to facilitate the use of these statistical learning techniques by practitioners in science, industry, and other fields, each chapter contains a tutorial on implementing the analyses and methods presented in R, an extremely popular open source statistical software platform. Two of the authors co-wrote The Elements of Statistical Learning (Hastie, Tibshirani and Friedman, 2nd edition 2009), a popular reference book for statistics and machine learning researchers. An Introduction to Statistical Learning covers many of the same topics, but at a level accessible to a much broader audience. This book is targeted at statisticians and non-statisticians alike who wish to use cutting-edge statistical learning techniques to analyze their data. The text assumes only a previous course in linear regression and no knowledge of matrix algebra.
分层线性模型 豆瓣
作者: [美] Stephen W.Raudenbush / [美] Anthony S.Bryk 译者: 郭志刚 出版社: 社会科学文献出版社 2007 - 1
您一直等待的修订版就在这里!由于充满丰富的研究示例,并对分层线性模型(HLM)理论与应用有透彻的解释,其第1版就广受欢迎,现在这本书的第2版又重新组织为四大部分,并且加入了全新的4章内容。前两个部分,即第一部分“原理”和第二部分“基本应用”,紧密对应着上一版中的9章,但是已经大量扩展了内容,技术解释更为清晰,比如:
对HLM模型中的基本估计和推断程序提供了一个直观的介绍性总结。
在第6章中新加了一节多元增长模型。
第7章增加了对研究综合或元分析应用的讨论。
对数据分析中层-1自变量定位方法的建议以及可信值区间与稳健标准误方面的新材料。
虽然第1版主要是讨论层-1结果变量为连续分布的情况,然而现在的第 2版的第三部分中又包括了一系列其他类型结果变量的分析,比如:   新的第10章介绍分层模型在结果变量为二分类变量、计数变量、序次变量以及多项分类变量条件下的应用,并且每种情况都提供了详细的示例和说明。
新的第11章讨论了潜在变量模型,其中包括在HLM框架下对有缺失的数据以及在自变量有测量误差时如何进行回归估计,还包括了嵌入性分项反应模型。
第13章则是关于分层数据分析中贝叶斯推断原理的介绍。
作者在第四部分中对全书应用的统计理论以及计算方法进行了总结,包括层-1为正态分布误差的单变量模型、多元线性模型以及分层一般化线性模型。此外,还给读者提供了一个新的链接网址,可以下载有关数据并访问更多的技术资料。
大数据日知录 豆瓣
作者: 张俊林 出版社: 电子工业出版社 2014 - 9
大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。
《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。
《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。
机器学习与R语言 豆瓣
作者: Brett Lantz 出版社: 机械工业出版社 2015 - 4
随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下炙手可热的技术。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。
本书通过丰富的实际案例来探索如何应用R来进行现实世界问题的机器学习,如何从数据中获取可以付诸行动的洞察力。本书案例清晰而实用,讲解循序渐进,是一本用R进行机器学习的实用指南,既适用于机器学习的初学者,也适用于具有一定经验的老手,本书将帮助他们回答有关R的所有问题。
统计自然语言处理(第2版) 豆瓣
作者: 宗成庆 出版社: 清华大学出版社 2013 - 8
《中文信息处理丛书:统计自然语言处理(第2版)》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
《中文信息处理丛书:统计自然语言处理(第2版)》可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书,也可供从事自然语言处理、数据挖掘和人工智能等研究的相关人员参考。
实用多元统计分析 豆瓣
出版社: 清华大学出版社 2008 - 11
《实用多元统计分析(第6版)》多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅需要对所研究的专业领域有很好的训练,而且要掌握必要的统计分析工具。对研究者来说,《实用多元统计分析》是学习掌握多元统计分析的各种模型和方法的一本有价值的参考书:首先,它做到了“浅入深出”,既可供初学者入门,又能使有较深基础的人受益;其次,它既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,又能在一定程度上了解“为什么”这样做;最后,它内涵丰富、全面,不仅基本包括各种在实际中常用的多元统计分析方法,而且对现代统计学的最新思想和进展有所介绍。
矩阵计算 豆瓣
Matrix Computations,3E
作者: Gene H.Golub / Charles F.Van Loan 译者: 袁亚湘 出版社: 人民邮电出版社 2011 - 3
本书是国际上数值计算方面的权威著作,有“圣经”之称。被美国加州大学、斯坦福大学、华盛顿大学、芝加哥大学、中国科学院研究生院等很多世界知名学府用作相关课程的教材或主要参考书。
本书系统地介绍了矩阵计算的基本理论和方法。书中的许多算法都有现成的软件包实现,每节后还附有习题,并有注释和大量参考文献,非常有助于自学。
The Elements of Statistical Learning 豆瓣 Goodreads
9.8 (10 个评分) 作者: Trevor Hastie / Robert Tibshirani 出版社: Springer 2009 - 10
During the past decade there has been an explosion in computation and information technology. With it have come vast amounts of data in a variety of fields such as medicine, biology, finance, and marketing. The challenge of understanding these data has led to the development of new tools in the field of statistics, and spawned new areas such as data mining, machine learning, and bioinformatics. Many of these tools have common underpinnings but are often expressed with different terminology. This book describes the important ideas in these areas in a common conceptual framework. While the approach is statistical, the emphasis is on concepts rather than mathematics. Many examples are given, with a liberal use of color graphics. It is a valuable resource for statisticians and anyone interested in data mining in science or industry. The book's coverage is broad, from supervised learning (prediction) to unsupervised learning. The many topics include neural networks, support vector machines, classification trees and boosting---the first comprehensive treatment of this topic in any book. This major new edition features many topics not covered in the original, including graphical models, random forests, ensemble methods, least angle regression & path algorithms for the lasso, non-negative matrix factorization, and spectral clustering. There is also a chapter on methods for "wide" data (p bigger than n), including multiple testing and false discovery rates.
随机过程 豆瓣
作者: 伊藤 清(Kiyoshi Ito) 译者: 刘璋温 出版社: 人民邮电出版社
《随机过程》是日本著名数学家伊藤清的著作,是随机过程方面的经典名著,篇幅短小,叙述精辟,具有较高的理论水平。书中以简练的笔法介绍了随机过程论的主要方面,包括可加过程、平稳过程和Markoff过程,并概述了一维扩散过程。具有初步概率论和泛函分析知识的读者,可以借此快速掌握随机过程的基本理论。
Social Network Analysis 豆瓣
作者: Stanley Wasserman / Katherine Faust 出版社: Cambridge University Press 1994 - 11
Social network analysis is used widely in the social and behavioral sciences, as well as in economics, marketing, and industrial engineering. The social network perspective focuses on relationships among social entities and is an important addition to standard social and behavioral research, which is primarily concerned with attributes of the social units. Social Network Analysis: Methods and Applications reviews and discusses methods for the analysis of social networks with a focus on applications of these methods to many substantive examples. It is a reference book that can be used by those who want a comprehensive review of network methods, or by researchers who have gathered network data and want to find the most appropriate method by which to analyze it. It is also intended for use as a textbook as it is the first book to provide comprehensive coverage of the methodology and applications of the field.
支持向量机 豆瓣
作者: 邓乃扬 / 田英杰 出版社: 科学出版社 2009 - 8
《支持向量机:理论、算法与拓展》以分类问题(模式识别、判别分析)和回归问题为背景,介绍支持向量机的基本理论、方法和应用。特别强调对所讨论的问题和处理方法的实质进行直观的解释和说明,因此具有很强的可读性。为使具有一般高等数学知识的读者能够顺利阅读,书中首先介绍了最优化的基础知识。《支持向量机:理论、算法与拓展》可作为理工类、管理学等专业的高年级本科生、研究生和教师的教材或教学参考书,也可供相关领域的科研人员和实际工作者阅读参考。