数据挖掘
Pattern Recognition and Machine Learning 豆瓣 Goodreads
Pattern Recognition and Machine Learning (Information Science and Statistics)
9.8 (19 个评分) 作者: Christopher Bishop Springer 2007 - 10
The dramatic growth in practical applications for machine learning over the last ten years has been accompanied by many important developments in the underlying algorithms and techniques. For example, Bayesian methods have grown from a specialist niche to become mainstream, while graphical models have emerged as a general framework for describing and applying probabilistic techniques. The practical applicability of Bayesian methods has been greatly enhanced by the development of a range of approximate inference algorithms such as variational Bayes and expectation propagation, while new models based on kernels have had a significant impact on both algorithms and applications.
This completely new textbook reflects these recent developments while providing a comprehensive introduction to the fields of pattern recognition and machine learning. It is aimed at advanced undergraduates or first-year PhD students, as well as researchers and practitioners. No previous knowledge of pattern recognition or machine learning concepts is assumed. Familiarity with multivariate calculus and basic linear algebra is required, and some experience in the use of probabilities would be helpful though not essential as the book includes a self-contained introduction to basic probability theory.
The book is suitable for courses on machine learning, statistics, computer science, signal processing, computer vision, data mining, and bioinformatics. Extensive support is provided for course instructors, including more than 400 exercises, graded according to difficulty. Example solutions for a subset of the exercises are available from the book web site, while solutions for the remainder can be obtained by instructors from the publisher. The book is supported by a great deal of additional material, and the reader is encouraged to visit the book web site for the latest information.
数据科学实战 豆瓣
Doing Data Science: Straight Talk from the Frontline
作者: [美] Rachel Schutt / [美] Cathy O'Neil 译者: 冯凌秉 / 王群锋 人民邮电出版社 2015 - 3
• 统计推断、探索性数据分析(EDA)及数据科学工作流程
• 算法
• 垃圾邮件过滤、朴素贝叶斯和数据清理
• 逻辑回归
• 金融建模
• 推荐引擎和因果关系
• 数据可视化
• 社交网络与数据新闻
• 数据工程、MapReduce、Pregel和Hadoop
信息检索导论 豆瓣
Introduction to Information Retrieval,1E
作者: Christopher D.Manning / Hinrich Schütze 译者: 王斌 人民邮电出版社 2010 - 8
封面图片为英国伯明翰塞尔福瑞吉百货大楼,其极具线条感的轮廓外型优美,犹如水波的流动。其外表悬挂了1.5万个铝碟,创造出一种极具现代气息的纹理装饰效果,有如夜空下水流的波光粼粼,闪烁于月光之下,使建筑的商业氛围表现到极致。设计该建筑的英国“未来系统建筑事物所”,将商场内部围合成一个顶部采光的中庭,配以交叉的自动扶梯,使购物环境呈现出一种凝聚的向心力和商业广告的展示效应。作为英国第二商业城市伯明翰的建筑地标,人们称该建筑为“未来的百货商店”。因其设计构思的前卫性,该建筑获得2004年英国皇家建筑学会的“建筑设计奖”和2004年“英国皇家工艺美术委员会奖”等多个奖项。
本书从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜,实现了理论与实战的完美结合。
本书的三位作者均是信息检索领域的顶级专家,两位来自学术教育界,一位来自硅谷业界,使本书既具备深厚的理论基础,又代表了尖端科技水准。因此,该书甫一出版,即被奉为该领域的权威著作,备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。
颠覆大数据分析 豆瓣
Big Data Analytics Beyond Hadoop
作者: Vijay Srinivas Agneeswaran 译者: 吴京润 / 黄经业 2015 - 4
Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的马德拉斯分校获得计算机科学与工程专业的学士学位,2001 年获取了印度理工学院马德拉斯分校的硕士学位(研究性质),2008年又获取了该校的博士学位。他曾在瑞士洛桑的联邦理工学院的分布式信息系统实验室(LSIR)担任过一年的博士后研究员。之前7 年先后就职于Oracle、Cognizant 及Impetus,对大数据及云领域的工程研发贡献颇多。目前担任Impetus 的大数据实验室的执行总监。他的研发团队在专利、论文、受邀的会议发言以及下一代产品创新方面都处于领导地位。他主要研究的领域包括大数据管理、批处理及实时分析,以及大数据的机器学习算法的实现范式。最近8 年来,他一直是计算机协会(ACM)以及电气和电子工程师协会(IEEE)的专家成员,并于2012年12 月被推选为IEEE 的资深成员。他在美国、欧洲以及印度的专利局都申请过专利(并持有美国的两项专利)。他在前沿的期刊及会议,包括IEEE transaction 上都发表过论文。他还是国内外多个会议的特邀发言人,譬如O’Reilly 的Strata 大数据系列会议。最近一次公开发表论文是在Liebertpub 的大数据期刊上。他与妻子及儿女一起居住在班加罗尔,对印度、埃及、巴比伦以及希腊古代的文化与哲学的研究非常感兴趣。
SQL必知必会 豆瓣
Sams teach yourself SQL in 10 minutes,4th edition
8.2 (29 个评分) 作者: 福达 (Ben Forta) 译者: 钟鸣 / 刘晓霞 人民邮电出版社 2013 - 5
SQL语法简洁,使用方式灵活,功能强大,已经成为当今程序员不可或缺的技能。
本书是深受世界各地读者欢迎的SQL经典畅销书,内容丰富,文字简洁明快,针对Oracle、SQL Server、MySQL、DB2、PostgreSQL、SQLite等各种主流数据库提供了大量简明的实例。与其他同类图书不同,它没有过多阐述数据库基础理论,而是专门针对一线软件开发人员,直接从SQL SELECT开始,讲述实际工作环境中最常用和最必需的SQL知识,实用性极强。通过本书,读者能够从没有多少SQL经验的新手,迅速编写出世界级的SQL!
本书是麻省理工学院、伊利诺伊大学等众多大学的参考教材。除了作为教程之外,独特的编排方式还使本书成为方便的快速查询手册。
作者为本书专门开设了网站,提供下载、勘误和答疑:
http://forums.forta.com/threads.cfm?forumid=A1031720-3048-80A9-EF986F59D2959184
2015年8月6日 已读
应该算是很基础的入门书吧,看完以后会对数据库有一个基本的了解。
2015A 数据挖掘
Bad Data Handbook 豆瓣
作者: Q. Ethan McCallum O'Reilly Media 2012 - 11
What is bad data? Some people consider it a technical phenomenon, like missing values or malformed records, but bad data includes a lot more. In this handbook, data expert Q. Ethan McCallum has gathered 19 colleagues from every corner of the data arena to reveal how they’ve recovered from nasty data problems.
From cranky storage to poor representation to misguided policy, there are many paths to bad data. Bottom line? Bad data is data that gets in the way. This book explains effective ways to get around it.
Among the many topics covered, you’ll discover how to:
Test drive your data to see if it’s ready for analysis
Work spreadsheet data into a usable form
Handle encoding problems that lurk in text data
Develop a successful web-scraping effort
Use NLP tools to reveal the real sentiment of online reviews
Address cloud computing issues that can impact your analysis effort
Avoid policies that create data analysis roadblocks
Take a systematic approach to data quality analysis
数据之美 豆瓣
Beautiful Data: The Stories Behind Elegant Data Solutions
作者: Toby Segaran / Jeff Hammerbacher 译者: 祝洪凯 / 李妹芳 机械工业出版社 2010 - 10
“数据被证实好比下一代计算机应用的‘因特尔内核’。在本书中,各业界领袖描述了他们的项目如何通过新的方式来驾驭数据的力量。对于任何对未来关于数据和问题解决感兴趣的读者来说,本书是必读的佳作。”
——Tim O’Reilly, O’Reilly Media公司创始人兼CEO
探索数据的范围可以多么广泛,其工作可以多么美丽!通过这部个人故事集合,在这个领域的39个最佳数据实践者阐释了他们如何为各种项目开发简单优雅的解决方案,包括从火星着陆探测器到Radiohead视频的制作……在本书中,你将:
探索海量在线数据集时面临的内在机遇和挑战
学习如何使用地图和数据“混搭”方式对都市犯罪趋势进行可视化
发现“众包”和透明如何改进药物研究现状
理解当新的数据和之前存在的数据交叠时如何向用户发送警告
学习处理DNA数据的大规模基础设施
大数据 豆瓣
Mining of Massive Datasets
作者: Anand Rajaraman / Jeffrey David Ullman 译者: 王斌 人民邮电出版社 2012 - 9
大数据:互联网大规模数据挖掘与分布式处理,ISBN:9787115291318,作者:(美) Anand Rajaraman (美) Jeffrey David Ullman 著,王 斌 译
集体智慧编程 豆瓣
Programming Collective Intelligence
8.1 (16 个评分) 作者: Toby Segaran 译者: 莫映 / 王开福 电子工业出版社 2009 - 1
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
Python for Data Analysis 豆瓣 Goodreads
8.0 (5 个评分) 作者: Wes McKinney O'Reilly Media 2012 - 11
Finding great data analysts is difficult. Despite the explosive growth of data in industries ranging from manufacturing and retail to high technology, finance, and healthcare, learning and accessing data analysis tools has remained a challenge. This pragmatic guide will help train you in one of the most important tools in the field - Python. Filled with practical case studies, Python for Data Analysis demonstrates the nuts and bolts of manipulating, processing, cleaning, and crunching data with Python. It also serves as a modern introduction to scientific computing in Python for data-intensive applications. Learn about the growing field of data analysis from an expert in the community. Learn everything you need to start doing real data analysis work with Python Get the most complete instruction on the basics of the "modern scientific Python platform" Learn from an insider who builds tools for the scientific stack Get an excellent introduction for novices and a wealth of advanced methods for experienced analysts
数据挖掘导论 豆瓣
作者: Pang-Ning Tan, Michael Steinbach 译者: 范明 范宏建 人民邮电出版社 2006 - 1
本书全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量示例、图表和习题。
本书适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为数据挖掘研究和应用开发人员的参考书。
数据挖掘 豆瓣
作者: [加] Jiawei Han / Micheline Kamber 译者: 范明 / 孟小峰 等 机械工业出版社 2001 - 8
这本书系统地论述数据挖掘的基本概念、基本技术和最新进展。全书分10章,全面而深入地介绍数据库技术的发展和数据挖掘的应用,数据仓库和联机分析技术,数据预处理技术(数据清理、数据集成和转换、数据归约),数据挖掘技术(数据的分类、预测、关联和聚类),先进数据库系统中的数据挖掘方法,以及数据挖掘的应用和一些具有挑战性的问题。书中注重实效,在讨论概念与技术时辅以实例,并提供代表性算法。
Data Mining 豆瓣
作者: Jiawei Han / Micheline Kamber Morgan Kaufmann 2011 - 7
The increasing volume of data in modern business and science calls for more complex and sophisticated tools. Although advances in data mining technology have made extensive data collection much easier, it's still always evolving and there is a constant need for new techniques and tools that can help us transform this data into useful information and knowledge. Since the previous edition's publication, great advances have been made in the field of data mining. Not only does the third of edition of Data Mining: Concepts and Techniques continue the tradition of equipping you with an understanding and application of the theory and practice of discovering patterns hidden in large data sets, it also focuses on new, important topics in the field: data warehouses and data cube technology, mining stream, mining social networks, and mining spatial, multimedia and other complex data. Each chapter is a stand-alone guide to a critical topic, presenting proven algorithms and sound implementations ready to be used directly or with strategic modification against live data. This is the resource you need if you want to apply today's most powerful data mining techniques to meet real business challenges.
* Presents dozens of algorithms and implementation examples, all in pseudo-code and suitable for use in real-world, large-scale data mining projects. * Addresses advanced topics such as mining object-relational databases, spatial databases, multimedia databases, time-series databases, text databases, the World Wide Web, and applications in several fields. *Provides a comprehensive, practical look at the concepts and techniques you need to get the most out of your data
Web数据挖掘 豆瓣
Mining the Web:Discovering Knowledge from Hypertext Data
作者: 查凯莱巴蒂 人民邮电出版社 2009 - 2
《Web数据挖掘:超文本数据的知识发现(英文版)》是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。
推荐系统实践 豆瓣 Goodreads
7.0 (18 个评分) 作者: 项亮 人民邮电出版社 2012 - 6
内容简介:
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代 。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。