数据分析
赤裸裸的统计学 豆瓣
Naked Statistics: Stripping the Dread from the Data
8.2 (12 个评分) 作者: [美]查尔斯·韦兰 译者: 曹槟 中信出版社 2013 - 9
视频网站是如何知道你喜欢的电影类型的?
哪些人最有可能成为恐怖分子?
我们应该依据什么来评估教学质量,从而帮助孩子选对学校?
商场是如何在你的家人之前就知道你怀孕的消息的?
基尼系数是衡量社会分配公平程度最完美的指标吗?
买福利彩票,去赌场豪赌,投资股票或期货,哪种方式让你跻身富豪排行榜的可能性更大?
“缺乏控制力和话语权”的工作,还是“权力大,责任也大”的工作,更容易让职场人士猝死?
不止这些,生活中你遇到的各种问题都离不开数据和统计学。
统计学已经成为大数据时代最炙手可热的学问。它可以帮我们解决很多琐碎的生活问题和重要的社会问题,并对“黑天鹅”事件和未来做出预测。
这本书没有让你避之不及的数学公式,没有满是数字的图表,没有空洞乏味的教科书式说教;这本书有生动诙谐的案例,有你熟悉的生活话题和社会问题,有你一定用得到的统计学知识,有大数据时代的“游戏规则”和“生存法则”。
本书将是你遇到过的最好的“数学老师”,它装满了具有现实意义的“课程”,比如为什么一流大学毕业生的收入会高于普通大学毕业生,还有为什么不要买彩票。
众所周知,在生活中统计学无处不在,每件事、每个人似乎都可以用统计数字来加以说明。特别是进入大数据时代以后,统计学更是成为炙手可热的学问,它可以帮我们解决很多重要的社会问题,并对“黑天鹅”事件和未来做出预测。
但不可否认的是,统计学本身因为囊括大量的数学内容及专业术语,以至于让人觉得高深莫测、很难亲近。
《赤裸裸的统计学》一书的作者查尔斯•惠伦“扒光”了统计学“沉闷的外衣”,用生活中有趣的案例、直观的图表、生动诙谐的语言风格,彻底揭开了统计学、大数据和数字的“神秘面纱”,让我们知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。同时,作者还将统计学的工具带入日常生活中,告诉我们为什么不要买彩票,为什么你家附近的商场会知道你怀孕的消息并给你寄来纸尿裤的优惠券,等等。
大数据时代你必须掌握的统计学知识,全部都在这本书中。从今天开始,好好使用统计学和数据吧!
Data Science for Business 豆瓣
作者: Foster Provost / Tom Fawcett O'Reilly Media 2013 - 8
Review
"A must-read resource for anyone who is serious about embracing the opportunity of big data."
-- Craig Vaughan
Global Vice President at SAP
"This book goes beyond data analytics 101. It's the essential guide for those of us (all of us?) whose businesses are built on the ubiquity of data opportunities and the new mandate for data-driven decision-making."
--Tom Phillips
CEO of Media6Degrees and Former Head of Google Search and Analytics
"Data is the foundation of new waves of productivity growth, innovation, and richer customer insight. Only recently viewed broadly as a source of competitive advantage, dealing well with data is rapidly becoming table stakes to stay in the game. The authors' deep applied experience makes this a must read--a window into your competitor's strategy."
-- Alan Murray
Serial Entrepreneur; Partner at Coriolis Ventures
"This timely book says out loud what has finally become apparent: in the modern world, Data is Business, and you can no longer think business without thinking data. Read this book and you will understand the Science behind thinking data."
-- Ron Bekkerman
Chief Data Officer at Carmel Ventures
"A great book for business managers who lead or interact with data scientists, who wish to better understand the principles and algorithms available without the technical details of single-disciplinary books."
-- Ronny Kohavi
Partner Architect at Microsoft Online Services Division
About the Author
Foster Provost is Professor and NEC Faculty Fellow at the NYU Stern School of Business where he teaches in the MBA, Business Analytics, and Data Science programs. His award-winning research is read and cited broadly. Prof. Provost has co-founded several successful companies focusing on data science for marketing.
Tom Fawcett holds a Ph.D. in machine learning and has worked in industry R&D for more than two decades for companies such as GTE Laboratories, NYNEX/Verizon Labs, and HP Labs. His published work has become standard reading in data science.
谁说菜鸟不会数据分析 豆瓣
作者: 张文霖 / 刘夏璐 电子工业出版社 2011 - 7
《谁说菜鸟不会数据分析(全彩)》内容简介:很多人看到数据分析就望而却步,担心门槛高,无法迈入数据分析的门槛。《谁说菜鸟不会数据分析(全彩)》在降低学习难度方面做了大量的尝试:基于通用的Excel工具,加上必知必会的数据分析概念,并且采用通俗易懂的讲解方式。《谁说菜鸟不会数据分析(全彩)》努力将数据分析写成像小说一样通俗易懂,使读者可以在无形之中学会数据分析。《谁说菜鸟不会数据分析(全彩)》按照数据分析工作的完整流程来讲解。全书共8章,分别讲解数据分析必知必会的知识、数据处理技巧、数据展现的技术、通过专业化的视角来提升图表之美、数据分析报告的撰写技能以及持续的修炼。
《谁说菜鸟不会数据分析(全彩)》形式活泼,内容丰富而且充实,让人有不断阅读下去的动力。读者完全可以把《谁说菜鸟不会数据分析(全彩)》当小说来阅读,跟随主人公小白,在Mr.林的指点下轻松掌握数据分析的技能,提升职场竞争能力。
《谁说菜鸟不会数据分析(全彩)》适合需要提升自身竞争力的职场新人;在市场营销、金融、财务、人力资源管理中需要作数据分析的人士;经常阅读经营分析、市场研究报告的各级管理人员;从事咨询、研究、分析等专业人士。
数据可视化之美 豆瓣 Goodreads
Beautiful Visualization
作者: Julie Steele / Noah Iliinsky 译者: 祝洪凯 / 李妹芳 机械工业出版社 2011 - 6
《数据可视化之美》内容简介:可视化是数据描述的图形表示,旨在一目了然地揭示数据中的复杂信息。可视化的典型如纽约地铁图和人脑图。成功的可视化的美丽之处既在于其艺术设计,也在于其通过对细节的优雅展示,能够有效地产生对数据的洞察和新的理解。
在《数据可视化之美》中,20多位可视化专家包括艺术家、设计师、评论家、科学家、分析师、统计学家等,展示了他们如何在各自的学科领域内开展项目。他们共同展示了可视化所能实现的功能以及如何使用它来改变世界。在《数据可视化之美》中,你将:
通过简单的可视化实践探索讲故事的重要性。
了解颜色如何传达我们尚未充分意识到而大脑已经识别出的信息。
发现我们购买的书籍和我们的交际圈如何揭示内心的自我。
通过对民航交通的可视化探索识别航空旅行的混乱的一种方法。
揭秘研究人员如何调查未知问题,包括从最初的草图到发表的论文。
点击链接进入o'reilly之美系列:
《代码之美》
《项目管理之美》
《架构之美》
《团队之美》
《测试之美》
《数据之美》
《安全之美》
《数据可视化之美》
数据科学实战 豆瓣
Doing Data Science: Straight Talk from the Frontline
作者: [美] Rachel Schutt / [美] Cathy O'Neil 译者: 冯凌秉 / 王群锋 人民邮电出版社 2015 - 3
• 统计推断、探索性数据分析(EDA)及数据科学工作流程
• 算法
• 垃圾邮件过滤、朴素贝叶斯和数据清理
• 逻辑回归
• 金融建模
• 推荐引擎和因果关系
• 数据可视化
• 社交网络与数据新闻
• 数据工程、MapReduce、Pregel和Hadoop
Bad Data Handbook 豆瓣
作者: Q. Ethan McCallum O'Reilly Media 2012 - 11
What is bad data? Some people consider it a technical phenomenon, like missing values or malformed records, but bad data includes a lot more. In this handbook, data expert Q. Ethan McCallum has gathered 19 colleagues from every corner of the data arena to reveal how they’ve recovered from nasty data problems.
From cranky storage to poor representation to misguided policy, there are many paths to bad data. Bottom line? Bad data is data that gets in the way. This book explains effective ways to get around it.
Among the many topics covered, you’ll discover how to:
Test drive your data to see if it’s ready for analysis
Work spreadsheet data into a usable form
Handle encoding problems that lurk in text data
Develop a successful web-scraping effort
Use NLP tools to reveal the real sentiment of online reviews
Address cloud computing issues that can impact your analysis effort
Avoid policies that create data analysis roadblocks
Take a systematic approach to data quality analysis
数据结构与算法分析 豆瓣
Data Structures and Algorithm Analysis in C:Second Edition
8.5 (15 个评分) 作者: Mark Allen Weiss (维斯) 译者: 冯舜玺 机械工业出版社 2004 - 1
本书是《Data Structures and Algorithm Analysis in C》一书第2版的简体中译本。原书曾被评为20世纪顶尖的30部计算机著作之一,作者Mark Allen Weiss在数据结构和算法分析方面卓有建树,他的数据结构和算法分析的著作尤其畅销,并受到广泛好评.已被世界500余所大学用作教材。
在本书中,作者更加精炼并强化了他对算法和数据结构方面创新的处理方法。通过C程序的实现,着重阐述了抽象数据类型的概念,并对算法的效率、性能和运行时间进行了分析。
全书特点如下:
●专用一章来讨论算法设计技巧,包括贪婪算法、分治算法、动态规划、随机化算法以及回溯算法
●介绍了当前流行的论题和新的数据结构,如斐波那契堆、斜堆、二项队列、跳跃表和伸展树
●安排一章专门讨论摊还分析,考查书中介绍的一些高级数据结构
●新开辟一章讨论高级数据结构以及它们的实现,其中包括红黑树、自顶向下伸展树。treap树、k-d树、配对堆以及其他相关内容
●合并了堆排序平均情况分析的一些新结果
本书是国外数据结构与算法分析方面的标准教材,介绍了数据结构(大量数据的组织方法)以及算法分析(算法运行时间的估算)。本书的编写目标是同时讲授好的程序设计和算法分析技巧,使读者可以开发出具有最高效率的程序。 本书可作为高级数据结构课程或研究生一年级算法分析课程的教材,使用本书需具有一些中级程序设计知识,还需要离散数学的一些背景知识。
数据科学中的R语言 豆瓣
作者: 李舰 / 肖凯 西安交通大学出版社 2015 - 7
数据科学是将数据转化为行动的艺术,是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其为应用而生,因此本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及其在各领域的应用情况。
如果是初学者,可以从“编程篇”开始阅读,了解R语言的基本特点。如果是程序员,在迅速掌握语法后,可以深入研究“模型篇”,学习如何用统计学和其他流行的分析方法来描绘复杂的数据世界。如果关心数据价值的落地,“应用篇”必不负你所望,金融、制药、文本挖掘、社交网络、地理信息、高性能计算、可重复研究,这些最热门的行业和应用领域的案例将会为你带来数据应用的最真实的体验。
本书适用于所有对数据应用感兴趣的读者,也适合作为统计和数据分析的实务操作型课程的教材。
深入浅出SQL(中文版) 豆瓣
作者: 贝里 编 译者: O‘Reilly Taiwan公司 东南大学 2009 - 6
你将从《深入浅出SQL(中文版)》学到什么?在如今的世界,数据就是力量,但是成功的真正秘诀却是管理你的数据的力量。《深入浅出SQL(中文版)》带你进入SQL语言的心脏地带,从使用INSERT和SELECT这些基本的查询语法到使用子查询(subquery)、连接(join)和事务(transaction)这样的核心技术来操作数据库。到读完《深入浅出SQL(中文版)》之时,你将不仅能够理解高效数据库设计和创建,还能像一个专家那样查询、归一(normalizing)和联接数据。你将成为数据的真正主人。
利用Python进行数据分析 豆瓣
Python for Data Analysis
8.6 (13 个评分) 作者: Wes McKinney 译者: 唐学韬 机械工业出版社 2013 - 11
【名人推荐】
“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”
——Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一
【内容简介】
还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。
由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。
•将IPython这个交互式Shell作为你的首要开发环境。
•学习NumPy(Numerical Python)的基础和高级知识。
•从pandas库的数据分析工具开始。
•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。
•利用matplotlib创建散点图以及静态或交互式的可视化结果。
•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。
•处理各种各样的时间序列数据。
•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。
深入浅出数据分析 豆瓣
Head First Data Analysis
8.1 (15 个评分) 作者: [美] Michael Milton 译者: 李芳 电子工业出版社 2009
《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文以后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。
本书构思跌宕起伏,行文妙趣横生,无论是职场老手,还是业界新人,无论是字斟句酌,还是信手翻阅,相信都能跟着文字在职场中走上几回,去体味数据分析领域的乐趣与挑战。
2015年6月15日 已读
确实写的挺浅的,但还是有不少干货
2015A 数据分析
Statistics for Business and Economics 豆瓣
作者: David R. Anderson / Dennis J. Sweeney South-Western College Pub 2010 - 1
Discover how the most trusted approach to statistics today is Simply Powerful with the latest market-leading text from respected authors Anderson/Sweeney/Williams. STATISTICS FOR BUSINESS AND ECONOMICS, 11e introduces sound statistical methodology within a strong applications setting. The authors clearly demonstrate how statistical results provide insights into business decisions and present solutions to contemporary business problems. New cases and more than 350 real business examples and memorable exercises, 150 of which are new in this edition, present the latest statistical data and business information. With this book's comprehensive coverage and unwavering accuracy, you select the topics best for your course, including thorough coverage of the latest versions of MiniTab 15 and Excel 2007, along with StatTools and other leading Excel 2007 statistical add-ins within chapter appendices. Author-written support materials and CengageNOW online course management system provides time-saving, complete support to ensure student understanding. Choose Anderson/Sweeney/Williams' STATISTICS FOR BUSINESS AND ECONOMICS, 11e for the Simply Powerful statistical solution you need for your course.
Practical Data Science Cookbook - Real-World Data Science Projects to Help You Get Your Hands On Your Data 豆瓣
作者: Tony Ojeda / Sean Patrick Murphy Packt Publishing - ebooks Account 2014 - 9
Data's value has grown exponentially in the past decade, with 'Big Data' today being one of the biggest buzzwords in business and IT, and data scientist hailed as 'the sexiest job of the 21st century'. Practical Data Science Cookbook helps you see beyond the hype and get past the theory by providing you with a hands-on exploration of data science. With a comprehensive range of recipes designed to help you learn fundamental data science tasks, you'll uncover practical steps to help you produce powerful insights into Big Data using R and Python.
Use this valuable data science book to discover tricks and techniques to get to grips with your data. Learn effective data visualization with an automobile fuel efficiency data project, analyze football statistics, learn how to create data simulations, and get to grips with stock market data to learn data modelling. Find out how to produce sharp insights into social media data by following data science tutorials that demonstrate the best ways to tackle Twitter data, and uncover recipes that will help you dive in and explore Big Data through movie recommendation databases.
Practical Data Science Cookbook is your essential companion to the real-world challenges of working with data, created to give you a deeper insight into a world of Big Data that promises to keep growing.
Web Analytics 2.0 豆瓣
作者: Avinash Kaushik Sybex 2009 - 10
The bestselling book Web Analytics: An Hour A Day was the first book in the analytics space to move beyond clickstream analysis. Web Analytics 2.0 will significantly evolve the approaches from the first book and presents an innovative new framework for making critical business decisions based on web data. The book’s overwhelming focus will be to teach the reader how to use the latest tools and techniques available in the market place. Continuing in the footsteps of the first book, Web Analytics 2.0 will cover the fields of traditional web analytics, usability and qualitative analysis, experimentation and testing, as well as competitive intelligence. It will provide a holistic view of what it takes to make good decisions and exactly how to go about doing that.
Web analytics practitioners continue to have a tremendous interest (only increased by the current economic condition) in being more data-driven. At the same time, the web continues to evolve in significant ways (video, blogs, flash, social media, etc.) that present significant challenges to measurement. Web Analytics 2.0 will tackle both of those topics. Furthermore it will be agnostic in terms of tools, which will make it a must-read for online marketers of all hues, web analysts, web designers and architects, and online executives at all levels of the organization interested in successfully collecting, analyzing, and acting upon web analytics data.
In true Web 2.0 fashion the book will also include a veritable buffet of goodies on the accompanying CD-ROM: Videos (Author as well as industry leaders), Podcasts, PowerPoint Presentations and helpful files.
R语言实战 豆瓣
R in Action
9.3 (6 个评分) 作者: 卡巴科弗 译者: 高涛 / 肖楠 人民邮电出版社 2013 - 1
数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响, 相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。  本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能、展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!  本书内容:  R安装与操作
数据导入/导出及格式化双变量关系的描述性分析回归分析
模型适用性的评价方法以及结果的可视化
用图形实现变量关系的可视化
在给定置信度的前提下确定样本量
高级统计分析方法和高级绘图
推荐系统实践 豆瓣 Goodreads
7.0 (18 个评分) 作者: 项亮 人民邮电出版社 2012 - 6
内容简介:
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代 。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。
Excel数据处理与分析实战技巧精粹 豆瓣
作者: Excel Home 人民邮电出版社 2008 - 8
《EXCEL数据处理与分析实战技巧精粹》在对Excel技术论坛上上百万个提问的分析与提炼的基础上,汇集了用户在使用Excel进行数据处理与分析过程中最常见的需求,通过270多个实例的演示与讲解,将Excel高手的过人技巧手把手教给读者,并帮助读者发挥创意,灵活有效地使用Excel来处理工作中遇到的问题。《EXCEL数据处理与分析实战技巧精粹》分为6篇25章,介绍了Excel数据处理与分析方面的应用技巧,内容涉及Excel工作环境和基本操作、数据的输入和导入、数据整理和编辑、数据查询、分类汇总和合并计算等方面的使用技巧,以及数据透视表、模拟运算表、单变量求解工具和规划求解工具等数据分析工具的使用方法和技巧。《EXCEL数据处理与分析实战技巧精粹》内容丰富、图文并茂、可操作性强且便于查阅,主要面向Excel中高级读者,能有效地帮助读者提高Excel数据处理与分析的水平,提升工作效率。