数据分析
Python数据科学手册 豆瓣
Python Data Science Handbook: Essential Tools for Working with Data
作者: Jake VanderPlas 译者: 陶俊杰 / 陈小莉 人民邮电出版社 2018 - 1
本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。
本书适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。
2019年7月1日 已读
对 Python 重要的数据分析相关类库作了不错的介绍,并提供了众多有意思的实例。看完对机器学习也有了更深入的了解。必须打五星。
python 数据分析 机器学习
数据挖掘 豆瓣
Data Mining:Concepts and Techniques,Third Edition
作者: (美)Jiawei Han / (加)Micheline Kamber 译者: 范明 / 孟小峰 机械工业出版社 2012 - 8
数据挖掘领域最具里程碑意义的经典著作
完整全面阐述该领域的重要知识和技术创新
这是一本数据挖掘和知识发现的优秀教材,结构合理、条理清晰。本书既保留了相当篇幅讲述数据挖掘的基本概念和方法,又增加了若干章节介绍数据挖掘领域最新的技术和发展,因此既适合初学者学习又适合专业人员和实践者参考。本书视角广阔、资料翔实、内容全面,能够为有意深入研究相关技术的读者提供足够的参考和支持。总之, 强烈推荐从高年级本科生到专业人员和实践者都来阅读这本书!
—— 美国CHOICE杂志
这是一本非常优秀的数据挖掘教材,最新的第3版反映了数据挖掘领域的最新发展和变化。书中增加了2006年第2版以来最新的引用资料,新增小节讨论可视化、模式挖掘以及最新的聚类方法。本书配有丰富及完善的教辅支持,包括配套网站、大量的习题集以及习题答案等。尽管这是一本数据挖掘的教材,但对于读者没有太高的要求,只需要读者具有少量编程经验并了解基本的数据库设计和统计分析知识。还有两点值得注意:第一,本书的参考书目是关于了解数据挖掘研究的非常好的参考列表;第二,书中的索引非常全面和有效,能够帮助读者很容易地定位相关知识点。其他学科的研究人员和分析人员,例如,流行病学家、金融分析师、心理测量研究人员,也会发现本书非常有用。
—— Computing Reviews
当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易,但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求,因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。
本书前版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和最新的课题——数据仓库和数据立方体技术,流数据挖掘,社会网络挖掘,空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导,提供最佳算法,并对怎样将技术运用到实际工作中给出了经过实践检验的实用型规则。如果你希望自己能熟练掌握和运用当今最有力的数据挖掘技术,那本书正是你需要阅读和学习的宝贵资源。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的一本书。
【本书特色】
引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。
讨论了一些高级主题,例如挖掘面向对象的关系型数据库、空间数据库、多媒体数据库、时间序列数据库、文本数据库、万维网以及其他领域的应用等。
全面而实用地给出用于从海量数据中获取尽可能多信息的概念和技术。
数据科学实战 豆瓣
Doing Data Science: Straight Talk from the Frontline
作者: [美] Rachel Schutt / [美] Cathy O'Neil 译者: 冯凌秉 / 王群锋 人民邮电出版社 2015 - 3
• 统计推断、探索性数据分析(EDA)及数据科学工作流程
• 算法
• 垃圾邮件过滤、朴素贝叶斯和数据清理
• 逻辑回归
• 金融建模
• 推荐引擎和因果关系
• 数据可视化
• 社交网络与数据新闻
• 数据工程、MapReduce、Pregel和Hadoop
2016年11月27日 想读 概览数据分析与处理,技术上并不是很深,让人有个宏观感觉。
数据分析 罗文益
Python金融大数据分析 豆瓣
Python for Finance: Analyze Big Financial Data
作者: [德] 伊夫·希尔皮斯科 译者: 姚军 人民邮电出版社 2015
唯一一本详细讲解使用Python分析处理金融大数据的专业图书;金融应用开发领域从业人员必读。
Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的首选编程语言。《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。
《Python金融大数据分析》总计分为3部分,共19章,第1部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了金融分析和应用程序开发中最重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、随机数生成和随机过程模拟、Python统计学应用、Python和Excel的集成、Python面向对象编程和GUI的开发、Python与Web技术的集成,以及基于Web应用和Web服务的开发;第3部分关注的是蒙特卡洛模拟期权与衍生品定价实际应用的开发工作,其内容涵盖了估值框架的介绍、金融模型的模拟、衍生品的估值、投资组合的估值、波动率期权等知识。
《Python金融大数据分析》适合对使用Python进行大数据分析、处理感兴趣的金融行业开发人员阅读。
Python数据科学 豆瓣
作者: 常国珍 / 赵仁乾 2018 - 7
这是一本以Python为工具,以商业实战为导向的数据科学家养成手册,从技术、业务、商业实战3个维度为有志成为数据科学家的读者提供了系统化的学习路径。
3位作者是数据科学和金融领域的资深专家,不仅技术精湛、经验丰富,而且在本书的写作上也颇下功夫:首先,将数学和算法等复杂的技术用图形化的方式来展现,尽可能降低读者的理解难度;其次,本书不是一本教科书或案例集,而是针对数据科学家的能力模型提供系统化的解决方案。
全书一共19章:内容依次围绕技术、业务和商业实战3个维度展开:
技术维度:较为系统和深度地讲解了数据挖掘、数据分析以及机器学习等数据科学中核心的技术。
业务维度:围绕宏观业务分析和微观客户分析展现了数据科学在市场研究、企业管理、客户画像与分析、精准营销、风险度量、流失预警等方面的知识点。
实战维度:以案例的形式全面展现了著名咨询公司从事客户量化分析的方法论,为读者提供了标准的数据科学工作模板。
本书脚本请到作者的Github主页上下载(https://github.com/changgz/Pydsci)。
Python数据分析与数据化运营 豆瓣
作者: 宋天龙 机械工业出版社 2017
这是一部从实战角度讲解如何利用Python进行数据分析、挖掘和数据化运营的著作,不仅对数据分析的关键技术和技巧进行了总结,更重要的是对会员、商品、流量、内容4个主题的数据化运营进行了系统讲解。
作者是国内一线数据分析师和大数据专家,在数据分析和数据化运营领域有近10年的经验,在业内颇具知名度和影响力。本书不仅得到了宋星、黄成明、宫鑫等14位资深专家的好评和推荐,还得到了天善智能、中国统计网等多个数据科学相关机构的支持和高度认可。
全书的内容在逻辑上共分为两大部分:
第一部分(第1~4章):Python数据分析与挖掘
着重讲解了Python和数据化运营的基本知识,以及Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验。包含11条数据预处理经验、39个数据预处理知识点、14个数据分析和挖掘的建模主题。
第二部分(第5~9章):Python数据化运营
这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营4大主题,以及提升数据化运营价值的方法。在每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
本书提供案例数据和源代码(中文注释)下载,供读者实操时使用。
数据分析技术白皮书 豆瓣
Gordon Choi 蔡维东
译者: 伍海凤 / 刘鹏 2016 - 8
关于数据分析技术白皮书(Analytics Book 中文版),主要内容围绕:
1. 分析(Analytics):网站分析 & APP分析
2. 谷歌分析工具的原理、部署与使用
3. 开源网站分析工具的原理、部署与使用
4. Log日志分析原理
5. 网站分析的维度与指标定义
6. 如何炼成为一个互联网数据分析师
请访问书的数据分析技术白皮书官网“免费”阅读(中文版)!
http://cn.analyticsbook.org/doku.php?id=start
繁体中文版:
http://hk.analyticsbook.org/doku.php?id=start
英文原版:
http://www.analyticsbook.org/doku.php?id=start
Analytics Book中文版是由Gordon策划,由多个志愿者翻译。翻译者:伍海凤、刘鹏、杨佳静、马师慧Sara、李博、Shirley Song、Zinc、李晓艳。
掘金大数据 豆瓣
作者: 程新洲 / 朱常波 机械工业出版社 2019 - 1
在数据横向融合的时代,充分挖掘数据金矿及盘活数据资产,是企业发展和转型的关键所在。电信运营商以其数据特殊性,必将成为大数据领域的领航者、生力军。各行业的大数据从业者要如何从电信业的大数据中挖掘价值呢?
本书彻底揭开电信运营商数据的神秘面纱,系统介绍了大数据的发展历程,主要的数据挖掘方法,电信运营商在网络运行及业务运营方面的数据资源特征,基于用户、业务、网络、终端及内在联系的电信运营商大数据分析体系,以及该分析体系在企业内部及外部行业的应用实践。本书特别列举了一系列电信大数据在企业运营以及多个行业应用的案例,为各行业的大数据应用推进提供参考,同时对于大数据推进过程中的各种风险与挑战提出应对措施。
对于从事电信运营商大数据分析工作的读者,本书是一本难得的实务指南;对于从事电信运营商运营工作的管理人员,本书提供了运营和决策的辅助参考手段;对于其他行业的大数据从业人员,本书以电信运营商大数据应用为导向,介绍的案例涵盖多个领域(交通、金融、旅游、广告、气象、餐饮、娱乐、医疗、政务、城市规划等),更有相关产品介绍,涉及的应用思路、方法、解决方案能给予读者很多启发和思考。
数据化决策 豆瓣
How to Measure Anything: Finding the Value of Intangibles in Business
作者: 道格拉斯•W•哈伯德 译者: 邓洪涛 世界图书出版公司 2013 - 9
你还在依赖直觉和经验艰难地作出决策吗?这本书让你定量决策:
可口可乐动用2 000名调研员,对19万人进行口味测试后,如何作出最终决策?
如何衡量并未开口抱怨的顾客对服务或产品质量的不满意度?
如何通过数学公式找到最适合你的另一半?
数据无孔不入,大数据时代,谁掌握了数据,谁就能把握成功。“一切皆可量化”,道格拉斯这个大胆的宣言是解决诸多生活和商业问题的关键所在。
无论你的问题看起来多么不可量化,如健康、幸福感、顾客满意度、IT安全、投资风险、品牌价值、组织灵活性等,在本书中都可以找到量化的办法。作者在本书中:
专注于量化不确定性、风险和数据价值;
提供了令人拍案惊奇的测算无形之物的简便方法,让你仅仅基于已知数据就能准确决策;
展示了丰富而精彩的量化案例,让身边的数据唾手可得。
本书兼具实用性、可读性与趣味性,甚至让反感数据的人也能发现它的亲切。
利用Python进行数据分析(原书第2版) 豆瓣
Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython
8.3 (6 个评分) 作者: [美] Wes McKinney 译者: 徐敬一 机械工业出版社 2018 - 7
本书由pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。
第2版中的主要更新包括:
• 所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
• 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引
• 更新pandas库到2017年的新版
• 新增一章,关于更多高级pandas工具和一些使用提示
• 新增statsmodels和scikit-learn的简明使用介绍
Python数据挖掘入门与实践 豆瓣
Learning Data Mining with Python
作者: [澳] Robert Layton 译者: 杜春晓 人民邮电出版社 2016 - 7
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。