文本挖掘

豆瓣
文本挖掘

登录后可管理标记收藏。

ISBN: 9787111588559
作者: [美] Julia Silge / [美] David Robinson
译者: 刘波 / 唐亮贵 / 罗棻
格式: 平装
出版社: 机械工业出版社
发行时间: 2018 -1
丛书: O'Reilly动物系列(中译本)
装订: 平装
价格: 59.00元
页数: 160

/ 10

0 个评分

评分人数不足
借阅或购买

基于R语言的整洁工具

Text Mining with R: A Tidy Approach

[美] Julia Silge / [美] David Robinson    译者: 刘波 / 唐亮贵

简介

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。本书使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。
本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。

contents

译者序
前言
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第4章 词之间的关系:n-gram及相关性
n-gram词条化
用widyr包对单词对计数并计算相关性
总结
第5章 非整洁格式转换
使文档–词项矩阵整洁
将整洁文本数据转换为矩阵
总结
第6章 主题建模
LDA
示例:博大的图书馆馆藏
LDA方法的替代实现
总结
第7章 案例研究:Twitter归档文件比较
单词使用情况的比较
单词使用情况的变化
收藏和转发
总结
第8章 案例研究:NASA元数据挖掘
NASA如何组织数据
共现单词与相关单词
计算描述字段的tf-idf
总结
第9章 案例研究:分析Usenet文本
预处理
新闻组中的单词
情感分析
总结
参考文献

其它版本
短评
评论
笔记