数据清洗(微课版)/大数据与人工智能技术丛书

价格 49.80对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 5 人关注
数量
+-
库存100
 
联系方式
加关注0

博文图书网

管理员第1年
资料通过认证
保证金未缴纳

内容简介

本书的编写目的是向读者介绍数据清洗技术的基本概念与应用。全书共10章,分别为数据清洗概述、文件格式、Web数据抽取、网络爬虫、Kettle数据清洗、数据迁移、文本数据处理、Python数据清洗、DataCleaner数据分析与清洗以及数据清洗综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用数据清洗相关技术,并对书中重要的、核心的知识点加大练,以达到熟练应用的目的。 本书可作为高等学校大数据、人工智能、云计算等专业的教材,可也作为大数据爱好者的参考书。

目录

第1章 数据清洗概述 1.1 数据清洗基础 1.1.1 数据清洗的定义 1.1.2 数据清洗的原理 1.1.3 数据清洗的流程 1.1.4 数据清洗的常用方法 1.1.5 数据清洗的评估描述 1.1.6 数据清洗中的常用评测数据集 1.2 数据质量与数据仓库 1.2.1 数据质量的定义 1.2.2 常见的数据质量问题 1.2.3 数据质量与数据清洗 1.2.4 数据仓库与ETL 1.2.5 数据映射 1.2.6 主数据与元数据 1.3 数据清洗中的统计基础 1.3.1 描述统计 1.3.2 推论统计 1.3.3 变量 1.4 数据清洗环境与常用工具 1.4.1 数据清洗环境介绍 1.4.2 数据清洗常用工具 1.5 本章小结 1.6 实训 第2章 文件格式 2.1 文件格式概述 2.2 Kettle中文件格式的转换 2.2.1 文本文件转换 2.2.2 CSV文件转换 2.2.3 XML文件转换 2.2.4 JSON文件转换 2.2.5 Excel文件转换 2.2.6 生成记录转换 2.3 本章小结 2.4 实训 第3章 Web数据抽取 3.1 Web数据抽取基础 3.2 Web数据抽取的实现 3.2.1 Kettle数据抽取原理 3.2.2 Kettle数据抽取实现 3.3 本章小结 3.4 实训 第4章 网络爬虫 4.1 网络爬虫基础 4.2 Python3网络爬虫实现 4.2.1 urllib模块 4.2.2 Requestr/> 4.2.3 BeautifulSoup库 4.3 Python3网络爬虫实例 4.3.1 urllib实例 4.3.2 requests实例 4.4 本章小结 4.5 实训 第5章 Kettle数据清洗 5.1 Kettle数据清洗概述 5.2 Kettle数据清洗实现 5.2.1 清洗简单数据 5.2.2 清洗复杂数据 5.3 本章小结 5.4 实训 第6章 数据迁移 6.1 数据迁移概述 6.2 数据迁移实现技术 6.2.1 基于主机的迁移方式 6.2.2 备份恢复的迁移方式 6.2.3 基于存储的迁移方式 6.2.4 基于文件系统的迁移方式 6.2.5 基于数据库的迁移方式 6.3 数据迁移实现 6.3.1 数据库安装与使用 6.3.2 Kettle数据迁移 6.4 本章小结 6.5 实训 第7章 文本数据处理 7.1 文本分词 7.2 文本数据法 7.3 jieba分词的应用 7.3.1 jieba概述 7.3.2 jieba应用实例 7.4 本章小结 7.5 实训 第8章 Python数据清洗 8.1 Python数据清洗概述 8.1.1 Python数据清洗相关库 8.1.2 Python数据清洗库的安装 8.2 NumPy使用 8.2.1 数组的创建与使用 8.2.2 计算模块与模块的使用 8.2.3 NumPy数据清洗实例 8.3 Pandas使用 8.3.1 Pandas数据类型概述 8.3.2 Pandas数据类型应用 8.3.3 Pandas数据清洗 8.4 matplotlib使用 8.4.1 matplotlib的介绍 8.4.2 matplotlib的应用 8.5 Python数据清洗实例 8.5.1 清洗内部数据 8.5.2 清洗外部数据 8.6 本章小结 8.7 实训 第9章 DataCleaner数据分析与清洗 9.1 DataCleaner简介 9.1.1 DataCleaner概述 9.1.2 DataCleaner界面认识 9.2 DataCleaner应用 9.2.1 认识DataCleaner 9.2.2 DataCleaner数据分析实例 9.3 本章小结 9.4 实训 第10章 数据清洗综合实训 10.1 Python数据分组与显示 10.2 Python数据清洗与显示 10.3 Kettle分组排序 10.4 Kettle模糊匹配参考文献

摘要与插图

1.pan>数据清洗基础

1.1.pan>数据清洗的定义

1.;数据清洗介绍

数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而,在众多数据是存在着许多“脏”数据,即不完整、不规范、不的数据。因此,数据清洗是指把“脏数据”洗掉括检查数据一致,处理无效值和缺失值等,从而提高数据质量。例如,在大数据项目的实际开发工作中,数据清洗通常占开发过时间的50%~70%。数据清洗可以有多种表述方式,其定义依赖于具体的应用,它的定义在不同的应用领域中不相同。例如,在数据仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,在数据清洗时要充分考虑数据仓库的集成和面向主题的需要(2.数据清洗的对象数据清洗的对象可以按照来源领域和产生领行分类。前者属于宏观层面的划分,后者属于微观层面的划分。pan>)数据来源领域目前在数字化应用较多的领域都涉及数据清洗,如数字化文献服务、搜索引擎、金融领域、机构等,数据清洗的目的是为信息系统提供而有效的数据。在数字化文献服务领域行数字化文献资源加工时,一些识别软件有时会造成字符识别错误,或由于标引人员的疏忽而导致标引词的错误等,这是数据清洗需要完成的任务。搜索引擎为用户在互联网上查找具体的网页提供了方便,它是通过为某网页的内行索引而实现的。而一个网页上到底哪些部分需要索引,则是数据清洗需要关注的问题。例如,网页中的广告部分,通常是不需要索引的。按照网络数据清洗的粒度不同,可以将网络数据清洗分为两类,即Web页面级别的数据清洗和基于页面内部元素级别的数据清洗,前者以Google公司提出的PageRank算法和IBM公司Clever系统的HITS(Hyperlink-Induced Topic Search)算法为代表;而后者的思路则集中体现在作为MSN搜索引擎核心技术之一的VIPS(Visual based Page Segment)算法上。在金融系统中,也存在很多“脏数据”,主要表现为数据格式错误、数据不一致、数据重复或错误、业务逻辑不合理、违反业务规则等,具体如未经验证的身份证号码、未经验证的日期字段等,还有账户开户日期晚于销户日期、交易处理的操作员号不存在、别超过取值范围等。此外,也有因为源系统基于能的考虑,放弃了外键约束,从而导致数据不一致的结果。这些数据也都需行清洗。在机构中,如行数据治理也是一个急需解决的问题,是在电子政务建设和信息保障建设中。通过实施数据清洗,可以为数据归集和开发利用以及数据资源共享与开放提供强大的支撑。2)数据产生领域在微观层面,数据清洗的对象分为模式层数据和实例层数据。其中,模式层是指存储数据的数据库结构,而实例层是指在数据库中具体存储的数据记录,本书主要讲述实例层的数据清洗。实例层数据清洗的主要任务是过滤或修改那些不符合要求的数据,主含不完整的数据、错误的数据和重复的数据三大类。(pan>)不完整的数据。不完整的数据也叫作缺失数据(缺失值),是指在该数据中的一些应该有的信息缺失,如在数据表中缺失了员工姓名、机构名称、分公司的名称、区域信息、邮编地址等。造成数据缺失的原因大致有以下几个:信息暂时无法获取;信息被遗

……

举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号