博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《数据科学:R语言实现》——第2章 数据抽取、转换和加载
阅读量:6703 次
发布时间:2019-06-25

本文共 630 字,大约阅读时间需要 2 分钟。

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第1章,第1.1节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

数据抽取、转换和加载

2.1 引言

在使用数据回答关键业务问题之前,最重要的事情是准备数据。数据通常存在文件中,使用Excel或者文本编辑器可以轻松地获取。但是数据也可以来自于其他来源,例如数据库、网站和各种文件格式。能够从这些源中引入数据很重要。

数据主要有4种类型。以文本形式存储的数据最简单。由于一些用户需要把数据存在结构化的文件中,因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据。很多年以来,Excel在数据处理领域占据主导地位,这个软件使用.xls和.xlsx文件格式。掌握读取和操作数据库中的数据是另一项重要的技能。然而,大多数数据并不是存在数据库中的,我们也必须知道如何使用网络爬取技术从互联网上获取数据。作为本章的一部分,我们会介绍如何使用rvest程序包,从互联网上爬取数据。
许多有经验的开发人员已经创建了程序包,允许初学者更简便地的获取数据。我们关注于使用这些程序包执行数据抽取、转换和加载。在本章中,我们首先学习如何使用R程序包读取文本格式的数据,并逐行扫描文件。然后我们会讨论从数据库和Excel中读取结构化数据。最后,我们会学习如何使用R网络爬取工具,从互联网和社交网络上爬取数据。

转载地址:http://qdzlo.baihongyu.com/

你可能感兴趣的文章
百分比定位加position定位的常用布局
查看>>
Codeforces Round #257 (Div. 2/A)/Codeforces450A_Jzzhu and Children
查看>>
android 拍照注意问题
查看>>
form中的button按钮在IE11中自动提交表单问题导致弹出框关闭之后表单被重置
查看>>
在多个游戏视图间切换环境准备
查看>>
Linux命令-权限管理命令:chown
查看>>
第三方推送-使用推
查看>>
Hadoop 2.2.0 HA构造
查看>>
WIN8系统中 任务管理器 性能栏 显示CPU利用率(已暂停)怎么回事?
查看>>
java如何将毫秒数转为相应的年月日格式
查看>>
whu oj 1551 Pairs (莫队算法)
查看>>
BZOJ3424 : Poi2013 Multidrink
查看>>
eclipse 预览Android界面报错
查看>>
iOS:iOS开发系列–打造自己的“美图秀秀”(中)
查看>>
keepalived对nginx高可用演练脚本
查看>>
swift实现ios类似微信输入框跟随键盘弹出的效果
查看>>
【转】人生应该接受的教育
查看>>
Android NDK 同时编译多个Module
查看>>
poi API
查看>>
8 -- 深入使用Spring -- 2...2 指定Bean的作用域
查看>>