分类 大数据 下的文章

79类图片数据互联网爬取

图片数据爬取起源需要做验证码的识别、自建仿谷歌验证码的项目效果使用线程池多线程下载,一般一种类型可以很轻松爬取到上十万的图片图片来源unsplash。注意请勿过分爬取网站,也请勿在获得图片作者同意的情况下用于盈利。参考/reference resourcesunsplash

被源站屏蔽解决~采集标识

百度爬虫标识:Mozilla/5.0 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)谷歌爬虫标识:Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)搜狗爬虫标识:Sogou web spider/4.0( h...

hbase安装

hbase安装  注意开启hbase之前,需要将之前的hadoop集群开启$HADOOP_HOME/sbin/start-all.sh (启动hadoop)$ZOOKEEPER_HOME/bin/zkServer.sh start(各个节点均执行)  1.同样先建立工作路径/usr/hbase,将/opt/soft下的hbase加压到工作路径中。创建路径:mkdir -p /usr/hbas...

基础环境配置与zookeeper安装

实验步骤1.修改主机名  本次集群搭建共有三个节点,包括一个主节点master,和两个从节点slave1和slave2。  1.以主机点master为例,首次切换到root用户:su  2.分别修改三台主机名为master,slave1,slave2:hostnamectl set-hostname masterhostnamectl set-hostname slave1hostnamec...

hadoop集群搭建

实验步骤安装hadoop  在操作机上使用Xshell连接虚拟机:   1. 可以通过平台查看所有虚拟机的ip地址,如下图所示:  2. 打开Xshell将对应的主机名及ip地址输入到对应的输入框内,如下图所示:  3. 点击用户身份验证将用户名和密码输入到对应的输入框内,如下图所示:  4. 双击我们创建的连接,最后点击接受并保存,如下图所示:  5. 修改 /etc/hosts 文件(三...