基于 Golang 的网络爬虫 Gocolly
因项目需要,要对网络上某些信息进行抓取,以便加工后做数据分析。提到爬虫框架,知名度最高的当属基于Python
的爬虫框架 Scrapy
。但是由于本人对 Python
并不熟悉,并且暂时也不准备去深入学习,因此不在考虑范围。同时也是基于学习的目的,因此选择了 Golang
方向。基于 Golang
的成熟爬虫框架其实并不多,因此在选择上不用太纠结,就用 Go-Colly
了。
因项目需要,要对网络上某些信息进行抓取,以便加工后做数据分析。提到爬虫框架,知名度最高的当属基于Python
的爬虫框架 Scrapy
。但是由于本人对 Python
并不熟悉,并且暂时也不准备去深入学习,因此不在考虑范围。同时也是基于学习的目的,因此选择了 Golang
方向。基于 Golang
的成熟爬虫框架其实并不多,因此在选择上不用太纠结,就用 Go-Colly
了。
开发环境的配置,记录一下。
本文简单介绍下Redis是什么,Redis的安装与基本使用,Redis的基本数据类型,Redis与Memcached的选择依据等问题。
Git就不用多介绍了,在Linux环境下开发的同学可能会发现默认已经安装的Git却并没有能实现命令的自动补全,还是感觉有点低效和不爽,因此我们需要调整下。下面直接步入正题。
基于CentOS-6.5/Nginx-1.60安装OpenSSL-1.0.1j,并为WordPress后台配置WoSign免费SSL证书。因为之前Nginx安装时默认是没有安装OpenSSL的,因此Nginx需要重新编译。
首先需要说明的是,memcache与memcached的区别,memcache是客户端的扩展,memcached是服务端。