聚合搜索 - 即学即码

27

8月

【Selenium学习笔记】分布式部署

为什么需要分部署部署对于一般数据量不太或者对浏览器要求不多样化没必要多台机器部署。多台机器部署主要解决以下。数据量比较大，一台机器无法承受所有的请求需要不同的浏览器环境可远程调用，把业务代码和浏览器操作分离环境准备我们需要提前准备多台机器（可以是虚拟机）。由于是java的所以需要配置相对来说搞一些，个人建议最低2核4G主机名IP配置描述test-001192.168.40.52核4G主节点 + 任务节点（chromedriver + chrome浏览器）test-002192.168.40.62核4G任务节点（chromedriver + chrome浏览器）开始部署架构下载官方下载地址：https://www.seleni

18

9月

【Selenium学习笔记】网页截图实践

　　缘由我们有一个产品牵扯到核查数据，在核查数据过程中会发现有一些违规网站，这一些违规网站我们要进行截图保留证据。如果是人工截图就非常麻烦，需要截图之后上传到系统，增加了大家的工作量，我们就想着试着程序自动化截图解决方案由于我们爬虫都使用的python selenium 调用的chrome无头浏览器，所以我们依然选择了selenium调用chrome进行截图。截图核心代码如下，非常简单###核心代码如下 driver.get( url ) #初始化一个屏幕大小 driver.set_window_size(1400, 900) ##通过脚本获取页面宽和高，设置窗口大小 width = driver.execute_script("return document.documentElement.scrollWidth"

24

4月

【Selenium学习笔记】介绍和安装

　　缘由目前由于工作需要，我们需要爬虫（本人严重申明：商业爬虫属于违规行为，请各位技术同事不要有意无意的做违规的事情）获取网页一些东西，但是大家都知道目前有很多网站都是用前后端分离的，使用curl请求是没办法获取到页面信息的，所以我们就基于目前我们相对擅长的技术点选择了 “Selenium”。刚好自己又会一点Python。所以这样我们的技术方案就可以执行下去了。Selenium介绍 Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。从我个人浅显的理解：提供了扩展来模拟用户与浏览器的交互。有如下特点支持主流的大部分浏览器：ie、ff、safari、opera、chrome支持多平台：windows、linux、MAC 支持主流语言的操作库：Python、Java、C#、Ruby、Jav

03

10月

来看看这20个顶尖的开源项目！

　　“我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目，并挑选出最受欢迎和最活跃的项目。”1. Scikit-learnwww.github.com/scikit-learn/scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚类的算法包括支持向量机，逻辑回归，朴素贝叶斯分类器，随机森林，Gradient Boosting，聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy2.Pylearn2www.github.com/lisa-lab/pylearn2 Pylearn是一个让机器学习研究简单化的基于Theano的库程序。3.NuPICwww.github.com/numenta/nupic NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法