2019 五月 24 , 星期五

[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

版本号:Python2.7.5,Python3改动较大,各位另寻教程。 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。 它以urlopen函数的形式提供了一个非常简单的接口。 最简单 ...

Read More »

[Python]网络爬虫(一):抓取网页的含义和URL基本构成

一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 这样看来,网络爬虫就是一个爬行程序,一个抓 ...

Read More »

PHP连接MySQL报错"No such file or directory"的解决办法

1,首先确定是mysql_connect()和mysql_pconnect()的问题,故障现象就是函数返回空,而mysql_error()返回“No such file or directory” 2,写个phpinfo页面,找到mysql.default_socket、mysqli.default_socket、pdo_mysql.default_socket 3,启动mysql,执行命令 STATUS; 记下UNIX socket的值 4,打开php.ini(可以从phpinfo页面中找到p ...

Read More »

python list 排序

对List进行排序,Python提供了两个方法 —sort—- 方法1.用List的内建函数list.sort进行排序 list.sort(func=None, key=None, reverse=False) 方法2.用序列类型函数sorted(list)进行排序(从2.4开始) >>> list = [2,5,1] >>> list [2, 5, 1] >>> sorted(list) [1, 2, 5] > ...

Read More »

python 字典用法总结

#coding=utf-8 if __name__ == ‘__main__’: #创建字典 #创建一个空的字典 dict1={} #用{key:value,key:value}的形式创建字典??? dict1={‘name’:'jack’,'age’:18} #使用一个工厂方法,传入一个元素是列表的元组作为参数 fdict = dict((['x', 1], ['y', 2])) print dict1 #{‘ ...

Read More »

python lambda用法总结

#coding=utf-8 ”’ Created on 2014-11-12 #�����lambda���ʽ def myAddFun(x): return lambda y:x+y if __name__ == ‘__main__’: #lambda函数表达式 #格式 lambda 参数1,参数2:表达式 myAdd=lambda x,y:x+y print(myAdd(3,5)) #8 #调用返回lambda表达式的函数 base=myAdd ...

Read More »

Python 2.7.6 在 linux 上的编译安装

1、下载python2.7.6,保存到 ~/soft http://www.python.org/ftp/python/ http://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz 2、解压文件 tar zxf Python-2.7.6.tgz 3、创建安装目录 mkdir /usr/local/python/python27 4. 安装python cd ~/soft/Python-2.7.6 ./configure –prefi ...

Read More »

Linux xargs命令

xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具。它把一个数据流分割为一些足够小的块,以方便过滤器和命令进行处理。通常情况下,xargs从管道或者stdin中读取数据,但是它也能够从文件的输出中读取数据。xargs的默认命令是echo,这意味着通过管道传递给xargs的输入将会包含换行和空白,不过通过xargs的处理,换行和空白将被空格取代。 xargs 是一个强有力的命令,它能够捕获一个命令的输出,然后传递给另外一个命令,下面是一些如何有效使用xargs 的实用例子。 1.  ...

Read More »

crontab : no crontab for … – using an empty one

If you’ve ever seen this warning on OSX while trying to edit your crontab crontab: temp file must be edited in place here’s how to address it. Fistly, the reason has to do with the way vim/vi treats backup files and the fact that crontab has differen ...

Read More »

YII访问数据库(Yii Dao)

CDbConnection: 一个抽象数据库连接 CDbCommand: SQL statement CDbDataReader: 匹配结果集的一行记录 CDbTransaction:数据库事务 访问数据库前需要建立数据库连接;使用DAO建立一个抽象数据库链接: $connection = new CDbConnection($dsn, $username, $password); $connection->active = true;     // 只有激活了连接才可以使用 // 想要关 ...

Read More »

mac 安装 php-redis

mac lion下自带的apache,扩展很少,另外我自己尝试用php源码编译未通过,因为决定用一个集成的mamp,那就是xampp(一定要安装那个xampp开发包,不然编译php扩展的时候会出错)。在windows和linux 下安装一些程序或者php的扩展资料很多,而关于mac最新版10.7.4的资料极少。顺便提下mac的好用的安装工具,一个是MacPort,一个是Homebrew.macport可能被墙,安装时可能会卡住。 下面进入正题,例如今天先安装redis和php-redis。关于r ...

Read More »

MySQL concat函数的使用

MySQL concat函数是MySQL数据库中众多的函数之一,下文将对MySQL concat函数的语法和使用进行说明,供您参考和学习。 MySQL concat函数使用方法: CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。 注意: 如果所有参数均为非二进制字符串,则结果为非二进制字符串。 如果自变量中含有任一二进制字符串,则结果为一个二进制字符串。 一个数字参数被转化为与之相等的二进制字符串格式;若要避免这种情况, ...

Read More »