对于网页的理解:

网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。 如果用人体来比喻,HTML 是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等。JScript 表示人的技能,例如跳舞、唱歌或者演奏乐器等。

HTML的基本构成:

<html>…</html> 是网页的根元素 <head>…</head> 元素包含了文档的元(meta)数据,如 <meta charset=“utf-8”> 定义网页编码格式为 utf-8。 <title>…<title> 元素描述了文档的标题 <body>…</body> 表示用户可见的内容 <div>…</div> 表示框架 <p>…</p> 表示段落 <ul>…</ul> 定义无序列表 <ol>…</ol>定义有序列表 <li>…</li>表示列表项 <img src=“” alt=“”>表示图片 <h1>…</h1>表示标题 <a href=“”>…</a>表示超链接

爬虫的基本步骤:

先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。 使用浏览器打开网页源代码分析网页结构以及元素节点。 通过 Beautiful Soup 或则正则表达式提取数据。 存储数据到本地磁盘或数据库。