Python爬虫练习

对于网页的理解：

网页一般由三部分组成，分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。如果用人体来比喻，HTML 是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节，如嘴巴长什么样子，眼睛是双眼皮还是单眼皮，是大眼睛还是小眼睛，皮肤是黑色的还是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏乐器等。

HTML的基本构成：

<html>…</html> 是网页的根元素 <head>…</head> 元素包含了文档的元(meta)数据，如 <meta charset=“utf-8”> 定义网页编码格式为 utf-8。 <title>…<title> 元素描述了文档的标题 <body>…</body> 表示用户可见的内容 <div>…</div> 表示框架 <p>…</p> 表示段落 <ul>…</ul> 定义无序列表 <ol>…</ol>定义有序列表 <li>…</li>表示列表项 <img src=“” alt=“”>表示图片 <h1>…</h1>表示标题 <a href=“”>…</a>表示超链接