# 学习Servlet和Tomcat ## 前置任务:了解学习HTTP 如果你选了网络工程导论这门课,并且已经了解了HTTP相关的知识,则可以跳过本节,直接开主线任务:[传送点](####Teleport1),但是也可以重新开始学习这部分的内容。 想了解更多:[HTTP | MDN](https://developer.mozilla.org/zh-CN/docs/Web/HTTP) ### HTTP介绍 超文本传输协议(HyperText Transfer Protocol,HTTP)是一个应用层协议。所谓协议,就是数据传输格式的一个约定。 HTTP最初设计是用来传输html页面这种纯文本数据的,但是实际上只要声明好header,传输什么都是可以的,图片,文件等等,或者也可以摇身一变,变成另一个协议(grpc, 基于http2)来使用,总之,http其实是非常灵活的。 ### HTTP消息 一个规范的,完整的HTTP消息结构是这样的: 请求(GET方法): 地址:`https://github.com` ```http GET / HTTP/1.1 Host: github.com authority: github.com accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 accept-language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6 user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.35 content-length: 0 ``` 请求(POST方法,带请求体): 地址:`http://bkjx.wust.edu.cn/Logon.do?method=logon` ```http POST /Logon.do?method=logon HTTP/1.1 Host: bkjx.wust.edu.cn Proxy-Connection: Keep-Alive Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6 Cache-Control: no-cache Connection: keep-alive Content-Type: application/x-www-form-urlencoded Cookie: bzb_njw=303511D07EF501147333F6B099D16CB9; SERVERID=122 Origin: http://bkjx.wust.edu.cn Pragma: no-cache Referer: http://bkjx.wust.edu.cn/ Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.35 Content-Length: 94 userAccount=&userPassword=&encoded=dMcs2P8fNag0n1d03f0UVgu02^%^257F^%^25QF^%^25pcs0Ygd4fbgHs69 ``` 响应(header内容精简过): ```http HTTP/1.1 200 OK Server: GitHub.com Date: Sat, 13 May 2023 02:59:34 GMT Content-Type: text/html; charset=utf-8 Vary: X-PJAX, X-PJAX-Container, Turbo-Visit, Turbo-Frame, Accept-Language, Accept-Encoding, Accept, X-Requested-With content-language: en-US ETag: W/"bfeda72459b363617514a4f13882cece" Set-Cookie: _octo=GH1.1.496438640.1683116779; Path=/; Domain=github.com; Expires=Mon, 13 May 2024 02:59:39 GMT; Secure; SameSite=Lax Accept-Ranges: bytes Transfer-Encoding: chunked
...(还有一堆的网页内容) ``` 请求和响应的消息体长得还挺像的,估计大家都能看出来了。 #### 第一行 -『起始行』与『状态行』 http请求消息中,第一行为『起始行』: - `GET / HTTP/1.1` - `GET /background.png HTTP/1.0` - `POST /Logon.do?method=logon HTTP/1.1` 起始行分为三个部分,分别定义了请求方法,请求目标和当前请求使用的http协议版本 第一个部分为『[请求方法](https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Methods)』,一般有GET, POST, OPTIONS, PUT等好多种,但是实际使用几乎就只有GET和POST两种。 随后紧接着的部分是『请求目标』,在普通的http请求中也可以简单理解为请求路径,也就是咱们看到的浏览器地址后面的部分(xxx.com/abcd/efg中的/abcd/efg,bkjx.wust.edu.cn/Logon.do?method=logon中的/Logon.do?method=logon部分) 在部分场合下,请求目标有时也是一个绝对路径的URL,如当使用HTTP代理访问网站时,浏览器向代理服务器(如软件)发送的数据也是一个http请求,只不过真实的请求放在了body部分,代理程序只负责原样发送数据:`CONNECT google.com:443 HTTP/1.1` 这里就抄一下MDN的介绍: > - 一个绝对路径,末尾跟上一个 '?' 和查询字符串。这是最常见的形式,称为原始形式(origin form),被 GET、POST、HEAD 和 OPTIONS 方法所使用。 > - - POST / HTTP/1.1 > - - GET /background.png HTTP/1.0 > - - HEAD /test.html?query=alibaba HTTP/1.1 > - - OPTIONS /anypage.html HTTP/1.0 > - 一个完整的 URL,被称为绝对形式(absolute form),主要在使用 GET 方法连接到代理时使用。GET http://developer.mozilla.org/en-US/docs/Web/HTTP/Messages HTTP/1.1 > - 由域名和可选端口(以 ':' 为前缀)组成的 URL 的 authority 部分,称为 authority form。仅在使用 CONNECT 建立 HTTP 隧道时才使用。CONNECT developer.mozilla.org:80 HTTP/1.1 > - 星号形式(asterisk form),一个简单的星号('*'),配合 OPTIONS 方法使用,代表整个服务器。OPTIONS * HTTP/1.1 最后的一部分为『HTTP版本』,声明了这次请求使用的http版本。目前常用的版本有`HTTP/1.1`,`HTTP/2`,`HTTP/3`。 > 另外,和其他HTTP版本不同的是,HTTP/3版本是在基于UDP的QUIC协议之上实现传输的,QUIC是与TCP和UDP等同级(传输层)的协议,而其他的HTTP版本都是在TCP协议上实现的, 对于响应消息,第一行为『状态行』。 - `HTTP/1.1 200 OK` - `HTTP/1.1 404 Not Found` - `HTTP/1.1 500 Internal Server Error` **(心 脏 骤 停)** 也是三个部分。 响应的状态行就挺简单的了。 第一个就不用说了。 第二个则为『状态码』,就是咱们常见的404, 200这些,表明了服务端处理请求的结果状态。 第三个部分则为『状态文本』,其实就是状态码的描述。 有哪些状态码,可以[自行了解了解](https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Status),最好记得一些常用的状态码的含义,要是乱抛状态码给前端有的是一顿毒打( 当然,在许多场合中,业务状态(成功,认证错误,参数错误等等)一般并不通过状态码表示,而是200响应,在响应消息体里边体现错误;但是也有状态码和消息体都体现的情况。具体还是要跟前端和客户端的小伙伴商量约定好规范和文档,按照团队的规范和文档行事,能少很多不必要的麻烦。 #### 『标头』(Header) 请求和响应的消息体过了第一行之后,就到了『标头』(header)部分了,一般咱们把这玩意叫『请求头』和『响应头』。 http消息的header实际上就是一个键值对,格式为`Key: Value`,一行一个 需要注意的是,这里的key是不分大小写的,例如`Host`,`host`,`HOST`,`hOST`都是同一个东西。 同一个key的Header也可以有多个值,因此,在各种http库中,获取到的header值都是一个List