一次性搞懂

代码之外

About 15 min

一次性搞懂

常见Web请求方式

HTTP

浏览器支持最大HTTP并发	HTTP / 1.1	HTTP / 1.0
IE 11	6	6
IE 10	6	6
IE 9	10	10
IE 8	6	6
IE 6,7	2	4
火狐	6	6
Safari 3,4	4	4
Chrome 4+	6	6
Opera9.63,10.00alpha	4	4
Opera 10.51+	8	？
iPhone 2	4	？
iPhone 3	6	？
iPhone 4	4	？
iphone 5	6	？

CROS跨域

FunctionCall SSE 长连接 websocket HTTP长连接短连接 HTTP/1.1、HTTP/2、HTTP/3、WebSocket、TLS RPC GraphQL SOAP MQTT WebRTC

文本传输协议

大小端问题

传的是字符串（JSON、XML、Protobuf-Text 等文本协议）不会遇到大小端问题，因为文本就是按字符流处理的，只有在直接把数字的“内存二进制”丢到字节流里发送时，才会遇到大小端问题。
messagepack协议层面已经做了大小端的处理了，protobuf也做了

语言	内存字节序（取决于CPU）	网络/序列化默认字节序	备注
C#	小端（x86/x64 常见）	无统一默认，需要开发者指定	`BitConverter.IsLittleEndian` 可检测
Java	跟随CPU，但常用API用大端	`ByteBuffer`、`DataInputStream` 默认大端	为了符合网络字节序（big endian）
Erlang	跟随CPU	二进制模式/网络通信默认大端	与 Java 类似，强调网络字节序
AS3	跟随CPU	`ByteArray.endian` 默认大端	可切换为 `Endian.LITTLE_ENDIAN`
C++	跟随CPU	无固定，需开发者控制	常用 `<arpa/inet.h>` 转换函数处理
Python	跟随CPU	`struct`/`socket` 默认大端	`struct.pack('<I',x)` 小端，`'>I'` 大端

XML

~~该入土的老东西早该爆金币了（~~
凑活看mozilla的文档open in new window吧，下面有其他文档的引用。 XML 树结构 | 菜鸟教程open in new window 有且仅有一个根节点，大小写敏感，第一行必是版本和编码，保证严格有序，元素可以重名解析的时候视为列表，xml以LF存储换行。
特殊符号< &lt > &gt & &amp ' &apos " &quot 代替
所有的节点名，InnerText，Attributes都是字符串类型，IO时的类型转换都由程序来做。
虽然格式很自由但是建议所有人用一个风格。

<?xml version="1.0" encoding="UTF-8"?> <!-- 第一行固定必须写 -->
<message>
    <Friend name="小明" age='8'>我的朋友</Friend><!-- 节点可以带属性 -->
    <Fater name="爸爸" age="50" /><!-- 没有子节点可以和html一样关闭 -->
    <warning>
         Hello World
    </warning>
</message>

神秘古老且恶心的CDATA;XSD;DTD;SOAP

CDATA(CharacterData)：被这东西包裹的内容不会被转义，会被原样读取出来

<query><![CDATA[
SELECT * FROM user WHERE age > 18;
]]>惺惺相惜</query><!--可以和一般的混着用-->

XSD(XMLSchemaDefinition)：新生代用来替代DTD校验XML的东西，纯规则没有数据。

<?xml version="1.0"?>
<!-- 根元素：声明这是一个 XML Schema 文件 -->
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

  <!-- xs:element：定义一个元素 -->
  <xs:element name="user">

    <!-- xs:complexType：复杂类型，元素可以有子元素或属性 -->
    <xs:complexType>

      <!-- xs:sequence：子元素必须按顺序出现 -->
      <xs:sequence>

        <!-- 普通元素，直接指定类型 -->
        <xs:element name="name" type="xs:string"/>

        <!-- 元素内部定义简单类型限制 -->
        <xs:element name="age">

          <!-- xs:simpleType：简单类型，可以在里面加 restriction 限制 -->
          <xs:simpleType>

            <!-- xs:restriction：对基础类型加限制 -->
            <xs:restriction base="xs:int">

              <!-- xs:minInclusive / xs:maxInclusive：最小/最大值 -->
              <xs:minInclusive value="0"/>
              <xs:maxInclusive value="120"/>
            </xs:restriction>
          </xs:simpleType>
        </xs:element>

        <xs:element name="gender">
          <xs:simpleType>
            <xs:restriction base="xs:string">

              <!-- xs:enumeration：指定可选枚举值 -->
              <xs:enumeration value="男"/>
              <xs:enumeration value="女"/>
              <xs:enumeration value="未知"/>
            </xs:restriction>
          </xs:simpleType>
        </xs:element>

      </xs:sequence>

      <!-- xs:attribute：为元素添加属性 -->
      <xs:attribute name="id" type="xs:int" use="required"/>

    </xs:complexType>
  </xs:element>

</xs:schema>

DTD(DocumentTypeDefinition): 上世纪80-90留下的历史债，规定了数据的格式类型顺序等等，不仅是规则还混合了一些数据。比较恶心用的也很少了，形式类似于这种<!ELEMENT user (name, age)> <!ATTLIST user id ID #REQUIRED>（看不懂就对了。
SOAP(SimpleObjectAccessProtocol)：使用纯XML通信的web协议，格式类似于下面这种，有时候还会在header中带东西，也比较古老且恶心。

<s:Envelope xmlns:s="http://schemas.xmlsoap.org/soap/envelope/">
   <s:Body>
      ...
   </s:Body>
</s:Envelope>

JSON

文档在这里open in new window json标准东西不多
json的类型支持字符串（string）、数值(number)、true、false、 null、字典（object）或者数组（array）。这些结构可以嵌套。
在 JSON 传输过程中，列表是有序的，但字典（对象）不是有序的。JSON本身没有明确的长度限制，但是也不会写的巨长，序列化的时候一般会放内存容易崩

Protobuf

中文open in new window翻译文档和英文原版open in new window文档。
这个博客open in new window不错，给出了最佳实践和必要的编码原理 google开发的，和json相比体积小速度快，适合IM这种延迟敏感型应用，proto文件是跨语言的，定义好之后可以用(谷歌提供的)工具反向生成各种语言的代码，再结合proto的包去使用，所以说一开始格式就已经被确定了。

📝Note

proto有2和3两个版本是不兼容的，现在绝大部分用的是proto3，如果碰到奇怪的文件请注意proto版本的可能性
注意文档中的协议特性和不适用的地方!!!!!
1 ~ 15：单字节编码，16 ~ 2047：双字节编码，使用频率高的变量最好设置为1~15，编号一旦指定不能修改，所以为了扩展保留一些 1~15 的编号

Protobuf在消息大小上没有明确限制，但通常建议保持小于2MB(就是不要太大，并不一定非得2MB)。Protobuf的字段顺序在定义时是固定的，但在序列化时不保证顺序
C#代码中可以使用protogen，是针对C#的实现，大致看一眼，用到细节再去查。mac上brew install protobuf 安装，使用protoc --version查看版本，一般是3.

特性	protoc	protogen
生成的代码	标准的 Protocol Buffers C# 类	生成的 C# 类更符合 .NET 的风格和最佳实践
gRPC 支持	支持 gRPC（通过 grpc_csharp_plugin）	提供更丰富的 gRPC 支持，优化了与 .NET 集成的方式
定制化能力	基本的 C# 类生成，较少定制化	提供更多的扩展点，允许开发者对代码进行自定义
.NET 特性	提供基础的 C# 支持	更好支持 .NET 特性，如依赖注入、日志系统等
集成工具	与原生 Protobuf 代码生成集成	与 .NET 工具链更深度集成，比如 MSBuild 插件
使用场景	适用于跨平台和多语言项目	更适合 .NET 核心或大型 C# 项目，尤其是 gRPC 服务

一个基本的protobuf文件的定义如下

syntax = "proto3";

package example; //  包可以划分不同的命名空间

// import "user.proto"; //  引入其他 proto 文件

// 定义一个用户类型的枚举
enum UserType {
  UNKNOWN = 0;
  ADMIN = 1;
  MEMBER = 2;
}

// 地址信息消息
message Address {
  string street = 1;
  string city = 2;
  string state = 3;
  sint32 zip_code = 4; // 适合表示带负数的
}

// 用户信息消息，嵌套 Address
message User {
  int32 id = 1;                  // int32 适合正数
  string name = 2;
  string email = 3;
  repeated Address addresses = 4; // repeated 表示数组
  UserType type = 5;              // 使用枚举类型 UserType
  optional string phone = 6;      // optional 可空字段
  map<string, string> tags = 7;   // map 键值对
}

proto文件消息类型	C++ 类型	说明
double	double	双精度浮点型
float	float	单精度浮点型
int32	int32	使用可变长编码方式，负数时不够高效，应该使用sint32
int64	int64	使用可变长编码方式，负数时不够高效，应该使用sint32
uint32	uint32	使用可变长编码方式
uint64	uint64	使用可变长编码方式
sint32	int32	使用可变长编码方式，有符号的整型值，负数编码时比通常的int32高效
sint64	sint64	使用可变长编码方式，有符号的整型值，负数编码时比通常的int64高效
fixed32	uint32	总是4个字节，如果数值总是比2^28大的话，这个类型会比uint32高效
fixed64	uint64	总是8个字节，如果数值总是比2^56大的话，这个类型会比uint64高效
sfixed32	int32	总是4个字节
sfixed64	int64	总是8个字节
bool	bool	布尔类型
string	string	一个字符串必须是utf-8编码或者7-bit的ascii编码的文本
bytes	string	可能包含任意顺序的字节数据，不是C#中的字节数组

reserved是保留关键字，用来做更改字段时兼容性用的
message 类型字段默认就是可空的
protoc生成的命名风格一般都是定好的，虽然可以强行改，但不太好改。命名转换不会影响字段实际存储或序列化的键值，只是适配语言使用
map关键字的key只允许使用int和string相关的类型。
嵌套性map<string, repeated int32> 是可以的repeated map不行，可以把Map放到一个Message中套一层就可以了。repeat和map自己套自己也是需要包一层
map内部是哈希表不保证顺序，repeated是保证顺序的
人类习惯大端字节序读取，计算机是小端字节序读取，开发中怎么约定是自定义的
- TCPIP中规定了网络字节序都是大端模式，前后端语言不同的时候使用大小端不一样，可能要进行转换
- 使用Bit相关的API判断是大端还是小端，然后拿到byte数组后reverse一下
- proto已经封装了大小端转换的问题了，一般是前端多做处理减轻后端压力

MessagePack

跨语言，定义自带类型，支持动态解析，比json快很多，纯2进制传输，相比protobuf稍大但灵活，速度比proto慢一点。
常用于对延迟和体积有要求的地方比如rpc等，感觉需要速度的时候都可以被proto替代，不需要速度的时候被json替代。可能碰到恰好的场景才会发挥作用。

key不能重复或者跳号，可以用字符串当key但是体积大；
字段增加用新的 Key，旧 Key 保留或废弃，否则重用可能导致历史数据错误；
兼容了特殊字符；
反序列化的时候可能报错要注意处理
对引用类型可以兼容null，值类型必须标记可空才行否则报错

用到的时候再去搞细节吧，C#世界里有MemoryPack上位替代

在C#中的示例


[MessagePackObject]
public class User
{
    [Key(0)] public int? Id { get; set; } // 值类型可空标记
    [Key(1)] public string Name { get; set; }
    [Key(2)] public string Email { get; set; }
    [Key(3)] public Animal Pet { get; set; } // 使用继承类的时候一定要注意
}

[Union(0, typeof(Dog))]
[Union(1, typeof(Cat))]
[MessagePackObject]
public abstract class Animal 
{ [Key(0)] public string Name { get; set; } }

[MessagePackObject]
public class Dog : Animal
{ [Key(1)] public bool HasTail { get; set; } }

[MessagePackObject]
public class Cat : Animal
{ [Key(1)] public int Lives { get; set; } }
class Program
{
    static void Main(string[] args)
    {
        User user = new User { Id = 1001, Name = "Jack", Email = "jack@example.com" ,Pet = new Dog { Name = "Buddy", HasTail = true }}; // 创建对象，注意看是怎么多态指定Pat的类型
        // 序列化到字节数组
        byte[] bytes = MessagePackSerializer.Serialize(user);
        Console.WriteLine("序列化字节长度: " + bytes.Length);
        // 反序列化
        User deserializedUser = MessagePackSerializer.Deserialize<User>(bytes);
        Console.WriteLine($"反序列化结果: Id={deserializedUser.Id}, Name={deserializedUser.Name}, Email={deserializedUser.Email}");
        // 序列化到文件
        string filePath = "user.dat";
        File.WriteAllBytes(filePath, bytes);
        Console.WriteLine("已写入文件: " + filePath);
        // 从文件读取并反序列化
        byte[] readBytes = File.ReadAllBytes(filePath);
        User userFromFile = MessagePackSerializer.Deserialize<User>(readBytes);
        Console.WriteLine($"从文件读取: Id={userFromFile.Id}, Name={userFromFile.Name}, Email={userFromFile.Email}");
    }
}

编码的发展

有时间再整理。彻底摆脱乱码的困惑-技术圈open in new window
乱码对照表_evasnowind的博客-CSDN博客_乱码对照表open in new window
ASCII Table - ASCII Character Codes, HTML, Octal, Hex, Decimalopen in new window
字符串和编码 - 廖雪峰的官方网站open in new window

一个汉字占多少

ASCII 要记住什么

Unicode中文乱码表

乱码	示例	特点	产生原因
古文码	鐢辨湀瑕佸ソ濂藉涔犲ぉ澶╁悜涓?	大都为不认识的古文，并加杂日韩文	以 GBK 方式读取 UTF-8 编码的中文
口字码	��Ҫ�¨2�ѧϰ��	大部分字符为小方块	以 UTF-8 的方式读取 GBK 编码的中文
符号码	ç”±æœˆè\|å￥½å￥½å-\|ä1 å¤©å¤©å‘ä¸Š	大部分字符为各种符号	以 ISO8859-1 方式读取 UTF-8 编码的中文
拼音码	óéÔÂòaoÃoÃÑ§Ï°ììììÏòéÏ	大部分字符为头顶带有各种类似声调符号的字母	以 ISO8859-1 方式读取 GBK 编码的中文
问句码	由月要好好学习天天向??	字符串长度为偶数时正确，长度为奇数时最后的字符变为问号	以 GBK 方式读取 UTF-8 编码的中文，然后又用 UTF-8 的格式再次读取
锟拷码	锟斤拷锟斤拷要锟矫猴拷学习锟斤拷锟斤拷锟斤拷	全中文字符，且大部分字符为“锟斤拷”这几个字符	以 UTF-8 方式读取 GBK 编码的中文，然后又用 GBK 的格式再次读取
烫烫烫	烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫	字符显示为“烫烫烫”这几个字符	VC Debug 模式下，栈内存未初始化
屯屯屯	屯屯屯屯屯屯屯屯屯屯屯屯屯屯屯屯屯屯	字符显示为“屯屯屯”这几个字符	VC Debug 模式下，堆内存未初始化

推荐插件 File Encoding Converter 安装完之后右键直接转换好使的一笔。 #TODO 字符集open in new window

时间格式和时区

常见文件格式存储方式下载方式

比较零碎，到时候在这里整理整理。

HTTP server的存储 FTP和SFTP SMB WebDAV

短链接服务

rsync NFS scp

BT和P2P

常见压缩算法 7z zip tar bzip

一般文件分发的加密和安全性到时候整理一下

视频文件格式

RSS协议

RSS的的主体是一个文件，每次发布者更新文件，订阅者打开阅读器的时候，拉取文件然后对比获取哪些是新信息。先上标准示例

一个够用的符合RSS2.0标准的订阅源

<?xml version="1.0" encoding="UTF-8"?> <!-- XML声明：指定XML版本和字符编码 -->
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/"> <!-- version指定RSS版本，xmlns定义命名空间 -->
  <channel> <!-- 包含订阅源的所有信息 -->
    <atom:link href="https://example.com/rss.xml" rel="self" type="application/rss+xml"/> <!-- 指向RSS文件本身的链接，用于自引用 -->
    <atom:logo>https://yoursite.com/logo.png</atom:logo><!-- 订阅源的Logo [^1] -->
    <title>示例订阅源</title> <!-- 订阅源的标题名称 -->
    <link>https://example.com/</link> <!-- 订阅源对应的网站主页链接 -->
    <description>这是一个示例订阅源</description> <!-- 订阅源的描述信息 -->
    <generator>vuepress-plugin-feed2</generator> <!-- 生成此RSS的软件或工具名称 -->
    <docs>https://support.google.com/merchants/answer/14987622?hl=zh-Hans</docs> <!-- 指向RSS规范文档的链接（可选） -->
    <category>示例分类1</category> <!-- 订阅源的分类标签可以有多个，非必需一般给搜索引擎用 -->
    <category>示例分类2</category>
    <language>zh-CN</language> <!-- 订阅源使用的语言 -->
    <pubDate>Mon, 01 Jan 2024 12:00:00 GMT</pubDate> <!-- 订阅源的创建日期 [^2]-->
    <lastBuildDate>Mon, 01 Jan 2024 12:00:00 GMT</lastBuildDate> <!-- 订阅源最近更新的日期，这个时间比上次检查时更新，阅读器就知道需要重新获取内容 [^3]-->

    <item> <!-- 表示订阅源中的一篇文章或条目 -->
      <title>示例文章1</title> <!-- 文章的标题 -->
      <link>https://example.com/article1</link> <!-- 文章的完整URL链接，用户点击跳转的就是这个 [^4]-->
      <guid>https://example.com/article1</guid> <!-- 文章的全局唯一标识符，推荐使用URL，Rss阅读器通常用这个去重 [^5]-->
      <description>这是第1篇示例文章的描述</description> <!-- 文章的简短描述或摘要 -->
      <pubDate>Mon, 01 Jan 2024 12:00:00 GMT</pubDate> <!-- 文章的发布日期和时间 [^6]-->
      <atom:updated>Mon, 01 Jan 2024 12:00:00 GMT</atom:updated> <!-- 文章的最后更新时间 [^7]-->
      <content:encoded><![CDATA[<p>示例内容1</p>]]></content:encoded> <!-- 文章的完整HTML内容，使用CDATA包裹 -->
    </item>

    <item> <!-- 第二篇文章 -->
      <title>示例文章2</title>
      <link>https://example.com/article2</link>
      <guid>https://example.com/article2</guid>
      <description>这是第2篇示例文章的描述</description>
      <pubDate>Mon, 01 Jan 2024 11:00:00 GMT</pubDate>
      <atom:updated>Mon, 01 Jan 2024 11:00:00 GMT</atom:updated>
      <content:encoded><![CDATA[<p>示例内容2</p>]]></content:encoded>
    </item>
  </channel>
</rss>

注意事项在示例中标注了

大多数现代RSS阅读器会自动检测并使用网站的favicon.ico作为订阅源图标，无需在RSS中明确指定。
订阅源的创建日期一般是不变的
- 时间格式必须遵循 RFC 822 标准格式Wed, 16 Sep 2025 10:30:00 +0800
订阅源最近更新的日期，这个时间比上次检查时更新，阅读器就知道需要重新获取内容，每次生成的时候变更就行
文章的完整URL链接，用户点击文章跳转的就是这个
文章的全局唯一标识符，推荐使用URL，Rss阅读器通常用这个去重
- guid不影响点击跳转，可以用这个让RSS以为是新文章
- 即使 <pubDate> 和 <atom:updated> 时间很老，只要GUID是新的，就会被识别为新文章，检查优先级高
文章的发布日期和时间，理论上也是一次性的，大部分旧的阅读器按照这个排序
- 你可以每次更新发布日期让阅读器以为这是新文章，从而让你有新内容的旧文章每次被当作新文章被拉取
文章的最后更新时间，每次更新，这个是atom空间定义的，很多阅读器不用这个字段
- 如果支持阅读器文章的最后更新时间那就直接用这个，不用整花活了
- 实际上主要的排序还得看阅读器的行为
- 好像是AtomRss的标准RSS2.0不能用
阅读器可能有缓存或者定期刷新，有可能加上后过一会用户才能收到

Last Edit: 2026-05-01 23:05:45

一次性搞懂

一次性搞懂

# 常见Web请求方式

# 文本传输协议

# 大小端问题

# XML

# JSON

# Protobuf

# MessagePack

# 编码的发展

# 一个汉字占多少

# Unicode中文乱码表

# 时间格式和时区

# 常见文件格式 存储方式 下载方式

# RSS协议

常见Web请求方式

文本传输协议

大小端问题

XML

JSON

Protobuf

MessagePack

编码的发展

一个汉字占多少

Unicode中文乱码表

时间格式和时区

常见文件格式存储方式下载方式

RSS协议