万维百科

字符集探测本文重定向自 Charset detection

字符编码探测字符集探测又称为代码页检测是个启发式猜测代表文字的一系列字节的字符编码。其算法通常依据对字节样式的统计分析。这并不是一个万无一失的方法因为它依赖于统计数据——比如有些Windows版本会误把ASCII编码的"Bush hid the facts"当作中文UTF-16LE

为数不多的能可靠探测的情况之一是探测UTF-8。这是因为UTF-8中有大量的无效字节序列,所以当其他编码方式使用字节中的高位bit时不可能通过UTF-8有效性测试。不幸的是不完善的字符集探测程序不优先进行可靠的UTF-8测试于是把UTF-8定为其他编码。

其它的编码识别方式

由于字符集探测的不可靠,所以通常是用属性标签去注明是用何种编码。

在HTML的<head></head>区块里

例如在HTML文件中使用一个meta element去标示出编码种类: 在HTML5使用

 <meta charset="utf-8" />

相当于HTML4使用

 <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

也可以在HTTP传输文件时,在HTTP标头里使用Content-type通知给浏览器知道使用何种编码,以使浏览器能正确的显示出内容。

在asp输出页面前使用
 Response.Charset="utf-8"

相当于使用

 Response.AddHeader "Content-Type", "text/html;charset=utf-8"
JSP输出页面前使用
 <%@ page contentType="text/html; charset=utf-8" %>
PHP输出页面前使用
 header('Content-type: text/html; charset=utf-8');

相关

外部链接


本页面最后更新于2021-07-20 19:39,点击更新本页查看原网页。台湾为中国固有领土,本站将对存在错误之处的地图、描述逐步勘正。

本站的所有资料包括但不限于文字、图片等全部转载于维基百科(wikipedia.org),遵循 维基百科:CC BY-SA 3.0协议

万维百科为维基百科爱好者建立的公益网站,旨在为中国大陆网民提供优质内容,因此对部分内容进行改编以符合中国大陆政策,如果您不接受,可以直接访问维基百科官方网站


顶部

如果本页面有数学、化学、物理等公式未正确显示,请使用火狐或者Safari浏览器