欢迎光临散文网 会员登陆 & 注册

将网页的编码更改为 Unicode

2023-03-10 12:28 作者:W3C中国  | 我要投稿

你可能听说过使用 Unicode(UTF-8)很有用,并且听说其他人也在用,但你不确定该怎样做...

本文将帮助你将网页的字符编码更改为 UTF-8。

下面我们总结了将一个简单的页面转换为 Unicode 字符编码所需的信息。如果你需要获取有关任何步骤的详细信息,请点击文中其他文章的链接。

有关将复杂站点、软件和数据转换为 Unicode 的更多详细建议,请参阅文章迁移到 Unicode(链接:https://www.w3.org/International/articles/unicode-migration/)。

第一步:将文件保存为UTF-8

仅仅将页面内的声明更改为 UTF-8 编码是不够的,你必须确保文件实际上是以 UTF-8 格式保存的。

如果你的文件是手动编辑的,那么应该使用编辑器将文件保存为 UTF-8 编码,而不是你原来用的编码。 如果从脚本和数据库构建文件,则应该根据需要转换数据并在你的脚本环境中设置正确的参数。

请注意,你可能需要确保数据不包含 UTF-8 签名,也称为字节顺序标记 (BOM)(链接:https://www.w3.org/International/questions/qa-utf8-bom)。

第二步:在页面中声明编码

你应该更改页面中的字符编码声明(如果还没有声明,则需要添加一个)(链接:https://www.w3.org/International/questions/qa-html-encoding-declarations)。

最简单的形式看起来如下所示,这应该出现在 HTML 代码中 head 元素的开头。

第三步:确保你的服务器操作正确

尽管你的数据是 UTF-8 格式,你也在页面中声明了它,但你的服务器可能仍然附带一个表明它是其他编码的 HTTP 标头(链接:https://www.w3.org/International/articles/definitions-characters/#httpheader)。

把页面的 URL 粘贴到这里链接:https://validator.w3.org/i18n-checker/)来进行测试,它将带你到 W3C 的 Internationalization Checker。 在表中找到标题为 HTTP Content-Type 的行,在 Character Encoding 下,检查它是 UTF-8 还是 No encoding information found。

如果 HTTP Content-Type 显示的编码不是 UTF-8,则需要采取措施纠正它,因为 HTTP 标头中的声明将覆盖页面内的信息(链接:https://www.w3.org/International/articles/http-charset/index)。

虽然通常需要服务器管理员权限才能更改 HTTP 标头中发送的编码,但即使通过 ISP 提供文件,你也可以自己这样做,相关内容请咨询你的服务器管理员。 参阅对 Apache 服务器执行此操作的一种方法的说明(链接:https://www.w3.org/International/questions/qa-htaccess-charset)。

进一步阅读:

  • 刚刚入门? 介绍字符集与编码:https://www.w3.org/International/getting-started/characters

  • 处理 HTML 和 CSS 中的字符编码:https://www.w3.org/International/tutorials/tutorial-char-enc/

  • 迁移到 Unicode:关于将软件和数据更改为 Unicode 的更深入的文章:https://www.w3.org/International/articles/unicode-migration/

  • 字符:https://www.w3.org/International/techniques/authoring-html#charset

  • 更改到 UTF-8:https://www.w3.org/International/techniques/authoring-html#changing

注:以上内容的原始英文页面在这里 https://www.w3.org/International/questions/qa-changing-encoding.en.html ,感谢 W3C 团队薛富侨将其译成中文!👍

将网页的编码更改为 Unicode的评论 (共 条)

分享到微博请遵守国家法律