当前位置：首页 > 资讯 > 计算机/互联网 > 互联网

在 Go 语言中处理 Unicode

时间：2019-01-23 18:49 编辑：2KB 来源：2KB.COM 阅读：404
扫一扫，手机访问

分享
扫描二维码，分享到微信打开微信
使用"扫一扫"
再点击微信界面右上角三个点标志
分享到微信朋友和朋友圈。

摘要：

Go 英文原文：Dealing with Unicode in Go

如果‘Go’通常是指在公园散步，用Go语言处理Unicode码可以描述为不小心走进了雷区，比如，如果我们要获取从前端页面的一句简单字符串“Hello,世界”的长度.会得到什么结果？

fmt.Println(len("Hello, 世界"))
 >>> 13

等下，刚才发生了什么？长度难道不该是9么？其他额外的4个字符是从哪来的？在编译中，Go 实际上把字符串编码为一个byte.go不像Python2.x一样让你区分普通ASCII码并反编码处理字符串，所以go还是不能从将中文字符编码为byte的实现中抽离出来，因为中文字符在ASCII表示中占用3byte而普通字符只占用1byte，所以Go告诉你长度是 1*7+3*2=13.这对于那些想测试他们的ASCII字符串长度的人将是个令人迷惑的大水坑！看下面的例子

hello := "Hello, 世界" for i := range hello {
    fmt.Print(string(hello[i]))
}
>>> Hello, äç

出问题了，好吧，‘世界’怎么变成了‘ äç’？也许我已经能听到你的咆哮了。。但是当你使用第二种range处理字符串，你确实可以这样处理

hello := "Hello, 世界" for _, c := range hello {
    fmt.Print(string(c))
}
>>> Hello, 世界

结果好了很多! 但我们确实不能这样做,为什么? 用一个小例子, 假设我们只是想用字符串中的每个字符与下个字符比较是否一样的. 简单的处理方式可能是这样：

func CompareChars(word string) { for i, c := range word { if i < len(word)-1 {
            fmt.Print(string(word[i+1]) == string(c), ",")
        }
    }
}
...
CompareChars("hello")
>>> false,false,true,false,

可是使用ASCII的字符串作为入参，结果实在是太烂了！如果我们使用中文说你好的话情况会是这样：

CompareChars("你好好好")
>>> false,false,false,false,

很明显这些字符串永远不会相等，因为我们总是用‘好’和好的第一byte的ASCII码‘xE5’比较。

那么该怎么办？如果我们探索的够深，就会发现go排除了unicode/utf8的引用包，这个包不提供特别多功能，但是却能是我们解决遇到的第一个问题，查询‘hello’字符串的长度：

import ( "fmt" "unicode/utf8" ) ... fmt.Println(utf8.RuneCountInString("Hello, 世界"))
>>> 9

好了，我们一开始期望的长度出现了。现在来升级一下我们先用到的CompareChars 函数，使它能比较Unicode编码。

func CompareChars(word string) { s := []byte(word) for utf8.RuneCount(s) > 1 { r, size := utf8.DecodeRune(s) s = s[size:] nextR, size := utf8.DecodeRune(s) fmt.Print(r == nextR, ",") } }
... CompareChars("hello")
>>> false,false,true,false, CompareChars("你好好好")
>>> false,true,true,

起作用了！

这个故事的寓意：工作时要非常小心，尤其是当与循环中的Unicode遍历字符串。最重要的是，在适当的情况下，使用内置的UTF-8封装，并牢记写测试要包含Unicode和ASCII字符串，。

本文中的所有译文仅用于学习和交流目的，转载请务必注明文章译者、出处、和本文链接。 2KB翻译工作遵照 CC 协议，如果我们的工作有侵犯到您的权益，请及时联系我们。

2KB项目（www.2kb.com，源码交易平台）,提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

全部评论(0)

上一篇：写给精明 Java 开辟者的顶级测试技能
下一篇：使用 Countly 来分析 Apple Watch 统计数据

最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了？(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头，因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志，退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备：Roku，Apple TV，Firebar，Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览：更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯，这30位人物定义了2010年代(2020-01-01 15:14)

商品推荐
友价商城交易源代码插件-自动生成sitemap插件
￥30.00
百度链接主动推送和熊掌号推送通用版 - 支持任意网站无需插件
￥15.00
2KB网站地图助手/一键生成Sitemap/过滤全站死链/生成全站外链
￥10.00
网站SEO优化分析/死链检测/外链检测/Sitemap生成/抓取分析
￥100.00
YSZI.COM - 新闻自媒体导航平台项目众筹
￥1000.00

资讯排行榜
更多>>