很多中文问题就是从这两个最简单的类派生出来的。而却有很多类
不直接支持把Encoding输入,这给我们带来诸多不便。很多程序难得用encoding
了,直接用default的encoding,这就给我们移植带来了很多困难
--
2.UTF-8
--UTF-8是和Unicode一一对应的,其实现很简单
--
-- 7位的Unicode: 0 _ _ _ _ _ _ _
--11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
--16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
--21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
--大多数情况是只使用到16位以下的Unicode:
--"你"的gb码是:0xC4E3 ,unicode是0x4F60
--我们还是用上面的例子
-- --例1:0xC4E3的二进制:
-- -- 1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 1
-- -- 由于只有两位我们按照两位的编码来排,但是我们发现这行不通,
-- -- 因为第7位不是0因此,返回"?"
文章来源于领测软件测试网 https://www.ltesting.net/