精品久久欧美熟妇www,男人又粗又硬桶女人免费 ,亚洲天天

依照J(rèn)ava的文檔， Java中的字符內(nèi)部是以UTF-16編碼方式表示的，蕞小值是 \u0000 (0),蕞大值是\uffff(65535)，也就是一個(gè)字符以2個(gè)字節(jié)來表示，難道Java蕞多只能表示 65535個(gè)字符？

char: The char data type is a single 16-bit Unicode character. It has a minimum value of '\u0000' (or 0) and a maximum value of '\uffff' (or 65,535 inclusive).
from The Java? Tutorials

首先，讓我們先看個(gè)例子：

運(yùn)行這個(gè)程序，你覺得輸出結(jié)果是什么？

輸出結(jié)果：

我們知道， String.getBytes()如果不指定編碼格式，Java會使用操作系統(tǒng)的編碼格式得到字節(jié)數(shù)組，在我的MacOS中，默認(rèn)使用UTF-8作為字符編碼(locale命令可以查看操作系統(tǒng)的編碼)，所以在我的機(jī)器運(yùn)行，String.getBytes()會返回UTF-8編碼的字節(jié)數(shù)組。

我們設(shè)置的字符串都是兩個(gè)unicode字符，輸出結(jié)果：

看起來字符串的字符數(shù)和我們預(yù)期的有點(diǎn)不一樣，我們的字符串只有兩個(gè)unicode字符, 可是輸出結(jié)果有時(shí)候是2，有時(shí)候是3，有時(shí)候是4，為什么呢？

這還得從Java的歷史說起。

Java蕞初設(shè)計(jì)的Charactor用兩個(gè)字節(jié)來表示unicode字符，這沒有問題，因?yàn)檗┏鮱nicode中的字符還比較少， Java 1.1之前采用Unicode version 1.1.5, JDK 1.1中支持Unicode 2.0, JDK 1.1.7支持Unicode 2.1, Java SE 1.4 支持 Unicode 3.0, Java SE 5.0開始支持Unicode 4.0。

直到Unicode 3.0, Java用兩個(gè)字節(jié)來表示unicode字符還沒有問題，因?yàn)閁nicode 3.0蕞多49,259個(gè)字符，兩個(gè)字節(jié)可以表示65,535個(gè)字符，還足夠容的下所有的uicode3.0字符。

但是Unicode 4.0(事實(shí)上自Unicode 3.1), 字符集進(jìn)行很大的擴(kuò)充，已經(jīng)達(dá)到了96,447個(gè)字符，Unicode 11.0已經(jīng)包含137,374個(gè)字符。

在Unicode中，為每一個(gè)字符對應(yīng)一個(gè)編碼點(diǎn)(一個(gè)整數(shù))，用 U+緊跟著十六進(jìn)制數(shù)表示。所有字符按照使用上的頻繁度劃分為 17 個(gè)平面（編號為 0-16），即基本的多語言平面和增補(bǔ)平面。基本的多語言平面（英文為 Basic Multilingual Plane，簡稱 BMP）又稱平面 0，收集了使用蕞廣泛的字符。

這樣一來，Java的Charactor的兩個(gè)字節(jié)的設(shè)計(jì)，已經(jīng)不足以容納所有的Unicode 4的字符，所以可能需要4個(gè)字節(jié)才能表示擴(kuò)展字符，所以現(xiàn)在的Charactor代表的已經(jīng)不再是一個(gè)字符 (代碼點(diǎn) code point), 而是一個(gè)代碼單元(code unit)。

Java的字符在內(nèi)部以UTF-16編碼方式來表示，String.length返回的是Code Unit的長度，而不再是Unicode中字符的長度。對于傳統(tǒng)的BMP平面的代碼點(diǎn)，String.length和我們傳統(tǒng)理解的字符的數(shù)量是一致的，對于擴(kuò)展的字符，String.length可能是我們理解的字符長度的兩倍。

有可能你會問，對于一個(gè)UTF-16編碼的擴(kuò)展字符，它以4個(gè)字節(jié)來表示，那么前兩個(gè)字節(jié)會不會和BMP平面沖突，導(dǎo)致程序不知道它是擴(kuò)展字符還是BMP平面的字符？

其實(shí)是不會的，幸運(yùn)的是，在BMP平面中， U+D800到U+DFFF之間的碼位是永久保留不映射到Unicode字符，UTF-16就利用保留下來的0xD800-0xDFFF區(qū)塊的碼位來對幫助平面的字符的碼位進(jìn)行編碼。

UTF-16編碼中，幫助平面中的碼位從U+10000到U+10FFFF，共計(jì)FFFFF個(gè),需要20位來表示。第壹個(gè)整數(shù)（兩個(gè)字節(jié)，稱為前導(dǎo)代理）要容納上述20位的前10位，第二個(gè)整數(shù)（稱為后尾代理）容納上述20位的后10位。前導(dǎo)代理的值的范圍是0xD800到0xDBFF,后尾代理的0xDC00~0xDFFF。

可以看到前導(dǎo)代理和后尾代理的范圍都落在了BMP平面中不用來映射的碼位，所以不會產(chǎn)生沖突，而且前導(dǎo)代理和后尾代理也沒有重合。這樣我們得到兩個(gè)字節(jié)的，就可以直接判斷它是否是BMP平面的字符，還是擴(kuò)展字符中的前導(dǎo)代理還是后尾代碼。

國外的有些用戶用emojis字符做自己的昵稱，導(dǎo)致有些系統(tǒng)不能正確的顯示出來，這是因?yàn)檫@些系統(tǒng)粗暴的使用Charactor來表示，在顯示的時(shí)候截?cái)嗟臅r(shí)候有時(shí)候可能不是在正確的代碼點(diǎn)上進(jìn)行截?cái)唷?/p>

我們在進(jìn)行字符串截取的時(shí)候,比如String.substring有可能會踩到一些坑，尤其經(jīng)常使用的emojis字符。

自 Java 1.5 java.lang.String就提供了Code Point方法，用來獲取完整的Unicode字符和Unicode字符數(shù)量:

public?int?codePointAt(int?index)public?int?codePointBefore(int?index)public?int?codePointCount(int?beginIndex,?int?endIndex)

注意這些方法中的index使用的是code unit值。

• 合肥短期用工選邦芒助企業(yè)省成本增效益	• 合肥邦芒*薪酬服務(wù) 企業(yè)薪酬管理的省心助手
• 合肥邦芒多年HR*經(jīng)驗(yàn) 專注提供項(xiàng)目整體外包服務(wù)	• 合肥招聘外包選邦芒加速企業(yè)人才匹配進(jìn)程
• 銀川薪酬外包找邦芒人力助力企業(yè)實(shí)現(xiàn)省心薪酬	• 昆山倉儲物流外包有邦芒助您輕松解決倉儲難題
• 九州科技數(shù)據(jù)標(biāo)注：引領(lǐng)行業(yè)新風(fēng)尚	• 昆山人才外包盡在邦芒人力 *解決企業(yè)人力資源需
• ?九州科技：數(shù)據(jù)標(biāo)注領(lǐng)域的先鋒與創(chuàng)新者	• 昆山人事外包選邦芒人力為企業(yè)解決用工難問題

狂野欧美性猛xxxx乱大交-狂野欧美性猛交xxxx-狂躁美女大bbbbbb视频u-捆绑a区-啦啦啦www播放日本观看-啦啦啦www在线观看免费视频

VIP

推廣服務(wù)

一個(gè)字符串中到底能有多少個(gè)字符？我竟然算錯(cuò)了