“Offer 驾到,掘友接招!我正在参与2022春招系列活动-刷题打卡任务,点击查看活动详情。”
一、题目描述:
393. UTF-8 编码验证
给定一个表示数据的整数数组 data ,返回它是否为有效的 UTF-8 编码。
UTF-8 中的一个字符可能的长度为 1 到 4 字节,遵循以下的规则:
对于 1 字节 的字符,字节的第一位设为 0 ,后面 7 位为这个符号的 unicode 码。 对于 n 字节 的字符 (n > 1),第一个字节的前 n 位都设为1,第 n+1 位设为 0 ,后面字节的前两位一律设为 10 。剩下的没有提及的二进制位,全部为这个符号的 unicode 码。 这是 UTF-8 编码的工作方式:
Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
注意:输入是整数数组。只有每个整数的 最低 8 个有效位 用来存储数据。这意味着每个整数只表示 1 字节的数据。
示例 1:
输入:data = [197,130,1] 输出:true
解释:数据表示字节序列:11000101 10000010 00000001。 这是有效的 utf-8 编码,为一个 2 字节字符,跟着一个 1 字节字符。
示例 2:
输入:data = [235,140,4] 输出:false
解释:数据表示 8 位的序列: 11101011 10001100 00000100. 前 3 位都是 1 ,第 4 位为 0 表示它是一个 3 字节字符。 下一个字节是开头为 10 的延续字节,这是正确的。 但第二个延续字节不以 10 开头,所以是不符合规则的。
提示:
1 <= data.length <= 2 * 104 0 <= data[i] <= 255
二、思路分析:
因为给的输入是number数组,要判断是否符合utf-8规则无疑要用到位运算。因此本题解法就是模拟+位运算。
有题目可知,有5种情况为utf-8的情况
- 一位字节即0xxxxxxx开头
- 二位字节即 110xxxxx开头
- 三位字节即1110xxxx开头
- 四位字节即11110xxx开头
>=2 字节的开头后序字节形式为10xxxxxx 因此,我们有一个常量one表示1000 0000即1<<7,把数组中的数num与one与&,只有以0开头的数num才会得到结果0,这时候我们知道该数是一位字节的utf-8后面的数与它无关;
否则,将one>>1继续与该数与判断有多少个1开头即count值,当count>4时无疑不是utf-8,返回是utf-8一员,以及后面应有几个字节;
而当count=1时即10XXXXXX开头时,我们应该进入另一个判断即是否为n个字节后面的字节,与one与看看是否为0.
因此我们遍历数组中元素当通过函数判断它是utf-8一员,继续用函数另一种模式遍历它对于的后面的字节是否符合格式
三、代码
/**
* @param {number[]} data
* @return {boolean}
*/
var validUtf8 = function(data) {
const isutf8=function(num,issuffix){
if(issuffix){
let b=(num&one)!==0
return [b,true]
}else{
if((num&one)===0)return [true,0]
let count=0,tmp=one
while(num&tmp){
count++
if(count>4)return [false,false]
tmp>>=1
}
return count>1?[true,count-1]:[false,false]
}
}
if(data.length===0)return false
const one=1<<7
for(let i=0;i<data.length;i++){
let tmp=isutf8(data[i],false)
if(tmp[0]){
if(i+tmp[1]>=data.length)return false
for(let j=i+1;j<=i+tmp[1];j++){
if(!isutf8(data[j],true)[0])return false
}
i=i+tmp[1]
}else return false
}
return true
};