LeetCode打卡day13

136 阅读3分钟

“Offer 驾到,掘友接招!我正在参与2022春招系列活动-刷题打卡任务,点击查看活动详情。”

一、题目描述:

393. UTF-8 编码验证

给定一个表示数据的整数数组 data ,返回它是否为有效的 UTF-8 编码。

UTF-8 中的一个字符可能的长度为 1 到 4 字节,遵循以下的规则:

对于 1 字节 的字符,字节的第一位设为 0 ,后面 7 位为这个符号的 unicode 码。 对于 n 字节 的字符 (n > 1),第一个字节的前 n 位都设为1,第 n+1 位设为 0 ,后面字节的前两位一律设为 10 。剩下的没有提及的二进制位,全部为这个符号的 unicode 码。 这是 UTF-8 编码的工作方式:

   Char. number range  |        UTF-8 octet sequence
      (hexadecimal)    |              (binary)
   --------------------+---------------------------------------------
   0000 0000-0000 007F | 0xxxxxxx
   0000 0080-0000 07FF | 110xxxxx 10xxxxxx
   0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

注意:输入是整数数组。只有每个整数的 最低 8 个有效位 用来存储数据。这意味着每个整数只表示 1 字节的数据。

 

示例 1:

输入:data = [197,130,1] 输出:true

解释:数据表示字节序列:11000101 10000010 00000001。 这是有效的 utf-8 编码,为一个 2 字节字符,跟着一个 1 字节字符。

示例 2:

输入:data = [235,140,4] 输出:false

解释:数据表示 8 位的序列: 11101011 10001100 00000100. 前 3 位都是 1 ,第 4 位为 0 表示它是一个 3 字节字符。 下一个字节是开头为 10 的延续字节,这是正确的。 但第二个延续字节不以 10 开头,所以是不符合规则的。  

提示:

1 <= data.length <= 2 * 104 0 <= data[i] <= 255

二、思路分析:

因为给的输入是number数组,要判断是否符合utf-8规则无疑要用到位运算。因此本题解法就是模拟+位运算。

有题目可知,有5种情况为utf-8的情况

  1. 一位字节即0xxxxxxx开头
  2. 二位字节即 110xxxxx开头
  3. 三位字节即1110xxxx开头
  4. 四位字节即11110xxx开头
  5. >=2 字节的开头后序字节形式为10xxxxxx 因此,我们有一个常量one表示1000 0000即1<<7,把数组中的数num与one与&,只有以0开头的数num才会得到结果0,这时候我们知道该数是一位字节的utf-8后面的数与它无关;

否则,将one>>1继续与该数与判断有多少个1开头即count值,当count>4时无疑不是utf-8,返回是utf-8一员,以及后面应有几个字节;

而当count=1时即10XXXXXX开头时,我们应该进入另一个判断即是否为n个字节后面的字节,与one与看看是否为0.

因此我们遍历数组中元素当通过函数判断它是utf-8一员,继续用函数另一种模式遍历它对于的后面的字节是否符合格式

三、代码

/**
* @param {number[]} data
* @return {boolean}
*/
var validUtf8 = function(data) {
   const isutf8=function(num,issuffix){
       if(issuffix){
           let b=(num&one)!==0
           return [b,true]
       }else{
           if((num&one)===0)return [true,0]
           let count=0,tmp=one
           while(num&tmp){
               count++
               if(count>4)return [false,false]
               tmp>>=1
           }
           return count>1?[true,count-1]:[false,false]
       }
   }
   if(data.length===0)return false
   const one=1<<7
   for(let i=0;i<data.length;i++){
       let tmp=isutf8(data[i],false)
       if(tmp[0]){
           if(i+tmp[1]>=data.length)return false
           for(let j=i+1;j<=i+tmp[1];j++){
               if(!isutf8(data[j],true)[0])return false
           }
           i=i+tmp[1]
       }else return false
   }
   return true
};