Utf8Validation.java example

Explorer

LeetCode-Sol-Res-master
- src
  - com
    - freetymekiyan
      - algorithms
        Other
        AddWithoutOperators.java
        ArithmeticExpressionEvaluation.java
        Astroid01.java
        CanBePalindrome.java
        Celebrity.java
        CharFrequencyOrderOfAString.java
        ConvertToHex.java
        DeepestLeftLeafNode.java
        DeepestNode.java
        DeleteANodeFromBinarySearchTree.java
        DeleteLinkedListNode.java
        DetectLoop.java
        Dijkstra.java
        Dup2SortedArr.java
        DupWithinKDistance.java
        Fib.java
        Fill2Instances.java
        FindDup.java
        FindSecondLargest.java
        FindWords.java
        FirstNonRepeatingChar.java
        Graph.java
        HeapSort.java
        IntegerIterator.java
        IntegerToLetters.java
        IsGraphTree.java
        IsSubtree.java
        KSum.java
        KthLargest.java
        KthSmallestSortedArrays.java
        LastByte.java
        LongestContiguousSubstring.java
        LongestIncreasingSequenceInMat.java
        LongestIncresingSubsequence.java
        LowestCommonAncestor.java
        MatrixColor.java
        MaxSales.java
        MaxSubseqDifference.java
        MaxSubseqDifferenceNoOverlap.java
        MergeSort.java
        MinInsertionsToFormPalindrome.java
        MinKStrictAscending.java
        MostFrequentElementInArray.java
        MyHashtable.java
        NegBeforePos.java
        NumInSortedArray.java
        PancakeSorting.java
        PeekIterator.java
        QuickSort.java
        QuickUnionUF.java
        RateLimiter.java
        ReadNMultipleRead4.java
        RemoveCommentsFromCode.java
        RunLengthEncoding.java
        StringDecompression.java
        SubstringsStartEndWith1.java
        SumOfLeftLeaves.java
        TreeDiameter.java
        TwoSumClosestPair.java
        UserSessions.java
        WiggleSort.java
        WiggleSortUnsorted.java
        level
        Easy
        AddBinary.java
        AddDigits.java
        BalancedBT.java
        BestTimeToBuyAndSellStock.java
        BestTimetoBuyandSellStock1.java
        BinaryTreeLevelOrderTraversal.java
        BinaryTreePaths.java
        BullsAndCows.java
        ClimbingStairs.java
        ClosestBinarySearchTreeValue.java
        CompareVersionNums.java
        ContainsDuplicate.java
        ContainsDuplicate2.java
        CountAndSay_38.java
        CountPrimes.java
        DeleteNodeInLinkedList.java
        ExcelSheetColNum.java
        ExcelSheetColumnTitle.java
        FactorialTrailingZeroes.java
        FirstBadVersion.java
        GuessNumberHigherOrLower.java
        HappyNumber.java
        HouseRobber.java
        ImplementStackUsingQueues.java
        ImplementStrStr.java
        ImplementingQueueWithStacks.java
        IntersectionOfLinkedList.java
        IntersectionofTwoArrays.java
        IntersectionofTwoArrays2.java
        InvertBinaryTree.java
        IsomorphicStrings.java
        LengthOfLastWord.java
        LevelOrderBottomUp.java
        LongestCommonPrefix.java
        LongestSubstring.java
        LowestCommonAncestorOfBST.java
        MajorityElement.java
        MaximumDepthOfBinaryTree.java
        MeetingRooms.java
        MergeSortedArray.java
        MergeTwoLists.java
        MinStack.java
        MinimumDepth.java
        MinimumDepthofBinaryTree.java
        MoveZeroes.java
        NestedListWeightSum.java
        NimGame.java
        NumberOfBits.java
        Numberof1Bits.java
        PalindromeLinkedList.java
        PalindromeNo.java
        PalindromeNumber.java
        PascalsTriangle.java
        PascalsTriangle2.java
        PathSum.java
        PlusOne.java
        PowerOfFour.java
        PowerOfThree.java
        PowerOfTwo.java
        RangeSumQueryImmutable.java
        ReadNCharactersGivenRead4.java
        RectangleArea.java
        RemoveDuplicatesFromSortedArray.java
        RemoveDuplicatesFromSortedList.java
        RemoveElement.java
        RemoveLinkedListElements.java
        RemoveNthNodeFromEnd.java
        ReverseBits.java
        ReverseInt.java
        ReverseLinkedList.java
        ReverseString.java
        ReverseVowelsOfAString.java
        RomanToInteger.java
        RotateArray.java
        SameTree.java
        ShortestWordDistance.java
        SumOfLeftLeaves.java
        SumOfTwoIntegers.java
        SymmetricTree.java
        TwoSum.java
        TwoSum3DataStructureDesign.java
        UglyNumber.java
        ValidPalindrome.java
        ValidParentheses.java
        ValidSudoku.java
        WordPattern.java
        ZigZagConversion.java
        atoi.java
        countAndSay.java
        Hard
        AlienDictionary.java
        BTPostOrder.java
        BasicCalculator.java
        BestTimeStock4.java
        BinaryTreeMaxPathSum.java
        Candy.java
        Candy135.java
        CopyListWithRandomP.java
        CountOfSmallerNumbersAfterSelf.java
        DistinctSubsequences.java
        DistinctSubsequences_shuna.java
        DungeonGame.java
        EditDist.java
        ExpressionAddOperators.java
        FindDupNum.java
        FindMedianFromDataStream.java
        FindRotatedArrMin2.java
        FirstMissingPositive.java
        InsertInterval.java
        IntegerToEnglishWords.java
        InterleavingString.java
        JumpGame2.java
        LRUCache.java
        LRUCacheLinkedHashMap.java
        LRUCache_shuna.java
        LargestRectangleInHist.java
        LongestConsecutiveSeq.java
        LongestValidParen.java
        MaxPointsOnALine.java
        MaximalRectangle.java
        MaximumGap.java
        MaximumGap_shuna.java
        MedianOfTwoSortedArrays.java
        MergeIntervals.java
        MergeKSortedList.java
        MinWindowSubstring.java
        MinimumWindowSubstring.java
        NQueens.java
        NQueens2.java
        NQueens_shuna.java
        NumberOfDigitOne.java
        PaintHouse2.java
        PalindromePartition2.java
        PerfectRectangle.java
        Permutations2.java
        PopulatingNextRight2.java
        ReadNCharactersGivenRead42.java
        RecoverBST.java
        RegularExpressionMatching.java
        RemoveDuplicateLetters.java
        RemoveInvalidParentheses.java
        ReverseNodesInKGroup.java
        ScrambleStr.java
        SearchInRotatedSortedArr.java
        SerializeAndDeserializeBinaryTree.java
        SplitArrayLargestSum.java
        SubstringWithConcatOfAllWords.java
        SudokuSolver.java
        TextJustification.java
        TheSkylineProblem.java
        TrappingRainWater.java
        ValidNumber.java
        WildcardMatching.java
        WordBreak2.java
        WordLadder2.java
        WordSearch2.java
        reverseKGroup.java
        Medium
        AddAndSearchWord.java
        AddTwoNum.java
        AdditiveNumber.java
        BTInOrder.java
        BTPreOrder.java
        BasicCalculator2.java
        BestTimeStock2.java
        BestTimeStock3.java
        BestTimeToBuySellStockWithCooldown.java
        BinarySearchTreeIterator.java
        BinaryTreePreorderTraversal.java
        BinaryTreeRigthSideView.java
        BinaryTreeUpsideDown.java
        BinaryTreeVerticalOrderTraversal.java
        BinaryTreeZigzagLevelOrderTraversal.java
        BitwiseAndOfNumbersRange.java
        BombEnemy.java
        BulbSwitch.java
        CloneGraph.java
        CoinChange.java
        CombinationSum.java
        CombinationSum2.java
        CombinationSum3.java
        CombinationSum4.java
        Combinations.java
        ConstructBTFromInPostOrder.java
        ConstructBTPreInOrder.java
        ConstructBinaryTree.java
        ContainerWithMostWater.java
        ContainsDuplicate3.java
        ConvertSortedArrToBST.java
        ConvertSortedListToBST.java
        CountCompleteTreeNodes.java
        CountNumbersWithUniqueDigits.java
        CountingBits.java
        CourseSchedule.java
        CourseSchedule2.java
        DecodeString.java
        DecodeWays.java
        DifferentWaysToAddParentheses.java
        DivideTwoIntegers.java
        EliminationGame.java
        EvaluateReversePolish.java
        FactorCombinations.java
        FindKPairsWithSmallestSums.java
        FindLeavesOfBinaryTree.java
        FindMinimuminRotatedSortedArray.java
        FindPeak.java
        FindRotatedArrMin.java
        FindTheCelebrity.java
        FlatenBinaryTreeToLinkedList.java
        FlattenBinaryTreeToLinkedList.java
        FlattenNestedListIterator.java
        FourSum.java
        FourSumTreeMap.java
        FractionToRecurringDeci.java
        GameOfLife.java
        GasStation.java
        GenerateParen.java
        GraphValidTree.java
        Graycode.java
        GroupAnagrams.java
        GuessNumberHigherOrLower2.java
        HIndex.java
        HIndex2.java
        HouseRobber3.java
        ImplementTrie.java
        IncreasingTripletSubsequence.java
        InorderSuccessorInBST.java
        InsertionSortList.java
        IntToRoman.java
        IntegerBreak.java
        IsSubsequence.java
        JumpGame.java
        KthLargestElementInAnArray.java
        KthSmallestElementInABst.java
        KthSmallestElementInASortedMatrix.java
        LargestDivisibleSubset.java
        LargestNum.java
        LargestNumber_shuna.java
        LetterCombinationsOfPhoneNum.java
        LexicographicalNumbers.java
        LinkedListCycle.java
        LinkedListCycle2.java
        LinkedListCycle_2.java
        LinkedListRandomNode.java
        LongestAbsoluteFilePath.java
        LongestIncreasingSubsequence.java
        LongestPalindromicSubstring.java
        LongestSubstringwithAtLeastKRepeatingCharacters.java
        LowestCommonAncestorOfABinaryTree.java
        MajorityElement2.java
        MaxProductSubArray.java
        MaximalSquare.java
        MaximumProductofWordLengths.java
        MaximumSizeSubarraySumEqualsK.java
        MaximumSubarray.java
        MeetingRooms2.java
        MinPathSum.java
        MinSizeSubarraySum.java
        MiniParser.java
        MinimumHeightTrees.java
        MissingNumber.java
        MultiplyStrings.java
        NestedListWeightSum2.java
        NextPermutation.java
        NumberOfIslands.java
        NumberofConnectedComponentsinanUndirectedGraph.java
        OddEvenLinkedList.java
        OneEditDistance.java
        PaintHouse.java
        PalindromePartition.java
        PartitionList.java
        PartitionList86.java
        PartitionList_86.java
        PatchingArray.java
        PathSum2.java
        PeekingIterator.java
        PerfectSquares.java
        PermutationSequence.java
        Permutations.java
        PopulatingNextRight.java
        Pow.java
        ProductofArrayExceptSelf.java
        QueueReconstructionByHeight.java
        RandomPickIndex.java
        RangeAddition.java
        RangeSumQuery2DImmutable.java
        RangeSumQueryMutable.java
        RemoveDuplicatesFromSortedArr2.java
        RemoveDuplicatesFromSortedList2.java
        RemoveKDigits.java
        ReorderList.java
        RepeatedDNASequence.java
        RestoreIPAddr.java
        ReverseLinkedList2.java
        ReverseWords.java
        RotateImg.java
        RotateList.java
        Search2DMatrix.java
        SearchA2DMatrix2.java
        SearchForARange.java
        SearchInRotatedSortedArray2.java
        SearchInsertPos.java
        SelfCrossing.java
        SetMartixZeros.java
        ShortestWordDistance2.java
        ShortestWordDistance3.java
        ShuffleAnArray.java
        SimplifyPath.java
        SingleNum.java
        SingleNum2.java
        SortColors.java
        SortList.java
        SparseMatrixMultiplication.java
        SpiralMatrix.java
        SpiralMatrix2.java
        Sqrt.java
        Subsets.java
        Subsets2.java
        SumRootToLeafNo.java
        SummaryRanges.java
        SuperPow.java
        SuperUglyNumber.java
        SurroundedRegions.java
        SwapNode.java
        TernaryExpressionParser.java
        ThreeSum.java
        ThreeSumClosest.java
        TopKFrequentElements.java
        Triangle.java
        Triangle_shuna.java
        TwoSum2.java
        UglyNumber2.java
        UniqueBST.java
        UniqueBST2.java
        UniquePaths.java
        UniquePaths2.java
        Utf8Validation.java
        ValidPerfectSquare.java
        ValidateBinarySearchTree.java
        VerifyPreorderSerializationOfABinaryTree.java
        WallsAndGates.java
        WaterAndJugProblem.java
        WiggleSort.java
        WiggleSort2.java
        WiggleSubsequence.java
        WordBreak.java
        WordLadder.java
        WordSearch.java
        intToRoman_shuna.java
        utils
        Utils.java
      - datastructures
        ArrayStack.java
        BST.java
        BinaryIndexedTree.java
        BinaryIndexedTreeTest.java
        LRUCache.java
        LinkedListBag.java
        LinkedListQueue.java
        LinkedListStack.java
        MaxPQ.java
        ST.java
        TrieST.java

package com.freetymekiyan.algorithms.level.medium;

import org.junit.After;
import org.junit.Assert;
import org.junit.Before;
import org.junit.Test;

/**
 * A character in UTF8 can be from 1 to 4 bytes long, subjected to the following rules:
 * <p>
 * For 1-byte character, the first bit is a 0, followed by its unicode code.
 * For n-bytes character, the first n-bits are all one's, the n+1 bit is 0, followed by n-1 bytes with most significant
 * 2 bits being 10.
 * This is how the UTF-8 encoding would work:
 * <p>
 * Char. number range  |        UTF-8 octet sequence
 * (hexadecimal)    |              (binary)
 * --------------------+---------------------------------------------
 * 0000 0000-0000 007F | 0xxxxxxx
 * 0000 0080-0000 07FF | 110xxxxx 10xxxxxx
 * 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
 * 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
 * Given an array of integers representing the data, return whether it is a valid utf-8 encoding.
 * <p>
 * Note:
 * The input is an array of integers. Only the least significant 8 bits of each integer is used to store the data. This
 * means each integer represents only 1 byte of data.
 * <p>
 * Example 1:
 * <p>
 * data = [197, 130, 1], which represents the octet sequence: 11000101 10000010 00000001.
 * <p>
 * Return true.
 * It is a valid utf-8 encoding for a 2-bytes character followed by a 1-byte character.
 * Example 2:
 * <p>
 * data = [235, 140, 4], which represented the octet sequence: 11101011 10001100 00000100.
 * <p>
 * Return false.
 * The first 3 bits are all one's and the 4th bit is 0 means it is a 3-bytes character.
 * The next byte is a continuation byte which starts with 10 and that's correct.
 * But the second continuation byte does not start with 10, so it is invalid.
 * <p>
 * Tags: Bit Manipulation
 */
public class Utf8Validation {

    private Utf8Validation u;

    /**
     * Bit Manipulation.
     * How to use bit masks to get how many bytes?
     */
    public boolean validUtf8(int[] data) {
        int count = 0;
        for (int c : data) {
            if (count == 0) {
                if ((c >> 5) == 0b110) { // 2 bytes
                    count = 1;
                } else if ((c >> 4) == 0b1110) { // 3 bytes
                    count = 2;
                } else if ((c >> 3) == 0b11110) { // 4 bytes
                    count = 3;
                } else if ((c >> 7) > 0) { // Most significant digit cannot be 1 if it's not multiple bytes
                    return false;
                }
            } else {
                if ((c >> 6) != 0b10) {
                    return false;
                }
                count--;
            }
        }
        return count == 0;
    }

    /**
     * Math.
     * Check how many bytes with number range.
     * 1) 1 byte, [0, 127]
     * 2) 2 bytes, [192, 223]
     * 3) 3, [224, 239]
     * 4) 4, [240, 247]
     * 5) If out of these ranges, return false.
     * Check following numbers, with range [128, 191].
     */
    public boolean validUtf8B(int[] data) {
        int i = 0;
        while (i < data.length) {
            int b = getBytes(data[i]);
            if (b == 0) {
                return false;
            }
            for (int j = i + 1; j < i + b; j++) {
                if (j >= data.length || 128 > data[j] || 192 < data[j]) {
                    return false;
                }
            }
            i += b;
        }
        return true;
    }

    private int getBytes(int d) {
        if (0 <= d && d <= 127) {
            return 1;
        } else if (192 <= d && d <= 223) {
            return 2;
        } else if (224 <= d && d <= 239) {
            return 3;
        } else if (240 <= d && d <= 247) {
            return 4;
        }
        return 0;
    }

    @Before
    public void setUp() {
        u = new Utf8Validation();
    }

    @Test
    public void testExamples() {
        int[] data = {197, 130, 1};
        Assert.assertTrue(u.validUtf8(data));
        data = new int[]{235, 140, 4};
        Assert.assertFalse(u.validUtf8(data));
        data = new int[]{255};
        Assert.assertFalse(u.validUtf8(data));
        data = new int[]{240, 162, 138, 147, 145};
        Assert.assertFalse(u.validUtf8(data));
    }

    @After
    public void tearDown() {
        u = null;
    }

}