Tokenizer.java example

Explorer

Saxon-CE-master
- src
  - client
    - Saxonce.java
    - net
      - sf
        saxon
        ce
        Configuration.java
        Controller.java
        LicenseException.java
        LogController.java
        PreparedStylesheet.java
        SaxonceApi.java
        Version.java
        XSLT20Processor.java
        Xslt20ProcessorImpl.java
        client
        HTTPHandler.java
        dom
        DOMNodeList.java
        DOMWriter.java
        HTMLAttributeNode.java
        HTMLDocumentWrapper.java
        HTMLNodeWrapper.java
        HTMLWriter.java
        XMLDOM.java
        event
        Builder.java
        CommentStripper.java
        ComplexContentOutputter.java
        ImplicitResultChecker.java
        NamespaceReducer.java
        NoOpenStartTagException.java
        PipelineConfiguration.java
        ProxyReceiver.java
        Receiver.java
        ReceiverOptions.java
        RuleBasedStripper.java
        SequenceOutputter.java
        SequenceReceiver.java
        StartTagBuffer.java
        Stripper.java
        TeeOutputter.java
        TreeReceiver.java
        expr
        AdjacentTextNodeMerger.java
        ArithmeticExpression.java
        ArithmeticExpression10.java
        Assignation.java
        AtomicSequenceConverter.java
        Atomizer.java
        AxisExpression.java
        BinaryExpression.java
        Binding.java
        BooleanExpression.java
        Calculator.java
        CardinalityChecker.java
        CardinalityCheckingIterator.java
        CastExpression.java
        CastableExpression.java
        ComparisonExpression.java
        Container.java
        ContextItemExpression.java
        ContextMappingFunction.java
        ContextMappingIterator.java
        CurrentItemExpression.java
        DifferenceEnumeration.java
        EarlyEvaluationContext.java
        EmptyTextNodeRemover.java
        ErrorExpression.java
        ErrorIterator.java
        Expression.java
        ExpressionParser.java
        ExpressionTool.java
        ExpressionVisitor.java
        FilterExpression.java
        FilterIterator.java
        FirstItemExpression.java
        ForExpression.java
        FunctionCall.java
        GeneralComparison.java
        GeneralComparison10.java
        GeneralComparison20.java
        IdentityComparison.java
        InstanceOfExpression.java
        IntegerRangeTest.java
        IntersectionEnumeration.java
        ItemChecker.java
        ItemMappingFunction.java
        ItemMappingIterator.java
        LastItemExpression.java
        LastPositionFinder.java
        LetExpression.java
        Literal.java
        LocalVariableReference.java
        MappingFunction.java
        MappingIterator.java
        MonoIterator.java
        MultiIterator.java
        NegateExpression.java
        NumericPromoter.java
        Optimizer.java
        PairIterator.java
        ParentNodeExpression.java
        PathExpression.java
        PromoteToDouble.java
        PromoteToFloat.java
        PromotionOffer.java
        QuantifiedExpression.java
        RangeExpression.java
        RangeIterator.java
        RoleLocator.java
        RootExpression.java
        SingleItemFilter.java
        SingleNodeExpression.java
        SlashExpression.java
        StackFrame.java
        StatefulMappingFunction.java
        StaticContext.java
        StaticProperty.java
        StringLiteral.java
        SubsequenceIterator.java
        SuppliedParameterReference.java
        TailCallLoop.java
        Token.java
        Tokenizer.java
        TraceExpression.java
        TypeChecker.java
        UnaryExpression.java
        UnionEnumeration.java
        UntypedAtomicConverter.java
        UserFunctionCall.java
        ValueComparison.java
        VariableDeclaration.java
        VariableReference.java
        VennExpression.java
        XPathContext.java
        XPathContextMajor.java
        XPathContextMinor.java
        instruct
        AnalyzeString.java
        ApplyImports.java
        ApplyTemplates.java
        AttributeCreator.java
        AttributeSet.java
        Bindery.java
        Block.java
        BlockIterator.java
        CallTemplate.java
        Choose.java
        Comment.java
        ComputedAttribute.java
        ComputedElement.java
        Copy.java
        CopyOf.java
        DocumentInstr.java
        ElementCreator.java
        Executable.java
        FixedAttribute.java
        FixedElement.java
        ForEach.java
        ForEachGroup.java
        GeneralVariable.java
        GlobalParam.java
        GlobalVariable.java
        Instruction.java
        LocalParam.java
        LocalParamBlock.java
        LocalVariable.java
        Message.java
        NamespaceConstructor.java
        NextMatch.java
        NumberInstruction.java
        ParameterSet.java
        ParentNodeConstructor.java
        Procedure.java
        ProcessingInstruction.java
        RemoveAttribute.java
        ResultDocument.java
        ScheduleExecution.java
        SetAttribute.java
        SetProperty.java
        SimpleNodeConstructor.java
        SlotManager.java
        TailCall.java
        TailCallReturner.java
        Template.java
        TerminationException.java
        UseAttributeSets.java
        UserFunction.java
        UserFunctionParameter.java
        ValueOf.java
        WithParam.java
        number
        AbstractNumberer.java
        Alphanumeric.java
        NumberFormatter.java
        Numberer_en.java
        NumericGroupFormatter.java
        RegularGroupFormatter.java
        parser
        CodeInjector.java
        sort
        AtomicComparer.java
        AtomicSortComparer.java
        CalendarValueComparer.java
        CaseFirstCollator.java
        CaseInsensitiveCollator.java
        CodepointCollatingComparer.java
        CodepointCollator.java
        CollatingAtomicComparer.java
        ComparableAtomicValueComparer.java
        ComparisonKey.java
        DecimalSortComparer.java
        DescendingComparer.java
        DocumentOrderIterator.java
        DocumentSorter.java
        DoubleSortComparer.java
        EmptyIntIterator.java
        EqualityComparer.java
        GenericAtomicComparer.java
        GenericSorter.java
        GlobalOrderComparer.java
        GroupAdjacentIterator.java
        GroupByIterator.java
        GroupBySingletonIterator.java
        GroupEndingIterator.java
        GroupIterator.java
        GroupMatchingIterator.java
        GroupStartingIterator.java
        LocalOrderComparer.java
        NodeOrderComparer.java
        NumericComparer.java
        SetUtils.java
        SortExpression.java
        SortKeyDefinition.java
        SortKeyEvaluator.java
        Sortable.java
        SortedGroupIterator.java
        SortedIterator.java
        TextComparer.java
        z
        AbstractIntSet.java
        IntArraySet.java
        IntBlockSet.java
        IntCheckingSet.java
        IntComplementPredicate.java
        IntComplementSet.java
        IntEmptySet.java
        IntExceptPredicate.java
        IntHashMap.java
        IntHashSet.java
        IntIntersectionPredicate.java
        IntIterator.java
        IntPredicate.java
        IntRangeSet.java
        IntSet.java
        IntSetPredicate.java
        IntSingletonSet.java
        IntToIntArrayMap.java
        IntToIntHashMap.java
        IntToIntMap.java
        IntUnionPredicate.java
        IntUniversalSet.java
        IntValuePredicate.java
        functions
        Adjust.java
        Aggregate.java
        Available.java
        Average.java
        BaseURI.java
        BooleanFn.java
        CodepointEqual.java
        CodepointsToString.java
        CollatingFunction.java
        Compare.java
        Component.java
        Concat.java
        ConstructorFunctionLibrary.java
        Contains.java
        Count.java
        Current.java
        CurrentDateTime.java
        CurrentGroup.java
        CurrentGroupingKey.java
        DateTimeConstructor.java
        DeepEqual.java
        DistinctValues.java
        Doc.java
        DocAvailable.java
        DocumentFn.java
        Empty.java
        EndsWith.java
        Error.java
        EscapeURI.java
        ExecutableFunctionLibrary.java
        Exists.java
        ForceCase.java
        FormatDate.java
        FormatNumber.java
        FunctionLibrary.java
        FunctionLibraryList.java
        Id.java
        InScopePrefixes.java
        IndexOf.java
        Insert.java
        KeyFn.java
        Lang.java
        Last.java
        Matches.java
        Minimax.java
        NamePart.java
        NamespaceForPrefix.java
        NormalizeSpace.java
        NormalizeUnicode.java
        NumberFn.java
        Position.java
        QNameFn.java
        RegexGroup.java
        Remove.java
        Replace.java
        ResolveQName.java
        ResolveURI.java
        Reverse.java
        Root.java
        Rounding.java
        StandardFunction.java
        StartsWith.java
        StringFn.java
        StringJoin.java
        StringLength.java
        StringToCodepoints.java
        Subsequence.java
        Substring.java
        SubstringAfter.java
        SubstringBefore.java
        Sum.java
        SystemFunction.java
        SystemFunctionLibrary.java
        SystemProperty.java
        Tokenize.java
        Trace.java
        Translate.java
        UnparsedText.java
        codenorm
        BitSet.java
        Normalizer.java
        NormalizerData.java
        UnicodeDataParserFromXML.java
        js
        IXSLFunction.java
        IXSLFunctionLibrary.java
        JSObjectType.java
        JSObjectValue.java
        lib
        ErrorListener.java
        FeatureKeys.java
        GenericLogHandler.java
        Initializer.java
        JavaScriptAPIException.java
        JsLogHandler.java
        ListenerLogHandler.java
        NamespaceConstant.java
        Numberer.java
        ParseOptions.java
        SaxonLogFormatter.java
        StandardErrorListener.java
        StandardURIChecker.java
        StringCollator.java
        TraceListener.java
        Validation.java
        om
        AttributeCollection.java
        Axis.java
        CopyOptions.java
        DocumentInfo.java
        DocumentPool.java
        DocumentURI.java
        FingerprintedNode.java
        GroundedValue.java
        InscopeNamespaceResolver.java
        Item.java
        NameChecker.java
        NamePool.java
        NamespaceBinding.java
        NamespaceException.java
        NamespaceResolver.java
        NodeInfo.java
        QNameException.java
        SequenceIterator.java
        StandardNames.java
        StructuredQName.java
        ValueRepresentation.java
        pattern
        AnyChildNodeTest.java
        AnyJSObjectNodeTest.java
        AnyNodeTest.java
        CombinedNodeTest.java
        ContentTypeTest.java
        DocumentNodeTest.java
        EmptySequenceTest.java
        JSObjectPattern.java
        KeyPattern.java
        LocalNameTest.java
        LocationPathPattern.java
        NameTest.java
        NamespaceTest.java
        NodeKindTest.java
        NodeSetPattern.java
        NodeTest.java
        NodeTestPattern.java
        Pattern.java
        PatternMaker.java
        PatternParser.java
        PatternSponsor.java
        UnionPattern.java
        regex
        ARegexIterator.java
        ARegularExpression.java
        ATokenIterator.java
        BMPString.java
        CaseVariants.java
        Categories.java
        GeneralUnicodeString.java
        MultiCharEscape.java
        Operation.java
        RECompiler.java
        REFlags.java
        REMatcher.java
        REProgram.java
        RESyntaxException.java
        RegexIterator.java
        RegularExpression.java
        UnicodeBlocks.java
        UnicodeString.java
        style
        AbsentExtensionElement.java
        AttributeValueTemplate.java
        DataElement.java
        Declaration.java
        ExpressionContext.java
        IXSLRemoveAttribute.java
        IXSLScheduleAction.java
        IXSLSetAttribute.java
        IXSLSetProperty.java
        LiteralResultElement.java
        PrincipalStylesheetModule.java
        StyleElement.java
        StyleNodeFactory.java
        StylesheetFunctionLibrary.java
        StylesheetModule.java
        StylesheetProcedure.java
        StylesheetStripper.java
        UseWhenFilter.java
        UseWhenStaticContext.java
        XSLAnalyzeString.java
        XSLApplyImports.java
        XSLApplyTemplates.java
        XSLAttribute.java
        XSLAttributeSet.java
        XSLCallTemplate.java
        XSLCharacterMap.java
        XSLChoose.java
        XSLComment.java
        XSLCopy.java
        XSLCopyOf.java
        XSLDecimalFormat.java
        XSLDocument.java
        XSLElement.java
        XSLFallback.java
        XSLForEach.java
        XSLForEachGroup.java
        XSLFunction.java
        XSLGeneralIncorporate.java
        XSLGeneralVariable.java
        XSLIf.java
        XSLImport.java
        XSLImportSchema.java
        XSLInclude.java
        XSLKey.java
        XSLLeafNodeConstructor.java
        XSLMatchingSubstring.java
        XSLMessage.java
        XSLNamespace.java
        XSLNamespaceAlias.java
        XSLNextMatch.java
        XSLNumber.java
        XSLOtherwise.java
        XSLOutput.java
        XSLOutputCharacter.java
        XSLParam.java
        XSLPerformSort.java
        XSLPreserveSpace.java
        XSLProcessingInstruction.java
        XSLResultDocument.java
        XSLSequence.java
        XSLSort.java
        XSLStylesheet.java
        XSLTemplate.java
        XSLText.java
        XSLValueOf.java
        XSLVariable.java
        XSLVariableDeclaration.java
        XSLWhen.java
        XSLWithParam.java
        sxpath
        AbstractStaticContext.java
        SimpleContainer.java
        trace
        AbstractTraceListener.java
        ContextStackFrame.java
        ContextStackIterator.java
        ExpressionPresenter.java
        InstructionInfo.java
        Location.java
        TimingCodeInjector.java
        TraceCodeInjector.java
        TraceEventMulticaster.java
        XSLTTraceCodeInjector.java
        XSLTTraceListener.java
        trans
        BuiltInRuleSet.java
        CompilerInfo.java
        DecimalFormatManager.java
        DecimalSymbols.java
        Err.java
        IntellijTest.java
        KeyDefinition.java
        KeyDefinitionSet.java
        KeyManager.java
        Mode.java
        NoDynamicContextException.java
        Rule.java
        RuleManager.java
        StringifyRuleSet.java
        StripSpaceRules.java
        XPathException.java
        update
        DeleteAction.java
        InsertAction.java
        PendingUpdateAction.java
        PendingUpdateList.java
        RemoveAttributeAction.java
        SetAttributeAction.java
        tree
        NamespaceNode.java
        iter
        ArrayIterator.java
        AxisIterator.java
        AxisIteratorImpl.java
        EmptyIterator.java
        GroundedIterator.java
        JsArrayIterator.java
        ListIterator.java
        LookaheadIterator.java
        NodeArrayIterator.java
        NodeListIterator.java
        OneItemGoneIterator.java
        PrependIterator.java
        ReverseArrayIterator.java
        ReverseNodeArrayIterator.java
        SingleNodeIterator.java
        SingletonIterator.java
        UnfailingIterator.java
        linked
        AncestorEnumeration.java
        AttributeEnumeration.java
        AttributeImpl.java
        CharSlice.java
        ChildEnumeration.java
        CommentImpl.java
        DescendantEnumeration.java
        DocumentImpl.java
        ElementImpl.java
        FollowingEnumeration.java
        FollowingSiblingEnumeration.java
        LineNumberMap.java
        LinkedTreeBuilder.java
        NodeFactory.java
        NodeImpl.java
        ParentNodeImpl.java
        PrecedingEnumeration.java
        PrecedingOrAncestorEnumeration.java
        PrecedingSiblingEnumeration.java
        ProcInstImpl.java
        SystemIdMap.java
        TextImpl.java
        TreeEnumeration.java
        util
        DocumentNumberAllocator.java
        FastStringBuffer.java
        NamespaceIterator.java
        Navigator.java
        Orphan.java
        ProcInstParser.java
        SourceLocator.java
        StringTokenizer.java
        URI.java
        UTF16CharacterSet.java
        UTF8CharacterSet.java
        wrapper
        AbstractVirtualNode.java
        SiblingCountingNode.java
        SpaceStrippedDocument.java
        SpaceStrippedNode.java
        VirtualNode.java
        WrappingFunction.java
        WrappingIterator.java
        type
        AnyItemType.java
        AnySimpleType.java
        AnyType.java
        AtomicType.java
        BuiltInAtomicType.java
        BuiltInType.java
        ConversionResult.java
        ItemType.java
        SchemaType.java
        StringToDouble.java
        Type.java
        TypeHierarchy.java
        Untyped.java
        ValidationFailure.java
        value
        AnyURIValue.java
        AtomicValue.java
        Base64BinaryValue.java
        BooleanValue.java
        CalendarValue.java
        Cardinality.java
        Closure.java
        DateTimeValue.java
        DateValue.java
        DayTimeDurationValue.java
        DecimalValue.java
        DoubleValue.java
        DurationValue.java
        EmptySequence.java
        FloatValue.java
        GDateValue.java
        GDayValue.java
        GMonthDayValue.java
        GMonthValue.java
        GYearMonthValue.java
        GYearValue.java
        HexBinaryValue.java
        IntegerRange.java
        IntegerValue.java
        MemoClosure.java
        NumericValue.java
        QNameValue.java
        QualifiedNameValue.java
        SequenceExtent.java
        SequenceType.java
        SingletonClosure.java
        SingletonItem.java
        StringValue.java
        TextFragmentValue.java
        TimeValue.java
        UntypedAtomicValue.java
        Value.java
        Whitespace.java
        YearMonthDurationValue.java
        xmldom
        AttrImpl.java
        CDATASectionImpl.java
        CharacterDataImpl.java
        CommentImpl.java
        DOMNodeExceptionXml.java
        DocumentFragmentImpl.java
        DocumentImpl.java
        DomItemXml.java
        ElementImpl.java
        NamedNodeMapImpl.java
        NodeListImpl.java
        NodeXml.java
        ProcessingInstructionImpl.java
        TextImpl.java
        XMLParser.java
        XMLParserImpl.java
        XMLParserImplXMLDoc.java
  - org
    - timepedia
      - exporter
        client
        Export.java
        ExportAfterCreateMethod.java
        ExportClosure.java
        ExportConstructor.java
        ExportInstanceMethod.java
        ExportJsInitMethod.java
        ExportOverlay.java
        ExportPackage.java
        ExportStaticMethod.java
        Exportable.java
        Exporter.java
        ExporterBaseActual.java
        ExporterBaseImpl.java
        ExporterUtil.java
        NoExport.java
        SOptional.java
        SType.java
        StructuralType.java
        rebind
        ClassExporter.java
        DispatchTable.java
        ExportableTypeOracle.java
        ExporterGenerator.java
        ExporterGeneratorNoExport.java
        JExportOverlayClassType.java
        JExportable.java
        JExportableArrayType.java
        JExportableClassType.java
        JExportableConstructor.java
        JExportableField.java
        JExportableMethod.java
        JExportableParameter.java
        JExportablePrimitiveType.java
        JExportableType.java
        JStructuralTypeField.java

package client.net.sf.saxon.ce.expr;
import client.net.sf.saxon.ce.trans.XPathException;
import client.net.sf.saxon.ce.value.Whitespace;

/**
 * Tokenizer for expressions and inputs.
 *
 * This code was originally derived from James Clark's xt, but has been almost entirely rewritten.
 */


@SuppressWarnings({"StringEquality"})
public final class Tokenizer {


    private int state = DEFAULT_STATE;
        // we may need to make this a stack at some time

    /**
     * Initial default state of the Tokenizer
     */
    public static final int DEFAULT_STATE = 0;

    /**
     * State in which a name is NOT to be merged with what comes next, for example "("
     */
    public static final int BARE_NAME_STATE = 1;

    /**
     * The number identifying the most recently read token
     */
    public int currentToken = Token.EOF;
    /**
     * The string value of the most recently read token
     */
    public String currentTokenValue = null;
    /**
     * The position in the input expression where the current token starts
     */
    public int currentTokenStartOffset = 0;
    /**
     * The number of the next token to be returned
     */
    private int nextToken = Token.EOF;
    /**
     * The string value of the next token to be returned
     */
    private String nextTokenValue = null;
    /**
     * The position in the expression of the start of the next token
     */
    private int nextTokenStartOffset = 0;
    /**
     * The string being parsed
     */
    public String input;
    /**
     * The current position within the input string
     */
    public int inputOffset = 0;
    /**
     * The length of the input string
     */
    private int inputLength;

    /**
     * The token number of the token that preceded the current token
     */
    private int precedingToken = Token.UNKNOWN;

    public Tokenizer() {}

    /**
     * Get the current tokenizer state
     * @return the current state
     */

    //
    // Lexical analyser for expressions, queries, and XSLT patterns
    //

    /**
     * Prepare a string for tokenization.
     * The actual tokens are obtained by calls on next()
     *
     * @param input the string to be tokenized
     * @param start start point within the string
     * @param end end point within the string (last character not read):
     * -1 means end of string
     * @throws XPathException if a lexical error occurs, e.g. unmatched
     *     string quotes
     */
    public void tokenize(String input, int start, int end) throws XPathException {
        nextToken = Token.EOF;
        nextTokenValue = null;
        nextTokenStartOffset = 0;
        inputOffset = start;
        this.input = input;
         if (end==-1) {
            inputLength = input.length();
        } else {
            inputLength = end;
        }

        // The tokenizer actually reads one token ahead. The raw lexical analysis performed by
        // the lookAhead() method does not (in general) distinguish names used as QNames from names
        // used for operators, axes, and functions. The next() routine further refines names into the
        // correct category, by looking at the following token. In addition, it combines compound tokens
        // such as "instance of" and "cast as".

        lookAhead();
        next();
    }

    //diagnostic version of next(): change real version to realnext()
    //
    //public void next() throws XPathException {
    //    realnext();
    //    System.err.println("Token: " + currentToken + "[" + tokens[currentToken] + "]");
    //}

    /**
     * Get the next token from the input expression. The type of token is returned in the
     * currentToken variable, the string value of the token in currentTokenValue.
     *
     * @throws XPathException if a lexical error is detected
     */

    public void next() throws XPathException {
        precedingToken = currentToken;
        currentToken = nextToken;
        currentTokenValue = nextTokenValue;
        if (currentTokenValue==null) {
            currentTokenValue="";
        }
        currentTokenStartOffset = nextTokenStartOffset;

        // disambiguate the current token based on the tokenizer state

        switch (currentToken) {
            case Token.NAME:
                int optype = getBinaryOp(currentTokenValue);
                if (optype!=Token.UNKNOWN && !followsOperator(precedingToken)) {
                    currentToken = optype;
                }
                break;
            case Token.STAR:
                if (!followsOperator(precedingToken)) {
                    currentToken = Token.MULT;
                }
                break;
        }

        if (currentToken == Token.RCURLY) {
            // End of an AVT
            return;
        }

        int oldPrecedingToken = precedingToken;
        lookAhead();

        if (currentToken == Token.NAME) {
            if (state == BARE_NAME_STATE) {
                return;
            }
            if (oldPrecedingToken == Token.DOLLAR) {
                return;
            }
            switch (nextToken) {
                case Token.LPAR:
                    int op = getBinaryOp(currentTokenValue);
                    // the test on followsOperator() is to cater for an operator being used as a function name,
                    // e.g. is(): see XQTS test K-FunctionProlog-66
                    if (op == Token.UNKNOWN || followsOperator(oldPrecedingToken)) {
	                    currentToken = getFunctionType(currentTokenValue);
	                    lookAhead();    // swallow the "("
                    } else {
                        currentToken = op;
                    }
                    break;

                case Token.COLONCOLON:
                    lookAhead();
                    currentToken = Token.AXIS;
                    break;

                case Token.COLONSTAR:
                    lookAhead();
                    currentToken = Token.PREFIX;
                    break;

                case Token.DOLLAR:
                    if (currentTokenValue.equals("for")) {
                        currentToken = Token.FOR;
                    } else if (currentTokenValue.equals("some")) {
                        currentToken = Token.SOME;
                    } else if (currentTokenValue.equals("every")) {
                        currentToken = Token.EVERY;
                    }
                    break;

                case Token.NAME:
                    String composite = currentTokenValue + ' ' + nextTokenValue;
                    Integer val = Token.doubleKeywords.get(composite);
                    if (val==null) {
                        break;
                    } else {
                        currentToken = val.intValue();
                        currentTokenValue = composite;
                        lookAhead();
                        return;
                    }
                default:
                    // no action needed
            }
        }
    }


    /**
     * Look ahead by one token. This method does the real tokenization work.
     * The method is normally called internally, but the XQuery parser also
     * calls it to resume normal tokenization after dealing with pseudo-XML
     * syntax.
     * @throws XPathException if a lexical error occurs
     */
    public void lookAhead() throws XPathException {
        precedingToken = nextToken;
        nextTokenValue = null;
        nextTokenStartOffset = inputOffset;
        for (;;) {
            if (inputOffset >= inputLength) {
	            nextToken = Token.EOF;
	            return;
            }
            char c = input.charAt(inputOffset++);
            switch (c) {
            case '/':
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '/') {
	                inputOffset++;
	                nextToken = Token.SLSL;
	                return;
	            }
	            nextToken = Token.SLASH;
	            return;
            case ':':
	            if (inputOffset < inputLength) {
	                if (input.charAt(inputOffset) == ':') {
	                    inputOffset++;
	                    nextToken = Token.COLONCOLON;
	                    return;
	                }
	            }
	            throw new XPathException("Unexpected colon at start of token");
            case '@':
	            nextToken = Token.AT;
	            return;
	        case '?':
	            nextToken = Token.QMARK;
	            return;
            case '[':
	            nextToken = Token.LSQB;
	            return;
            case ']':
	            nextToken = Token.RSQB;
	            return;
            case '}':
	            nextToken = Token.RCURLY;
	            return;
            case '(':
	            if (inputOffset < inputLength && input.charAt(inputOffset) == ':') {
                    // XPath comment syntax is (: .... :)
                    // Comments may be nested, and may now be empty
                    inputOffset++;
                    int nestingDepth = 1;
                    while (nestingDepth > 0 && inputOffset < (inputLength-1)) {
                        if (input.charAt(inputOffset) == ':' &&
                                input.charAt(inputOffset+1) == ')') {
                            nestingDepth--;
                            inputOffset++;
                        } else if (input.charAt(inputOffset) == '(' &&
                               input.charAt(inputOffset+1) == ':') {
                            nestingDepth++;
                            inputOffset++;
                        }
                        inputOffset++;
                    }
                    if (nestingDepth > 0) {
                        throw new XPathException("Unclosed XPath comment");
                    }
                    lookAhead();
                } else {
	                nextToken = Token.LPAR;
	            }
	            return;
            case ')':
	            nextToken = Token.RPAR;
	            return;
            case '+':
	            nextToken = Token.PLUS;
	            return;
            case '-':
	            nextToken = Token.MINUS;   // not detected if part of a name
	            return;
            case '=':
	            nextToken = Token.EQUALS;
	            return;
            case '!':
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '=') {
	                inputOffset++;
	                nextToken = Token.NE;
	                return;
	            }
	            throw new XPathException("'!' without '='");
            case '*':
                // disambiguation of MULT and STAR is now done later
                if (inputOffset < inputLength
                        && input.charAt(inputOffset) == ':') {
                    inputOffset++;
                    nextToken = Token.SUFFIX;
                    // we leave the parser to get the following name as a separate
                    // token, but first check there's no intervening white space or comments
                    if (inputOffset < inputLength) {
                        char ahead = input.charAt(inputOffset);
                        if (" \r\t\n(".indexOf(ahead) >= 0) {
                            throw new XPathException("Whitespace and comments are not allowed after '*:'");
                        }
                    }
                    return;
                }
                nextToken = Token.STAR;
	            return;
            case ',':
	            nextToken = Token.COMMA;
	            return;
            case '$':
	            nextToken = Token.DOLLAR;
	            return;
            case '|':
	            nextToken = Token.UNION;
	            return;
            case '#':
	            nextToken = Token.HASH;
	            return;
            case '<':
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '=') {
	                inputOffset++;
	                nextToken = Token.LE;
	                return;
	            }
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '<') {
	                inputOffset++;
	                nextToken = Token.PRECEDES;
	                return;
	            }
	            nextToken = Token.LT;
	            return;
            case '>':
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '=') {
	                inputOffset++;
	                nextToken = Token.GE;
	                return;
	            }
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '>') {
	                inputOffset++;
	                nextToken = Token.FOLLOWS;
	                return;
	            }
	            nextToken = Token.GT;
	            return;
            case '.':
	            if (inputOffset < inputLength
	                    && input.charAt(inputOffset) == '.') {
	                inputOffset++;
	                nextToken = Token.DOTDOT;
	                return;
	            }
	            if (inputOffset == inputLength
	                    || input.charAt(inputOffset) < '0'
	                    || input.charAt(inputOffset) > '9') {
	                nextToken = Token.DOT;
	                return;
	            }
                // otherwise drop through: we have a number starting with a decimal point
            case '0':
            case '1':
            case '2':
            case '3':
            case '4':
            case '5':
            case '6':
            case '7':
            case '8':
            case '9':
                // The logic here can return some tokens that are not legitimate numbers,
                // for example "23e" or "1.0e+". However, this will only happen if the XPath
                // expression as a whole is syntactically incorrect.
                // These errors will be caught by the numeric constructor.
                boolean allowE = true;
                boolean allowSign = false;
                boolean allowDot = true;
                boolean endOfNum = false;
            numloop:
                while (!endOfNum) {
	                switch (c) {
                        case '0': case '1': case '2': case '3': case '4':
                        case '5': case '6': case '7': case '8': case '9':
                            allowSign = false;
                            break;
                        case '.':
                            if (allowDot) {
                                allowDot = false;
                                allowSign = false;
                            } else {
                                inputOffset--;
                                break numloop;
                            }
                            break;
                        case 'E': case 'e':
                            if (allowE) {
                                allowSign = true;
                                allowE = false;
                            } else {
                                inputOffset--;
                                break numloop;
                            }
                            break;
                        case '+': case '-':
                            if (allowSign) {
                                allowSign = false;
                            } else {
                                inputOffset--;
                                break numloop;
                            }
                            break;
                        default:
                            if (('a' <= c && c <= 'z') || c>127) {
                                // this prevents the famous "10div 3"
                                throw new XPathException("Separator needed after numeric literal");
                            }
                            inputOffset--;
                            break numloop;
                    }
                    if (inputOffset >= inputLength) break;
                    c = input.charAt(inputOffset++);
	            }
	            nextTokenValue = input.substring(nextTokenStartOffset, inputOffset);
	            nextToken = Token.NUMBER;
	            return;
            case '"':
            case '\'':
                nextTokenValue = "";
                while (true) {
    	            inputOffset = input.indexOf(c, inputOffset);
    	            if (inputOffset < 0) {
    	                inputOffset = nextTokenStartOffset + 1;
    	                throw new XPathException("Unmatched quote in expression");
    	            }
    	            nextTokenValue += input.substring(nextTokenStartOffset + 1, inputOffset++);
                    if (inputOffset < inputLength) {
                        char n = input.charAt(inputOffset);
                        if (n == c) {
                            // Doubled delimiters
                            nextTokenValue += c;
                            nextTokenStartOffset = inputOffset;
                            inputOffset++;
                        } else {
                            break;
                        }
                    } else {
	                    break;
	                }
	            }

	            nextToken = Token.STRING_LITERAL;
	            return;
            case '\n':
            case ' ':
            case '\t':
            case '\r':
	            nextTokenStartOffset = inputOffset;
	            break;
            default:
	            if (c < 0x80 && !Character.isLetter(c)) {
	                throw new XPathException("Invalid character '" + c + "' in expression");
                }
                /* fall through */
            case '_':
            loop:
	            for (;inputOffset < inputLength; inputOffset++) {
	                c = input.charAt(inputOffset);
	                switch (c) {
                    case ':':
        	            if (inputOffset+1 < inputLength) {
    	                    char nc = input.charAt(inputOffset+1);
                            if (nc == ':') {
                                nextTokenValue = input.substring(nextTokenStartOffset, inputOffset);
                                //nextTokenValue = nextTokenValue.intern();
                                nextToken = Token.AXIS;
                                inputOffset+=2;
                                return;
        	                } else if (nc == '*') {
                                nextTokenValue = input.substring(nextTokenStartOffset, inputOffset);
                                //nextTokenValue = nextTokenValue.intern();
                                nextToken = Token.PREFIX;
                                inputOffset+=2;
                                return;
                            } else if (nc == '=') {
                                // as in "let $x:=2"
                                nextTokenValue = input.substring(nextTokenStartOffset, inputOffset);
                                //nextTokenValue = nextTokenValue.intern();
                                nextToken = Token.NAME;
                                return;
                            }
        	            }
                        break;
	                case '.':
	                case '-':
	                case '_':
	                    break;

	                default:
	                    if (c < 0x80 && !Character.isLetterOrDigit(c))
	                        break loop;
	                    break;
	                }
	            }
	            nextTokenValue = input.substring(nextTokenStartOffset, inputOffset);
                //nextTokenValue = nextTokenValue.intern();
                nextToken = Token.NAME;
	            return;
            }
        }
    }

    /**
     * Identify a binary operator
     *
     * @param s String representation of the operator - must be interned
     * @return the token number of the operator, or UNKNOWN if it is not a
     *     known operator
     */

    private static int getBinaryOp(String s) {
        switch(s.length()) {
            case 2:
                if (s.equals("or")) return Token.OR;
                if (s.equals("is")) return Token.IS;
                if (s.equals("to")) return Token.TO;
                if (s.equals("in")) return Token.IN;
                if (s.equals("eq")) return Token.FEQ;
                if (s.equals("ne")) return Token.FNE;
                if (s.equals("gt")) return Token.FGT;
                if (s.equals("ge")) return Token.FGE;
                if (s.equals("lt")) return Token.FLT;
                if (s.equals("le")) return Token.FLE;
                if (s.equals("as")) return Token.AS;
                break;
            case 3:
                if (s.equals("and")) return Token.AND;
                if (s.equals("div")) return Token.DIV;
                if (s.equals("mod")) return Token.MOD;
                break;
            case 4:
                if (s.equals("idiv")) return Token.IDIV;
                if (s.equals("then")) return Token.THEN;
                if (s.equals("else")) return Token.ELSE;
                break;
            case 5:
                if (s.equals("union")) return Token.UNION;
                break;
            case 6:
                if (s.equals("except")) return Token.EXCEPT;
                if (s.equals("return")) return Token.RETURN;
                break;
            case 9:
                if (s.equals("intersect")) return Token.INTERSECT;
                if (s.equals("satisfies")) return Token.SATISFIES;
                break;
        }
        return Token.UNKNOWN;
    }

    /**
     * Distinguish nodekind names, "if", and function names, which are all
     * followed by a "("
     *
     * @param s the name - must be interned
     * @return the token number
     */

    private static int getFunctionType(String s) {
        switch(s.length()) {
            case 2:
                if (s.equals("if")) return Token.IF;
                break;
            case 4:
                if (s.equals("node")) return Token.NODEKIND;
                if (s.equals("item")) return Token.NODEKIND;
                if (s.equals("text")) return Token.NODEKIND;
                break;
            case 7:
                if (s.equals("element")) return Token.NODEKIND;
                if (s.equals("comment")) return Token.NODEKIND;
                break;
            case 9:
                if (s.equals("attribute")) return Token.NODEKIND;
                break;
            default:
                if (s.equals("document-node")) return Token.NODEKIND;
                if (s.equals("empty-sequence")) return Token.NODEKIND;
                if (s.equals("namespace-node")) return Token.NODEKIND;
                if (s.equals("schema-element")) return Token.NODEKIND;
                if (s.equals("schema-attribute")) return Token.NODEKIND;
                if (s.equals("processing-instruction")) return Token.NODEKIND;

                break;
        }
        return Token.FUNCTION;
    }

    /**
     * Test whether the previous token is an operator
     * @param precedingToken the token to be tested
     * @return true if the previous token is an operator token
     */

    private boolean followsOperator(int precedingToken) {
        return precedingToken <= Token.LAST_OPERATOR;
    }

     /**
     * Get the most recently read text (for use in an error message)
     * @param offset the offset of the offending token, if known, or -1 to use the current offset
     * @return a chunk of text leading up to the error
     */

    public String recentText(int offset) {
        if (offset == -1) {
            // if no offset was supplied, we want the text immediately before the current reading position
            if (inputOffset > inputLength) {
                inputOffset = inputLength;
            }
            if (inputOffset < 34) {
                return input.substring(0, inputOffset);
            } else {
                return Whitespace.collapseWhitespace(
                        "..." + input.substring(inputOffset-30, inputOffset)).toString();
            }
        } else {
            // if a specific offset was supplied, we want the text *starting* at that offset
            int end = offset + 30;
            if (end > inputLength) {
                end = inputLength;
            }
            return Whitespace.collapseWhitespace(
                        (offset > 0 ? "..." : "") + 
                        input.substring(offset, end)).toString();
        }
    }


}

// This Source Code Form is subject to the terms of the Mozilla Public License, v. 2.0. 
// If a copy of the MPL was not distributed with this file, You can obtain one at http://mozilla.org/MPL/2.0/.
// This Source Code Form is “Incompatible With Secondary Licenses”, as defined by the Mozilla Public License, v. 2.0.