Tokenizer.java example

Explorer

SoftwareProjekt-master
- swp-uebersetzerbau-ss12-master
  - src
    - de
      - fuberlin
        Main.java
        bii
        Lexer.java
        bufferedreader
        BufferedLexemeReader.java
        LexemeReader.java
        LexemeReaderException.java
        MemoryStreamLexemeReader.java
        SimpleLexemeReader.java
        SpecialChars.java
        dfaprovider
        DirectMinimalDfaBuilder.java
        IndirectMinimalDfaBuilder.java
        MinimalDfaBuilder.java
        MinimalDfaBuilderException.java
        MinimalDfaCharacterStatePayloadWrapper.java
        MinimalDfaCharacterStatePayloadWrapperException.java
        MinimalDfaProvider.java
        MinimalDfaProviderException.java
        lexergen
        BuilderType.java
        Lexergen.java
        Lexergenerator.java
        LexergeneratorException.java
        parser
        IToken.java
        parsetokdef
        LexTokDef.java
        ReadTokDefAbstract.java
        ReadTokDefinition.java
        TokenDefinitionException.java
        regextodfaconverter
        ConvertExecption.java
        DfaMinimizer.java
        MinimalDfa.java
        NfaToDfaConverter.java
        NotDeterministicException.java
        Regex.java
        RegexInvalidException.java
        RegexToNfaConverter.java
        directconverter
        AutomatEventHandler.java
        DirectConverterException.java
        PositionToPayloadMap.java
        lrparser
        AcceptAction.java
        Action.java
        ActionContext.java
        Goto.java
        GotoException.java
        HandlerMap.java
        ItemAutomat.java
        ItemAutomatException.java
        ItemAutomatInterior.java
        Lr0ItemAutomat.java
        Lr1ItemAutomat.java
        ReduceAction.java
        ReduceEventHandler.java
        ReduceException.java
        ShiftAction.java
        ShiftEventHandler.java
        ShiftException.java
        Slr1ItemAutomat.java
        grammar
        ContextFreeGrammar.java
        EmptyString.java
        Grammar.java
        Nonterminal.java
        ProductionMap.java
        ProductionRule.java
        ProductionSet.java
        RuleElement.java
        RuleElementArray.java
        RuleElementSequenz.java
        Symbol.java
        Terminal.java
        TerminalSet.java
        Terminator.java
        itemset
        Closure.java
        Item.java
        ItemSet.java
        Lr0Closure.java
        Lr0Item.java
        Lr0ItemSet.java
        Lr1Closure.java
        Lr1Item.java
        Lr1ItemSet.java
        regex
        RegexCharSet.java
        RegexSection.java
        RegexToDfaConverter.java
        RegexToPayloadMap.java
        operatortree
        AttributizedOperatorTree.java
        OperatorNode.java
        OperatorTreeAttributor.java
        OperatorTreeException.java
        OperatorType.java
        RegexOperatorTree.java
        RegularExpressionElement.java
        RepetitionRange.java
        TerminalNode.java
        syntaxtree
        AbstractSyntaxTree.java
        AttributesMap.java
        ConcreteSyntaxTree.java
        PrintHandler.java
        SemanticRule.java
        SemanticRules.java
        SyntaxDirectedDefinition.java
        SyntaxTreeException.java
        Tree.java
        TreeIterator.java
        TreeNodesAttributesMap.java
        node
        BinaryInnerNode.java
        InnerNode.java
        Leaf.java
        NewNodeEventHandler.java
        NumberedTreeNode.java
        ScalableInnerNode.java
        TreeNode.java
        TreeNodeCollection.java
        TreeNodeSet.java
        fsm
        FiniteStateMachine.java
        State.java
        StatePayload.java
        Transition.java
        excpetions
        NullStateException.java
        StateNotReachableException.java
        tokenmatcher
        DeterministicFiniteAutomata.java
        LexemIdentificationException.java
        LexerToParserInterface.java
        State.java
        StatePayload.java
        Token.java
        TokenAttributor.java
        TokenType.java
        Tokenizer.java
        attributes
        Attribute.java
        BoolAttribute.java
        DoubleAttribute.java
        GenericAttribute.java
        GenericParseAttribute.java
        IntAttribute.java
        ParseBoolAttribute.java
        ParseDoubleAttribute.java
        ParseFloatAttribute.java
        ParseIntAttribute.java
        ParseStringAttribute.java
        StringAttribute.java
        errorhandler
        ErrorCorrector.java
        ErrorCorrectorException.java
        fsm
        FiniteStateMachine.java
        State.java
        Symbol.java
        TransitionTable.java
        utils
        ApplicationArgument.java
        ApplicationArgumentProcessor.java
        IRule.java
        InvalidArgumentException.java
        Notification.java
        Rule.java
        Sets.java
        StrUtils.java
        Test.java
        TriState.java
        commons
        DragonCompiler.java
        lexer
        ILexer.java
        IToken.java
        TokenType.java
        parser
        IParser.java
        ISymbol.java
        ISyntaxTree.java
        ParserSyntaxException.java
        StringSymbol.java
        util
        EasyComparableObject.java
        LogFactory.java
        optimierung
        ILLVM_Optimization.java
        LLVM_Block.java
        LLVM_Function.java
        LLVM_Operation.java
        LLVM_Optimization.java
        LLVM_OptimizationException.java
        LLVM_Parameter.java
        LLVM_ParameterType.java
        LLVM_RegisterMap.java
        commands
        LLVM_AllocaCommand.java
        LLVM_BinaryCommand.java
        LLVM_BranchCommand.java
        LLVM_CallCommand.java
        LLVM_Comment.java
        LLVM_GenericCommand.java
        LLVM_GetElementPtrCommand.java
        LLVM_InsertExtractValueCommand.java
        LLVM_LoadCommand.java
        LLVM_ReturnCommand.java
        LLVM_StoreCommand.java
        LLVM_XcmpCommand.java
        projectF
        CodeGenerator
        Assembler.java
        CodeGenerator.java
        Debuginfo.java
        FileLexer.java
        GNUAssembler.java
        GUI.java
        IntelAssembler.java
        Lexer.java
        MemoryContext.java
        MemoryManager.java
        StringLexer.java
        Translator.java
        model
        Address.java
        Array.java
        ArrayPointer.java
        MMXRegisterAddress.java
        Record.java
        RecordPointer.java
        Reference.java
        RegisterAddress.java
        StackAddress.java
        Token.java
        TokenType.java
        Variable.java
        VariableOld.java
        projecta
        CompilerMain.java
        FrontendMain.java
        LexerMain.java
        ParserMain.java
        analysis
        BasicTokenType.java
        DebuggingHelper.java
        EntryType.java
        SemanticAnalyzer.java
        SemanticException.java
        SymbolTable.java
        SymbolTableHelper.java
        SymbolTableStack.java
        TypeChecker.java
        ast
        AbstractSyntaxTree.java
        Args.java
        Array.java
        ArrayCall.java
        BasicType.java
        BinaryOp.java
        Block.java
        BoolLiteral.java
        Break.java
        Declaration.java
        Do.java
        Expression.java
        FuncCall.java
        FuncDef.java
        Id.java
        If.java
        IfElse.java
        IntLiteral.java
        Literal.java
        Params.java
        Print.java
        Program.java
        RealLiteral.java
        Record.java
        RecordVarCall.java
        Return.java
        Statement.java
        StringLiteral.java
        Type.java
        UnaryOp.java
        While.java
        codegen
        LLVM.java
        lexer
        Lexer.java
        SyntaxErrorException.java
        Token.java
        io
        FileCharStream.java
        ICharStream.java
        StringCharStream.java
        parser
        NonTerminal.java
        ParseException.java
        ParseTable.java
        Parser.java
        Symbol.java
        Tree.java
        utils
        IOUtils.java
        ListComprehension.java
        StringUtils.java
        projectci
        LRParserMain.java
        grammar
        BNFGrammarReader.java
        BNFParsingErrorException.java
        Grammar.java
        GrammarReader.java
        NonTerminalSymbol.java
        Production.java
        Symbol.java
        TerminalSymbol.java
        gui
        ParseTableGui.java
        lrparser
        Driver.java
        LRParser.java
        LRParserException.java
        SyntaxTreeNode.java
        parseTable
        AcceptAction.java
        Action.java
        ErrorAction.java
        Goto.java
        InvalidGrammarException.java
        LALRParseTableBuilder.java
        LR0Item.java
        LR1Item.java
        LRParseTableBuilder.java
        ParseTable.java
        ParseTableBuilder.java
        ReduceAction.java
        SLRParseTableBuilder.java
        ShiftAction.java
        State.java
        test
        driver
        DriverTest.java
        DriverTestDataProvider1.java
        DriverTestDataProvider2.java
        DummyLexer.java
        grammar
        GrammarReaderTest.java
        GrammarTest.java
        parseTable
        SLRParseTableBuilderTest.java
        parser
        LRParserTest.java
        projectcii
        ParserGenerator
        src
        GrammarReader.java
        LL1Parser.java
        ParserGenerator.java
        Printer.java
        Productions.java
        Settings.java
        SyntaxTree.java
        TokenParser.java
        extern
        utils
        IOUtils.java
        StringUtils.java
  - tests
    - MainTest.java
    - de
      - fuberlin
        bii
        dfaprovider
        DirectMinimalDfaBuilderTest.java
        IndirectMinimalDfaBuilderTest.java
        MinimalDfaProviderTest.java
        lexergen
        LexergenTest.java
        parsetokdef
        LexTokDefTest.java
        ReadTokDefinitionTest.java
        regextodfaconverter
        RegexTest.java
        directconverter
        RegexToDfaTest.java
        lrparser
        ItemAutomataTest.java
        grammar
        GrammarTest.java
        Grammars.java
        itemset
        ClosureTest.java
        regex
        operatortree
        RegexOperatorTreeTest.java
        tokenmatcher
        TokenizerTest.java
        projecta
        CompilerTest.java
        Config.java
        LexerIoTest.java
        LexerTest.java
        ParseTableTest.java
        ParserTest.java
        RealWorldTest.java
        SemanticAnalysisTest.java
        SymbolTableTest.java
        TreeTest.java
        projectci
        Grammar_FIRST_FOLLOW_Test.java
        projectcii
        AllTests.java
        GrammarreaderTest.java
        ParserGeneratorTest.java

/*
 * 
 * Copyright 2012 lexergen.
 * This file is part of lexergen.
 * 
 * lexergen is free software: you can redistribute it and/or modify
 * it under the terms of the GNU General Public License as published by
 * the Free Software Foundation, either version 3 of the License, or
 * (at your option) any later version.
 * 
 * lexergen is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU General Public License for more details.
 * 
 * You should have received a copy of the GNU General Public License
 * along with lexergen.  If not, see <http://www.gnu.org/licenses/>.
 *  
 * lexergen:
 * A tool to chunk source code into tokens for further processing in a compiler chain.
 * 
 * Projectgroup: bi, bii
 * 
 * Authors: Johannes Dahlke
 * 
 * Module:  Softwareprojekt Übersetzerbau 2012 
 * 
 * Created: Apr. 2012 
 * Version: 1.0
 *
 */

package de.fuberlin.bii.tokenmatcher;

import de.fuberlin.bii.tokenmatcher.attributes.Attribute;
import de.fuberlin.bii.tokenmatcher.errorhandler.ErrorCorrector;
import de.fuberlin.bii.tokenmatcher.errorhandler.ErrorCorrectorException;
import de.fuberlin.bii.utils.Notification;
import de.fuberlin.bii.bufferedreader.LexemeReader;
import de.fuberlin.bii.bufferedreader.LexemeReaderException;
import de.fuberlin.bii.bufferedreader.SpecialChars;

/**
 * Der Tokenizer implementiert die {@link LexerToParserInterface}-Schnittstelle, über welche der Parser Token anfordern kann.
 * Auf Anforderung eines Token reagiert der Tokenizer seinerseits durch zeichenweises Anfordern der Eingabe und speist damit einen deterministischen endlichen Automaten. 
 * Akzeptiert der DEA die Eingabe, so liefert der Tokenizer den erkannten Token, anderenfalls leitet der Tokenizer eine Fehlerbahandlung nach gewählten Fehlerkorrekturmodus ein.
 * 
 * @author Johannes Dahlke
 *
 */
public class Tokenizer implements LexerToParserInterface {

	private DeterministicFiniteAutomata<Character, StatePayload> dfa;

	private LexemeReader lexemeReader;
	private ErrorCorrector errorCorrector;
	
	private int currentLine = 1;
	private int currentPositionInLine = 0;
	private int lastLine = 1;
	private int lastPositionInLine = 0; 
	
	private enum ReadMode {
		READ_NORMAL,
		READ_BLOCK_COMMENT,
    READ_LINE_COMMENT
	}
	
	private ReadMode readMode = ReadMode.READ_NORMAL;
	
	public Tokenizer( LexemeReader lexemeReader,
			DeterministicFiniteAutomata<Character, StatePayload> dfa)
			throws Exception {
		super();
		this.dfa = dfa;
		this.lexemeReader = lexemeReader;
		errorCorrector = new ErrorCorrector( ErrorCorrector.CorrectionMode.PANIC_MODE);//Settings.getErrorCorrectionMode());
	}
	
	
  public Token getNextToken() throws LexemeReaderException,
			LexemIdentificationException {
		Character currentChar;
		String currentLexem = "";
		
		dfa.resetToInitialState();

		boolean eofReached = false;
		while ( !eofReached) {
			currentChar = lexemeReader.getNextChar();
      currentPositionInLine++;
			
			// handle white spaces
			if ( currentLexem.isEmpty()
			// Nur wenn nicht bereits ein Lexem verarbeitet wird.
			// Soll ermöglichen, dass auch ein Zeichen über das Ende des zu lesenden
			// Lexem gelesen werden kann, auch wenn es ein whitespace ist.
					&& SpecialChars.isWhiteSpace( currentChar)) {

				// count newlines
				if( SpecialChars.isNewLine( currentChar)) {
				  // handle \r\n for windows systems					
					if ( currentChar == SpecialChars.CHAR_CARRIAGE_RETURN) {
						if ( lexemeReader.getNextChar() != SpecialChars.CHAR_LINE_FEED)
							lexemeReader.stepBackward( 1);     
					}	
					currentLine++;
					currentPositionInLine = 0;
				}

				// skip whitespaces
				continue;
			}

			// if we read EOF and there is no lexem left
			if ( SpecialChars.isEOF( currentChar) 
					&& currentLexem.isEmpty()) {
				// then skip
				eofReached = true;
				break;
			}
		  
			
			if ( dfa.canChangeStateByElement( currentChar)) {
				currentLexem += currentChar;
				dfa.changeStateByElement( currentChar);
				// TODO if ( dfa.getCurrentState().isFiniteState()) then remember in this possible match  (error handling aspect)
			} else if ( !currentLexem.isEmpty() 
					&& dfa.getCurrentState().isFiniteState()) {
				
				StatePayload payload = dfa.getCurrentState().getPayload();

				// Lesezeiger zurücksetzen um das, was zuviel gelesen wurde.
				// In dieser implementierung immer 1 Zeichen
				if ( currentChar != SpecialChars.CHAR_EOF)
				  lexemeReader.stepBackward( 1);

				// Token erstellen
				String tokenType = payload.getTokenType();
				Attribute attribute = payload.getAttribute();
				Object attributeValue = attribute.lexemToValue( currentLexem);

				Token recognisedToken = new Token( tokenType, attributeValue, currentLine, currentPositionInLine);

				// gelesenenes Lexem akzeptieren
				lexemeReader.accept();
				// update position counter
				lastLine = currentLine;
				lastPositionInLine = currentPositionInLine;
				
        // Fehlerbehandler rücksetzen
				errorCorrector.reset();
				
				// filter comments
				if ( ( readMode == ReadMode.READ_NORMAL) &&
						 ( Token.isTokenStartingBlockComment( recognisedToken))) {
					readMode = ReadMode.READ_BLOCK_COMMENT;
					while ( !Token.isTokenEndingBlockComment( getNextToken())){
						// ignore comment block
					}
					readMode = ReadMode.READ_NORMAL;
					return getNextToken();
				} else if ( ( readMode == ReadMode.READ_NORMAL) &&
						        ( Token.isTokenLineComment( recognisedToken))) {
					readMode = ReadMode.READ_LINE_COMMENT;
					int thisLine = currentLine;
					while ( thisLine == currentLine){
						// ignore remaining line
						recognisedToken = getNextToken();
						if ( recognisedToken.isEofToken()) {
							eofReached = true;
							break;
						}
					} 
					readMode = ReadMode.READ_NORMAL;
					return recognisedToken;
				} else
				  return recognisedToken;
				
			} else if ( readMode == ReadMode.READ_NORMAL){
				// error handling
				String mismatchMessage = "";
				try {
				  mismatchMessage = errorCorrector.handleMismatch( currentChar, lexemeReader, dfa, currentLine, currentPositionInLine);
				} catch ( ErrorCorrectorException e) {
				  // then skip
					Notification.printMismatchMessage( String.format(
							"Cannot resolve lexem '%s'. Abort lexing.", currentLexem));
					eofReached = true;
					break;
				}
				// Otherwise, the error corrector has found a solution that solve the problem. 
				// But first, we let the user know about the conflict by throwing an exception
				Notification.printMismatchMessage( mismatchMessage);
				throw new LexemIdentificationException( mismatchMessage);
		  } else {
		  	// ignore, cause we scan a comment at the moment
		  }
		}
		
		return Token.getEofToken();
	}


	public void reset() throws LexemeReaderException {
		dfa.resetToInitialState();
		lexemeReader.reopen();
	}

}