RegexCharSet.java example

Explorer

SoftwareProjekt-master
- swp-uebersetzerbau-ss12-master
  - src
    - de
      - fuberlin
        Main.java
        bii
        Lexer.java
        bufferedreader
        BufferedLexemeReader.java
        LexemeReader.java
        LexemeReaderException.java
        MemoryStreamLexemeReader.java
        SimpleLexemeReader.java
        SpecialChars.java
        dfaprovider
        DirectMinimalDfaBuilder.java
        IndirectMinimalDfaBuilder.java
        MinimalDfaBuilder.java
        MinimalDfaBuilderException.java
        MinimalDfaCharacterStatePayloadWrapper.java
        MinimalDfaCharacterStatePayloadWrapperException.java
        MinimalDfaProvider.java
        MinimalDfaProviderException.java
        lexergen
        BuilderType.java
        Lexergen.java
        Lexergenerator.java
        LexergeneratorException.java
        parser
        IToken.java
        parsetokdef
        LexTokDef.java
        ReadTokDefAbstract.java
        ReadTokDefinition.java
        TokenDefinitionException.java
        regextodfaconverter
        ConvertExecption.java
        DfaMinimizer.java
        MinimalDfa.java
        NfaToDfaConverter.java
        NotDeterministicException.java
        Regex.java
        RegexInvalidException.java
        RegexToNfaConverter.java
        directconverter
        AutomatEventHandler.java
        DirectConverterException.java
        PositionToPayloadMap.java
        lrparser
        AcceptAction.java
        Action.java
        ActionContext.java
        Goto.java
        GotoException.java
        HandlerMap.java
        ItemAutomat.java
        ItemAutomatException.java
        ItemAutomatInterior.java
        Lr0ItemAutomat.java
        Lr1ItemAutomat.java
        ReduceAction.java
        ReduceEventHandler.java
        ReduceException.java
        ShiftAction.java
        ShiftEventHandler.java
        ShiftException.java
        Slr1ItemAutomat.java
        grammar
        ContextFreeGrammar.java
        EmptyString.java
        Grammar.java
        Nonterminal.java
        ProductionMap.java
        ProductionRule.java
        ProductionSet.java
        RuleElement.java
        RuleElementArray.java
        RuleElementSequenz.java
        Symbol.java
        Terminal.java
        TerminalSet.java
        Terminator.java
        itemset
        Closure.java
        Item.java
        ItemSet.java
        Lr0Closure.java
        Lr0Item.java
        Lr0ItemSet.java
        Lr1Closure.java
        Lr1Item.java
        Lr1ItemSet.java
        regex
        RegexCharSet.java
        RegexSection.java
        RegexToDfaConverter.java
        RegexToPayloadMap.java
        operatortree
        AttributizedOperatorTree.java
        OperatorNode.java
        OperatorTreeAttributor.java
        OperatorTreeException.java
        OperatorType.java
        RegexOperatorTree.java
        RegularExpressionElement.java
        RepetitionRange.java
        TerminalNode.java
        syntaxtree
        AbstractSyntaxTree.java
        AttributesMap.java
        ConcreteSyntaxTree.java
        PrintHandler.java
        SemanticRule.java
        SemanticRules.java
        SyntaxDirectedDefinition.java
        SyntaxTreeException.java
        Tree.java
        TreeIterator.java
        TreeNodesAttributesMap.java
        node
        BinaryInnerNode.java
        InnerNode.java
        Leaf.java
        NewNodeEventHandler.java
        NumberedTreeNode.java
        ScalableInnerNode.java
        TreeNode.java
        TreeNodeCollection.java
        TreeNodeSet.java
        fsm
        FiniteStateMachine.java
        State.java
        StatePayload.java
        Transition.java
        excpetions
        NullStateException.java
        StateNotReachableException.java
        tokenmatcher
        DeterministicFiniteAutomata.java
        LexemIdentificationException.java
        LexerToParserInterface.java
        State.java
        StatePayload.java
        Token.java
        TokenAttributor.java
        TokenType.java
        Tokenizer.java
        attributes
        Attribute.java
        BoolAttribute.java
        DoubleAttribute.java
        GenericAttribute.java
        GenericParseAttribute.java
        IntAttribute.java
        ParseBoolAttribute.java
        ParseDoubleAttribute.java
        ParseFloatAttribute.java
        ParseIntAttribute.java
        ParseStringAttribute.java
        StringAttribute.java
        errorhandler
        ErrorCorrector.java
        ErrorCorrectorException.java
        fsm
        FiniteStateMachine.java
        State.java
        Symbol.java
        TransitionTable.java
        utils
        ApplicationArgument.java
        ApplicationArgumentProcessor.java
        IRule.java
        InvalidArgumentException.java
        Notification.java
        Rule.java
        Sets.java
        StrUtils.java
        Test.java
        TriState.java
        commons
        DragonCompiler.java
        lexer
        ILexer.java
        IToken.java
        TokenType.java
        parser
        IParser.java
        ISymbol.java
        ISyntaxTree.java
        ParserSyntaxException.java
        StringSymbol.java
        util
        EasyComparableObject.java
        LogFactory.java
        optimierung
        ILLVM_Optimization.java
        LLVM_Block.java
        LLVM_Function.java
        LLVM_Operation.java
        LLVM_Optimization.java
        LLVM_OptimizationException.java
        LLVM_Parameter.java
        LLVM_ParameterType.java
        LLVM_RegisterMap.java
        commands
        LLVM_AllocaCommand.java
        LLVM_BinaryCommand.java
        LLVM_BranchCommand.java
        LLVM_CallCommand.java
        LLVM_Comment.java
        LLVM_GenericCommand.java
        LLVM_GetElementPtrCommand.java
        LLVM_InsertExtractValueCommand.java
        LLVM_LoadCommand.java
        LLVM_ReturnCommand.java
        LLVM_StoreCommand.java
        LLVM_XcmpCommand.java
        projectF
        CodeGenerator
        Assembler.java
        CodeGenerator.java
        Debuginfo.java
        FileLexer.java
        GNUAssembler.java
        GUI.java
        IntelAssembler.java
        Lexer.java
        MemoryContext.java
        MemoryManager.java
        StringLexer.java
        Translator.java
        model
        Address.java
        Array.java
        ArrayPointer.java
        MMXRegisterAddress.java
        Record.java
        RecordPointer.java
        Reference.java
        RegisterAddress.java
        StackAddress.java
        Token.java
        TokenType.java
        Variable.java
        VariableOld.java
        projecta
        CompilerMain.java
        FrontendMain.java
        LexerMain.java
        ParserMain.java
        analysis
        BasicTokenType.java
        DebuggingHelper.java
        EntryType.java
        SemanticAnalyzer.java
        SemanticException.java
        SymbolTable.java
        SymbolTableHelper.java
        SymbolTableStack.java
        TypeChecker.java
        ast
        AbstractSyntaxTree.java
        Args.java
        Array.java
        ArrayCall.java
        BasicType.java
        BinaryOp.java
        Block.java
        BoolLiteral.java
        Break.java
        Declaration.java
        Do.java
        Expression.java
        FuncCall.java
        FuncDef.java
        Id.java
        If.java
        IfElse.java
        IntLiteral.java
        Literal.java
        Params.java
        Print.java
        Program.java
        RealLiteral.java
        Record.java
        RecordVarCall.java
        Return.java
        Statement.java
        StringLiteral.java
        Type.java
        UnaryOp.java
        While.java
        codegen
        LLVM.java
        lexer
        Lexer.java
        SyntaxErrorException.java
        Token.java
        io
        FileCharStream.java
        ICharStream.java
        StringCharStream.java
        parser
        NonTerminal.java
        ParseException.java
        ParseTable.java
        Parser.java
        Symbol.java
        Tree.java
        utils
        IOUtils.java
        ListComprehension.java
        StringUtils.java
        projectci
        LRParserMain.java
        grammar
        BNFGrammarReader.java
        BNFParsingErrorException.java
        Grammar.java
        GrammarReader.java
        NonTerminalSymbol.java
        Production.java
        Symbol.java
        TerminalSymbol.java
        gui
        ParseTableGui.java
        lrparser
        Driver.java
        LRParser.java
        LRParserException.java
        SyntaxTreeNode.java
        parseTable
        AcceptAction.java
        Action.java
        ErrorAction.java
        Goto.java
        InvalidGrammarException.java
        LALRParseTableBuilder.java
        LR0Item.java
        LR1Item.java
        LRParseTableBuilder.java
        ParseTable.java
        ParseTableBuilder.java
        ReduceAction.java
        SLRParseTableBuilder.java
        ShiftAction.java
        State.java
        test
        driver
        DriverTest.java
        DriverTestDataProvider1.java
        DriverTestDataProvider2.java
        DummyLexer.java
        grammar
        GrammarReaderTest.java
        GrammarTest.java
        parseTable
        SLRParseTableBuilderTest.java
        parser
        LRParserTest.java
        projectcii
        ParserGenerator
        src
        GrammarReader.java
        LL1Parser.java
        ParserGenerator.java
        Printer.java
        Productions.java
        Settings.java
        SyntaxTree.java
        TokenParser.java
        extern
        utils
        IOUtils.java
        StringUtils.java
  - tests
    - MainTest.java
    - de
      - fuberlin
        bii
        dfaprovider
        DirectMinimalDfaBuilderTest.java
        IndirectMinimalDfaBuilderTest.java
        MinimalDfaProviderTest.java
        lexergen
        LexergenTest.java
        parsetokdef
        LexTokDefTest.java
        ReadTokDefinitionTest.java
        regextodfaconverter
        RegexTest.java
        directconverter
        RegexToDfaTest.java
        lrparser
        ItemAutomataTest.java
        grammar
        GrammarTest.java
        Grammars.java
        itemset
        ClosureTest.java
        regex
        operatortree
        RegexOperatorTreeTest.java
        tokenmatcher
        TokenizerTest.java
        projecta
        CompilerTest.java
        Config.java
        LexerIoTest.java
        LexerTest.java
        ParseTableTest.java
        ParserTest.java
        RealWorldTest.java
        SemanticAnalysisTest.java
        SymbolTableTest.java
        TreeTest.java
        projectci
        Grammar_FIRST_FOLLOW_Test.java
        projectcii
        AllTests.java
        GrammarreaderTest.java
        ParserGeneratorTest.java

/*
 * 
 * Copyright 2012 lexergen.
 * This file is part of lexergen.
 * 
 * lexergen is free software: you can redistribute it and/or modify
 * it under the terms of the GNU General Public License as published by
 * the Free Software Foundation, either version 3 of the License, or
 * (at your option) any later version.
 * 
 * lexergen is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU General Public License for more details.
 * 
 * You should have received a copy of the GNU General Public License
 * along with lexergen.  If not, see <http://www.gnu.org/licenses/>.
 *  
 * lexergen:
 * A tool to chunk source code into tokens for further processing in a compiler chain.
 * 
 * Projectgroup: bi, bii
 * 
 * Authors: Johannes Dahlke
 * 
 * Module:  Softwareprojekt Übersetzerbau 2012 
 * 
 * Created: Apr. 2012 
 * Version: 1.0
 *
 */

package de.fuberlin.bii.regextodfaconverter.directconverter.regex;

import java.util.ArrayList;
import java.util.List;

import de.fuberlin.bii.regextodfaconverter.Regex;
import de.fuberlin.bii.regextodfaconverter.directconverter.lrparser.grammar.Terminal;
import de.fuberlin.bii.regextodfaconverter.directconverter.regex.operatortree.RegularExpressionElement;
import de.fuberlin.bii.utils.TriState;


/**
 * Zeichensatz für reguläre Ausdrücke.
 * 
 * @author Johannes Dahlke
 *
 */
public class RegexCharSet {

	/**
	 * Aternative
	 */
	public static final char REGEX_ALTERNATIVE = '|';
	
	/**
	 * Ziechen zum Maskieren von Sonderzeichen.
	 */
	public static final char REGEX_MASK = '\\';
	
	/**
	 * Kennzeichnet den Beginn einer Zeichenklasse.
	 */
	public static final char REGEX_CLASS_BEGIN = '[';
	
	/**
	 * Kennzeichnet das Ende einer Zeichenklasse.
	 */
  public static final char REGEX_CLASS_END = ']';
	
	/**
	 * Kennzeichnet den Beginn einer Wiederholung.
	 */
  public static final char REGEX_REPETITION_BEGIN = '{';

  /**
	 * Kennzeichnet das Ende einer Wiederholung.
	 */
	public static final char REGEX_REPETITION_END = '}';

	/**
	 * Kennzeichnet den Beginn einer Gruppe.
	 */
  public static final char REGEX_GROUP_BEGIN = '(';
	
	/**
	 * Kennzeichnet das Ende einer Gruppe.
	 */
  public static final char REGEX_GROUP_END = ')';
	
	/**
	 * Kleenesche Hülle.
	 */
  public static final char REGEX_KLEENE_CLOSURE = '*';
	
  /**
   * Positive Hülle.
   */
  public static final char REGEX_POSITIVE_CLOSURE = '+';
	
  /**
   * Optionales Vorkommen des davor stehenden Zeichens.
   */
  public static final char REGEX_OPTION = '?';
	
  /**
   * Ein beliebiges Zeichen.
   */
  public static final char REGEX_JOKER = '.';
	
  /**
   * Anfangsmarker.
   */
  public static final char REGEX_START_MARKER = '^';
	
  /**
   * Negation einer Zeichenklasse.
   */
  public static final char REGEX_CLASS_SIGNUM = '^';
	
  /**
   * Endmarker.
   */
  public static final char REGEX_END_MARKER = '$';
	
  /**
   * Zum Notieren eines Wertebereichs innerhalb einer Zeichenklasse. 
   *    
   */
  public static final char REGEX_RANGE = '-';
  
  /**
   * Treener für die Angabe von Wiederholungen.
   */
	public static final char REGEX_QUANTIFIER_SEPARATOR = ',';
	

	/**
	 * Das leere Wort.
	 */
	public static final char EMPTY_STRING = 0x00;
	
	/**
	 * Das Ende der Eingabe.
	 */
	public static final char TERMINATOR = 0x03; // ETX = End Of Text

	
	/**
	 * Definiert das erste Zeichen des Alphabets aus dem ASCII Zeichensatz.	
	 * 
	 *  Zeichen 0x00 - 0x03 sind geschützt.
	 */
	private static char FIRST_ASCII_CHAR = 0x04; 

	/**
	 * Definiert das letzte Zeichen des Alphabets aus dem ASCII Zeichensatz.
	 */
	private static char LAST_ASCII_CHAR = 0xFF;

	
	/**
	 * Liefert das Zeichen mit dem niedrigsten Ordinalwert 
	 * aus der Menge der für reguläre Ausdrücke zugelassenen Zeichen. 
	 * 
	 * @return das niederwertigste zulässige Zeichen.
	 */
	public static char getFirstAsciiChar() {
		return FIRST_ASCII_CHAR;
	}
	
	/**
	 * Liefert das Zeichen mit dem höchsten Ordinalwert 
	 * aus der Menge der für reguläre Ausdrücke zugelassenen Zeichen. 
	 * 
	 * @return das höchstwertigste zulässige Zeichen.
	 */
	public static char getLastAsciiChar() {
		return LAST_ASCII_CHAR;
	}
	
	/**
	 * Liefert den gesamten Wertebereich.
	 * @return
	 */
	public static List<Character> getCompleteDomain() {
		List<Character> result = new ArrayList<Character>();
		for ( int c = getFirstAsciiChar(); c <= getLastAsciiChar(); c++) {
			result.add( (char) c);
		}
		return result;
	}
	
	/**
	 * Liefert eine Liste der Metazeichen in Abhängigkeit des Kontext.
	 * @param context
	 * @return
	 */
	public static List<Character> getMetaCharsOfContext( RegexSection context) {
		List<Character> result = new ArrayList<Character>();
		for ( int c = getFirstAsciiChar(); c <= getLastAsciiChar(); c++) {
			if ( isSpecialChar( (char) c, context).isntFalse())
			  result.add( (char) c);
		}
		return result;
	}
	
	/**
	 * Liefert eine Liste der Ungeschützten Zeichen bezüglich des angegebenen Kontextes.
	 * @param context
	 * @return
	 */
	public static List<Character> getUnguardedCharsOfContext( RegexSection context) {
		List<Character> result = new ArrayList<Character>();
		for ( int c = getFirstAsciiChar(); c <= getLastAsciiChar(); c++) {
			if ( isSpecialChar( (char) c, context).isFalse())
			  result.add( (char) c);
		}
		return result;
	}
	
	
	/**
	 * Prüft, ob ein Zeichen ein Zeichen mit besonderer Bedeutung bezüglich regulärer Ausdrücke ist.
	 * @param theCharacter
	 * @return
	 */
	public static TriState isSpecialChar( char theCharacter, RegexSection context) {
		switch ( theCharacter) {
			case REGEX_MASK: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.TRUE);
			case REGEX_GROUP_BEGIN: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_GROUP_END: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_CLASS_BEGIN: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_CLASS_END: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.TRUE);
			case REGEX_ALTERNATIVE: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_REPETITION_BEGIN: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_REPETITION_END: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_KLEENE_CLOSURE: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_POSITIVE_CLOSURE: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_OPTION: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_JOKER: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			//case REGEX_CLASS_SIGNUM: 
			case REGEX_START_MARKER: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.AMBIGUOUS);
			case REGEX_END_MARKER: return defineAndGetStateByContext( context, TriState.TRUE, TriState.FALSE, TriState.FALSE);
			case REGEX_RANGE: return defineAndGetStateByContext( context, TriState.FALSE, TriState.FALSE, TriState.AMBIGUOUS);
			default:
				return defineAndGetStateByContext( context, TriState.FALSE, TriState.FALSE, TriState.FALSE);
		}
	}
		
	private static TriState defineAndGetStateByContext( RegexSection context, TriState stateOfMainContext, TriState stateOfQuantifierContext, TriState stateOfClassContext) {
		if ( context == RegexSection.MAIN)
			return stateOfMainContext;
		if ( context == RegexSection.QUANTIFIER)
			return stateOfQuantifierContext;
		// default case
		// if ( context == RegexSection.CHARACTER_CLASS)
			return stateOfClassContext;
	}
	
	/**
	 * Gibt an, ob es sich bei dem gegebenen Zeichen um ein Sonderzeichen bezüglich des {@link RegexSection#MAIN} Kontextes handelt.
	 * @param theCharacter
	 * @return
	 */
  public static TriState isSpecialChar( char theCharacter) {
	  return isSpecialChar( theCharacter, RegexSection.MAIN);	
	}
	
	
	/**
	 * Ermittelt, ob ein Zeichen zu dem grundlegenden Regex Zeichensatz gehört.
	 * @param theCharacter
	 * @return
	 */
	public static boolean isElementOfBasicCharset( char theCharacter) {
		switch ( theCharacter) {
			case REGEX_MASK:
			case REGEX_ALTERNATIVE:
			case REGEX_KLEENE_CLOSURE:
				return true;
			default:
				return false;
		}
	}
	
	/**
	 * Prüft, ob es sich um einen Regex-Operator der nicht erweiterten regulären Ausdrücke handelt.
	 * @param theChar
	 * @return
	 */
	public static boolean isBasicOperator( char theChar) {
		switch ( theChar) {
			case REGEX_ALTERNATIVE:
			case REGEX_KLEENE_CLOSURE:
				return true;
			default:
				return false;
		}
	}



	/**
	 * Prüft, ob es sich um ein leeres Wort handelt.
	 * @param theCharacter
	 * @return
	 */
	public static boolean isEmptyString( char theCharacter) {
		return EMPTY_STRING == theCharacter;
	}

}