ADFeaturizerSampleStream.java example

Explorer

cogroo4-master
- cogroo-ann
  - src
    - main
      - java
        org
        cogroo
        CLI.java
        analyzer
        Analyzer.java
        Chunker.java
        ComponentFactory.java
        ComponentFactoryI.java
        ContractionFinder.java
        Featurizer.java
        HeadFinder.java
        InitializationException.java
        Lemmatizer.java
        NameFinder.java
        POSTagger.java
        Pipe.java
        SentenceDetector.java
        ShallowParser.java
        Tokenizer.java
        config
        LanguageConfigurationUtil.java
        text
        AdditionalContext.java
        Chunk.java
        Document.java
        Sentence.java
        SyntacticChunk.java
        Token.java
        impl
        ChunkImpl.java
        DocumentImpl.java
        SentenceImpl.java
        SyntacticChunkImpl.java
        TokenImpl.java
        tree
        Leaf.java
        Node.java
        TreeElement.java
        TreeUtil.java
        util
        EntityUtils.java
        TextUtils.java
    - test
      - java
        org
        cogroo
        analyzer
        ContractionFinderTest.java
        NameFinderTest.java
        POSTaggerTest.java
        PipeTest.java
        SentenceDetectorTest.java
        TokenizerTest.java
- cogroo-eval
  - BaselineCogrooAE
    - src
      - main
        java
        cogroo
        CGTagTest.java
        ExpandedSentence.java
        MultiChunker.java
        MultiCogroo.java
        MultiCogrooHtml.java
        MultiCogrooSettings.java
        MultiPOSTagger.java
        MultiPretagger.java
        MultiSentenceDetector.java
        MultiShallowParser.java
        MultiTokenizer.java
        PostPOSTagger.java
        ProcessReport.java
        uima
        ae
        AnnotationService.java
        AnnotationServiceException.java
        BaselineCogrooAE.java
        UimaChunker.java
        UimaChunkerHeadFinder.java
        UimaContraction.java
        UimaFeaturizer.java
        UimaMultiWordExp.java
        UimaPOSTagger.java
        UimaSentenceDetector.java
        UimaShallowParser.java
        UimaTokenizer.java
        interpreters
        FlorestaTagInterpreter.java
        util
        EntityUtils.java
        TypedSpan.java
      - test
        java
        cogroo
        PostPOSTaggerTest.java
        uima
        interpreters
        FlorestaTagInterpreterTest.java
        uima
        ResultsTest.java
  - Cogroo3AE
    - src
      - main
        java
        cogroo
        ExpandedSentence.java
        uima
        ae
        AnnotationService.java
        AnnotationServiceException.java
        Cogroo3AE.java
  - GramEval
    - src
      - main
        java
        cogroo
        uima
        FakeAE.java
        Pair.java
        SimpleRunCPE.java
        XmiWriterCasConsumer.java
        eval
        Error.java
        GrammarCheckerEvaluator.java
        HtmlWriter.java
        RuleGroups.java
        Stats.java
        readers
        ADCollectionReader.java
        MultiReader.java
        Reader.java
        entities
        Paragraph.java
        SentenceEx.java
        Text.java
        probi
        ProbiCollectionReader.java
        ProbiEntry.java
        ProbiParser.java
  - NewTagsetBaselineCogrooAE
    - src
      - main
        java
        cogroo
        CGTagTest.java
        MultiCogrooSettings.java
        ProcessReport.java
        uima
        ae
        NewTagsetBaselineCogrooAE.java
  - TypeSystem
    - src
      - main
        java
        cogroo
        uima
        GoldenGrammarError.java
        GoldenGrammarError_Type.java
        GoldenParagraph.java
        GoldenParagraph_Type.java
        GoldenSentence.java
        GoldenSentence_Type.java
        GrammarError.java
        GrammarError_Type.java
        ae
        Categories.java
  - UIMAAutomation
    - src
      - main
        java
        uima
        Installer.java
        SimpleRunCPE.java
  - UIMAWrappers
    - UIMAFeaturizer
      - src
        main
        java
        opennlp
        uima
        featurizer
        Featurizer.java
        FeaturizerModelResource.java
        FeaturizerModelResourceImpl.java
    - UIMAPosTagger
      - src
        main
        java
        opennlp
        uima
        postag
        POSTaggerWithAdditionalContext.java
- cogroo-gc
  - src
    - main
      - java
        opennlp
        tools
        postag
        MyPOSDictionary.java
        org
        cogroo
        checker
        Categories.java
        CheckAnalyzer.java
        CheckDocument.java
        GrammarChecker.java
        entities
        Chunk.java
        HeadedSpan.java
        LexemeTypes.java
        Mistake.java
        Sentence.java
        SyntacticChunk.java
        Tag.java
        Token.java
        TokenGroup.java
        impl
        ChunkCogroo.java
        ChunkTag.java
        MistakeImpl.java
        MorphologicalTag.java
        SentenceCogroo.java
        SyntacticTag.java
        TokenCogroo.java
        tree
        Leaf.java
        Node.java
        OldStyleModel.java
        TextModel.java
        TreeElement.java
        errorreport
        ErrorReportAccess.java
        gc
        cmdline
        CLI.java
        EndUserCLI.java
        dictionary
        POSDictionaryBuilderParams.java
        POSDictionaryBuilderTool.java
        TabSeparatedPOSDictionaryBuilderTool.java
        grammarchecker
        ExamplesTool.java
        GrammarCheckerTool.java
        LanguageCountryParams.java
        TextAnalyzerTool.java
        XMLRulesReportTool.java
        interpreters
        FlorestaTagInterpreter.java
        JspellTagInterpreter.java
        TagInterpreter.java
        tools
        checker
        AbstractChecker.java
        AbstractGenericChecker.java
        AbstractTypedChecker.java
        Checker.java
        CheckerComposite.java
        GenericChecker.java
        GenericCheckerComposite.java
        JavaRuleDefinition.java
        Merger.java
        RuleDefinition.java
        RuleType.java
        SentenceAdapter.java
        TypedChecker.java
        TypedCheckerComposite.java
        checkers
        GovernmentChecker.java
        ParonymChecker.java
        PunctuationChecker.java
        RepetitionChecker.java
        SpaceChecker.java
        rules
        CogrooHtml.java
        applier
        AcceptState.java
        NullSyntacticChunk.java
        NullToken.java
        RulesAccess.java
        RulesApplier.java
        RulesProvider.java
        RulesTree.java
        RulesTrees.java
        RulesTreesAccess.java
        RulesTreesBuilder.java
        RulesTreesFromScratchAccess.java
        RulesTreesProvider.java
        RulesTreesSerializedAccess.java
        RulesXmlAccess.java
        State.java
        SuggestionBuilder.java
        XMLRuleDefinition.java
        dictionary
        CogrooTagDictionary.java
        FSALexicalDictionary.java
        LexicalDictionary.java
        TagDictionary.java
        exception
        RulesException.java
        paronym
        ParonymList.java
        util
        EqualsUtils.java
        MistakeComparator.java
        RuleUtils.java
        RulesProperties.java
        RulesTreesPrinter.java
        RulesTreesSerializer.java
        TagMaskUtils.java
        validator
        Rule124Validator.java
        RulePostValidator.java
        RulePostValidatorProvider.java
        RuleValidatorUtil.java
        verbs
        Prep.java
        VerbPlusPreps.java
        Verbs.java
    - test
      - java
        org
        cogroo
        errorreport
        ErrorReportAccessTest.java
        interpreters
        FlorestaTagInterpreterTest.java
        JspellTagInterpreterTest.java
        tools
        checker
        checkers
        PunctuationCheckerTest.java
        RepetitionCheckerTest.java
        SpaceCheckerTest.java
        WordCombinationCheckerTest.java
        rules
        applier
        RulesXmlAccessTest.java
        util
        MistakeComparatorTest.java
        TagMaskUtilsTest.java
- cogroo-nlp
  - src
    - main
      - java
        opennlp
        tools
        formats
        ad
        SentenceTest.java
        postag
        ExtendedPOSDictionary.java
        ExtendedTagDictionary.java
        Triple.java
        org
        cogroo
        ContractionUtility.java
        LanguageLoader.java
        RuntimeLanguageLoader.java
        TagTest.java
        cmdline
        CLI.java
        chunker2
        ChunkEvaluationErrorListener.java
        Chunker2ConverterTool.java
        Chunker2CrossValidatorTool.java
        Chunker2EvaluatorTool.java
        Chunker2Tool.java
        Chunker2TrainerTool.java
        ChunkerDetailedFMeasureListener.java
        ChunkerDetailedFMeasureSizeListener.java
        ChunkerModelLoader.java
        DetailedFMeasureForSizeListener.java
        TrainingParams.java
        dictionary
        AbbreviationDictionaryBuilderParams.java
        AbbreviationDictionaryBuilderTool.java
        featurizer
        CriaListaDeFeatures.java
        FeaturizerConverterTool.java
        FeaturizerCrossValidatorTool.java
        FeaturizerEvaluationErrorListener.java
        FeaturizerEvaluatorTool.java
        FeaturizerMETool.java
        FeaturizerModelLoader.java
        FeaturizerTrainerTool.java
        TrainingParams.java
        dictionary
        FeatureDictionary.java
        LemmaDictionary.java
        impl
        FSADictionary.java
        FSAFeatureDictionary.java
        FSASynthDictionary.java
        exceptions
        CogrooException.java
        CogrooRuntimeException.java
        CommunityExceptionMessages.java
        ExceptionMessages.java
        InternationalizedException.java
        InternationalizedRuntimeException.java
        formats
        FeatureSampleStreamFactory.java
        ad
        ADChunk2SampleStream.java
        ADChunkBasedHeadFinderSampleStream.java
        ADChunkBasedHeadFinderSampleStreamFactory.java
        ADChunkBasedShallowParserSampleStream.java
        ADChunkBasedShallowParserSampleStreamFactory.java
        ADChunkSampleStreamFactory.java
        ADContractionNameSampleStream.java
        ADContractionNameSampleStreamFactory.java
        ADExPOSSampleStream.java
        ADExPOSSampleStreamFactory.java
        ADExpNameSampleStream.java
        ADExpNameSampleStreamFactory.java
        ADFeatureSampleStreamFactory.java
        ADFeaturizerSampleStream.java
        tools
        chunker2
        ChunkSample.java
        ChunkSampleSequenceStream.java
        ChunkSampleStream.java
        Chunker.java
        ChunkerContextGenerator.java
        ChunkerCrossValidator.java
        ChunkerEvaluationMonitor.java
        ChunkerEvaluator.java
        ChunkerEventStream.java
        ChunkerFactory.java
        ChunkerME.java
        ChunkerModel.java
        DefaultChunkerContextGenerator.java
        DefaultChunkerSequenceValidator.java
        TokenTag.java
        package-info.java
        featurizer
        DefaultFeaturizerContextGenerator.java
        DefaultFeaturizerFactory.java
        DefaultFeaturizerSequenceValidator.java
        FSAFeaturizerFactory.java
        FeatureSample.java
        FeatureSampleStream.java
        Featurizer.java
        FeaturizerContextGenerator.java
        FeaturizerCrossValidator.java
        FeaturizerEvaluationMonitor.java
        FeaturizerEvaluator.java
        FeaturizerEventStream.java
        FeaturizerFactory.java
        FeaturizerME.java
        FeaturizerModel.java
        WordTag.java
        package-info.java
        headfinder
        HeadFinderContextGenerator.java
        HeadFinderFactory.java
        HeadFinderSequenceValidator.java
        postag
        ExtDictFSAPortugueseFactory.java
        FSAPortugueseFactory.java
        GenderUtil.java
        PortugueseExFactory.java
        PortugueseExtPOSContextGenerator.java
        PortugueseFactory.java
        PortuguesePOSContextGenerator.java
        PortuguesePOSSequenceValidator.java
        sentdetect
        PortuguesSentenceDetectorFactory.java
        PortugueseSDContextGenerator.java
        shallowparser
        ShallowParserContextGenerator.java
        ShallowParserFactory.java
        ShallowParserSequenceValidator.java
        tokenizer
        PortugueseTokenContextGenerator.java
        PortugueseTokenizerFactory.java
        util
        ByteArrayUtil.java
        CacheWrapper.java
        Closeables.java
        FileUtils.java
        PairWordPOSTag.java
        ResourcesUtil.java
        StringsUtil.java
        ToStringHelper.java
        serializers
        ByteArraySerializer.java
    - test
      - java
        org
        cogroo
        formats
        ad
        ADChunkBasedShallowParserSampleStreamTest.java
        ADContractionNameSampleStreamTest.java
        ADExpNameSampleStreamTest.java
        tools
        ResourceAsStreamFactory.java
        featurizer
        DefaultFeaturizerSequenceValidatorTest.java
        namefinder
        DictionaryNameFinderTest.java
        postag
        PortuguesePOSSequenceValidatorTest.java
- cogroo-ruta
  - src
    - main
      - java
        org
        cogroo
        ruta
        checker
        UIMAChecker.java
        tools
        RuleParser.java
        uima
        AEFactory.java
        AnnotatorUtil.java
        CoGrOOUIMA.java
        ExceptionMessages.java
        ExtractExamples.java
        OpenNlpAnnotatorProcessException.java
        Runtime.java
        UimaCasAdapter.java
- cogroo-uima
  - src
    - main
      - java
        org
        cogroo
        uima
        CoGrOOUIMA.java
        util
        AnnotatorUtil.java
        ExceptionMessages.java
        ExtractExamples.java
        OpenNlpAnnotatorProcessException.java
- lang
  - pt_br
    - cogroo-addon
      - src
        org
        cogroo
        addon
        CentralRegistrationClass.java
        CogrooException.java
        CogrooExceptionMessages.java
        CogrooRuntimeException.java
        CogrooSingleton.java
        GCUtil.java
        InternationalizedException.java
        InternationalizedRuntimeException.java
        LoggerImpl.java
        Main.java
        Resources.java
        SingletonFactory.java
        addon
        AbstractAddOn.java
        conf
        AddOnConfiguration.java
        DefaultConfiguration.java
        contextmenu
        ContextMenuInterceptor.java
        community
        CommunityLogic.java
        dialogs
        MessageBox.java
        about
        About.java
        AboutThread.java
        reporterror
        DialogBuilder.java
        ErrorReportDialog.java
        ErrorReportDialogThread.java
        Login.java
        ReportError.java
        WizardDialog.java
        i18n
        I18nLabelsLoader.java
        util
        RestConnectionException.java
        RestUtil.java
        SecurityUtil.java
        SelectedTextExtractor.java
        Utf8ResourceBundle.java
    - cogroo-ann
      - src
        test
        java
        org
        cogroo
        dictionary
        impl
        FSADictionaryTest.java
    - cogroo-gc
      - src
        test
        java
        org
        cogroo
        tools
        checker
        checkers
        GovernmentCheckerTest.java
    - cogroo-ruta
      - src
        test
        java
        org
        cogroo
        tools
        checker
        checkers
        uima
        UIMACheckerRulesTest.java
        UimaCasAdapterTest.java

/**
 * Copyright (C) 2012 cogroo <cogroo@cogroo.org>
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *         http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.cogroo.formats.ad;

import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;
import java.util.StringTokenizer;

import org.cogroo.tools.featurizer.FeatureSample;

import opennlp.tools.formats.ad.ADSentenceStream;
import opennlp.tools.formats.ad.ADSentenceStream.Sentence;
import opennlp.tools.formats.ad.ADSentenceStream.SentenceParser.Leaf;
import opennlp.tools.formats.ad.ADSentenceStream.SentenceParser.Node;
import opennlp.tools.formats.ad.ADSentenceStream.SentenceParser.TreeElement;
import opennlp.tools.namefind.NameSample;
import opennlp.tools.util.InputStreamFactory;
import opennlp.tools.util.ObjectStream;
import opennlp.tools.util.PlainTextByLineStream;

/**
 * Parser for Floresta Sita(c)tica Arvores Deitadas corpus, output to for the
 * Portuguese Featurizer training.
 * <p>
 * Data can be found on this web site:<br>
 * http://www.linguateca.pt/floresta/corpus.html
 * <p>
 * Information about the format:<br>
 * Susana Afonso.
 * "Árvores deitadas: Descrição do formato e das opções de análise na Floresta Sintáctica"
 * .<br>
 * 12 de Fevereiro de 2006.
 * http://www.linguateca.pt/documentos/Afonso2006ArvoresDeitadas.pdf
 * <p>
 * Detailed info about the NER tagset:
 * http://beta.visl.sdu.dk/visl/pt/info/portsymbol.html#semtags_names
 * <p>
 * <b>Note:</b> Do not use this class, internal use only!
 */
public class ADFeaturizerSampleStream implements ObjectStream<FeatureSample> {

  private final ObjectStream<ADSentenceStream.Sentence> adSentenceStream;

  private int start = -1;
  private int end = -1;

  private int index = 0;

  private boolean expandME;
  
  // this is used to control changing aspas representation, some sentences we keep as original, others we change to " 
  private int callsCount = 0;

  /**
   * Creates a new {@link NameSample} stream from a line stream, i.e.
   * {@link ObjectStream}< {@link String}>, that could be a
   * {@link PlainTextByLineStream} object.
   * 
   * @param lineStream
   *          a stream of lines as {@link String}
   */
  public ADFeaturizerSampleStream(ObjectStream<String> lineStream,
      boolean expandME) {
    this.expandME = expandME;
    this.adSentenceStream = new ADSentenceStream(lineStream);
  }

  /**
   * Creates a new {@link NameSample} stream from a {@link InputStream}
   * 
   * @param in
   *          the Corpus {@link InputStream}
   * @param charsetName
   *          the charset of the Arvores Deitadas Corpus
   */
  public ADFeaturizerSampleStream(InputStreamFactory in, String charsetName,
                                  boolean expandME)  throws IOException {

    try {
      this.expandME = expandME;
      this.adSentenceStream = new ADSentenceStream(new PlainTextByLineStream(
          in, charsetName));
    } catch (UnsupportedEncodingException e) {
      // UTF-8 is available on all JVMs, will never happen
      throw new IllegalStateException(e);
    }
  }

  public FeatureSample read() throws IOException {

    callsCount++;
    Sentence paragraph;
    while ((paragraph = this.adSentenceStream.read()) != null) {

      if (end > -1 && index >= end) {
        // leave
        return null;
      }

      if (start > -1 && index < start) {
        index++;
        // skip this one
      } else {
        Node root = paragraph.getRoot();
        List<String> sentence = new ArrayList<String>();
        List<String> lemma = new ArrayList<String>();
        List<String> tags = new ArrayList<String>();
        List<String> target = new ArrayList<String>();

        processRoot(root, sentence, lemma, tags, target);

        if (sentence.size() > 0) {
          index++;
          return new FeatureSample(sentence, lemma, tags, target);
        }

      }

    }
    return null;
  }

  private void processRoot(Node root, List<String> sentence,List<String> lemmas, List<String> tags,
      List<String> target) {
    if (root != null) {
      TreeElement[] elements = root.getElements();
      for (int i = 0; i < elements.length; i++) {
        if (elements[i].isLeaf()) {
          processLeaf((Leaf) elements[i], false, "O", sentence, lemmas, tags, target);
        } else {
          processNode((Node) elements[i], sentence, lemmas, tags, target, null);
        }
      }
    }
  }

  private void processNode(Node node, List<String> sentence, List<String> lemmas, List<String> tags,
      List<String> target, String inheritedTag) {
    String phraseTag = getChunkTag(node.getSyntacticTag());

    boolean inherited = false;
    if (phraseTag.equals("O") && inheritedTag != null) {
      phraseTag = inheritedTag;
      inherited = true;
    }

    TreeElement[] elements = node.getElements();
    for (int i = 0; i < elements.length; i++) {
      if (elements[i].isLeaf()) {
        boolean isIntermediate = false;
        if (i > 0 && elements[i - 1].isLeaf() && phraseTag != null
            && !phraseTag.equals("O")) {
          isIntermediate = true;
        }
        if (inherited && target.size() > 0
            && target.get(target.size() - 1).endsWith(phraseTag)) {
          isIntermediate = true;
        }
        processLeaf((Leaf) elements[i], isIntermediate, phraseTag, sentence, lemmas,
            tags, target);
      } else {
        processNode((Node) elements[i], sentence, lemmas, tags, target, phraseTag);
      }
    }
  }

  private void processLeaf(Leaf leaf, boolean isIntermediate, String phraseTag,
      List<String> sentence, List<String> lemmas, List<String> tags, List<String> target) {

    String featureTag;
    String lemma = leaf.getLemma();
    String lexeme = leaf.getLexeme();
    featureTag = leaf.getMorphologicalTag();
    
    // this will change half of the aspas 
    if("«".equals(lexeme) || "»".equals(lexeme)) {
      if(callsCount % 2 == 0) {
        lexeme = "\"";
      }
    }

    if (featureTag == null) {
      featureTag = "-";
    } else {
      featureTag = featureTag.replace(" ", "=");
    }

    String postag;

    if (leaf.getSyntacticTag() == null) {
      postag = lexeme;
      lemma =  lexeme;
    } else {
      postag = ADFeaturizerSampleStream.convertFuncTag(leaf.getFunctionalTag());
    }

    if(postag == null) {
      return;
    }
    
    if (expandME && lexeme.contains("_") && !"prop".equals(postag)) {
      StringTokenizer tokenizer = new StringTokenizer(lexeme, "_");

      /*
       * if(postag.startsWith("prop")) { sentence.add(tokenizer.nextToken());
       * target.add(featureTag); tags.add(postag); } else
       */if (tokenizer.countTokens() > 0) {
        List<String> toks = new ArrayList<String>(tokenizer.countTokens());
        List<String> tagsWithCont = new ArrayList<String>(
            tokenizer.countTokens());
        toks.add(tokenizer.nextToken());
        tagsWithCont.add("B-" + postag);
        target.add(featureTag);
        while (tokenizer.hasMoreTokens()) {
          toks.add(tokenizer.nextToken());
          tagsWithCont.add("I-" + postag);
          target.add(featureTag);
        }

        lemmas.addAll(toks);
        sentence.addAll(toks);
        tags.addAll(tagsWithCont);
      } else {
        sentence.add(lexeme);
        lemmas.add(lemma);
        target.add(featureTag);
        tags.add(postag);
      }
    } else {
      sentence.add(lexeme);
      lemmas.add(lemma);
      target.add(featureTag);
      tags.add(postag);
    }

  }

  private static String convertFuncTag(String t) {
    // XXX: this should be removed when using Floresta tagger !
    // if("art".equals(t) || "pron-det".equals(t) || "pron-indef".equals(t)) {
    // t = "det";
    // }
    return t;
  }

  private String getChunkTag(String tag) {

    String phraseTag = tag.substring(tag.lastIndexOf(":") + 1);

    // maybe we should use only np, vp and pp, but will keep ap and advp.
    if (phraseTag.equals("np") || phraseTag.equals("vp")
        || phraseTag.equals("pp") || phraseTag.equals("ap")
        || phraseTag.equals("advp")) {
      phraseTag = phraseTag.toUpperCase();
    } else {
      phraseTag = "O";
    }
    return phraseTag;
  }

  public void setStart(int aStart) {
    this.start = aStart;
  }

  public void setEnd(int aEnd) {
    this.end = aEnd;
  }

  public void reset() throws IOException, UnsupportedOperationException {
    adSentenceStream.reset();
  }

  public void close() throws IOException {
    adSentenceStream.close();
  }

}