TextParser.java example

Explorer

openpipe-master
- lemmatizer
  - src
    - main
      - java
        no
        trank
        openpipe
        lemmatizer
        LemmatizerStep.java
        model
        LemmaDeSerializer.java
        LemmaSuffix.java
        LemmatizeModel.java
        LemmatizeModelFactory.java
        parser
        Parser.java
        TextParser.java
        util
        TernarySearchTree.java
        TreeEntry.java
        TreeValue.java
        TreeValueFactory.java
    - test
      - java
        no
        trank
        openpipe
        lemmatizer
        model
        LemmaDeSerializerTest.java
        parser
        TextParserTest.java
        util
        TernarySearchTreeTest.java
- openpipe-core
  - src
    - main
      - java
        no
        trank
        openpipe
        MainSpring.java
        api
        BasePipelineExceptionHandler.java
        BasePipelineStep.java
        BaseSubPipeline.java
        DefaultPipelineExceptionHandler.java
        Finishable.java
        LoggingPipelineExceptionListener.java
        MultiInputFieldPipelineStep.java
        MultiInputOutputFieldPipelineStep.java
        MultiPipelineException.java
        Pipeline.java
        PipelineException.java
        PipelineExceptionHandler.java
        PipelineExceptionListener.java
        PipelineFlow.java
        PipelineFlowEnum.java
        PipelineRunner.java
        PipelineStatusCode.java
        PipelineStep.java
        PipelineStepStatus.java
        PipelineStepStatusCode.java
        SubPipeline.java
        document
        AnnotatedField.java
        Annotation.java
        BaseAnnotatedField.java
        BaseAnnotation.java
        BaseResolvedAnnotation.java
        ByteArrayRawData.java
        Document.java
        DocumentOperation.java
        DocumentProducer.java
        DomRawData.java
        FileRawData.java
        PreResolvedAnnotation.java
        RawData.java
        ResolvedAnnotation.java
        package-info.java
        package-info.java
        config
        BeanValidator.java
        annotation
        NotEmpty.java
        NotNull.java
        NullNotEmpty.java
        reader
        FileDocumentReader.java
        MultiXmlDocumentReader.java
        TextFileDocumentReader.java
        step
        AnnotateSentence.java
        AnnotateSpace.java
        AnnotationToField.java
        ChecksumFields.java
        ChopField.java
        ConvertDate.java
        CopyField.java
        Debug.java
        FieldPipelineSelector.java
        HierarchicalSplitter.java
        OperationPipelineSelector.java
        ParseXML.java
        ParseXMLXPath.java
        PipelineSelector.java
        RegexField.java
        RemoveFields.java
        SetField.java
        StripHtml.java
        Uppercase.java
        WriteXML.java
        xml
        DocumentWriter.java
        XMLStreamDocWriter.java
        util
        AcceptAllFileFilter.java
        FilesFirstComparator.java
        HexUtil.java
        IdentityHashSet.java
        Iterators.java
        QNameEditor.java
        RegexFileFilter.java
        log
        DefaultTimedLogger.java
        NoopTimedLogger.java
        TimedLogger.java
        TotalTimedLogger.java
    - test
      - java
        no
        trank
        openpipe
        api
        BaseSubPipelineTest.java
        DefaultPipelineExceptionHandlerTest.java
        PipelineTest.java
        document
        BaseAnnotatedFieldTest.java
        DocumentTest.java
        config
        BeanValidatorTest.java
        reader
        FileDocumentReaderTest.java
        MultiXmlDocumentReaderTest.java
        step
        AnnotationToFieldTest.java
        ChecksumFieldsTest.java
        ChopFieldTest.java
        ConvertDateTest.java
        HierarchicalSplitterTest.java
        OperationPipelineSelectorTest.java
        ParseXMLTest.java
        ParseXMLXPathTest.java
        RegexFieldTest.java
        SetFieldTest.java
        StripHtmlTest.java
        util
        HexUtilTest.java
        RegexFileFilterTest.java
- openpipe-jdbc
  - src
    - main
      - java
        no
        trank
        openpipe
        jdbc
        DocumentMapper.java
        HtmlJdbcStats.java
        JdbcAdmin.java
        JdbcDocumentProducer.java
        JdbcPoller.java
        JdbcStats.java
        MetaDataDocumentMapper.java
        NoopJdbcStats.java
        SimpleJdbcDocumentProducer.java
        store
        IdStateHolder.java
        StateDocumentProducer.java
        StateDocumentStep.java
        StringRowMapper.java
        TableDescription.java
    - test
      - java
        no
        trank
        openpipe
        jdbc
        SimpleJdbcDocumentProducerTest.java
        store
        StateDocumentProducerTest.java
- openpipe-lang
  - src
    - main
      - java
        no
        trank
        openpipe
        lang
        step
        LanguageIdentifier.java
    - test
      - java
        no
        trank
        openpipe
        lang
        step
        LanguageIdentifierTest.java
- openpipe-opennlp
  - src
    - main
      - java
        no
        trank
        openpipe
        opennlp
        io
        InputStreamGISModelReader.java
        step
        ONLPNEDetector.java
        ONLPSentenceDetector.java
        ONLPTokenizer.java
- openpipe-solr
  - src
    - main
      - java
        no
        trank
        openpipe
        solr
        SolrDocumentPostException.java
        SolrHttpDocumentPoster.java
        SolrXmlDocumentWriter.java
        UpdateOptions.java
        analysis
        AnnotationTokenStream.java
        Base64TokenSerializer.java
        TokenAnnotation.java
        TokenSerializer.java
        TokenStreamAnnotation.java
        step
        SolrAnalyzerStep.java
        SolrDocumentProcessor.java
        util
        TokenFilterFactoryFactory.java
        xml
        XmlInputStream.java
    - test
      - java
        no
        trank
        openpipe
        solr
        step
        SolrDocumentProcessorTest.java
        xml
        XmlInputStreamTest.java
- parse
  - src
    - main
      - java
        no
        trank
        openpipe
        parse
        api
        ParseData.java
        Parser.java
        ParserException.java
        ParserResult.java
        ParserResultImpl.java
        PipelineParseData.java
        package-info.java
        step
        DocumentParser.java
        package-info.java
- parse-misc
  - src
    - main
      - java
        no
        trank
        openpipe
        parse
        oo
        OOParser.java
        pdf
        PDFParser.java
        text
        TextDecoder.java
        TextParser.java
        xml
        XMLParser.java
    - test
      - java
        no
        trank
        openpipe
        parse
        oo
        OOParserTest.java
        xml
        XMLParserTest.java
- parse-ms
  - src
    - main
      - java
        no
        trank
        openpipe
        parse
        ms
        ExcelParser.java
        POIUtils.java
        PowerPointParser.java
        WordParser.java
    - test
      - java
        no
        trank
        openpipe
        parse
        ms
        AbstractMsParserTest.java
        ExcelParserTest.java
        PowerPointParserTest.java
        WordParserTest.java
- solr-producer
  - src
    - main
      - java
        no
        trank
        openpipe
        solr
        producer
        SolrDocumentProducer.java
        SolrUpdateServlet.java
        xml
        XmlStreamDocumentReader.java
    - test
      - java
        no
        trank
        openpipe
        solr
        producer
        SolrUpdateServletTest.java
        xml
        XmlStreamDocumentReaderTest.java
- solr-tokenizer
  - src
    - main
      - java
        no
        trank
        openpipe
        solr
        analysis
        BinaryIO.java
        BinaryTokenDeserializer.java
        BinaryTokenDeserializerFactory.java
        io
        Base64InputStream.java
        Base64Output.java
        Base64OutputBuffer.java
        Base64OutputStream.java
        schema
        Base64Type.java
        util
        IOUtil.java
    - test
      - java
        no
        trank
        openpipe
        solr
        analysis
        BinaryIOTest.java
        BinaryTokenDeserializerTest.java
        io
        Base64InputStreamTest.java
        Base64OutputBufferTest.java
        Base64OutputStreamTest.java
        util
        IOUtilTest.java
- tutorial-intranet
  - src
    - main
      - java
        no
        trank
        openpipe
        tutorial
        intranet
        Main.java
    - test
      - java
        TestMainIntranet.java
- wikipedia
  - src
    - main
      - java
        no
        trank
        openpipe
        wikipedia
        WikipediaDumpHandler.java
        download
        DownloadProgressListener.java
        DownloadProgressLogger.java
        DownloadingWikipediaDumpHandler.java
        HttpDownloader.java
        NullProgressListener.java
        producer
        InputStreamPrefixStripper.java
        WikiDocumentSplitter.java
        WikipediaDocumentProducer.java
        meta
        RssMetaParser.java
        step
        WikipediaUrlBuilder.java
    - test
      - java
        no
        trank
        openpipe
        wikipedia
        download
        HttpDownloaderTest.java
        producer
        WikiDocumentSplitterTest.java
        meta
        RssMetaParserTest.java
        step
        WikipediaUrlBuilderTest.java

/*
 * Copyright 2007  T-Rank AS
 * 
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 * 
 *     http://www.apache.org/licenses/LICENSE-2.0
 * 
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package no.trank.openpipe.lemmatizer.parser;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

import it.unimi.dsi.io.FastBufferedReader;
import it.unimi.dsi.io.LineIterator;
import it.unimi.dsi.lang.MutableString;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import no.trank.openpipe.lemmatizer.model.LemmaSuffix;
import no.trank.openpipe.lemmatizer.model.LemmatizeModel;

/**
 * @version $Revision$
 */
public class TextParser implements Parser {
   private static final Logger log = LoggerFactory.getLogger(TextParser.class);

   @Override
   public void parse(Reader in, LemmatizeModel model) throws IOException {
      try {
         final LineIterator lineIt = new LineIterator(new FastBufferedReader(in));
         while (lineIt.hasNext()) {
            final MutableString line = lineIt.next().trim();
            if (line.length() > 0 && Character.isLetterOrDigit(line.charAt(0))) {
               final int tEndIdx = line.indexOf('\t');
               if (tEndIdx > 0) {
                  final CharSequence term = line.subSequence(0, tEndIdx);
                  try {
                     model.add(term, parseSuffixes(line, tEndIdx + 1));
                  } catch (Exception e) {
                     log.error("Trouble with line '" + line + '\'', e);
                  }
               }
            }
         }
      } finally {
         try {
            in.close();
         } catch (IOException e) {
            // Ignoring
         }
      }
   }

   public static List<LemmaSuffix> parseSuffixes(CharSequence line, int idx) {
      final int len = line.length();
      final List<LemmaSuffix> suffixes = new ArrayList<LemmaSuffix>();
      while (idx < len) {
         char c = line.charAt(idx++);
         int cut = c - '0';
         while (idx < len && isDigit(c = line.charAt(idx++))) {
            cut += cut * 10 + c - '0';
         }
         final int sIdx = isDigit(c) ? idx : idx - 1;
         while (idx < len && c != '\t') {
            c = line.charAt(idx++);
         }
         suffixes.add(new LemmaSuffix(cut, line.subSequence(sIdx, c == '\t' ? idx - 1 : idx)));
      }
      return suffixes;
   }

   private static boolean isDigit(final char c) {
      return c >= '0' && c <= '9';
   }

   @SuppressWarnings({"UseOfSystemOutOrSystemErr"})
   public static void main(String[] args) throws IOException {
      if (args.length < 2) {
         System.err.println("Uasge: TextParser <input> <output>");
         System.exit(-1);
      }
      final LemmatizeModel model = new LemmatizeModel();
      new TextParser().parse(createReader(args[0]), model);
      model.log();
      final FileOutputStream fout = new FileOutputStream(args[1]);
      final OutputStream out;
      if (isGzip(args[1])) {
         out = new GZIPOutputStream(fout);
      } else {
         out = fout;
      }
      try {
         model.write(out);
      } finally {
         try {
            out.close();
         } catch (IOException e) {
            // Ignoring
         }
      }
   }

   private static Reader createReader(String fileName) throws IOException {
      if (isGzip(fileName)) {
         return new InputStreamReader(new GZIPInputStream(new FileInputStream(fileName)));
      }
      return new FileReader(fileName);
   }

   private static boolean isGzip(String fileName) {
      return fileName.endsWith(".gz");
   }
}