Document.java example

Explorer

cse446_p3-master
- pos_tagger
  - TaggerDemo.java
  - src
    - edu
      - stanford
        nlp
        io
        EncodingFileReader.java
        EncodingPrintWriter.java
        ExtensionFileFilter.java
        IOUtils.java
        InDataStreamFile.java
        NumberRangesFileFilter.java
        OutDataStreamFile.java
        PrintFile.java
        RuntimeIOException.java
        ling
        AnnotationLookup.java
        CategoryWordTag.java
        CategoryWordTagFactory.java
        CoreAnnotation.java
        CoreAnnotations.java
        CoreLabel.java
        CyclicCoreLabel.java
        Datum.java
        Document.java
        Featurizable.java
        HasCategory.java
        HasContext.java
        HasIndex.java
        HasOffset.java
        HasTag.java
        HasWord.java
        Label.java
        LabelFactory.java
        Labeled.java
        LabeledWord.java
        Sentence.java
        SentenceProcessor.java
        StringLabel.java
        StringLabelFactory.java
        TaggedWord.java
        TaggedWordFactory.java
        ValueLabel.java
        Word.java
        WordFactory.java
        WordLemmaTag.java
        WordLemmaTagFactory.java
        WordTag.java
        WordTagFactory.java
        math
        ArrayMath.java
        SloppyMath.java
        maxent
        CGRunner.java
        Convert.java
        DataGeneric.java
        Experiments.java
        Feature.java
        Features.java
        Problem.java
        iis
        LambdaSolve.java
        movetrees
        EmptyTreeLeaf.java
        HasTrace.java
        objectbank
        IdentityFunction.java
        IteratorFromReaderFactory.java
        LineIterator.java
        ObjectBank.java
        ReaderIteratorFactory.java
        TokenizerFactory.java
        XMLBeginEndIterator.java
        optimization
        CGMinimizer.java
        DiffFloatFunction.java
        DiffFunction.java
        Evaluator.java
        FloatFunction.java
        Function.java
        HasEvaluators.java
        Minimizer.java
        OWLQNMinimizer.java
        QNMinimizer.java
        StochasticCalculateMethods.java
        process
        AbstractTokenizer.java
        Americanize.java
        CoreLabelTokenFactory.java
        DocumentPreprocessor.java
        LexedTokenFactory.java
        ListProcessor.java
        Morpha.java
        Morphology.java
        PTB2TextLexer.java
        PTBLexer.java
        PTBTokenizer.java
        Tokenizer.java
        TokenizerAdapter.java
        TransformXML.java
        WhitespaceLexer.java
        WhitespaceTokenizer.java
        WordShapeClassifier.java
        WordToSentenceProcessor.java
        WordTokenFactory.java
        sequences
        BestSequenceFinder.java
        DocumentReaderAndWriter.java
        ExactBestSequenceFinder.java
        PlainTextDocumentReaderAndWriter.java
        SeqClassifierFlags.java
        SequenceModel.java
        stats
        AbstractCounter.java
        ClassicCounter.java
        Counter.java
        Counters.java
        IntCounter.java
        TwoDimensionalCounter.java
        tagger
        maxent
        ASBCunkDict.java
        AmbiguityClass.java
        AmbiguityClasses.java
        CTBunkDict.java
        CountWrapper.java
        CtbDict.java
        DataWordTag.java
        Dictionary.java
        DictionaryExtractor.java
        Extractor.java
        ExtractorDistsim.java
        ExtractorFrames.java
        ExtractorFramesRare.java
        ExtractorVerbalVBNZero.java
        Extractors.java
        FeatureKey.java
        History.java
        HistoryTable.java
        LambdaSolveTagger.java
        MaxentTagger.java
        MaxentTaggerGUI.java
        MaxentTaggerServer.java
        PairsHolder.java
        ReadDataTagged.java
        TTags.java
        TagCount.java
        TaggerConfig.java
        TaggerExperiments.java
        TaggerFeature.java
        TaggerFeatures.java
        TemplateHash.java
        TestClassifier.java
        TestSentence.java
        documentation
        TaggerDemo.java
        trees
        AbstractCollinsHeadFinder.java
        AbstractTreebankLanguagePack.java
        BobChrisTreeNormalizer.java
        CollinsHeadFinder.java
        CollocationFinder.java
        CompositeTreeTransformer.java
        CompositeTreebank.java
        Constituent.java
        ConstituentFactory.java
        CoordinationTransformer.java
        Dependencies.java
        Dependency.java
        DependencyFactory.java
        DependencyTreeTransformer.java
        DiskTreebank.java
        EnglishGrammaticalRelations.java
        GrammaticalRelation.java
        GrammaticalStructure.java
        GrammaticalStructureFactory.java
        HeadFinder.java
        Labeled.java
        LabeledConstituent.java
        LabeledScoredTreeFactory.java
        LabeledScoredTreeNode.java
        LabeledScoredTreeReaderFactory.java
        MemoryTreebank.java
        ModCollinsHeadFinder.java
        NPTmpRetainingTreeNormalizer.java
        NamedDependency.java
        PennTreeReader.java
        PennTreeReaderFactory.java
        PennTreebankLanguagePack.java
        PennTreebankTokenizer.java
        QPTreeTransformer.java
        SemanticHeadFinder.java
        SimpleConstituent.java
        SimpleConstituentFactory.java
        SimpleTree.java
        SimpleTreeFactory.java
        SimpleTreeReaderFactory.java
        TransformingTreebank.java
        Tree.java
        TreeCoreAnnotations.java
        TreeFactory.java
        TreeFunctions.java
        TreeGraph.java
        TreeGraphNode.java
        TreeGraphNodeFactory.java
        TreeNormalizer.java
        TreePrint.java
        TreeReader.java
        TreeReaderFactory.java
        TreeTokenizerFactory.java
        TreeTransformer.java
        TreeVisitor.java
        Treebank.java
        TreebankLanguagePack.java
        Trees.java
        TypedDependency.java
        UnnamedDependency.java
        WordNetConnection.java
        WordStemmer.java
        international
        pennchinese
        CHTBLexer.java
        CHTBTokenizer.java
        CTBTreeReaderFactory.java
        ChineseEnglishWordMap.java
        ChineseHeadFinder.java
        ChineseTreebankLanguagePack.java
        FragDiscardingPennTreeReader.java
        tregex
        CoordinationPattern.java
        DescriptionPattern.java
        ParseException.java
        Relation.java
        SimpleCharStream.java
        Token.java
        TokenMgrError.java
        TregexMatcher.java
        TregexParser.java
        TregexParserConstants.java
        TregexParserTokenManager.java
        TregexPattern.java
        TregexPatternCompiler.java
        VariableStrings.java
        tsurgeon
        AdjoinNode.java
        AdjoinToFootNode.java
        AdjoinToHeadNode.java
        AuxiliaryTree.java
        CoindexNodes.java
        CoindexationGenerator.java
        DeleteNode.java
        ExciseNode.java
        FetchNode.java
        HoldTreeNode.java
        InsertNode.java
        JJTTsurgeonParserState.java
        MoveNode.java
        Node.java
        ParseException.java
        PruneNode.java
        RelabelNode.java
        ReplaceNode.java
        SimpleCharStream.java
        SimpleNode.java
        Token.java
        TokenMgrError.java
        TreeLocation.java
        Tsurgeon.java
        TsurgeonParser.java
        TsurgeonParserConstants.java
        TsurgeonParserTokenManager.java
        TsurgeonParserTreeConstants.java
        TsurgeonPattern.java
        TsurgeonPatternRoot.java
        util
        AbstractIterator.java
        ArrayCoreMap.java
        ArrayMap.java
        ArrayUtils.java
        BinaryHeapPriorityQueue.java
        CollectionFactory.java
        CollectionUtils.java
        CollectionValuedMap.java
        ConcatenationIterator.java
        CoreMap.java
        DeltaCollectionValuedMap.java
        DeltaMap.java
        ErasureUtils.java
        Factory.java
        FilePathProcessor.java
        FileProcessor.java
        Filter.java
        FilteredIterator.java
        Filters.java
        FixedPrioritiesPriorityQueue.java
        Function.java
        Generics.java
        HashIndex.java
        HashableCoreMap.java
        IdentityHashSet.java
        Index.java
        IntPair.java
        IntQuadruple.java
        IntTriple.java
        IntTuple.java
        IntUni.java
        Interner.java
        MapFactory.java
        MutableDouble.java
        MutableInteger.java
        Pair.java
        PriorityQueue.java
        Scored.java
        ScoredObject.java
        Sets.java
        StringUtils.java
        Timing.java
        Triple.java
        TypesafeMap.java
        XMLUtils.java
        concurrent
        SynchronizedInterner.java
- src

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Scanner;

import edu.stanford.nlp.ling.HasWord;
import edu.stanford.nlp.ling.TaggedWord;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;


public class Document implements Iterable<String> {
	private enum Rule {NORM, POS};
	private static final Rule TYPE = Rule.NORM;
	/**
	 * word -> number of times the given word occurs in this document
	 */
	private Map<String, Integer> counts;
	
	public Document(File f){
		switch(TYPE){
		case NORM:
			this.counts = buildNorm(f);
			break;
		case POS:
			this.counts = buildPos(f);
			break;
		}
	}
	
	private static Map<String, Integer> buildNorm(File f){
		Map<String, Integer> rtn = new HashMap<String, Integer>();
		try {
			Scanner s = new Scanner(f);
			boolean isHeader = true;
			
			while(s.hasNextLine()){
				String line = s.nextLine().trim();
				if(isHeader && line.length() == 0) //Is the header over yet?
					isHeader = false;
				else if(!isHeader){
					String[] tokens = line.split(" ");
					for(String t : tokens){
						t = t.trim().toLowerCase(); //remove whitespace and lower-case word
						if(t.length() != 0){ //don't add empty strings
							if(!rtn.containsKey(t))
								rtn.put(t, 0);
							rtn.put(t, rtn.get(t) + 1);
						}
					}
				}
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		}
		return rtn;
	}
	
	private static Map<String, Integer> buildPos(File f){
		Map<String, Integer> rtn = new HashMap<String, Integer>();
		try{
			MaxentTagger tagger = new MaxentTagger("pos_tagger/models/left3words-wsj-0-18.tagger");
		    List<ArrayList<? extends HasWord>> sentences = MaxentTagger.tokenizeText(new BufferedReader(new FileReader(f)));
		    for (ArrayList<? extends HasWord> sentence : sentences) {
		    	ArrayList<TaggedWord> tSentence = tagger.tagSentence(sentence);
		    	for(TaggedWord w : tSentence){
		    		String taggedWord = w.word() + "_" + w.tag();
		    		if(!rtn.containsKey(taggedWord))
		    			rtn.put(taggedWord, 0);
		    		rtn.put(taggedWord, rtn.get(taggedWord) + 1);
		    	}
		    }
		}catch(Exception e){
			 e.printStackTrace();
		 }
		return rtn;
	}
	
	/**
	 * @param token word to look up
	 * @return number of times the given token occurs in this document
	 */
	public Integer getCount(String token){
		if(!this.counts.containsKey(token))
			return 0;
		else
			return this.counts.get(token);
	}
	
	/**
	 * Iterates over all of the unique words in the document
	 */
	public Iterator<String> iterator(){
		return this.counts.keySet().iterator();
	}
}