DocIndexer.java example

Explorer

REST-OCD-Services-master
- src
  - main
    - i5
      - las2peer
        services
        ocd
        ServiceClass.java
        adapters
        AbstractInputAdapter.java
        AbstractOutputAdapter.java
        Adapter.java
        AdapterException.java
        Adapters.java
        InputAdapter.java
        OutputAdapter.java
        coverInput
        AbstractCoverInputAdapter.java
        CommunityMemberListsCoverInputAdapter.java
        CoverInputAdapter.java
        CoverInputAdapterFactory.java
        CoverInputFormat.java
        LabeledMembershipMatrixCoverInputAdapter.java
        NodeCommunityListsCoverInputAdapter.java
        coverOutput
        AbstractCoverOutputAdapter.java
        CoverOutputAdapter.java
        CoverOutputAdapterFactory.java
        CoverOutputFormat.java
        DefaultXmlCoverOutputAdapter.java
        LabeledMembershipMatrixCoverOutputAdapter.java
        MetaXmlCoverOutputAdapter.java
        graphInput
        AbstractGraphInputAdapter.java
        GmlGraphInputAdapter.java
        GraphInputAdapter.java
        GraphInputAdapterFactory.java
        GraphInputFormat.java
        GraphMlGraphInputAdapter.java
        NodeContentEdgeListGraphInputAdapter.java
        NodeIdDeserializationHandler.java
        NodeWeightedEdgeListGraphInputAdapter.java
        UnweightedEdgeListGraphInputAdapter.java
        WeightedEdgeListGraphInputAdapter.java
        XMLGraphInputAdapter.java
        graphOutput
        AbstractGraphOutputAdapter.java
        DocaGraphOutputAdapter.java
        GraphMlGraphOutputAdapter.java
        GraphOutputAdapter.java
        GraphOutputAdapterFactory.java
        GraphOutputFormat.java
        MetaXmlGraphOutputAdapter.java
        WeightedEdgeListGraphOutputAdapter.java
        algorithms
        BinarySearchRandomWalkLabelPropagationAlgorithm.java
        ClizzAlgorithm.java
        ContentBasedWeightingAlgorithm.java
        CostFunctionOptimizationClusteringAlgorithm.java
        DetectingOverlappingCommunitiesAlgorithm.java
        EvolutionaryAlgorithmBasedOnSimilarity.java
        ExtendedSpeakerListenerLabelPropagationAlgorithm.java
        LinkCommunitiesAlgorithm.java
        MergingOfOverlappingCommunitiesAlgorithm.java
        OcdAlgorithm.java
        OcdAlgorithmExecutor.java
        OcdAlgorithmFactory.java
        RandomWalkLabelPropagationAlgorithm.java
        SignedDMIDAlgorithm.java
        SignedProbabilisticMixtureAlgorithm.java
        SpeakerListenerLabelPropagationAlgorithm.java
        SskAlgorithm.java
        WeightedLinkCommunitiesAlgorithm.java
        WordClusteringRefinementAlgorithm.java
        utils
        ClizzInfluenceNodesVectorProcedure.java
        ClizzLeadershipVectorProcedure.java
        Cluster.java
        Clustering.java
        CostFunction.java
        OcdAlgorithmException.java
        Point.java
        Similarities.java
        SlpaListenerRuleCommand.java
        SlpaPopularityListenerRule.java
        SlpaSpeakerRuleCommand.java
        SlpaUniformSpeakerRule.java
        Termmatrix.java
        benchmarks
        GroundTruthBenchmark.java
        LfrBenchmark.java
        MyTest.java
        NewmanBenchmark.java
        OcdBenchmark.java
        OcdBenchmarkException.java
        OcdBenchmarkExecutor.java
        OcdBenchmarkFactory.java
        SignedLfrBenchmark.java
        graphs
        BelowThresholdEntriesVectorProcedure.java
        Community.java
        CommunityId.java
        Cover.java
        CoverCreationLog.java
        CoverCreationMethod.java
        CoverCreationType.java
        CoverId.java
        CustomEdge.java
        CustomEdgeId.java
        CustomGraph.java
        CustomGraphId.java
        CustomGraphListener.java
        CustomNode.java
        CustomNodeId.java
        GraphCreationLog.java
        GraphCreationMethod.java
        GraphCreationType.java
        GraphProcessor.java
        GraphType.java
        PointEntity.java
        metrics
        CoverData.java
        ExecutionTime.java
        ExtendedModularityMetric.java
        ExtendedModularityMetricCoMembership.java
        ExtendedNormalizedMutualInformationMetric.java
        FrustrationMetric.java
        KnowledgeDrivenMeasure.java
        NewmanModularityCombined.java
        OcdMetric.java
        OcdMetricException.java
        OcdMetricExecutor.java
        OcdMetricFactory.java
        OcdMetricLog.java
        OcdMetricLogId.java
        OcdMetricType.java
        OmegaIndex.java
        SignedModularityMetric.java
        StatisticalMeasure.java
        preprocessing
        StringConverter.java
        TextProcessor.java
        utils
        AbstractCustomException.java
        AlgorithmRunnable.java
        ConditionalParameterizableFactory.java
        DocIndexer.java
        Error.java
        ExecutionStatus.java
        GroundTruthBenchmarkRunnable.java
        KnowledgeDrivenMeasureRunnable.java
        NonZeroEntriesVectorProcedure.java
        OcdRequestHandler.java
        Pair.java
        Parameterizable.java
        RequestHandler.java
        SimpleFactory.java
        StatisticalMeasureRunnable.java
        ThreadHandler.java
  - test
    - i5
      - las2peer
        services
        ocd
        DatabaseInitializer.java
        IntegrationTest.java
        ServiceTest.java
        adapters
        AdaptersTest.java
        coverInput
        CommunityMemberListsInputAdapterTest.java
        LabeledMembershipMatrixCoverInputAdapterTest.java
        coverOutput
        LabeledMembershipMatrixOutputAdapterTest.java
        XmlCoverOutputAdapterTest.java
        graphInput
        GmlGraphInputAdapterTest.java
        GraphMlGraphInputAdapterTest.java
        NodeContentEdgeListGraphInputAdapterTest.java
        NodeWeightedEdgeListGraphInputAdapterTest.java
        UnweightedEdgeListGraphInputAdapterTest.java
        WeightedEdgeListGraphInputAdapterTest.java
        XMLGraphInputAdapterTest.java
        graphOutput
        GraphMlGraphOutputAdapterTest.java
        MetaXmlGraphOutputAdapterTest.java
        WeightedEdgeListGraphOutputAdapterTest.java
        algorithms
        AlgorithmsBoundaryTest.java
        BinarySearchRandomWalkLabelPropagationAlgorithmTest.java
        ClizzAlgorithmTest.java
        ClusteringUtils
        TermmatrixTest.java
        ContentBasedWeightingAlgorithmTest.java
        CostFunctionOptimizationClusteringAlgorithmTest.java
        DetectingOverlappingCommunitiesAlgorithmTest.java
        EvolutionaryAlgorithmBasedOnSimilarityTest.java
        MergingOfOverlappingCommunitiesTest.java
        RandomWalkLabelPropagationAlgorithmTest.java
        SSKAlgorithmTest.java
        SignedDMIDAlgorithmTest.java
        SignedProbabilisticMixtureAlgorithmTest.java
        SpeakerListenerLabelPropagationAlgorithmTest.java
        SpeakerListenerLabelPropagationHelpers
        PopularityListenerRuleTest.java
        WeightedLinkCommunitiesAlgorithmTest.java
        WordClusteringRefinementAlgorithmTest.java
        benchmarks
        LfrBenchmarkTest.java
        NewmanBenchmarkTest.java
        SignedLfrBenchmarkTest.java
        graphs
        CoverPersistenceTest.java
        CoverTest.java
        CustomGraphPersistenceTest.java
        CustomGraphTest.java
        GraphProcessorTest.java
        metrics
        CoverDataTest.java
        ExtendedModularityMetricCoMembershipTest.java
        ExtendedModularityMetricTest.java
        ExtendedNormalizedMutualInformationTest.java
        FrustrationMetricTest.java
        NewmanModularityCombinedTest.java
        OcdMetricExecutorTest.java
        OmegaIndexTest.java
        SignedModularityMetricTest.java
        testsUtils
        ExcelFileGenerator.java
        OcdTestConstants.java
        OcdTestCoverFactory.java
        OcdTestGraphFactory.java
        utils
        RequestHandlerTest.java

package i5.las2peer.services.ocd.utils;

import java.io.*;
import java.nio.file.Path;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.DelegatingAnalyzerWrapper;
import org.apache.lucene.analysis.core.StopAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.en.EnglishAnalyzer;
import org.apache.lucene.analysis.en.PorterStemFilter;
import org.apache.lucene.analysis.miscellaneous.PerFieldAnalyzerWrapper;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexOptions;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.SimpleFSDirectory;
import org.apache.lucene.util.Version;


public class DocIndexer {

	private String indexPath;
	
	
	public DocIndexer(String pathIndex){
		this.indexPath = pathIndex;
		
	}
	
	
	
	public void indexDoc(String docid, String docContent) throws IOException{
		Path f = new File(indexPath).toPath();
		try{
			SimpleFSDirectory dir = new SimpleFSDirectory(f);
			//only stopword removal
			//IndexWriter iW = new IndexWriter(dir, new IndexWriterConfig(new StopAnalyzer()));
			//stopword removal and stemming using Porter Stemmer
			IndexWriter iW = new IndexWriter(dir, new IndexWriterConfig(new EnglishAnalyzer()));     
            Document doc = new Document();
            
            final FieldType fieldType = new FieldType();
            //fieldType.setIndexed(true);
            fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);
            fieldType.setStored(true);
            fieldType.setStoreTermVectors(true);
            fieldType.setTokenized(true);
            
            doc.add(new Field("doccontent", docContent, fieldType));
            doc.add(new Field("docid", docid, fieldType));
            iW.addDocument(doc);
            
            iW.close();
		}catch (CorruptIndexException e) {
	        e.printStackTrace();
	    } catch (IOException e) {
	        e.printStackTrace();
	    }
		
	}
	
	public void indexDocPerField(String docid, String docContent) throws IOException{
		Path f = new File(indexPath).toPath();
		try{
			SimpleFSDirectory dir = new SimpleFSDirectory(f);
			//only stopword removal
			//IndexWriter iW = new IndexWriter(dir, new IndexWriterConfig(new StopAnalyzer()));
			//stopword removal and stemming using Porter Stemmer
			Map<String, Analyzer> analyzerPerField = new HashMap<String,Analyzer>();
			analyzerPerField.put("docid", new WhitespaceAnalyzer());
			analyzerPerField.put("doccontent", new EnglishAnalyzer());
			PerFieldAnalyzerWrapper analyzer = new PerFieldAnalyzerWrapper(new WhitespaceAnalyzer(),analyzerPerField);
			IndexWriter iW = new IndexWriter(dir, new IndexWriterConfig(analyzer));     
            Document doc = new Document();
            
            final FieldType fieldType = new FieldType();
            //fieldType.setIndexed(true);
            fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);
            fieldType.setStored(true);
            fieldType.setStoreTermVectors(true);
            fieldType.setTokenized(true);
            
            doc.add(new Field("doccontent", docContent, fieldType));
            doc.add(new Field("docid", docid, fieldType));
            iW.addDocument(doc);
            
            iW.close();
		}catch (CorruptIndexException e) {
	        e.printStackTrace();
	    } catch (IOException e) {
	        e.printStackTrace();
	    }
		
	}
}