FileInputDocumentExtractor.java example

Explorer

solrmeter-master
- solrmeter
  - src
    - main
      - java
        com
        plugtree
        solrmeter
        ClassPathHacker.java
        ExpectedParameter.java
        HeadlessModule.java
        ModelModule.java
        QueryModeParam.java
        SolrMeterMain.java
        SolrMeterRunModeModule.java
        StandalonePresentationModule.java
        StatisticsModule.java
        controller
        ErrorLogController.java
        ExtractFromLogFileController.java
        FullQueryStatisticController.java
        OptimizeExecutorController.java
        QueryExecutorController.java
        QueryPanelController.java
        SettingsController.java
        SolrMeterMenuController.java
        StatisticDescriptor.java
        StatisticScope.java
        StatisticType.java
        StatisticsContainerController.java
        StatisticsRepository.java
        UpdateExecutorController.java
        statisticsParser
        ParserException.java
        StatisticsParser.java
        castor
        AbstractCastorFieldHandler.java
        ClassCastorFieldHandler.java
        ScopeCastorFieldHandler.java
        StatisticList.java
        StatisticsParserCastorImpl.java
        TypesCastorFieldHandler.java
        model
        FieldExtractor.java
        FileUtils.java
        InputDocumentExtractor.java
        OptimizeExecutor.java
        OptimizeStatistic.java
        PreEmptiveBasicAuthenticator.java
        QueryExecutor.java
        QueryExtractor.java
        QueryStatistic.java
        SolrMeterConfiguration.java
        SolrServerRegistry.java
        UpdateExecutor.java
        UpdateStatistic.java
        exception
        CommitException.java
        OperationException.java
        OptimizeException.java
        PingNotConfiguredException.java
        QueryException.java
        StatisticConnectionException.java
        UpdateException.java
        executor
        AbstractRandomExecutor.java
        OnDemandOptimizeExecutor.java
        QueryExecutorConstantImpl.java
        QueryExecutorRandomImpl.java
        UpdateExecutorConstantImpl.java
        UpdateExecutorRandomImpl.java
        extractor
        FileFieldExtractor.java
        FileInputDocumentExtractor.java
        FileQueryExtractor.java
        FileStringExtractor.java
        LogExtractor.java
        generator
        ComplexQueryGenerator.java
        ExternalFileQueryGenerator.java
        QueryGenerator.java
        operation
        CommitOperation.java
        ConstantOperationExecutorThread.java
        Operation.java
        PingOperation.java
        QueryOperation.java
        RandomOperationExecutorThread.java
        UpdateOperation.java
        service
        QueryService.java
        impl
        QueryServiceSolrJImpl.java
        statistic
        AbstractStatisticConnection.java
        CacheData.java
        CacheHistoryStatistic.java
        CommitHistoryStatistic.java
        ErrorLogStatistic.java
        FullQueryStatistic.java
        HistogramQueryStatistic.java
        OperationRateStatistic.java
        OperationTimeHistory.java
        OptimizationResult.java
        QueryLogStatistic.java
        QueryTimeHistoryStatistic.java
        RequestHandlerConnection.java
        SimpleOptimizeStatistic.java
        SimpleQueryStatistic.java
        TimeRange.java
        TimeRangeStatistic.java
        runMode
        AbstractSolrMeterRunMode.java
        SolrMeterRunMode.java
        SolrMeterRunModeGUI.java
        SolrMeterRunModeHeadless.java
        util
        ChartUtils.java
        ReflectionUtils.java
        SolrMeterThreadFactory.java
        view
        AdvancedSettingsDialog.java
        CommitConsolePanel.java
        ConsoleFrame.java
        ConsolePanel.java
        ExtractFromLogFilePanel.java
        ExtractFromLogFilePanelContainer.java
        HeadlessCommitConsolePanel.java
        HeadlessConsoleFrame.java
        HeadlessConsolePanel.java
        HeadlessOptimizeConsolePanel.java
        HeadlessQueryConsolePanel.java
        HeadlessStatisticPanel.java
        HeadlessStatisticsContainer.java
        HeadlessUpdateConsolePanel.java
        HeadlessUtils.java
        I18n.java
        JDialogStackTrace.java
        OptimizeConsolePanel.java
        QueryConsolePanel.java
        QueryPanel.java
        QueryResultsTableModel.java
        Refreshable.java
        SettingsPanel.java
        SettingsPanelContainer.java
        SolrMeterMenuBar.java
        SolrPropertyObserver.java
        Startable.java
        StatisticPanel.java
        StatisticsContainer.java
        SwingUtils.java
        UpdateConsolePanel.java
        component
        BooleanPropertyPanel.java
        CheckBoxPropertyPanel.java
        ComboPropertyPanel.java
        FilePropertyPanel.java
        InfoPanel.java
        IntegerField.java
        IntegerPropertyPanel.java
        PropertiesTable.java
        PropertyPanel.java
        QueryModeComboBoxPropertyPanel.java
        RoundedBorder.java
        RoundedBorderJPanel.java
        Row.java
        SaveFilePropertyPanel.java
        SolrConnectedButton.java
        SpinnerPanel.java
        TablePropertyPanel.java
        TextPropertyPanel.java
        TooltipJTable.java
        TwoColumns.java
        TwoColumnsPanel.java
        exception
        InvalidPropertyException.java
        listener
        PropertyChangeListener.java
        settings
        AdvancedSettingsPanel.java
        AuthenticationSettingsPanel.java
        OptimizeSettingsPanel.java
        QuerySettingsPanel.java
        StatisticsSettingsPanel.java
        UpdateSettingsPanel.java
        statistic
        CacheHistoryPanel.java
        ErrorLogPanel.java
        FullQueryStatisticPanel.java
        HeadlessCacheHistoryPanel.java
        HeadlessErrorLogPanel.java
        HeadlessFullQueryStatisticPanel.java
        HeadlessHistogramChartPanel.java
        HeadlessOperationTimeLineChartPanel.java
        HeadlessPieChartPanel.java
        HeadlessQueryTimeHistoryPanel.java
        HistogramChartPanel.java
        JDialogCustomizePieChart.java
        OperationTimeLineChartPanel.java
        PieChartPanel.java
        QueryTimeHistoryPanel.java
    - test
      - java
        com
        plugtree
        solrmeter
        AbstractExecutorTestCase.java
        BaseTestCase.java
        ExpectedParameterTestCase.java
        FileUtilsTest.java
        ModelTestModule.java
        OptimizeExecutorTestCase.java
        QueryServiceSolrJImplTestCase.java
        SolrMeterConfigurationTestCase.java
        SolrMeterTestSuite.java
        UpdateExecutorTestCase.java
        controller
        FullQueryStatisticControllerTestCase.java
        StatisticsRepositoryTestCase.java
        extractor
        FileInputDocumentExtractorSpy.java
        FileInputDocumentExtractorTestCase.java
        FileStringExtractorSpy.java
        FileStringExtractorTestCase.java
        LogExtractorTestCase.java
        mock
        ComplexQueryGeneratorSpy.java
        DummyAbstractOperationThread.java
        DummyThread.java
        ExternalFileQueryGeneratorSpy.java
        MockExecutor.java
        MockFieldExtractor.java
        MockOperation.java
        MockQueryExtractor.java
        MockStatistic.java
        MockStatisticConnection.java
        OperationTimeHistorySpy.java
        OptimizeExecutorSpy.java
        SolrServerMock.java
        StatisticsRepositorySpy.java
        UpdateExecutorMock.java
        UpdateExecutorSpy.java
        model
        generator
        ComplexQueryGeneratorTestCase.java
        ExternalFileQueryGeneratorTestCase.java
        statistic
        ErrorLogStatisticTestCase.java
        FullQueryStatisticTestCase.java
        HistogramQueryStatisticTestCase.java
        OperationRateStatisticTestCase.java
        OperationTimeHistoryTestCase.java
        QueryLogStatisticTestCase.java
        QueryTimeHistoryTestCase.java
        RequestHandlerConnectionTestCase.java
        SimpleQueryStatisticTestCase.java
        TimeRangeStatisticTestCase.java
        TimeRangeTestCase.java
        parser
        StatisticsParserCastorImplTestCase.java
        task
        AbstractOperationThreadTestCase.java
        ConstantOperationExecutorThreadTestCase.java
        utils
        QueryTimeHistoryStatisticTest.java
- stressTestScope
  - src
    - main
      - java
        com
        plugtree
        stressTestScope
        StressTestRegistry.java
        StressTestScope.java
        StressTestScopeImpl.java
        StressTestScopeModule.java
    - test
      - java
        com
        plugtree
        stressTestScope
        TestModule.java
        TestObject.java
        TestObject2.java
        TestScopeTestCase.java

/**
 * Copyright Plugtree LLC
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package com.plugtree.solrmeter.model.extractor;

import java.util.LinkedList;
import java.util.List;

import org.apache.log4j.Logger;
import org.apache.solr.common.SolrInputDocument;

import com.plugtree.solrmeter.model.FileUtils;
import com.plugtree.solrmeter.model.InputDocumentExtractor;
/**
 * Extracts documents from text files. The file must be fieldName:fieldValue;fieldName2:fieldValue2;...
 * and all required fields must be added.
 * if a ";" character is part of some value (and it is not a field separator) it must be escaped with a "\" character.
 * All "\" on a value must be escaped as "\\"
 * @see com.plugtree.solrmeter.extractor.FileInputDocumentExtractorTestCase.testEscapedChars()
 * @author tflobbe
 *
 */
public class FileInputDocumentExtractor implements InputDocumentExtractor {
	
	private final static Logger logger = Logger.getLogger(FileInputDocumentExtractor.class);
	
	/**
	 * The list of extracted documents
	 */
	protected List<SolrInputDocument> documents;
	
	public FileInputDocumentExtractor(String inputFilePath) {
		super();
		documents = new LinkedList<SolrInputDocument>();
		loadDocuments(inputFilePath);
	}
	
	/**
	 * Loads all documents from text file
	 */
	protected void loadDocuments(String inputFilePath) {
		List<String> documentStrings = FileUtils.loadStringsFromFile(inputFilePath);
		documents = this.createDocumentList(documentStrings);
	}
	
	private List<SolrInputDocument> createDocumentList(List<String> documentsStrings) {
		List<SolrInputDocument> list = new LinkedList<SolrInputDocument>();
		for(String documentString:documentsStrings) {
			list.add(this.createSolrDocument(documentString));
		}
		return list;
	}
	
	private SolrInputDocument createSolrDocument(String documentString) {
		SolrInputDocument document = new SolrInputDocument();
		List<String> fields = this.split(documentString);
		try {
			for(String field:fields) {
				try {
					int idx = field.indexOf(":");
					document.addField(field.substring(0, idx), field.substring(idx + 1));
				}catch(RuntimeException e) {
					logger.error("Error Loading documents, on field " + field);
					throw e;
				}
			}
		} catch(RuntimeException e) {
			logger.error("Error Loading documents, on document line: " + documentString);
			throw e;
		}
		
		return document;
	}
	
	private List<String> split(String documentString) {
		List<String> strings = new LinkedList<String>();
		int lastSplitIndex = 0;
		int nextSplitIndex;
		while(lastSplitIndex < documentString.length()) {
			nextSplitIndex = findNextSplitIndex(documentString, lastSplitIndex);
			String splittedString = documentString.substring(lastSplitIndex, nextSplitIndex);
			strings.add(removeEscapeCharacters(splittedString));
			lastSplitIndex = nextSplitIndex + 1;
		}
		return strings;
	}
	
	private String removeEscapeCharacters(String splittedString) {
		return splittedString.replaceAll("\\\\;", ";").replaceAll("\\\\\\\\", "\\\\");
	}

	/**
	 * Returns the next Index to Split the String
	 * @param documentString
	 * @param lastSplitIndex
	 * @return
	 */
	private int findNextSplitIndex(String documentString, int lastSplitIndex) {
		for(int i = lastSplitIndex; i < documentString.length(); i++) {
			if(documentString.charAt(i) == '\\') {
				if(documentString.charAt(i + 1) == '\\' || documentString.charAt(i + 1) == ';') {
					i++;
				}
			}else {
				if(documentString.charAt(i) == ';') {
					return i;
				}
			}
		}
		return documentString.length();
	}

	@Override
	public SolrInputDocument getRandomDocument() {
		return (SolrInputDocument) FileUtils.getNextRandomObject(documents);
	}

}