DefaultTermExtractor.java example

Explorer

MEater-master
- src
  - edu
    - umd
      - rhsmith
        diads
        meater
        core
        app
        LoggerSetupException.java
        MEaterConfigurationException.java
        MEaterException.java
        MEaterInitializer.java
        MEaterMain.java
        ModuleAlreadyLoadedException.java
        ModuleInstantiationException.java
        RuntimeModule.java
        components
        Component.java
        ComponentInitializer.java
        ComponentManager.java
        media
        BaseMediaProcessor.java
        Media.java
        MediaClassNotFoundException.java
        MediaManager.java
        MediaPath.java
        MediaPathInitializer.java
        MediaProcessor.java
        MediaSource.java
        sets
        BaseMediaSetFilter.java
        BaseMediaSetUpdater.java
        MediaMatchFilterer.java
        MediaMatcher.java
        MediaSetFilter.java
        MediaSetUpdateViewer.java
        MediaSetUpdater.java
        SimpleMediaSetFilter.java
        SimpleMediaSetUpdateViewer.java
        SimpleMediaSetUpdater.java
        sql
        SqlInfo.java
        SqlInfoSource.java
        SqlLoadException.java
        SqlManager.java
        SqlManagerCreationException.java
        config
        ConfigModule.java
        ConfigUnit.java
        MEaterConfig.java
        MEaterGeneralConfig.java
        components
        ComponentConfig.java
        media
        MediaPathConfig.java
        MediaRegistration.java
        container
        ConfigInstantiationException.java
        DefaultInstanceConfigRegistration.java
        InstanceConfig.java
        InstanceConfigContainer.java
        InstanceConfigRegistration.java
        props
        BasicConfigProperty.java
        BooleanProperty.java
        ByteProperty.java
        ConfigProperty.java
        DoubleProperty.java
        FloatProperty.java
        IntProperty.java
        LongProperty.java
        ShortProperty.java
        StringProperty.java
        setup
        MEaterSetupConsole.java
        ops
        SetupConsoleOperation.java
        WrappingSetupConsoleOperation.java
        component
        RenameInstanceOperation.java
        instance
        AddInstanceOperation.java
        ListInstanceTypesOperation.java
        ListInstancesOperation.java
        RemoveInstanceOperation.java
        SelectInstanceOperation.java
        media
        ProcessorListOperation.java
        SourceListOperation.java
        path
        PathDescriptionOperation.java
        PathProcessorAddOperation.java
        PathProcessorListOperation.java
        PathProcessorRemoveOperation.java
        PathRejectableOperation.java
        PathSetMediaOperation.java
        PathSourceAddOperation.java
        PathSourceListOperation.java
        PathSourceRemoveOperation.java
        module
        AddModuleOperation.java
        ListModulesOperation.java
        RemoveModuleOperation.java
        SelectModuleOperation.java
        nav
        ExitOperation.java
        HelpOperation.java
        InfoOperation.java
        LoadOperation.java
        NavCloseOperation.java
        NavToOperation.java
        SaveAsOperation.java
        SaveOperation.java
        sql
        EditSqlOperation.java
        unit
        EditExternalUnitOperation.java
        ResetOperation.java
        SetupPropertiesOperation.java
        sql
        SqlConfig.java
        XmlSqlInfoSource.java
        remote
        IMEaterRemoteControl.java
        MEaterRemoteConsole.java
        MEaterRemoteControl.java
        modules
        common
        MEaterCommon.java
        sentiment
        PySentimentTool.java
        PySentimentToolConfig.java
        PySentimentToolInitializer.java
        SentimentAnalyzable.java
        tfidf
        TermExtractable.java
        TermFreqTool.java
        TermFreqToolConfig.java
        TermFreqToolInitializer.java
        tweater
        SetupLegacyDbOperation.java
        TwEater.java
        TwitterManager.java
        media
        DefaultStatusData.java
        DefaultUserData.java
        DefaultUserStatusData.java
        StatusData.java
        StatusIdComparator.java
        StatusUserIdComparator.java
        UserData.java
        UserIdComparator.java
        UserNameComparator.java
        UserScreenNameComparator.java
        UserStatusData.java
        oauth
        EditOAuthOperation.java
        OAuthConfig.java
        OAuthInfo.java
        OAuthLoadException.java
        OAuthSetupOperation.java
        OAuthSource.java
        XmlOAuthSource.java
        queries
        QueryFollow.java
        QueryItem.java
        QueryItemTime.java
        QueryLocation.java
        QueryPhrase.java
        QueryTrack.java
        UserToFollowQuery.java
        UserToFollowQueryConfig.java
        legacy
        CsvQuerySource.java
        CsvQuerySourceConfig.java
        CsvQuerySourceInitializer.java
        MySqlQuerySource.java
        MySqlQuerySourceConfig.java
        MySqlQuerySourceInitializer.java
        QuerySource.java
        QuerySourceConfig.java
        QuerySourceInitializer.java
        storage
        legacy
        CsvStatusEater.java
        CsvStatusEaterConfig.java
        CsvStatusEaterInitializer.java
        MySqlStatusEater.java
        MySqlStatusEaterConfig.java
        MySqlStatusEaterInitializer.java
        StatusEater.java
        StatusEaterConfig.java
        StatusEaterInitializer.java
        streaming
        FilterQueryBuilder.java
        StreamQuerier.java
        StreamQuerierConfig.java
        StreamQuerierInitializer.java
        tlc
        TimelineCollector.java
        TimelineCollectorConfig.java
        TimelineCollectorInitializer.java
        util
        AlertEmailer.java
        ControlException.java
        ControlUnit.java
        LogDiffKeeper.java
        LogUnit.java
        NumberRange.java
        NumberSet.java
        OneLineFormatter.java
        Util.java
        console
        BooleanPrompter.java
        BytePrompter.java
        CharPrompter.java
        Console.java
        ConsolePrompter.java
        DoublePrompter.java
        EmptyStringPrompter.java
        FloatPrompter.java
        IntPrompter.java
        LongPrompter.java
        ShortPrompter.java
        StringPrompter.java
        tools
        sentiment
        ISentimentAnalyzer.java
        PySentimentAnalyzer.java
        tfidf
        DefaultTermCleaner.java
        DefaultTermExtractor.java
        DefaultTermFilter.java
        DefaultTermSplitter.java
        ITermExtractor.java
        NGramGenerator.java
        StopWordsCleaner.java
        TermCleaner.java
        TermFilter.java
        TermSplitter.java
        twitter
        TimelineStream.java
        TimelineStreamListener.java

package edu.umd.rhsmith.diads.tools.tfidf;

import java.util.List;
import java.util.Map;
import java.util.TreeMap;

public class DefaultTermExtractor implements ITermExtractor {

	private TermCleaner textCleaner;
	private TermSplitter splitter;
	private TermFilter filter;

	public DefaultTermExtractor(TermCleaner cleaner, TermSplitter splitter,
			TermFilter filter) {
		this.textCleaner = cleaner;
		this.splitter = splitter;
		this.filter = filter;
	}

	public DefaultTermExtractor() {
		this.textCleaner = new DefaultTermCleaner();
		this.splitter = new DefaultTermSplitter();
		this.filter = new DefaultTermFilter();
	}

	public TermCleaner getTextCleaner() {
		return textCleaner;
	}

	public void setTextCleaner(TermCleaner cleaner) {
		this.textCleaner = cleaner;
	}

	public TermSplitter getSplitter() {
		return splitter;
	}

	public void setSplitter(TermSplitter splitter) {
		this.splitter = splitter;
	}

	public TermFilter getFilter() {
		return filter;
	}

	public void setFilter(TermFilter filter) {
		this.filter = filter;
	}

	@Override
	public Map<String, Double> process(String analysisText) {
		Map<String, Double> tf = new TreeMap<String, Double>();

		analysisText = cleanText(analysisText);
		if (analysisText == null) {
			return tf;
		}

		List<String> terms = getTerms(analysisText);

		terms = filterTerms(terms);

		for (String term : terms) {
			if (term != null) {
				Double val = tf.get(term);
				if (val == null) {
					val = 0.0;
				}
				tf.put(term, val + 1.0);
			}
		}

		return tf;
	}

	protected String cleanText(String analysisText) {
		if (this.textCleaner != null) {
			analysisText = textCleaner.clean(analysisText);
		}
		return analysisText;
	}

	protected List<String> getTerms(String analysisText) {
		List<String> terms = null;
		if (this.splitter != null) {
			terms = splitter.getTerms(analysisText);
		}
		return terms;
	}

	protected List<String> filterTerms(List<String> terms) {
		if (this.filter != null) {
			terms = filter.filterTerms(terms);
		}
		return terms;
	}
}