DatapointPruner.java example

Explorer

BioSolr-master
- demo
  - biosolr-demo
    - src
      - main
        java
        uk
        ac
        ebi
        spot
        biosolr
        BioSolrDemoApplication.java
        WebConfiguration.java
      - test
        java
        uk
        ac
        ebi
        spot
        biosolr
        BioSolrDemoApplicationTests.java
- federated
  - src
    - djoin
      - java
        org
        apache
        solr
        search
        federated
        AllShardsResultIds.java
        DJoinMergeStrategy.java
        DJoinQParserPlugin.java
        DuplicateDocumentList.java
        FilterDJoinQParserSearchComponent.java
        ShardFieldSortedHitQueue.java
      - test
        org
        apache
        solr
        search
        federated
        BaseTestCase.java
        LocalShardHandlerFactory.java
        TestDJoin.java
        TestShardFieldSortedHitQueue.java
        util
        TestHarnessWrapper.java
    - merge
      - java
        org
        apache
        solr
        search
        federated
        MergeAbstractFieldType.java
        MergeException.java
        MergeSearchComponent.java
        fieldtypes
        FederatedString.java
        ForgivingInteger.java
      - test
        org
        apache
        solr
        search
        federated
        TestMerge.java
    - numfound
      - java
        org
        apache
        solr
        search
        federated
        NumFoundSearchComponent.java
- ontology
  - elasticsearch
    - annotation-tree-aggregator
      - src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        aggregations
        AnnotationTreeAggregatorParser.java
        plugin
        AnnotationTreePlugin.java
  - ontology-annotator
    - core
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        core
        AbstractOntologyHelper.java
        OntologyData.java
        OntologyDataBuilder.java
        OntologyHelper.java
        OntologyHelperBuilder.java
        OntologyHelperConfiguration.java
        OntologyHelperException.java
        cache
        Cache.java
        LRUCache.java
        TimedLRUCache.java
        ols
        OLSHttpClient.java
        OLSOntologyConfiguration.java
        OLSOntologyHelper.java
        OLSTermsOntologyHelper.java
        ObjectMapperResolver.java
        graph
        Edge.java
        Graph.java
        Node.java
        package-info.java
        terms
        EmbeddedOntologyTerms.java
        Link.java
        OntologyTerm.java
        Page.java
        RelatedTermsResult.java
        ResultsLinkType.java
        SingleTermResult.java
        TermLinkType.java
        owl
        OWLDataManager.java
        OWLOntologyConfiguration.java
        OWLOntologyHelper.java
        RestrictionVisitor.java
        package-info.java
        package-info.java
        test
        java
        uk
        co
        flax
        biosolr
        ontology
        core
        OntologyDataBuilderTest.java
        OntologyHelperBuilderTest.java
        cache
        LRUCacheTest.java
        TimedLRUCacheTest.java
        ols
        OLSHttpClientTest.java
        OLSOntologyHelperTest.java
        graph
        EdgeTest.java
        GraphTest.java
        terms
        OntologyTermTest.java
        PageTest.java
        RelatedTermsResultTest.java
        SingleTermResultTest.java
        owl
        OWLDataManagerTest.java
        OWLOntologyHelperMethodsTest.java
        OWLOntologyHelperTest.java
    - elasticsearch-ontology-annotator
      - es-ontology-annotator-core
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        mapper
        ontology
        ElasticOntologyHelperFactory.java
        FieldMappings.java
        OntologySettings.java
        OntologySettingsBuilder.java
        owl
        OntologyHelper.java
        RestrictionVisitor.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        mapper
        ontology
        FieldMappingsTest.java
        OntologySettingsTest.java
        owl
        OntologyHelperMethodsTest.java
        OntologyHelperTest.java
      - es-ontology-annotator-es1.3
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        RegisterOntologyType.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateIntegrationTests.java
      - es-ontology-annotator-es1.4
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        RegisterOntologyType.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OLSOntologyUpdateIntegrationTests.java
        OntologyUpdateIntegrationTests.java
      - es-ontology-annotator-es1.5
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        RegisterOntologyType.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OLSOntologyUpdateIntegrationTests.java
        OntologyUpdateIntegrationTests.java
      - es-ontology-annotator-es2.0
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        RegisterOntologyType.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyUpdateIntegrationTests.java
      - es-ontology-annotator-es2.1
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyHelperBuilder.java
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        test
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OLSOntologyUpdateIntegrationTests.java
        OntologyUpdateIntegrationTests.java
      - es-ontology-annotator-es2.2
        src
        main
        java
        uk
        co
        flax
        biosolr
        elasticsearch
        OntologyHelperBuilder.java
        OntologyUpdateModule.java
        OntologyUpdatePlugin.java
        mapper
        ontology
        OntologyMapper.java
        test
        java
        elasticsearch
        OLSOntologyUpdateIntegrationTests.java
        OntologyUpdateIntegrationTests.java
    - solr-ontology-updateprocessor
      - src
        main
        java
        uk
        co
        flax
        biosolr
        solr
        ontology
        SolrOntologyHelperFactory.java
        update
        processor
        OntologyUpdateProcessorFactory.java
        test
        java
        uk
        co
        flax
        biosolr
        solr
        ontology
        SolrOntologyHelperFactoryTest.java
        update
        processor
        OLSOntologyUpdateProcessorFactoryTest.java
        OWLOntologyUpdateProcessorFactoryTest.java
        OntologyUpdateProcessorFactoryTest.java
  - ontology-indexer
    - biosolr-ontology-indexer-application
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        OntologyIndexerApplication.java
        config
        IndexerConfiguration.java
        SolrConfiguration.java
        StorageConfiguration.java
        loaders
        ConfigurationLoader.java
        ConfigurationLoaderFactory.java
        YamlConfigurationLoader.java
        indexer
        OWLOntologyIndexer.java
        OntologyIndexer.java
        OntologyIndexingException.java
        ReasonerFactory.java
        loaders
        AbstractOWLOntologyLoader.java
        BasicOWLOntologyLoader.java
        plugins
        PluginManager.java
        storage
        StorageEngineFactory.java
        StorageManager.java
        solr
        SolrStorageEngine.java
        utils
        Namespaces.java
        TermType.java
        test
        java
        uk
        co
        flax
        biosolr
        ontology
        storage
        StorageEngineFactoryTest.java
        TestStorageEngine.java
        solr
        SolrStorageEngineTest.java
    - biosolr-ontology-indexer-base
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        api
        AccumulatedFacetEntry.java
        Document.java
        EFOAnnotation.java
        FacetEntry.java
        FacetStyle.java
        HierarchicalFacetEntry.java
        JenaRequest.java
        OntologyEntryBean.java
        SearchResponse.java
        config
        OntologyConfiguration.java
        PluginConfiguration.java
        StorageEngineConfiguration.java
        loaders
        OntologyLoader.java
        OntologyLoadingException.java
        plugins
        OntologyEntryPlugin.java
        OntologyPlugin.java
        Plugin.java
        PluginException.java
        PluginInitialisationException.java
        storage
        StorageEngine.java
        StorageEngineException.java
    - biosolr-ontology-indexer-plugins
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        plugins
        impl
        TDBOntologyPlugin.java
  - solr-facet-tree
    - src
      - main
        java
        uk
        co
        flax
        biosolr
        FacetTreeGenerator.java
        FacetTreeParameters.java
        HierarchicalFacets.java
        TreeFacetComponent.java
        TreeFacetField.java
        builders
        AbstractFacetTreeBuilder.java
        ChildNodeFacetTreeBuilder.java
        FacetTreeBuilder.java
        FacetTreeBuilderFactory.java
        ParentNodeFacetTreeBuilder.java
        pruning
        DatapointPruner.java
        Pruner.java
        PrunerFactory.java
        SimplePruner.java
      - test
        java
        uk
        co
        flax
        biosolr
        FacetTreeProcessorTest.java
        SimpleTreeFacetComponentTest.java
        TreeFacetFieldTest.java
        builders
        ChildNodeFacetTreeBuilderTest.java
        FacetTreeBuilderFactoryTest.java
        pruning
        PrunerFactoryTest.java
- sequence
  - src
    - java
      - org
        apache
        solr
        search
        xjoin
        Combinations.java
        FieldAppender.java
        JoinSpec.java
        NameConverter.java
        XJoinParameters.java
        XJoinQParserPlugin.java
        XJoinResults.java
        XJoinResultsFactory.java
        XJoinSearchComponent.java
        XJoinValueSourceParser.java
        simple
        Connection.java
        JsonDocumentFactory.java
        PathDocument.java
        SimpleXJoinResultsFactory.java
        XmlDocumentFactory.java
      - uk
        co
        flax
        biosolr
        pdbe
        fasta
        FastaJob.java
        FastaJobResults.java
        FastaStatus.java
        FastaXJoinResultsFactory.java
        Main.java
        PDb.java
        phmmer
        Alignment.java
        Main.java
        PhmmerClient.java
        PhmmerJob.java
        PhmmerResults.java
        PhmmerXJoinResultsFactory.java
    - test
      - org
        apache
        solr
        search
        xjoin
        AbstractXJoinTestCase.java
        DummyXJoinResultsFactory.java
        TestCombinations.java
        TestFieldAppender.java
        TestJoinSpec.java
        TestNameConverter.java
        TestXJoinQParserPlugin.java
        TestXJoinSearchComponent.java
        TestXJoinValueSourceParser.java
        simple
        TestConnection.java
        TestSimple.java
        TestSimpleXJoinResultsFactory.java
      - uk
        co
        flax
        biosolr
        pdbe
        fasta
        TestFastaJob.java
        phmmer
        TestPhmmerJob.java
- sequence-5.3
  - blog
    - src
      - java
        uk
        co
        flax
        examples
        xjoin
        ClickXJoinResultsFactory.java
        HttpConnection.java
        OfferXJoinResultsFactory.java
  - src
    - java
      - org
        apache
        solr
        search
        xjoin
        Combinations.java
        FieldAppender.java
        JoinSpec.java
        NameConverter.java
        XJoinParameters.java
        XJoinQParserPlugin.java
        XJoinResults.java
        XJoinResultsFactory.java
        XJoinSearchComponent.java
        XJoinValueSourceParser.java
        simple
        Connection.java
        JsonDocumentFactory.java
        PathDocument.java
        SimpleXJoinResultsFactory.java
        XmlDocumentFactory.java
      - uk
        co
        flax
        biosolr
        pdbe
        fasta
        FastaJob.java
        FastaJobResults.java
        FastaStatus.java
        FastaXJoinResultsFactory.java
        Main.java
        PDb.java
        phmmer
        Alignment.java
        Main.java
        PhmmerClient.java
        PhmmerJob.java
        PhmmerResults.java
        PhmmerXJoinResultsFactory.java
    - test
      - org
        apache
        solr
        search
        xjoin
        AbstractXJoinTestCase.java
        DummyXJoinResultsFactory.java
        TestCombinations.java
        TestFieldAppender.java
        TestJoinSpec.java
        TestNameConverter.java
        TestXJoinQParserPlugin.java
        TestXJoinSearchComponent.java
        TestXJoinValueSourceParser.java
        simple
        TestConnection.java
        TestSimple.java
        TestSimpleXJoinResultsFactory.java
      - uk
        co
        flax
        biosolr
        pdbe
        fasta
        TestFastaJob.java
        phmmer
        TestPhmmerJob.java
- sequence-trunk
  - src
    - java
      - org
        apache
        solr
        search
        xjoin
        Combinations.java
        FieldAppender.java
        JoinSpec.java
        NameConverter.java
        XJoinParameters.java
        XJoinQParserPlugin.java
        XJoinResults.java
        XJoinResultsFactory.java
        XJoinSearchComponent.java
        XJoinValueSourceParser.java
        simple
        Connection.java
        JsonDocumentFactory.java
        PathDocument.java
        SimpleXJoinResultsFactory.java
        XmlDocumentFactory.java
    - test
      - org
        apache
        solr
        search
        xjoin
        AbstractXJoinTestCase.java
        DummyXJoinResultsFactory.java
        TestCombinations.java
        TestFieldAppender.java
        TestJoinSpec.java
        TestNameConverter.java
        TestXJoinQParserPlugin.java
        TestXJoinSearchComponent.java
        TestXJoinValueSourceParser.java
        simple
        TestConnection.java
        TestSimple.java
        TestSimpleXJoinResultsFactory.java
- spot
  - spot-ontology
    - spot-ontology-api
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        api
        AccumulatedFacetEntry.java
        Document.java
        EFOAnnotation.java
        FacetEntry.java
        FacetStyle.java
        HierarchicalFacetEntry.java
        JenaRequest.java
        OntologyEntryBean.java
        SearchResponse.java
        test
        java
        uk
        co
        flax
        biosolr
        ontology
        api
        JenaRequestTest.java
    - spot-ontology-document-indexer
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        config
        DatabaseConfiguration.java
        IndexerConfiguration.java
        SolrConfiguration.java
        StorageConfiguration.java
        StorageEngineConfiguration.java
        loaders
        ConfigurationLoader.java
        ConfigurationLoaderFactory.java
        YamlConfigurationLoader.java
        documents
        DocumentIndexer.java
        storage
        StorageEngine.java
        StorageEngineException.java
        StorageEngineFactory.java
        elasticsearch
        ESConfiguration.java
        ESStorageEngine.java
        solr
        SolrStorageEngine.java
        indexer
        OntologyIndexingException.java
    - spot-ontology-webapp
      - src
        main
        java
        uk
        co
        flax
        biosolr
        ontology
        OntologyApplication.java
        OntologyConfiguration.java
        config
        FacetTreeConfiguration.java
        JenaConfiguration.java
        SolrConfiguration.java
        health
        SolrHealthCheck.java
        resources
        DocumentTermSearchResource.java
        DynamicLabelFieldLookupResource.java
        JenaSearchResource.java
        OntologySearchResource.java
        SearchResource.java
        search
        DocumentSearch.java
        OntologySearch.java
        ResultsList.java
        SearchEngine.java
        SearchEngineException.java
        jena
        JenaOntologySearch.java
        TextIndexSolr5.java
        solr
        ChildNodeFacetTreeBuilder.java
        FacetTreeBuilder.java
        OntologyFacetTreeBuilder.java
        SolrDocumentSearch.java
        SolrOntologySearch.java
        SolrSearchEngine.java
- swat4ls_demo
  - webapp
    - src
      - main
        java
        uk
        co
        flax
        biosolr
        ontology
        OntologyApplication.java
        OntologyConfiguration.java
        api
        Document.java
        SearchResponse.java
        config
        ElasticSearchConfiguration.java
        SolrConfiguration.java
        health
        SolrHealthCheck.java
        resources
        DocumentTermSearchResource.java
        DynamicLabelFieldLookupResource.java
        SearchResource.java
        search
        DocumentSearch.java
        ResultsList.java
        SearchEngine.java
        SearchEngineException.java
        elasticsearch
        ElasticDocumentSearch.java
        ElasticSearchEngine.java
        solr
        SolrDocumentSearch.java
        SolrSearchEngine.java

/**
 * Copyright (c) 2015 Lemur Consulting Ltd.
 * <p/>
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 * <p/>
 * http://www.apache.org/licenses/LICENSE-2.0
 * <p/>
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package uk.co.flax.biosolr.pruning;

import java.util.Collection;
import java.util.Comparator;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.SortedSet;
import java.util.TreeSet;
import java.util.stream.Collectors;

import uk.co.flax.biosolr.TreeFacetField;

/**
 * Prune a facet hierarchy tree into its most significant data points,
 * with all other points grouped into "other".
 *
 * @author mlp
 */
public class DatapointPruner implements Pruner {
	
	public static final String DEFAULT_MORE_LABEL = "Others";
	
	private final int datapoints;
	private final String moreLabel;

	public DatapointPruner(int datapoints, String moreLabel) {
		this.datapoints = datapoints;
		this.moreLabel = moreLabel;
	}

	@Override
	public Collection<TreeFacetField> prune(Collection<TreeFacetField> unprunedTrees) {
		Collection<TreeFacetField> prunedTrees = new TreeSet<>(Comparator.comparingLong(TreeFacetField::getCount)
				.thenComparing(TreeFacetField::getValue).reversed());
		// Clone the unpruned collection - we need it again later
		Collection<TreeFacetField> incoming = unprunedTrees.stream().map(TreeFacetField::clone).collect(Collectors.toList());

		long total = getNodeTotal(incoming);
		int itCount = 1;
		int prevCount = Integer.MAX_VALUE;
		
		while (prunedTrees.size() < datapoints && !incoming.isEmpty()) {
			int minCount = getThreshold(itCount, prevCount, total);
			if (minCount <= 0) {
				break;
			}
			
			prunedTrees.addAll(getNodesWithCount(incoming, minCount));
			
			itCount ++;
			prevCount = minCount;
		}
		
		/* Trim the pruned trees list to the number of datapoints.
		 * This leaves the incoming list copy potentially missing nodes which
		 * should be in the "other" node. Since they could be anywhere, we
		 * have to rebuild it from scratch.
		 */
		if (prunedTrees.size() > datapoints) {
			prunedTrees = prunedTrees.stream().limit(datapoints).collect(Collectors.toList());
		}
		
		// Rebuild the incoming node set - no need to clone...
		incoming = new LinkedList<>(unprunedTrees);
		// ...and strip the nodes already extracted to the pruned list
		trimIncomingNodes(incoming, prunedTrees, 0);
		
		// Build the "other" node
		TreeFacetField otherNode = buildOtherNode(incoming);
		if (otherNode.getTotal() > 0) {
			prunedTrees.add(otherNode);
		}
		
		return prunedTrees;
	}
	
	private int getThreshold(int iteration, int previous, long total) {
		int min = Math.min(Math.round((total / datapoints) / iteration), previous - 1);
		
		if (min == 0 && iteration == 1) {
			// First iteration - set minCount to 1
			min = 1;
		}
		
		return min;
	}
	
	/**
	 * Extract all nodes in a collection with a hit count greater or equal
	 * to a given threshold. This has the side effect of modifying the
	 * incoming node collection.
	 * @param incoming the incoming nodes. Matching nodes will be removed
	 * during the processing.
	 * @param threshold the minimum hit count required to be returned.
	 * @return the collection of nodes whose hit count is greater than or
	 * equal to the threshold. 
	 */
	private Collection<TreeFacetField> getNodesWithCount(Collection<TreeFacetField> incoming, long threshold) {
		Collection<TreeFacetField> retList = new LinkedList<>();
		
		for (Iterator<TreeFacetField> iter = incoming.iterator(); iter.hasNext(); ) {
			TreeFacetField tff = iter.next();
			if (tff.getTotal() >= threshold) {
				if (tff.getChildCount() >= threshold) {
					// Recurse, finding the nodes with enough hits
					retList.addAll(getNodesWithCount(tff.getHierarchy(), threshold));
					// Recalculate the child count throughout the tree
					tff.recalculateChildCount();
				}
				
				if (tff.getCount() >= threshold) {
					// This node has enough hits - store, and remove from the 
					// incoming nodes so it's not picked again later.
					retList.add(tff);
					iter.remove();
				}
			}
		}
		
		return retList;
	}
	
	/**
	 * Get the total node count for all trees.
	 * @param trees the trees whose total count is required.
	 * @return the count.
	 */
	private long getNodeTotal(Collection<TreeFacetField> trees) {
		return trees.stream().mapToLong(TreeFacetField::getTotal).sum();
	}
	
	/**
	 * Remove a collection of pruned nodes from the original incoming set.
	 * @param incoming the set containing all nodes in the tree.
	 * @param pruned the nodes to check for duplicates.
	 * @param level the current level in the tree, starting from 0.
	 */
	private void trimIncomingNodes(Collection<TreeFacetField> incoming, Collection<TreeFacetField> pruned, int level) {
		for (Iterator<TreeFacetField> it = incoming.iterator(); it.hasNext(); ) {
			TreeFacetField tff = it.next();
			if (isFacetInChildren(tff, pruned)) {
				it.remove();
			} else {
				if (tff.hasChildren()) {
					trimIncomingNodes(tff.getHierarchy(), pruned, level + 1);
				}

				if (level == 0) {
					// Update the child counts in the node and its children
					tff.recalculateChildCount();
				}
			}
		}
	}
	
	/**
	 * Check whether a particular facet exists in the children of any other facets
	 * in a collection.
	 * @param facet the facet to check for.
	 * @param trees the collection of trees to check through.
	 * @return <code>true</code> if the facet is found in the child lists.
	 */
	private boolean isFacetInChildren(TreeFacetField facet, Collection<TreeFacetField> trees) {
		boolean retVal = false;
		
		if (trees != null) {
			for (TreeFacetField tree : trees) {
				if (tree.equals(facet) || isFacetInChildren(facet, tree.getHierarchy())) {
					retVal = true;
					break;
				}
			}
		}
		
		return retVal;
	}
	
	private TreeFacetField buildOtherNode(Collection<TreeFacetField> otherNodes) {
		// Prune the other nodes - use the SimplePruner
		SortedSet<TreeFacetField> pruned = new TreeSet<>(Comparator.reverseOrder());
		pruned.addAll(new SimplePruner(SimplePruner.MIN_CHILD_COUNT).prune(otherNodes));
		
		TreeFacetField other = new TreeFacetField(moreLabel, "", 0, 0, pruned);
		other.recalculateChildCount();
		
		return other;
	}

}