Clustering.java example

Explorer

milib-master
- src
  - main
    - java
      - com
        milaboratory
        cli
        Action.java
        ActionHelpProvider.java
        ActionHelper.java
        ActionParameters.java
        ActionParametersParser.java
        ActionParametersWithOutput.java
        AllowNoArguments.java
        HiddenAction.java
        JCommanderBasedMain.java
        ProcessException.java
        core
        PairedEndReadsLayout.java
        Range.java
        Target.java
        alignment
        AbstractAlignmentScoring.java
        AffineGapAlignmentScoring.java
        Aligner.java
        AlignerCustom.java
        Alignment.java
        AlignmentCache.java
        AlignmentHelper.java
        AlignmentIterator.java
        AlignmentIteratorForward.java
        AlignmentIteratorReverse.java
        AlignmentScoring.java
        AlignmentTrimmer.java
        AlignmentUtils.java
        BLASTMatrix.java
        BandedAffineAligner.java
        BandedAligner.java
        BandedAlignerParameters.java
        BandedLinearAligner.java
        BandedMatrix.java
        BandedSemiLocalResult.java
        CachedIntArray.java
        IO.java
        LinearGapAlignmentScoring.java
        MultiAlignmentHelper.java
        ScoringMatrixIO.java
        ScoringUtils.java
        SubstitutionMatrix.java
        batch
        AbstractBatchAligner.java
        AlignmentHit.java
        AlignmentHitImpl.java
        AlignmentResult.java
        AlignmentResultImpl.java
        BatchAligner.java
        BatchAlignerWithBase.java
        BatchAlignerWithBaseParameters.java
        BatchAlignerWithBaseWithFilter.java
        BatchAlignmentUtil.java
        HasSequence.java
        PipedAlignmentResult.java
        PipedAlignmentResultImpl.java
        PipedBatchAligner.java
        PipedBatchAlignerWithBase.java
        SequenceExtractor.java
        SimpleBatchAligner.java
        SimpleBatchAlignerParameters.java
        WithBase.java
        benchmark
        Benchmark.java
        BenchmarkInput.java
        BenchmarkResults.java
        Challenge.java
        ChallengeParameters.java
        ChallengeProvider.java
        KAlignerQuery.java
        blast
        AABlastAligner.java
        AABlastAlignerExt.java
        AABlastHit.java
        AABlastHitExt.java
        Blast.java
        BlastAligner.java
        BlastAlignerAbstract.java
        BlastAlignerExt.java
        BlastAlignerExtAbstract.java
        BlastAlignerParameters.java
        BlastDB.java
        BlastDBBuilder.java
        BlastHit.java
        BlastHitExt.java
        BlastStrand.java
        BlastTask.java
        NBlastAligner.java
        NBlastAlignerExt.java
        NBlastHit.java
        NBlastHitExt.java
        kaligner1
        AbstractKAlignerParameters.java
        KAligner.java
        KAlignerParameters.java
        KAlignmentHit.java
        KAlignmentResult.java
        KAlignmentResultP.java
        KMapper.java
        KMappingHit.java
        KMappingResult.java
        kaligner2
        KAligner2.java
        KAligner2Statistics.java
        KAlignerParameters2.java
        KAlignmentHit2.java
        KAlignmentResult2.java
        KMapper2.java
        KMappingHit2.java
        KMappingResult2.java
        OffsetPacksAccumulator.java
        clustering
        Cluster.java
        Clustering.java
        ClusteringStrategy.java
        SequenceExtractor.java
        io
        CompressionType.java
        binary
        AlignmentSerializer.java
        RangeSerializer.java
        package-info.java
        sequence
        AbstractMultiReader.java
        AbstractSequenceReader.java
        IllegalFileFormatException.java
        MultiRead.java
        MultiReader.java
        PairedRead.java
        PairedReader.java
        PairedSequenceWriter.java
        SequenceRead.java
        SequenceReader.java
        SequenceReaderCloseable.java
        SequenceWriter.java
        SingleRead.java
        SingleReadImpl.java
        SingleReadLazy.java
        SingleReader.java
        SingleSequenceWriter.java
        fasta
        FastaReader.java
        FastaRecord.java
        FastaSequenceReaderWrapper.java
        FastaSequenceWriterWrapper.java
        FastaWriter.java
        RandomAccessFastaIndex.java
        RandomAccessFastaReader.java
        fastq
        FastqRecordsReader.java
        PairedFastqReader.java
        PairedFastqWriter.java
        QualityFormat.java
        RandomAccessFastqReader.java
        RandomAccessPairedFastqReader.java
        SingleFastqIndexer.java
        SingleFastqReader.java
        SingleFastqWriter.java
        WrongQualityFormat.java
        util
        AbstractRandomAccessReader.java
        FileIndex.java
        FileIndexBuilder.java
        IOUtil.java
        merger
        MergerParameters.java
        MismatchOnlyPairedReadMerger.java
        PairedReadMergingResult.java
        QualityMergingAlgorithm.java
        motif
        BitapMatcher.java
        BitapMatcherFilter.java
        BitapMatcherImpl.java
        BitapPattern.java
        Motif.java
        MotifBuilder.java
        MotifUtils.java
        mutations
        CoverageCounter.java
        IO.java
        Mutation.java
        MutationConsensusBuilder.java
        MutationType.java
        Mutations.java
        MutationsBuilder.java
        MutationsCounter.java
        MutationsEnumerator.java
        MutationsUtil.java
        SequenceWeighter.java
        generator
        GenericNucleotideMutationModel.java
        MutationModels.java
        MutationsGenerator.java
        NucleotideMutationModel.java
        SubstitutionModel.java
        SubstitutionModelBuilder.java
        SubstitutionModels.java
        UniformMutationsGenerator.java
        sequence
        AbstractArrayAlphabet.java
        AbstractArraySequence.java
        AbstractSeq.java
        Alphabet.java
        Alphabets.java
        AminoAcidAlphabet.java
        AminoAcidSequence.java
        ArraySeqBuilder.java
        ArraySequenceBuilder.java
        GeneticCode.java
        IO.java
        NSeq.java
        NSequenceWithQuality.java
        NSequenceWithQualityBuilder.java
        NucleotideAlphabet.java
        NucleotideSequence.java
        Seq.java
        SeqBuilder.java
        Sequence.java
        SequenceBuilder.java
        SequenceQuality.java
        SequenceQualityBuilder.java
        SequenceWithQuality.java
        SequencesUtils.java
        TranslationParameters.java
        UnsafeFactory.java
        Wildcard.java
        provider
        CachedSequenceProvider.java
        SequenceProvider.java
        SequenceProviderFactory.java
        SequenceProviderIndexOutOfBoundsException.java
        SequenceProviderUtils.java
        quality
        AverageQualityAggregator.java
        MaximalQualityAggregator.java
        MiniMaxQualityAggregator.java
        MinimalQualityAggregator.java
        QualityAggregationType.java
        QualityAggregator.java
        SumQualityAggregator.java
        tree
        BranchingEnumerator.java
        MutationGuide.java
        NeighborhoodIterator.java
        PenaltyUtils.java
        SequenceTreeMap.java
        TreeSearchParameters.java
        primitivio
        CustomSerializerImpl.java
        DefaultSerializersProvider.java
        DefaultSerializersProviderImpl.java
        JSONSerializer.java
        PReader.java
        PWriter.java
        PipeReader.java
        PipeWriter.java
        PrimitivI.java
        PrimitivO.java
        Serializer.java
        SerializersManager.java
        TypeSerializationHelper.java
        Util.java
        annotations
        CustomSerializer.java
        Serializable.java
        test
        Read.java
        util
        AbstractLongProcessReporter.java
        ArrayIterator.java
        ArraysUtils.java
        AtomicEnumHistogram.java
        AtomicHistogram.java
        Bit2Array.java
        BitArray.java
        CanReportProgress.java
        CanReportProgressAndStage.java
        CountingInputStream.java
        Factory.java
        GlobalObjectMappers.java
        HashFunctions.java
        IntArrayList.java
        IntCombinations.java
        LongProcess.java
        LongProcessReporter.java
        NSequenceWithQualityPrintHelper.java
        ParseUtil.java
        ParserException.java
        ProgressAndStage.java
        RandomUtil.java
        RangeMap.java
        SingleIterator.java
        SmartProgressReporter.java
        Sorter.java
        StringUtil.java
        TempFileManager.java
        TimeUtils.java
        VersionInfo.java
  - test
    - java
      - com
        milaboratory
        core
        PairedEndReadsLayoutTest.java
        RangeTest.java
        alignment
        AlignerCustomTest.java
        AlignerTest.java
        AlignmentHelperTest.java
        AlignmentIteratorTest.java
        AlignmentScoringTest.java
        AlignmentTest.java
        AlignmentTrimmerTest.java
        AlignmentUtilsTest.java
        BLASTMatrixTest.java
        BandedAffineAlignerTest.java
        BandedLinearAlignerTest.java
        BandedMatrixTest.java
        MultiAlignmentHelperTest.java
        ScoringMatrixIOTest.java
        SubstitutionMatrixTest.java
        batch
        SimpleBatchAlignerTest.java
        blast
        BlastAlignerExtTest.java
        BlastAlignerParametersTest.java
        BlastAlignerTest.java
        BlastDBBuilderTest.java
        BlastTest.java
        kaligner1
        KAlignerParametersTest.java
        KAlignerTest.java
        KMapperTest.java
        kaligner2
        KAligner2Test.java
        KAlignerParameters2Test.java
        KMapper2Test.java
        OffsetPacksAccumulatorTest.java
        clustering
        ClusteringTest.java
        io
        sequence
        fasta
        FastaWriterTest.java
        RandomAccessFastaIndexTest.java
        RandomAccessFastaReaderTest.java
        fastq
        RandomAccessFastqReaderTest.java
        SingleFastqReaderTest.java
        SingleFastqWriterTest.java
        util
        AbstractRandomAccessReaderTest.java
        FileIndexTest.java
        IOTestUtil.java
        IOUtilTest.java
        merger
        MergerParametersTest.java
        MismatchOnlyPairedReadMergerTest.java
        PairedReadMergingResultTest.java
        motif
        BitapPatternTest.java
        MotifTest.java
        MotifUtilsTest.java
        mutations
        MutationTest.java
        MutationsCounterTest.java
        MutationsEnumeratorTest.java
        MutationsTest.java
        MutationsUtilTest.java
        generator
        GenericNucleotideMutationModelTest.java
        MutationsGeneratorTest.java
        SubstitutionModelTest.java
        UniformMutationsGeneratorTest.java
        sequence
        AlphabetSerializerTest.java
        AminoAcidAlphabetTest.java
        AminoAcidSequenceTest.java
        NSequenceWithQualityTest.java
        NucleotideAlphabetTest.java
        NucleotideSequenceSerializerTest.java
        NucleotideSequencesTest.java
        SequenceQualityBuilderTest.java
        SequenceQualityTest.java
        SequencesUtilsTest.java
        TranslationParametersTest.java
        WildcardTest.java
        provider
        CachedSequenceProviderTest.java
        quality
        QualityAggregatorTest.java
        tree
        PenaltyUtilsTest.java
        SequenceTreeMapTest.java
        TreeSearchParametersTest.java
        primitivio
        PrimitivIOTest.java
        SerializersManagerTest.java
        UtilTest.java
        test
        TestClass1.java
        TestClass2.java
        TestCustomSerializer1.java
        TestEnum1.java
        TestInterface.java
        TestJsonClass1.java
        TestJsonClass1Test.java
        TestSerializer1.java
        TestSerializer2.java
        TestSubClass1.java
        TestSubClass2.java
        TestSubClass3.java
        TestSubClass4.java
        TestSubSubClass1.java
        test
        TestUtil.java
        util
        ArraysUtilsTest.java
        AtomicEnumHistogramTest.java
        AtomicHistogramTest.java
        Bit2ArrayTest.java
        IntArrayListTest.java
        IntCombinationsTest.java
        NSequenceWithQualityPrintHelperTest.java
        ParseUtilTest.java
        RangeMapTest.java
        RemoveActionTest.java
        SorterTest.java
        VersionInfoTest.java

/*
 * Copyright 2015 MiLaboratory.com
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package com.milaboratory.core.clustering;

import com.milaboratory.core.sequence.Alphabet;
import com.milaboratory.core.sequence.Sequence;
import com.milaboratory.core.tree.NeighborhoodIterator;
import com.milaboratory.core.tree.SequenceTreeMap;
import com.milaboratory.core.tree.TreeSearchParameters;
import com.milaboratory.util.CanReportProgress;
import com.milaboratory.util.Factory;

import java.util.*;

import static com.milaboratory.core.tree.SequenceTreeMap.Node;

public final class Clustering<T, S extends Sequence<S>> implements CanReportProgress {
    final Collection<T> inputObjects;
    final SequenceExtractor<T, S> sequenceExtractor;
    final ClusteringStrategy<T, S> strategy;
    final List<Cluster<T>> clusters = new ArrayList<>();
    volatile int progress;

    public Clustering(Collection<T> inputObjects, SequenceExtractor<T, S> sequenceExtractor, ClusteringStrategy<T, S> strategy) {
        this.inputObjects = inputObjects;
        this.sequenceExtractor = sequenceExtractor;
        this.strategy = strategy;
    }

    @Override
    public double getProgress() {
        return (1.0 * progress) / inputObjects.size();
    }

    @Override
    public boolean isFinished() {
        return progress == inputObjects.size();
    }

    public List<Cluster<T>> performClustering() {
        try {
            if (inputObjects.isEmpty())
                return clusters;

            final Comparator<Cluster<T>> clusterComparator = getComparatorOfClusters(strategy, sequenceExtractor);
            // For performance
            final TreeSearchParameters params = strategy.getSearchParameters();
            final int maxDepth = strategy.getMaxClusterDepth();

            final List<T> objects = new ArrayList<>(inputObjects);
            Collections.sort(objects, getComparatorOfObjectsRegardingSequences(strategy, sequenceExtractor));

            @SuppressWarnings("unchecked")
            Alphabet<S> alphabet = sequenceExtractor.getSequence(objects.get(0)).getAlphabet();

            final Factory<T[]> arrayFactory = new Factory<T[]>() {
                @Override
                public T[] create() {
                    return (T[]) new Object[1];
                }
            };

            final SequenceTreeMap<S, T[]> tree = new SequenceTreeMap<>(alphabet);
            for (T object : objects) {
                T[] array = tree.createIfAbsent(sequenceExtractor.getSequence(object), arrayFactory);
                if (array[0] == null)
                    array[0] = object;
                else {
                    array = Arrays.copyOf(array, array.length + 1);
                    array[array.length - 1] = object;
                    tree.put(sequenceExtractor.getSequence(object), array);
                }
            }

            Node<T[]> current;

            final HashSet<Node<T[]>> processedNodes = new HashSet<>();
            ArrayList<Cluster<T>> previousLayer = new ArrayList<>(), nextLayer = new ArrayList<>(), tmp;

            T[] temp;
            boolean inTree;
            for (int i = 0; i < objects.size(); ++i) {
                this.progress = i;
                T object = objects.get(i);

                //checking whether object is already clusterized
                if ((temp = tree.get(sequenceExtractor.getSequence(object))) == null)
                    continue;
                inTree = false;
                for (T t : temp)
                    if (t == object) {
                        inTree = true;
                        break;
                    }
                if (!inTree)
                    continue;
                //<-object in not yet clusterized

                Cluster<T> tempCluster = new Cluster<>(object);
                clusters.add(tempCluster);
                previousLayer.clear();
                previousLayer.add(tempCluster);

                for (int depth = 0; depth < maxDepth; ++depth) {

                    nextLayer.clear();
                    for (Cluster<T> previousCluster : previousLayer) {

                        NeighborhoodIterator<S, T[]> iterator = tree
                                .getNeighborhoodIterator(sequenceExtractor
                                        .getSequence(previousCluster.head), params, null);
                        processedNodes.clear();

                        while ((current = iterator.nextNode()) != null) {
                            if (!processedNodes.add(current))
                                continue;

                            T[] currentObjects = current.getObject();
                            T matchedObject = null;
                            boolean allNulls = true;
                            for (int j = 0; j < currentObjects.length; j++) {
                                if (currentObjects[j] == null)
                                    continue;
                                matchedObject = currentObjects[j];

                                if (strategy.compare(previousCluster.head, matchedObject) <= 0
                                        || !strategy.canAddToCluster(previousCluster, matchedObject, iterator)) {
                                    allNulls = false;
                                    continue;
                                }

                                nextLayer.add(tempCluster = new Cluster<>(matchedObject, previousCluster));
                                previousCluster.add(tempCluster);
                                currentObjects[j] = null;
                            }
                            assert matchedObject != null;
                            if (allNulls)
                                tree.remove(sequenceExtractor.getSequence(matchedObject));
                        }

                        if (previousCluster.children != null)
                            Collections.sort(previousCluster.children, clusterComparator);
                    }

                    Collections.sort(nextLayer, clusterComparator);
                    tmp = nextLayer;
                    nextLayer = previousLayer;
                    previousLayer = tmp;
                }
            }

            return clusters;
        } finally {
            progress = inputObjects.size();
        }
    }

    public List<Cluster<T>> getClusters() {
        if (progress != inputObjects.size())
            throw new IllegalStateException("Not yet clustered.");
        return clusters;
    }

    static <T, S extends Sequence> Comparator<Cluster<T>>
    getComparatorOfClusters(final Comparator<T> objectComparator, final SequenceExtractor<T, S> extractor) {
        return new Comparator<Cluster<T>>() {
            @Override
            public int compare(Cluster<T> o1, Cluster<T> o2) {
                int i = objectComparator.compare(o2.head, o1.head);
                return i == 0 ?
                        extractor.getSequence(o2.head).compareTo(extractor.getSequence(o1.head))
                        : i;
            }
        };
    }

    static <T, S extends Sequence> Comparator<T>
    getComparatorOfObjectsRegardingSequences(final Comparator<T> objectComparator, final SequenceExtractor<T, S> extractor) {
        return new Comparator<T>() {
            @Override
            public int compare(T o1, T o2) {
                int i = objectComparator.compare(o2, o1);
                return i == 0 ?
                        extractor.getSequence(o2).compareTo(extractor.getSequence(o1))
                        : i;
            }
        };
    }


    public static <T, S extends Sequence<S>> List<Cluster<T>> performClustering(Collection<T> inputObjects,
                                                                                SequenceExtractor<T, S> sequenceExtractor,
                                                                                ClusteringStrategy<T, S> strategy) {
        return new Clustering<T, S>(inputObjects, sequenceExtractor, strategy).performClustering();
    }

}