DataReuseEngine.java example

Explorer

pegasus-master
- share
  - pegasus
    - examples
      - condor-blackdiamond-condorio
        BlackDiamondDAX.java
      - condor-blackdiamond-nonsharedfs
        BlackDiamondDAX.java
      - condor-blackdiamond-nonsharedfs-scp
        BlackDiamondDAX.java
      - condor-blackdiamond-sharedfs
        BlackDiamondDAX.java
      - creamce-condorio
        BlackDiamondDAX.java
      - creamce-nonsharedfs
        BlackDiamondDAX.java
      - glite-nonsharedfs-example
        BlackDiamondDAX.java
      - glite-sharedfs-example
        BlackDiamondDAX.java
      - google-storage
        RosettaDAX.java
      - grid-blackdiamond-java
        BlackDiamondDAX.java
      - grid-rosetta
        RosettaDAX.java
      - one-to-many-dynamic-java
        RootWorkflow.java
        SubWorkflow.java
      - simple-examples
        merge.java
        pipeline.java
        process.java
        split.java
    - init
      - daxgen
        DAXGen.java
- src
  - edu
    - isi
      - ikcap
        workflows
        util
        logging
        Escape.java
        EventLogMessage.java
        LogEvent.java
        LoggingKeys.java
      - pegasus
        common
        credential
        CredentialHandler.java
        CredentialHandlerFactory.java
        CredentialHandlerFactoryException.java
        impl
        Abstract.java
        BotoConfig.java
        GoogleP12.java
        Irods.java
        Proxy.java
        S3CFG.java
        Ssh.java
        logging
        Event.java
        LogFormatter.java
        LogFormatterFactory.java
        LogFormatterFactoryException.java
        LogManager.java
        LogManagerFactory.java
        LogManagerFactoryException.java
        LoggingKeys.java
        TestLogFormatter.java
        format
        AbstractLogFormatter.java
        Netlogger.java
        NetloggerEvent.java
        Simple.java
        SimpleEvent.java
        logger
        Default.java
        Log4j.java
        util
        Boolean.java
        CommonProperties.java
        CondorVersion.java
        Currently.java
        DefaultStreamGobblerCallback.java
        DynamicLoader.java
        Escape.java
        FactoryException.java
        FileUtils.java
        FindExecutable.java
        GliteEscape.java
        PegasusURL.java
        ProfileParser.java
        ProfileParserException.java
        Separator.java
        Separator2Test.java
        SeparatorTest.java
        StreamGobbler.java
        StreamGobblerCallback.java
        VariableExpander.java
        Version.java
        XMLOutput.java
        XMLWriter.java
        planner
        catalog
        Catalog.java
        CatalogException.java
        ReplicaCatalog.java
        SiteCatalog.java
        TransformationCatalog.java
        WorkCatalog.java
        classes
        CatalogEntry.java
        Profiles.java
        SysInfo.java
        VDSSysInfo2NMI.java
        replica
        ReplicaCatalogEntry.java
        ReplicaCatalogException.java
        ReplicaFactory.java
        TestReplicaCatalog.java
        impl
        Directory.java
        FlushedCache.java
        JDBCRC.java
        MRC.java
        Regex.java
        SimpleFile.java
        site
        SiteCatalogException.java
        SiteFactory.java
        SiteFactoryException.java
        TestSiteCatalog.java
        TestVORSSiteCatalog.java
        classes
        AbstractSiteData.java
        AbstractXMLPrintVisitor.java
        Adapter.java
        Connection.java
        CreateSampleSiteCatalog.java
        Directory.java
        DirectoryLayout.java
        FileServer.java
        FileServerType.java
        FileSystemType.java
        GridGateway.java
        HeadNodeFS.java
        HeadNodeScratch.java
        HeadNodeStorage.java
        InternalMountPoint.java
        LocalDirectory.java
        ReplicaCatalog.java
        SharedDirectory.java
        SiteCatalogEntry.java
        SiteCatalogEntry3.java
        SiteData.java
        SiteDataVisitor.java
        SiteStore.java
        StorageType.java
        WorkerNodeFS.java
        WorkerNodeScratch.java
        WorkerNodeStorage.java
        WorkerSharedDirectory.java
        XML3PrintVisitor.java
        XML4PrintVisitor.java
        impl
        XML.java
        transformation
        Mapper.java
        TCMode.java
        TestTransformationCatalog.java
        TransformationCatalogEntry.java
        TransformationFactory.java
        TransformationFactoryException.java
        classes
        Arch.java
        NMI2VDSSysInfo.java
        Os.java
        TCType.java
        TransformationStore.java
        VDSSysInfo.java
        client
        Client.java
        TCAdd.java
        TCDelete.java
        TCFormatUtility.java
        TCQuery.java
        impl
        Abstract.java
        CreateTCDatabase.java
        Database.java
        File.java
        Text.java
        mapper
        All.java
        Installed.java
        Staged.java
        Submit.java
        work
        Database.java
        WorkCatalogException.java
        WorkFactory.java
        WorkFactoryException.java
        classes
        ADag.java
        AggregatedJob.java
        AuthenticateRequest.java
        CompoundTransformation.java
        DAGJob.java
        DAXJob.java
        DagInfo.java
        Data.java
        FileTransfer.java
        Job.java
        NameValue.java
        Notifications.java
        PCRelation.java
        PegasusBag.java
        PegasusFile.java
        PlannerCache.java
        PlannerMetrics.java
        PlannerOptions.java
        Profile.java
        ReplicaLocation.java
        ReplicaStore.java
        TCMap.java
        TransferJob.java
        WorkflowMetrics.java
        client
        CPlanner.java
        DAXValidator.java
        Executable.java
        ExitCode.java
        PartitionDAX.java
        RCClient.java
        RankDAX.java
        SCClient.java
        TCClient.java
        TCConverter.java
        VDS2PegasusProperties.java
        VersionNumber.java
        cluster
        Abstract.java
        Clusterer.java
        ClustererException.java
        ClustererFactory.java
        ClustererFactoryException.java
        Horizontal.java
        JobAggregator.java
        Vertical.java
        aggregator
        Abstract.java
        JobAggregatorFactory.java
        JobAggregatorFactoryException.java
        JobAggregatorInstanceFactory.java
        MPIExec.java
        SeqExec.java
        code
        CodeGenerator.java
        CodeGeneratorException.java
        CodeGeneratorFactory.java
        CodeGeneratorFactoryException.java
        GridStart.java
        GridStartFactory.java
        GridStartFactoryException.java
        POSTScript.java
        generator
        Abstract.java
        Braindump.java
        DAXReplicaStore.java
        Metrics.java
        MonitordNotify.java
        NetloggerJobMapper.java
        PBS.java
        PMC.java
        Shell.java
        Stampede.java
        condor
        ClassADSGenerator.java
        CondorEnvironmentEscape.java
        CondorGenerator.java
        CondorQuoteParser.java
        CondorQuoteParserException.java
        CondorStyle.java
        CondorStyleException.java
        CondorStyleFactory.java
        CondorStyleFactoryException.java
        PegasusSubmitDAG.java
        SUBDAXGenerator.java
        style
        Abstract.java
        Condor.java
        CondorC.java
        CondorG.java
        CondorGlideIN.java
        CondorGlideinWMS.java
        CreamCE.java
        GLite.java
        SSH.java
        gridstart
        Distribute.java
        Kickstart.java
        NetloggerPostScript.java
        NoGridStart.java
        NoPOSTScript.java
        PegasusExitCode.java
        PegasusExitCodeEncode.java
        PegasusLite.java
        UserPOSTScript.java
        common
        CreateWorkerPackage.java
        PegRandom.java
        PegasusConfiguration.java
        PegasusDBAdmin.java
        PegasusProperties.java
        RunDirectoryFilenameFilter.java
        Shiwa.java
        UserOptions.java
        VariableExpansionReader.java
        dax
        ADAG.java
        AbstractJob.java
        CatalogType.java
        DAG.java
        DAX.java
        Edge.java
        Executable.java
        File.java
        Invoke.java
        Job.java
        MetaData.java
        PFN.java
        Patterns.java
        Profile.java
        Transformation.java
        examples
        Diamond.java
        Pipeline.java
        estimate
        Aspen.java
        Default.java
        Estimator.java
        EstimatorFactory.java
        EstimatorFactoryException.java
        invocation
        Architecture.java
        ArgEntry.java
        ArgString.java
        ArgVector.java
        Arguments.java
        Boot.java
        CPU.java
        CommandLine.java
        Data.java
        Descriptor.java
        EnvEntry.java
        Environment.java
        Fifo.java
        File.java
        HasDescriptor.java
        HasFilename.java
        HasText.java
        Ignore.java
        Invocation.java
        InvocationRecord.java
        Job.java
        JobStatus.java
        JobStatusFailure.java
        JobStatusRegular.java
        JobStatusSignal.java
        JobStatusSuspend.java
        Load.java
        Machine.java
        MachineInfo.java
        MachineSpecific.java
        Proc.java
        RAM.java
        Regular.java
        SimpleServer.java
        SimpleServerThread.java
        Stamp.java
        StatCall.java
        StatInfo.java
        Status.java
        Swap.java
        Task.java
        Temporary.java
        Uname.java
        Usage.java
        WorkingDir.java
        mapper
        Mapper.java
        MapperException.java
        OutputMapper.java
        OutputMapperFactory.java
        OutputMapperFactoryException.java
        StagingMapper.java
        StagingMapperFactory.java
        StagingMapperFactoryException.java
        SubmitMapper.java
        SubmitMapperFactory.java
        SubmitMapperFactoryException.java
        output
        AbstractFileFactoryBasedMapper.java
        Fixed.java
        Flat.java
        Hashed.java
        Replica.java
        staging
        Abstract.java
        Flat.java
        Hashed.java
        submit
        Flat.java
        Hashed.java
        namespace
        Condor.java
        Dagman.java
        ENV.java
        Globus.java
        Hints.java
        Metadata.java
        Namespace.java
        Pegasus.java
        Selector.java
        Stat.java
        TestNamespace.java
        aggregator
        Abstract.java
        Aggregator.java
        MAX.java
        MIN.java
        Sum.java
        UniqueMerge.java
        Update.java
        parser
        DAXParserFactory.java
        DAXParserFactoryException.java
        IVPTest.java
        IVSElement.java
        InvocationParser.java
        PDAXParser.java
        Parser.java
        ParserStackElement.java
        ScannerException.java
        SiteCatalogXMLParser.java
        SiteCatalogXMLParser3.java
        SiteCatalogXMLParser4.java
        SiteCatalogXMLParserFactory.java
        SiteCatalogXMLParserFactoryException.java
        StackBasedXMLParser.java
        TestDAXParser.java
        TransformationCatalogTextParser.java
        TransformationCatalogTextScanner.java
        XMLErrorHandler.java
        dax
        Callback.java
        DAX2CDAG.java
        DAX2Graph.java
        DAX2LabelGraph.java
        DAX2Metadata.java
        DAX2NewGraph.java
        DAXParser.java
        DAXParser2.java
        DAXParser3.java
        ExampleDAXCallback.java
        pdax
        Callback.java
        PDAX2MDAG.java
        PDAXCallbackFactory.java
        PDAXCallbackFactoryException.java
        tokens
        CloseBrace.java
        CloseParanthesis.java
        Identifier.java
        OpenBrace.java
        OpenParanthesis.java
        QuotedString.java
        Token.java
        TransformationCatalogReservedWord.java
        partitioner
        BFS.java
        Callback.java
        ClustererCallback.java
        DAXWriter.java
        Horizontal.java
        Label.java
        MultipleLook.java
        One2One.java
        PDAXWriter.java
        Partition.java
        Partitioner.java
        PartitionerFactory.java
        PartitionerFactoryException.java
        SingleLook.java
        Topological.java
        Whole.java
        WriterCallback.java
        graph
        Bag.java
        CycleChecker.java
        Graph.java
        GraphNode.java
        GraphNodeContent.java
        LabelBag.java
        MapGraph.java
        TopologicalSortIterator.java
        provenance
        pasoa
        PPS.java
        XMLProducer.java
        pps
        Empty.java
        PPSFactory.java
        PPSFactoryException.java
        Pasoa.java
        producer
        InMemory.java
        XMLProducerFactory.java
        XMLProducerFactoryException.java
        provisioner
        Edge.java
        Estimator.java
        Node.java
        OccupationDiagram.java
        ranking
        GetDAX.java
        Rank.java
        Ranking.java
        refiner
        CleanupEngine.java
        CreateDirectory.java
        DataReuseEngine.java
        DeployWorkerPackage.java
        Engine.java
        InterPoolEngine.java
        MainEngine.java
        NodeCollapser.java
        ReduceEdges.java
        Refiner.java
        RemoveDirectory.java
        ReplicaCatalogBridge.java
        TestReduceEdges.java
        TransferEngine.java
        cleanup
        AbstractCleanupStrategy.java
        Cleanup.java
        CleanupFactory.java
        CleanupFactoryException.java
        CleanupImplementation.java
        CleanupStrategy.java
        Constraint.java
        InPlace.java
        RM.java
        constraint
        Choice.java
        FileDataBean.java
        FloatingFile.java
        OutOfSpaceError.java
        Utilities.java
        createdir
        AbstractStrategy.java
        DefaultImplementation.java
        HourGlass.java
        Implementation.java
        Minimal.java
        Strategy.java
        Tentacles.java
        selector
        ReplicaSelector.java
        SiteSelector.java
        TransformationSelector.java
        replica
        Default.java
        Local.java
        Regex.java
        ReplicaSelectorFactory.java
        ReplicaSelectorFactoryException.java
        Restricted.java
        site
        Abstract.java
        AbstractPerJob.java
        Group.java
        Heft.java
        NonJavaCallout.java
        Random.java
        RoundRobin.java
        SiteSelectorFactory.java
        SiteSelectorFactoryException.java
        heft
        Algorithm.java
        HeftBag.java
        Processor.java
        Site.java
        transformation
        Installed.java
        Random.java
        RoundRobin.java
        Staged.java
        Submit.java
        transfer
        AbstractRefiner.java
        Implementation.java
        MultipleFTPerXFERJob.java
        MultipleFTPerXFERJobRefiner.java
        Refiner.java
        RemoteTransfer.java
        SLS.java
        SingleFTPerXFERJob.java
        SingleFTPerXFERJobRefiner.java
        TPT.java
        TestTPT.java
        implementation
        Abstract.java
        AbstractMultipleFTPerXFERJob.java
        AbstractSingleFTPerXFERJob.java
        GUC.java
        ImplementationFactory.java
        T2.java
        TPTGUC.java
        Transfer.java
        TransferImplementationFactoryException.java
        refiner
        BalancedCluster.java
        Basic.java
        Bundle.java
        Chain.java
        Cluster.java
        Empty.java
        RefinerFactory.java
        TransferRefinerFactoryException.java
        sls
        Condor.java
        SLSFactory.java
        SLSFactoryException.java
        Transfer.java
  - org
    - griphyn
      - vdl
        Chimera.java
        annotation
        Predicate.java
        QueryParser.java
        QueryParserException.java
        QueryScanner.java
        QueryScannerException.java
        QueryTree.java
        Tuple.java
        TupleBoolean.java
        TupleDate.java
        TupleFloat.java
        TupleInteger.java
        TupleString.java
        classes
        Argument.java
        Call.java
        Declare.java
        Definition.java
        Definitions.java
        Derivation.java
        Executable.java
        HasPass.java
        IllegalTransformationException.java
        IncompatibleLinkageException.java
        LFN.java
        Leaf.java
        List.java
        Local.java
        Meta.java
        Pass.java
        Profile.java
        Scalar.java
        Text.java
        Transformation.java
        UndeclaredVariableException.java
        Use.java
        VDL.java
        Value.java
        dax
        ADAG.java
        Child.java
        DAGJob.java
        DAX.java
        DAXJob.java
        Filename.java
        Job.java
        Leaf.java
        Profile.java
        PseudoText.java
        dbdriver
        DatabaseDriver.java
        MySQL.java
        Oracle.java
        Postgres.java
        SQLServer2000.java
        SQLite.java
        dbschema
        Advanced.java
        Annotation.java
        AnnotationSchema.java
        Catalog.java
        ChunkSchema.java
        DatabaseSchema.java
        InMemorySchema.java
        InvocationSchema.java
        MyCallbackHandler.java
        NXDInvSchema.java
        NXDSchema.java
        PTC.java
        SingleFileSchema.java
        VDC.java
        WF.java
        WorkflowSchema.java
        XDC.java
        diagnozer
        Diagnozer.java
        FindTheFile.java
        FindTheRegex.java
        JobInfo.java
        JobInfos.java
        directive
        Connect.java
        Define.java
        Delete.java
        Derive.java
        Directive.java
        Display.java
        Explain.java
        ParseKickstart.java
        Search.java
        VDLtConvert.java
        VDLxConvert.java
        Workflow.java
        WorkflowJob.java
        euryale
        Callback.java
        DAX2DAG.java
        DAXParser.java
        DAXTest.java
        FileFactory.java
        FlatFileFactory.java
        HashedFileFactory.java
        VTorInUseException.java
        VirtualDecimalHashedFileFactory.java
        VirtualFlatFileFactory.java
        VirtualHashedFileFactory.java
        parser
        DAXParser.java
        DAXTest.java
        DefinitionHandler.java
        FinalizerHandler.java
        MemoryStorage.java
        NoHassleHandler.java
        StackElement.java
        VDLContentHandler.java
        VDLErrorHandler.java
        VDLtArrow.java
        VDLtAt.java
        VDLtCloseBrace.java
        VDLtCloseBracket.java
        VDLtCloseParenthesis.java
        VDLtColon.java
        VDLtComma.java
        VDLtDefinition.java
        VDLtDerivation.java
        VDLtDollar.java
        VDLtDoubleColon.java
        VDLtEquals.java
        VDLtException.java
        VDLtFQDN.java
        VDLtIdentifier.java
        VDLtOpenBrace.java
        VDLtOpenBracket.java
        VDLtOpenParenthesis.java
        VDLtParser.java
        VDLtParserException.java
        VDLtPeriod.java
        VDLtQuotedString.java
        VDLtScanner.java
        VDLtScannerException.java
        VDLtSemicolon.java
        VDLtToken.java
        VDLtTransformation.java
        VDLtVBar.java
        VDLxParser.java
        VDLxTest.java
        planner
        DAX2Graph.java
        Graph.java
        RCWrapper.java
        SCWrapper.java
        Scriptor.java
        TCWrapper.java
        Topology.java
        Wrapper.java
        router
        Arbiter.java
        BookKeeper.java
        Cache.java
        CreateDiamond.java
        CreateDiamondKeg.java
        CreateFullDiamond.java
        DiamondTest.java
        DuplicateIdentifier.java
        FullDiamondTest.java
        ListStack.java
        MissingArgumentException.java
        PreferNamespace.java
        Route.java
        ShowDiamond.java
        ShowDiamondKeg.java
        ShowFullDiamond.java
        StackElement.java
        ToDAG.java
        ToText.java
        TransformationNotFoundException.java
        toolkit
        DeleteMeta.java
        DeleteVDC.java
        FriendlyNudge.java
        GetDAX.java
        InsertMeta.java
        Planner.java
        SearchMeta.java
        SearchVDC.java
        ShowMeta.java
        TestProps.java
        Toolkit.java
        UpdateVDC.java
        VDLHelper.java
        VDLc.java
        VDLtConv.java
        VDLx2VDLt.java
        VizDAX.java
        VizDAX2.java
        XSearchVDC.java
        util
        ChimeraProperties.java
        Chmod.java
        DAX2CoG.java
        DAX2DOT.java
        FcntlFileLock.java
        FcntlLock.java
        FileHelper.java
        LockFileLock.java
        LockFileSet.java
        LockHelper.java
        Logging.java
        SequenceGenerator.java
        SequenceMapping.java
        VDLType.java
        workflow
        JobStateEntry.java
        WorkEntry.java
        Workflow.java
        WorkflowTest.java
- test
  - core
    - 001-black-diamond-vanilla-condor
      - BlackDiamondDAX.java
    - 006-black-diamond-shell-code-generator
      - BlackDiamondDAX.java
    - 007-black-diamond-pegasuslite-local
      - BlackDiamondDAX.java
    - 011-rosetta-staging-site
      - RosettaDAX.java
    - 012-blackdiamond-invoke
      - BlackDiamondDAX.java
    - 019-black-label
      - BlackDiamondDAX.java
    - 021-black-dir
      - BlackDiamondDAX.java
    - 023-sc4-ssh-http
      - RosettaDAX.java
    - 024-sc4-gridftp-http
      - RosettaDAX.java
    - 025-sc4-file-http
      - RosettaDAX.java
    - 029-black-quiet
      - BlackDiamondDAX.java
    - 030-pegasuslite-irods
      - RosettaDAX.java
    - 030-pegasuslite-sshftp
      - RosettaDAX.java
    - 032-black-chkpoint
      - BlackDiamondDAX.java
    - 033-pegasuslite-multi
      - BlackDiamondDAX.java
    - 033-pegasuslite-multi-wp-a
      - BlackDiamondDAX.java
    - 033-pegasuslite-multi-wp-b
      - BlackDiamondDAX.java
    - 033-pegasuslite-multi-wp-c
      - BlackDiamondDAX.java
    - 034-recursive-cluster-condorio
      - BlackDiamondDAX.java
    - 034-recursive-cluster-nonsharedfs
      - BlackDiamondDAX.java
    - 034-recursive-cluster-sharedfs
      - BlackDiamondDAX.java
    - 037-black-hints
      - BlackDiamondDAX.java
    - 038-halt-continue
      - HierarchicalDiamonds.java
    - 040-multiple-input-sources-nonsharedfs
      - BlackDiamondDAX.java
    - 040-multiple-input-sources-sharedfs
      - BlackDiamondDAX.java
  - junit
    - edu
      - isi
        pegasus
        common
        util
        GLiteEscapeTest.java
        PegasusURLTest.java
        VariableExpanderTest.java
        VersionTest.java
        planner
        catalog
        replica
        impl
        JDBCRCTest.java
        RegexRCTest.java
        SimpleFileTest.java
        site
        impl
        XMLTest.java
        transformation
        impl
        TextTest.java
        cluster
        RuntimeClusteringTest.java
        code
        generator
        condor
        CondorEnvironmentEscapeTest.java
        style
        CondorGTest.java
        CondorTest.java
        GliteTest.java
        mapper
        output
        FixedOutputMapperTest.java
        FlatOutputMapperTest.java
        HashedOutputMapperTest.java
        OutputMapperTestSetup.java
        ReplicaOutputMapperTest.java
        namespace
        PegasusTest.java
        parser
        dax
        DAXParser3Test.java
        partitioner
        graph
        CycleCheckerTest.java
        refiner
        DataReuseEngineTest.java
        test
        AllTests.java
        DefaultTestSetup.java
        EnvSetup.java
        TestSetup.java

/**
 *  Copyright 2007-2008 University Of Southern California
 *
 *  Licensed under the Apache License, Version 2.0 (the "License");
 *  you may not use this file except in compliance with the License.
 *  You may obtain a copy of the License at
 *
 *  http://www.apache.org/licenses/LICENSE-2.0
 *
 *  Unless required by applicable law or agreed to in writing,
 *  software distributed under the License is distributed on an "AS IS" BASIS,
 *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *  See the License for the specific language governing permissions and
 *  limitations under the License.
 */

package edu.isi.pegasus.planner.refiner;


import edu.isi.pegasus.common.logging.LogManager;
import edu.isi.pegasus.common.logging.LoggingKeys;
import edu.isi.pegasus.planner.classes.ADag;
import edu.isi.pegasus.planner.classes.Job;
import edu.isi.pegasus.planner.classes.PegasusBag;
import edu.isi.pegasus.planner.classes.PegasusFile;
import edu.isi.pegasus.planner.namespace.Pegasus;
import edu.isi.pegasus.planner.partitioner.graph.Bag;
import edu.isi.pegasus.planner.partitioner.graph.Graph;
import edu.isi.pegasus.planner.partitioner.graph.GraphNode;
import edu.isi.pegasus.planner.provenance.pasoa.PPS;
import edu.isi.pegasus.planner.provenance.pasoa.XMLProducer;
import edu.isi.pegasus.planner.provenance.pasoa.pps.PPSFactory;
import edu.isi.pegasus.planner.provenance.pasoa.producer.XMLProducerFactory;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Set;

/**
 * The data reuse engine reduces the workflow on the basis of existing output
 * files of the workflow found in the Replica Catalog. The algorithm works in
 * two passes.
 *
 * <p>
 * In the first pass , we determine all the jobs whose output files exist in
 * the Replica Catalog.  An output file with the transfer flag set to false is
 * treated equivalent to the file existing in the Replica Catalog , if
 * <pre>
 *  - the output file is not an input to any of the children of the job X
 *  </pre>
 *
 * In the second pass, we remove the job whose output files exist in the
 * Replica Catalog and try to cascade the deletion upwards to the parent
 * jobs. We start the breadth first traversal of the workflow bottom up.
 * A node is marked for deletion if -
 *
 * <pre>
 *  ( It is already marked for deletion in pass 1
 *      OR
 *      ( ALL of it's children have been marked for deletion
 *        AND
 *        Node's output files have transfer flags set to false
 *      )
 *  )
 * </pre>
 *
 * @author Karan Vahi
 * @version $Revision$
 *
 */

public class DataReuseEngine extends Engine implements Refiner{

    /**
     * enumeration of the various supported modes for data reuse.
     */
    public static enum SCOPE  { full, partial, none };
    
    /**
     * List of all deleted jobs during workflow reduction.
     */
    private List<Job> mAllDeletedJobs;

    /**
     * List of all deleted jobs during workflow reduction.
     */
    private List<GraphNode> mAllDeletedNodes;

    /**
     * The XML Producer object that records the actions.
     */
    private XMLProducer mXMLStore;

    /**
     * The workflow object being worked upon.
     */
    private ADag mWorkflow;
    
    /**
     * The reduction mode set by the user.
     */
    private SCOPE mDataReuseScope;
    
    /**
     * A boolean indicating whether whether data reuse scope is partial or not
     */
    private boolean mPartialDataReuse;

    /**
     * All files discovered in the replica catalog
     */
    private Set<String>  mWorkflowFilesInRC;
    
    
    
    /**
     * The constructor
     *
     * @param orgDag    The original Dag object
     * @param bag       the bag of initialization objects.
     */
    public DataReuseEngine( ADag orgDag, PegasusBag bag ){
        super( bag) ;

        mAllDeletedJobs  = new LinkedList();
        mAllDeletedNodes = new LinkedList();
        mXMLStore        = XMLProducerFactory.loadXMLProducer( mProps );
        mWorkflow        = orgDag;
        mDataReuseScope  = getDataReuseScope( mProps.getDataReuseScope() );
        mPartialDataReuse  =  mDataReuseScope.equals( SCOPE.partial );
    }



    /**
     * Returns a reference to the workflow that is being refined by the refiner.
     *
     *
     * @return ADAG object.
     */
    public ADag getWorkflow(){
        return this.mWorkflow;
    }

    /**
     * Returns a reference to the XMLProducer, that generates the XML fragment
     * capturing the actions of the refiner. This is used for provenace
     * purposes.
     *
     * @return XMLProducer
     */
    public XMLProducer getXMLProducer(){
        return this.mXMLStore;
    }


    /**
     * Reduces the workflow on the basis of the existence of lfn's in the
     * replica catalog. The existence of files, is determined via the bridge.
     *
     * @param workflow   the workflow to be reduced.
     * @param rcb        instance of the replica catalog bridge.
     *
     * @return the reduced dag
     *
     */
    public ADag reduceWorkflow( ADag workflow,  ReplicaCatalogBridge rcb ){

        //clone the original workflow. it will be reduced later on
        //PM-747 ADag reducedWorkflow = (ADag) workflow.clone();

        //PM-747 no need for conversion as ADag now implements Graph interface
        Graph reducedGraph =  this.reduceWorkflow( (Graph)workflow, rcb );

        mWorkflow = (ADag)reducedGraph;
        
        //PM-1003
        mWorkflow.getWorkflowMetrics().setNumDeletedTasks( this.mAllDeletedJobs.size() );
        
        return mWorkflow;
    }


    /**
     * Reduces the workflow on the basis of the existence of lfn's in the
     * replica catalog. The existence of files, is determined via the bridge.
     *
     * @param workflow   the workflow to be reduced.
     * @param rcb        instance of the replica catalog bridge.
     *
     * @return the reduced dag. The input workflow object is returned reduced.
     *
     */
    public Graph reduceWorkflow( Graph workflow,  ReplicaCatalogBridge rcb ){

        //search for the replicas of the files. The search list
        //is already present in Replica Catalog Bridge
        mWorkflowFilesInRC = rcb.getFilesInReplica();

        //we reduce the dag only if the
        //force option is not specified.
        if(mPOptions.getForce() || mDataReuseScope.equals( SCOPE.none )){
            return workflow;
        }

        mLogger.log( "Data Reuse Scope for the workflow: " + mDataReuseScope,
                     LogManager.CONFIG_MESSAGE_LEVEL );
        
        
        //load the PPS implementation
        PPS pps = PPSFactory.loadPPS( this.mProps );

        //mXMLStore.add( "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" );
        mXMLStore.add( "<workflow url=\"" + mPOptions.getDAX() + "\">" );

        //call the begin workflow method
        try{
            pps.beginWorkflowRefinementStep(this, PPS.REFINEMENT_REDUCE , true);
        }
        catch( Exception e ){
            throw new RuntimeException( "PASOA Exception", e );
        }

        //clear the XML store
        mXMLStore.clear();

        mLogger.log("Reducing the workflow",LogManager.DEBUG_MESSAGE_LEVEL);
        mLogger.logEventStart( LoggingKeys.EVENT_PEGASUS_REDUCE, LoggingKeys.DAX_ID, mWorkflow.getAbstractWorkflowName() );
           
        //figure out jobs whose output files already exist in the Replica Catalog
        List<GraphNode> originalJobsInRC = getJobsInRC(workflow ,mWorkflowFilesInRC );
        //mAllDeletedJobs = (Vector)mOrgJobsInRC.clone();
        //firstPass( originalJobsInRC );
        Graph reducedWorkflow = cascadeDeletionUpwards( workflow, originalJobsInRC );
        
        mLogMsg = "Nodes/Jobs Deleted from the Workflow during reduction ";
        mLogger.log( mLogMsg,LogManager.INFO_MESSAGE_LEVEL );
        for( GraphNode node : this.mAllDeletedNodes){
            mLogger.log("\t" + node.getID(), LogManager.INFO_MESSAGE_LEVEL );
            mXMLStore.add( "<removed job = \"" + node.getID() + "\"/>" );
            mXMLStore.add( "\n" );
        }
        mLogger.log( mLogMsg +  " - DONE", LogManager.INFO_MESSAGE_LEVEL );


        //call the end workflow method for pasoa interactions
        try{
            for( Iterator it = reducedWorkflow.nodeIterator(); it.hasNext(); ){
                GraphNode node = ( GraphNode )it.next();
                pps.isIdenticalTo( node.getName(), node.getName() );
            }

            pps.endWorkflowRefinementStep( this );
        }
        catch( Exception e ){
            throw new RuntimeException( "PASOA Exception", e );
        }


        mLogger.logEventCompletion();
        return reducedWorkflow;
    }


    /**
     * This returns all the jobs deleted from the workflow after the reduction
     * algorithm has run.
     *
     * @return  List containing the <code>Job</code> of deleted leaf jobs.
     */
    public List<Job> getDeletedJobs(){
       return this.mAllDeletedJobs;
    }

    /**
     * This returns all the deleted jobs that happen to be leaf nodes. This
     * entails that the output files  of these jobs be transferred
     * from the location returned by the Replica Catalog to the
     * pool specified. This is a subset of mAllDeletedJobs
     * Also to determine the deleted leaf jobs it refers the original
     * dag, not the reduced dag.
     *
     * @return  List containing the <code>Job</code> of deleted leaf jobs.
     */
    public List<Job> getDeletedLeafJobs(){
        mLogger.log( "Date Reuse Engine no longer tracks deleted leaf jobs. Returning empty list ",
                     LogManager.DEBUG_MESSAGE_LEVEL );
        List<Job> delLeafJobs = new LinkedList();

       
        return delLeafJobs;
    }


    /**
     * Returns all the jobs whose output files exist in the Replica Catalog.
     * An output file with the transfer flag set to false is treated equivalent
     * to the file being in the Replica Catalog , if
     *
     * - the output file is not an input to any of the children of the job X
     *
     * @param workflow   the workflow object
     * @param filesInRC  Set of <code>String</code> objects corresponding to the
     *                   logical filenames of files that are found to be in the
     *                   Replica Catalog.
     *
     * @return a List of GraphNodes with their Boolean bag value set to true.
     *
     * @see org.griphyn.cPlanner.classes.Job
     */
    private List<GraphNode> getJobsInRC(Graph workflow ,Set filesInRC){
        List<GraphNode> jobsInReplica = new LinkedList();
        int noOfOutputFilesInJob = 0;
        int noOfSuccessfulMatches = 0;

        if( workflow.isEmpty() ){
            String msg = "ReductionEngine: The set of jobs in the workflow " +
                         "\n is empty.";
            mLogger.log( msg, LogManager.DEBUG_MESSAGE_LEVEL );
            return jobsInReplica;
        }


        mLogger.log("Jobs whose o/p files already exist",
                    LogManager.DEBUG_MESSAGE_LEVEL);
        //iterate through all the nodes in the graph
        for( Iterator it = workflow.nodeIterator(); it.hasNext(); ){
            GraphNode node = (GraphNode)it.next();
            Job job =  (Job)node.getContent();
            Set<PegasusFile> outputFiles = job.getOutputFiles();

            String jobName = job.jobName;

            if( job.getOutputFiles().isEmpty() ){
                //a job with no output file should not be
                //marked as a job in the RC
                //Otherwise it can result in whole workflow being reduced
                //if such a node is the leaf of the workflow.
                mLogger.log("Job "  + job.getName() + " has no o/p files",
                            LogManager.DEBUG_MESSAGE_LEVEL);
                continue;
            }

            if( mDataReuseScope.equals( SCOPE.partial) ){
                //PM-774 in case of partial data reuse, we look
                //for a marker to figure out whether job;s output files
                //should be looked for
                if( !(job.vdsNS.containsKey( Pegasus.ENABLE_FOR_DATA_REUSE_KEY ) ||
                      job.vdsNS.getBooleanValue( Pegasus.ENABLE_FOR_DATA_REUSE_KEY))){
                    
                    mLogger.log( "Partial Data Reuse Enabled. Not looking for output files in RC for job " + job.getID(),
                                 LogManager.DEBUG_MESSAGE_LEVEL );
                    continue;
                }
            }

            /* Commented on Oct10. This ended up making the
            Planner doing duplicate transfers
            if(subInfo.stdOut.length()>0)
                vJobOutputFiles.addElement(subInfo.stdOut);
            */

            noOfOutputFilesInJob = outputFiles.size();

            //traversing through the output files of that particular job
            for( PegasusFile pf : outputFiles ){

                if(filesInRC.contains(pf.getLFN()) ){
                    noOfSuccessfulMatches++;
                }
                else if ( pf.getTransientTransferFlag() ){
                    //successful match only if the output file is not an input
                    //to any of the children of the job X
                    boolean input = true;
                    for( Iterator cit = node.getChildren().iterator(); cit.hasNext(); ){
                        GraphNode child = (GraphNode) cit.next();
                        Job childJob = (Job)child.getContent();
                        if( childJob.getInputFiles().contains( pf ) ){
                            input = false;
                            break;
                        }
                    }
                    if( input ){
                        noOfSuccessfulMatches++;
                    }
                }
            }

            //we add a job to list of jobs whose output files already exist
            //only if noOfSuccessFulMatches is equal to the number of output
            //files in job
            if(noOfOutputFilesInJob == noOfSuccessfulMatches){
                mLogger.log("\t" + jobName, LogManager.DEBUG_MESSAGE_LEVEL);
                jobsInReplica.add( node );
            }
            //reinitialise the variables
            noOfSuccessfulMatches = 0;
            noOfOutputFilesInJob = 0;
        }
        mLogger.log("Jobs whose o/p files already exist - DONE",
                     LogManager.DEBUG_MESSAGE_LEVEL);
        return jobsInReplica;

    }







    /**
     * Cascade the deletion of the jobs upwards in the workflow. We start a
     * breadth first traversal of the workflow bottom up. A node is marked for
     * deletion if -
     *
     * <pre>
     *  ( It is already marked for deletion
     *      OR
     *      ( ALL of it's children have been marked for deletion
     *        AND
     *        Node's output files have transfer flags set to false
     *      )
     *  )
     * </pre>
     * 
     * @param workflow          the worfklow to be deduced
     * @param originalJobsInRC  list of nodes found to be in the Replica Catalog.
     */
    protected Graph cascadeDeletionUpwards(Graph workflow, List<GraphNode> originalJobsInRC) {
        
        //sanity intialization of all nodes depth
        //also associate a boolean bag with the nodes
        //that tracks whether a node has been marked for deletion or not
        for( Iterator it = workflow.nodeIterator(); it.hasNext(); ){
            GraphNode node = ( GraphNode )it.next();
            BooleanBag bag = new BooleanBag();
            node.setBag(bag);

        }
        
        //PM-756 the boolean value assoicated with the bag is treated
        //to mean that the node is marked for deletion.
        //all jobs whose files were in the RC are marked for deletion initially
        for( GraphNode job: originalJobsInRC ){
            ((BooleanBag)job.getBag()).add(true);
        }

        
        //start the bottom up traversal
        for( Iterator it = workflow.bottomUpIterator(); it.hasNext(); ){
            GraphNode node  = (GraphNode)it.next();

            //System.out.println( "Traversing " + node.getID() );
            boolean markedForDeletion = ((BooleanBag)node.getBag()).getBooleanValue() ;
            if( !markedForDeletion ){
                //If a node is not already marked for deletion , it  can be marked
                //for deletion if
                //    a) all it's children have been marked for deletion AND
                //    b) node's output files have transfer flags set to false
                boolean delete = true;
                for( Iterator cit = node.getChildren().iterator(); cit.hasNext(); ){
                    GraphNode child = (GraphNode)cit.next();
                    //System.out.println( "Child is " + child.getID() );
                    //check whether a child node is marked for deletion or not
                    if( !((BooleanBag)child.getBag()).getBooleanValue()  ){
                        mLogger.log( node.getID() + "  will not be deleted as not as child " + child.getID() + " is not marked for deletion " ,
                                     LogManager.DEBUG_MESSAGE_LEVEL );
                        delete = false;
                        break;
                    }
                }
                if( delete ){
                    //all the children are deleted. However delete only if
                    // all the output files have transfer flags set to false
                    // OR output fies with transfer=true exist in RC
                    if(  !transferOutput( node ) ){
                        mLogger.log( "Cascaded Deletion: Node can be deleted "  + node.getID() ,
                                     LogManager.DEBUG_MESSAGE_LEVEL );
                        ((BooleanBag)node.getBag()).add(true);
                        markedForDeletion = true;
                    }
                }
            }

            
            //if the node is marked for deletion at this point
            //add the node for deletion
            if( markedForDeletion ){
                mLogger.log( "Marking node for removal from the workflow "  + node.getID() ,
                                 LogManager.DEBUG_MESSAGE_LEVEL );
                this.mAllDeletedJobs.add( (Job)node.getContent() );
                this.mAllDeletedNodes.add( node );
            }
        
        }
        
        //remove all the nodes marked for deletion separately
        //after the bottom up iteration is done
        for( GraphNode node: mAllDeletedNodes ){
            mLogger.log( "Removing node from the workflow "  + node.getID() ,
                                 LogManager.DEBUG_MESSAGE_LEVEL );
            workflow.remove( node.getID() );
        }
       
        return workflow;
    }

    /**
     * Returns whether a user wants output transferred for a node or not.
     * If no output files  are associated , true will be returned
     *
     * @param node   the GraphNode
     *
     * @return boolean
     */
    protected boolean transferOutput(GraphNode node) {
        boolean result = false;

        Job job = (Job)node.getContent();

        if( job.getOutputFiles().isEmpty() ){
            //no output files means we should not delete the job automatically
            //JIRA PM-24
            return true;
        }

        for( Iterator it = job.getOutputFiles().iterator(); it.hasNext(); ){
            PegasusFile pf = (PegasusFile)it.next();
            if( ! pf.getTransientTransferFlag() ){ //transfer flag is true and 
                 if( mPartialDataReuse || !this.mWorkflowFilesInRC.contains(pf.getLFN())  ){
                    //PM-783
                    //transfer flag is true and ( either partial data reuse OR 
                    //                                in case of full data reuse scope, we could not find the file in replica catalog)
                    result = true;
                    break;
                }
            }
        }

        return result;
    }


    /**
     * Returns a scope value from String if a valid string is passed
     * 
     * @param value  the string value
     * 
     * @return corresponding valid enum value, else the default value i.e Scope.full;
     */
    private SCOPE getDataReuseScope(String value) {
        SCOPE scope = SCOPE.full;
       if( value == null ){
            return scope;
        }
        
        //try to assign a cleanup value
        try{
            scope = SCOPE.valueOf( value );
        }catch( IllegalArgumentException iae ){
            //ignore do nothing.
        }
        
        return scope;
    }
    


    /**
     * A bag implementation that cam be used to hold a boolean value associated with the
     * graph node
     *
     */
    public class BooleanBag implements Bag {

        /**
         * The boolean value
         */
        private boolean mBoolean;


        /**
         * The default constructor.
         */
        public BooleanBag(){
            mBoolean = false;
        }

        /**
         * Returns the boolean value
         *
         * @return
         */
        public boolean getBooleanValue(){
           return mBoolean;
        }

        /**
         * For all keys returns the boolean value
         * 
         * @param key
         * @return
         */
        public Object get(Object key) {
            return  mBoolean;
        }

        /**
         * Ignores the key and only adds the value .
         * The value should be a boolean
         *
         * @param key
         * @param value
         *
         * @return
         */
        public boolean add(Object key, Object value) {
            if (!(value instanceof Boolean )){
                throw new IllegalArgumentException( "Boolean Bag only accepts boolean values" + value );
            }
            mBoolean = (Boolean)value;

            return true;
        }

        /**
         * Returns false. You cannot associate a key with this bag.
         *
         * @param key
         *
         * @return false
         */
        public boolean containsKey(Object key) {
            return false;
        }

        /**
         * Adds a boolean value to the bag
         *
         * @param b the boolean value
         */
        public void add(boolean b) {
            this.add( null, b );
        }


    }
}