SingleJobTool.java example

Explorer

infovore-master
- bakemono
  - src
    - main
      - java
        com
        ontology2
        bakemono
        Main.java
        MainBase.java
        RecyclingIterable.java
        abstractions
        Codec.java
        KeyValueAcceptor.java
        PrimaryKeyValueAcceptor.java
        Spring.java
        baseKBToDBpedia
        BaseKBToDBpediaMapper.java
        BaseKBToDBpediaReducer.java
        BaseKBToDBpediaTool.java
        bloom
        BloomMath.java
        BloomReducer.java
        configuration
        Beans.java
        HadoopTool.java
        dbpediaToBaseKB
        DBpediaToBaseKBMapper.java
        DBpediaToBaseKBReducer.java
        DBpediaToBaseKBTool.java
        diffFacts
        DiffFactReducer.java
        DiffFactsTool.java
        entityCentric
        EntityCentricMapper.java
        EntityIsAReducer.java
        EntityMatchesRuleReducer.java
        ExtractIsATool.java
        freebasePrefilter
        FreebasePrefilterCounter.java
        FreebaseRDFMapper.java
        FreebaseRDFTool.java
        jena
        NodeComparator.java
        NodePair.java
        PartitionOnSubject.java
        RawNodeComparator.java
        RawTripleComparator.java
        SPOTripleOutputFormat.java
        STripleOutputFormat.java
        SubjectTripleComparator.java
        TripleComparator.java
        TripleOutputFormat.java
        WritableNode.java
        WritableTriple.java
        joins
        AcceptWithMatchingKeyReducer.java
        FetchTriplesWithMatchingObjectsMapper.java
        FetchTriplesWithMatchingObjectsTool.java
        GeneralJoinMapper.java
        GeneralTextJoinMapper.java
        SetDifferenceReducer.java
        SetDifferenceTool.java
        SetJoinMapper.java
        TaggedItem.java
        TaggedKeyGroupComparator.java
        TaggedKeyPartitioner.java
        TaggedKeySortComparator.java
        TaggedTextItem.java
        TaggedTextKeyGroupComparator.java
        TaggedTextKeySortComparator.java
        TextSimpleJoinMapper.java
        mapmap
        MapMapper.java
        PTUniqueMapMapper.java
        UniqTool.java
        UniqURIObjectTool.java
        UniqueInternalURIObjectMapper.java
        UniqueInternalURIObjectTool.java
        UniqueURIObjectMapper.java
        UniqueURIPredicateMapper.java
        UniqueURIPredicateTool.java
        UniqueURISubjectMapper.java
        UniqueURISubjectTool.java
        mapred
        ToolBase.java
        mapreduce
        SelfAwareTool.java
        ShadowedParameterizedType.java
        SingleJobTool.java
        StoreAs.java
        TypeDetective.java
        primitiveTriples
        LineProcessingRecordReader.java
        PrimitiveTriple.java
        PrimitiveTripleCodec.java
        PrimitiveTripleInputFormat.java
        PrimitiveTripleOutputFormat.java
        PrimitiveTriplePredicateRewriter.java
        PrimitiveTripleReverser.java
        PrimitiveTripleTypeRewriter.java
        ProjectInternalURIObject.java
        ProjectPredicate.java
        ProjectSubject.java
        ProjectURIObject.java
        SPOPrimitiveTripleOutputFormat.java
        pse3
        PSE3Counters.java
        PSE3Mapper.java
        PSE3Tool.java
        PSE3Util.java
        SubjectHashedUniq.java
        Uniq.java
        UniqCounters.java
        ranSample
        PassthroughReducer.java
        RanSampleMapper.java
        RanSampleTool.java
        rewriteSubject
        RewriteSubjectMapper.java
        RewriteSubjectReducer.java
        RewriteSubjectTool.java
        smushObject
        SmushObjectMapper.java
        SmushObjectReducer.java
        SmushObjectTool.java
        sumRDF
        SumRDFMapper.java
        SumRDFReducer.java
        SumRDFTool.java
        uniq
        Uniq.java
        UniqCounters.java
        util
        StatelessIdFunctions.java
        Utilities.java
        rdf
        BKBInternal.java
        BKBPublic.java
        CacheEconomizer.java
        Economizer.java
        InvalidNodeException.java
        InvalidPrefixException.java
        JenaUtil.java
        TripleEconomizer.java
        parser
        JavaCharStream.java
        NodeParser.java
        NodeParserConstants.java
        NodeParserTokenManager.java
        ParseException.java
        Token.java
        TokenMgrError.java
    - test
      - java
        com
        ontology2
        bakemono
        MainTest.java
        TestMetadataContext.java
        TestVersionData.java
        baseKBToDBpedia
        TestMapper.java
        bloom
        BloomMathTest.java
        BloomReducerTest.java
        configuration
        TestBeans.java
        dbpediaToBaseKB
        TestMapper.java
        TestMapperStatics.java
        TestTool.java
        diffFacts
        TestGetopt.java
        TestReducer.java
        entityCentric
        EntityCentricMapperTest.java
        EntityIsAReducerTest.java
        ExtractIsAToolTest.java
        freebasePrefilter
        TestFreebaseRDFMapper.java
        jena
        JenaNodeTester.java
        TestPartitionerOnSubject.java
        TestSubjectComparator.java
        TestTripleComparator.java
        TestWritableNode.java
        TestWritableTriple.java
        joins
        SetDifferenceReducerTest.java
        SimpleJoinMapperInternalTest.java
        TaggedItemMatcher.java
        TaggedTextKeyTest.java
        TestAcceptWithMatchingKeyReducer.java
        TestFetchTriplesWithMatchingObjectsMapper.java
        TestTaggedItemMatcher.java
        TextSimpleJoinMapperTest.java
        mapmap
        UniqPredicateMapperTest.java
        UniqueInternalUriObjectMapperTest.java
        UniqueSubjectMapperTest.java
        UniqueUriObjectMapperTest.java
        mapreduce
        TestMapper.java
        TestOptions.java
        TestReducer.java
        TestSelfAwareTool.java
        TestTool.java
        primitiveTriples
        PrimitiveTripleTypeRewriterTest.java
        TestPrimitiveTripleCodec.java
        pse3
        SchwarzeneggerTest.java
        TestDateRegex.java
        TestPSE3Mapper.java
        TestUnescape.java
        rewriteSubjectMapper
        TestMapper.java
        TestReducer.java
        TestTool.java
        smushObject
        TestSmushMapper.java
        TestSmushReducer.java
        sumRDF
        MapperTest.java
        ReducerTest.java
        StaticMapperTest.java
        rdf
        UnderstandNodeMemoryBehavior.java
        parser
        NodeParserTest.java
- bakemono-options
  - src
    - main
      - java
        com
        ontology2
        bakemono
        diffFacts
        DiffFactsOptions.java
        entityCentric
        ExtractIsAOptions.java
        freebasePrefilter
        FreebaseRDFToolOptions.java
        mapreduce
        InputPath.java
        pse3
        PSE3Options.java
        rewriteSubject
        RewriteSubjectOptions.java
        util
        CommonOptions.java
        DirectoryPrefixOptions.java
        ReducerOptions.java
    - test
      - java
        com
        ontology2
        bakemono
        AppTest.java
- haruhi
  - src
    - main
      - java
        com
        ontology2
        haruhi
        AmazonEMRCluster.java
        ApplicationConfigurationFetcher.java
        Cluster.java
        FlowApp.java
        HaruhiShell.java
        LocalCmdCluster.java
        MavenManagedJar.java
        PersistentCluster.java
        accountant
        Accountant.java
        alert
        Alert.java
        AlertService.java
        createMachineImage
        CreateMachineImage.java
        emr
        NodeType.java
        fetchLogs
        FetchLogs.java
        jobApp
        JobApp.java
        JobAppOptions.java
        killPersistentCluster
        KillPersistentCluster.java
        KillPersistentClusterOptions.java
        launchInstance
        LaunchInstance.java
        newPersistentCluster
        NewPersistentClusterApp.java
        NewPersistentClusterOptions.java
        ssh
        HadoopConfigurationVariable.java
        HaruhiConfiguration.java
        Ssh.java
    - test
      - java
        com
        ontology2
        haruhi
        MavenManagedJarTests.java
        TestApplicationConfigurationLoader.java
        TestEMRCluster.java
        TestVersionData.java
        flows
        AssignmentStepTest.java
        SpringStepTest.java
- haruhi-spring
  - src
    - main
      - java
        com
        ontology2
        haruhi
        flows
        Assignment.java
        AssignmentStep.java
        Flow.java
        FlowStep.java
        ForeachStep.java
        JobStep.java
        SpringFlow.java
        SpringStep.java
        SpringStepContext.java
- infovore-maven-plugin
  - src
    - main
      - java
        com
        ontology2
        infovoreMavenPlugin
        MyMojo.java

package com.ontology2.bakemono.mapreduce;

import com.google.common.base.Joiner;
import com.google.common.collect.HashMultimap;
import com.google.common.collect.Lists;
import com.google.common.collect.Multimap;
import com.ontology2.bakemono.joins.GeneralJoinMapper;
import com.ontology2.bakemono.mapred.ToolBase;
import com.ontology2.centipede.parser.OptionParser;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.RawComparator;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import java.io.IOException;
import java.lang.reflect.Field;
import java.util.ArrayList;

public abstract class SingleJobTool<OptionsClass> extends ToolBase {
    private static org.apache.commons.logging.Log logger = LogFactory.getLog(SingleJobTool.class);

    protected OptionsClass options;
    protected void validateOptions() {} ;
    abstract protected String getName();
    protected Class<? extends InputFormat> getInputFormatClass() {
        return TextInputFormat.class;
    }
    protected abstract Class<? extends Mapper> getMapperClass();

    protected abstract Class<? extends Writable> getMapOutputKeyClass();
    protected abstract Class<? extends Writable> getMapOutputValueClass();

    protected Class<? extends Reducer> getReducerClass() {
        return Reducer.class;
    }

    protected Class<? extends RawComparator> getGroupingComparatorClass() {
        return null;
    }

    protected Class<? extends Partitioner> getPartitionerClass() {
        return null;
    }

    protected Class<? extends RawComparator> getSortComparatorClass() {
        return null;
    }

    abstract public Class<? extends Writable> getOutputKeyClass();
    abstract public Class<? extends Writable> getOutputValueClass();

    abstract public Iterable<Path> getInputPaths();

    public Multimap<Integer,Path> getTagMap() {
        return HashMultimap.create();
    }

    abstract public int getNumReduceTasks();
    protected abstract Path getOutputPath();
    protected Class<? extends OutputFormat> getOutputFormatClass() {
        return TextOutputFormat.class;
    }

    //
    // "null" means don't compress
    //

    protected Class<? extends CompressionCodec> getOutputCompressorClass() {
        return GzipCodec.class;
    }

    //
    // the assumption here is that any real instance of this will be a non-generic
    // subclass of a class that has the parameter filled in,  thus we can figure
    // out the class from the parameter.
    //
    
    abstract public Class getOptionsClass();

    public int run(String[] strings) throws Exception {
        logger.info("Initializing SingleJobTool");
        Job job = createJob(strings);
        if(job.waitForCompletion(true))
            return 0;

        if(getErrorSleepTime()<1)
            return 1;

        logger.info("Waiting for ["+getErrorSleepTime()+"] seconds for logs to synchronize");
        Thread.sleep(1000*getErrorSleepTime());

        return 1;
    }

    //
    // this is public so it is accessible for testing...  that is,  we can test a dry run that
    // creates the job but doesn't run it
    //

    public Job createJob(String[] strings) throws IllegalAccessException, IOException {
        options=extractOptions(strings);
        validateOptions();

        configureOutputCompression();
        Job job=new Job(getConf(),getName());
        job.setJarByClass(getClass());
        job.setMapperClass(getMapperClass());
        job.setMapOutputKeyClass(getMapOutputKeyClass());
        job.setMapOutputValueClass(getMapOutputValueClass());
        job.setReducerClass(getReducerClass());
        job.setOutputKeyClass(getOutputKeyClass());
        job.setOutputValueClass(getOutputValueClass());

        if(getGroupingComparatorClass()!=null) {
            logger.info("Set grouping comparator class to "+getGroupingComparatorClass());
            job.setGroupingComparatorClass(getGroupingComparatorClass());
        }

        if(getPartitionerClass()!=null) {
            logger.info("Set partitioner class to "+getPartitionerClass());
            job.setPartitionerClass(getPartitionerClass());
        }

        if(getSortComparatorClass()!=null) {
            logger.info("Set sort comparator class to "+getSortComparatorClass());
            job.setSortComparatorClass(getSortComparatorClass());
        }

        job.setInputFormatClass(getInputFormatClass());
        for(Path p:getInputPaths()) {
            FileInputFormat.addInputPath(job, p);
        }

        Multimap<Integer,Path> tagMap=getTagMap();
        if(tagMap!=null && !tagMap.isEmpty()) {
            for(Integer key:tagMap.keySet()) {
                Iterable<Path> paths=tagMap.get(key);
                String configKey= GeneralJoinMapper.INPUTS+"."+key;
                String configValue=Joiner.on(",").join(paths);
                job.getConfiguration().set(configKey,configValue);
            }
        }

        job.setNumReduceTasks(getNumReduceTasks());
        FileOutputFormat.setOutputPath(job, getOutputPath());
        job.setOutputFormatClass(getOutputFormatClass());
        serializeOptions(job);

        // should we let output compression be configurable?  the bloom filters shouldn't be compressible
        // if they are optimally tuned,  but trying to compress a file that size won't hurt

        if(getOutputCompressorClass()!=null) {
            FileOutputFormat.setCompressOutput(job,true);
            FileOutputFormat.setOutputCompressorClass(job,getOutputCompressorClass());
        }

        return job;
    }

    private void serializeOptions(Job job) throws IllegalAccessException {
        Class that=getOptionsClass();
        for(Field f:that.getFields()) {
            StoreAs a=f.getAnnotation(StoreAs.class);
            if (a!=null) {
                job.getConfiguration().set(a.value(),f.get(options).toString());
            }
        }
    }

    private OptionsClass extractOptions(String[] strings) throws IllegalAccessException {
        return extractOptions(Lists.newArrayList(strings));
    }

    private OptionsClass extractOptions(ArrayList<String> strings) throws IllegalAccessException {
        OptionParser parser=new OptionParser(getOptionsClass());
        applicationContext.getAutowireCapableBeanFactory().autowireBean(parser);

        return (OptionsClass) parser.parse(strings);
    }


    public int getErrorSleepTime() {
        return 600; // ten minutes,  since AWS log syncs up every 5 minutes
    }
}