SegmentMerger.java example

Explorer

nutch-master
- src
  - java
    - org
      - apache
        nutch
        crawl
        AbstractFetchSchedule.java
        AdaptiveFetchSchedule.java
        CrawlDatum.java
        CrawlDb.java
        CrawlDbFilter.java
        CrawlDbMerger.java
        CrawlDbReader.java
        CrawlDbReducer.java
        DeduplicationJob.java
        DefaultFetchSchedule.java
        FetchSchedule.java
        FetchScheduleFactory.java
        Generator.java
        Injector.java
        Inlink.java
        Inlinks.java
        LinkDb.java
        LinkDbFilter.java
        LinkDbMerger.java
        LinkDbReader.java
        MD5Signature.java
        MimeAdaptiveFetchSchedule.java
        NutchWritable.java
        Signature.java
        SignatureComparator.java
        SignatureFactory.java
        TextMD5Signature.java
        TextProfileSignature.java
        URLPartitioner.java
        fetcher
        FetchItem.java
        FetchItemQueue.java
        FetchItemQueues.java
        FetchNode.java
        FetchNodeDb.java
        Fetcher.java
        FetcherOutputFormat.java
        FetcherThread.java
        FetcherThreadEvent.java
        FetcherThreadPublisher.java
        QueueFeeder.java
        hostdb
        HostDatum.java
        ReadHostDb.java
        ResolverThread.java
        UpdateHostDb.java
        UpdateHostDbMapper.java
        UpdateHostDbReducer.java
        indexer
        CleaningJob.java
        IndexWriter.java
        IndexWriters.java
        IndexerMapReduce.java
        IndexerOutputFormat.java
        IndexingException.java
        IndexingFilter.java
        IndexingFilters.java
        IndexingFiltersChecker.java
        IndexingJob.java
        NutchDocument.java
        NutchField.java
        NutchIndexAction.java
        metadata
        CreativeCommons.java
        DublinCore.java
        Feed.java
        HttpHeaders.java
        MetaWrapper.java
        Metadata.java
        Nutch.java
        SpellCheckedMetadata.java
        net
        URLExemptionFilter.java
        URLExemptionFilters.java
        URLFilter.java
        URLFilterChecker.java
        URLFilterException.java
        URLFilters.java
        URLNormalizer.java
        URLNormalizerChecker.java
        URLNormalizers.java
        package-info.java
        protocols
        HttpDateFormat.java
        ProtocolException.java
        Response.java
        package-info.java
        parse
        HTMLMetaTags.java
        HtmlParseFilter.java
        HtmlParseFilters.java
        Outlink.java
        OutlinkExtractor.java
        Parse.java
        ParseCallable.java
        ParseData.java
        ParseException.java
        ParseImpl.java
        ParseOutputFormat.java
        ParsePluginList.java
        ParsePluginsReader.java
        ParseResult.java
        ParseSegment.java
        ParseStatus.java
        ParseText.java
        ParseUtil.java
        Parser.java
        ParserChecker.java
        ParserFactory.java
        ParserNotFound.java
        package-info.java
        plugin
        CircularDependencyException.java
        Extension.java
        ExtensionPoint.java
        MissingDependencyException.java
        Pluggable.java
        Plugin.java
        PluginClassLoader.java
        PluginDescriptor.java
        PluginManifestParser.java
        PluginRepository.java
        PluginRuntimeException.java
        protocol
        Content.java
        Protocol.java
        ProtocolException.java
        ProtocolFactory.java
        ProtocolNotFound.java
        ProtocolOutput.java
        ProtocolStatus.java
        RobotRulesParser.java
        package-info.java
        publisher
        NutchPublisher.java
        NutchPublishers.java
        scoring
        AbstractScoringFilter.java
        ScoringFilter.java
        ScoringFilterException.java
        ScoringFilters.java
        package-info.java
        webgraph
        LinkDatum.java
        LinkDumper.java
        LinkRank.java
        Node.java
        NodeDumper.java
        NodeReader.java
        ScoreUpdater.java
        WebGraph.java
        package-info.java
        segment
        ContentAsTextInputFormat.java
        SegmentChecker.java
        SegmentMergeFilter.java
        SegmentMergeFilters.java
        SegmentMerger.java
        SegmentPart.java
        SegmentReader.java
        package-info.java
        service
        ConfManager.java
        JobManager.java
        NutchReader.java
        NutchServer.java
        SeedManager.java
        impl
        ConfManagerImpl.java
        JobFactory.java
        JobManagerImpl.java
        JobWorker.java
        LinkReader.java
        NodeReader.java
        NutchServerPoolExecutor.java
        SeedManagerImpl.java
        SequenceReader.java
        model
        request
        DbQuery.java
        JobConfig.java
        NutchConfig.java
        ReaderConfig.java
        SeedList.java
        SeedUrl.java
        response
        FetchNodeDbInfo.java
        JobInfo.java
        NutchServerInfo.java
        resources
        AbstractResource.java
        AdminResource.java
        ConfigResource.java
        DbResource.java
        JobResource.java
        ReaderResouce.java
        SeedResource.java
        tools
        AbstractCommonCrawlFormat.java
        Benchmark.java
        CommonCrawlConfig.java
        CommonCrawlDataDumper.java
        CommonCrawlFormat.java
        CommonCrawlFormatFactory.java
        CommonCrawlFormatJackson.java
        CommonCrawlFormatJettinson.java
        CommonCrawlFormatSimple.java
        CommonCrawlFormatWARC.java
        DmozParser.java
        FileDumper.java
        FreeGenerator.java
        ResolveUrls.java
        WARCUtils.java
        arc
        ArcInputFormat.java
        ArcRecordReader.java
        ArcSegmentCreator.java
        package-info.java
        package-info.java
        warc
        WARCExporter.java
        package-info.java
        util
        CommandRunner.java
        CrawlCompletionStats.java
        DeflateUtils.java
        DomUtil.java
        DumpFileUtil.java
        EncodingDetector.java
        FSUtils.java
        GZIPUtils.java
        GenericWritableConfigurable.java
        HadoopFSUtil.java
        JexlUtil.java
        LockUtil.java
        MimeUtil.java
        NodeWalker.java
        NutchConfiguration.java
        NutchJob.java
        NutchTool.java
        ObjectCache.java
        PrefixStringMatcher.java
        ProtocolStatusStatistics.java
        StringUtil.java
        SuffixStringMatcher.java
        TableUtil.java
        TimingUtil.java
        TrieStringMatcher.java
        URLUtil.java
        domain
        DomainStatistics.java
        DomainSuffix.java
        DomainSuffixes.java
        DomainSuffixesReader.java
        TopLevelDomain.java
        package-info.java
        webui
        NutchUiApplication.java
        NutchUiServer.java
        client
        NutchClient.java
        NutchClientFactory.java
        impl
        CrawlingCycle.java
        CrawlingCycleListener.java
        NutchClientImpl.java
        RemoteCommand.java
        RemoteCommandBuilder.java
        RemoteCommandExecutor.java
        RemoteCommandsBatchFactory.java
        model
        ConnectionStatus.java
        Crawl.java
        JobConfig.java
        JobInfo.java
        NutchStatus.java
        config
        CustomDaoFactory.java
        CustomTableCreator.java
        NutchGuiConfiguration.java
        SpringConfiguration.java
        model
        NutchConfig.java
        NutchInstance.java
        SeedList.java
        SeedUrl.java
        pages
        AbstractBasePage.java
        DashboardPage.java
        LogOutPage.java
        SchedulingPage.java
        SearchPage.java
        StatisticsPage.java
        UrlsUploadPage.java
        UserSettingsPage.java
        assets
        NutchUiCssReference.java
        components
        ColorEnumLabel.java
        ColorEnumLabelBuilder.java
        CpmIteratorAdapter.java
        crawls
        CrawlPanel.java
        CrawlsPage.java
        instances
        InstancePanel.java
        InstancesPage.java
        menu
        VerticalMenu.java
        seed
        SeedListsPage.java
        SeedPage.java
        settings
        SettingsPage.java
        service
        CrawlService.java
        NutchInstanceService.java
        NutchService.java
        SeedListService.java
        impl
        CrawlServiceImpl.java
        NutchInstanceServiceImpl.java
        NutchServiceImpl.java
        SeedListServiceImpl.java
  - plugin
    - creativecommons
      - src
        java
        org
        creativecommons
        nutch
        CCIndexingFilter.java
        CCParseFilter.java
        test
        org
        creativecommons
        nutch
        TestCCParseFilter.java
    - feed
      - src
        java
        org
        apache
        nutch
        indexer
        feed
        FeedIndexingFilter.java
        package-info.java
        parse
        feed
        FeedParser.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        feed
        TestFeedParser.java
    - headings
      - src
        java
        org
        apache
        nutch
        parse
        headings
        HeadingsParseFilter.java
        package-info.java
    - index-anchor
      - src
        java
        org
        apache
        nutch
        indexer
        anchor
        AnchorIndexingFilter.java
        test
        org
        apache
        nutch
        indexer
        anchor
        TestAnchorIndexingFilter.java
    - index-basic
      - src
        java
        org
        apache
        nutch
        indexer
        basic
        BasicIndexingFilter.java
        test
        org
        apache
        nutch
        indexer
        basic
        TestBasicIndexingFilter.java
    - index-geoip
      - src
        java
        org
        apache
        nutch
        indexer
        geoip
        GeoIPDocumentCreator.java
        GeoIPIndexingFilter.java
        package-info.java
    - index-links
      - src
        java
        org
        apache
        nutch
        indexer
        links
        LinksIndexingFilter.java
        test
        org
        apache
        nutch
        indexer
        links
        TestLinksIndexingFilter.java
        parse
        TestOutlinks.java
    - index-metadata
      - src
        java
        org
        apache
        nutch
        indexer
        metadata
        MetadataIndexer.java
        package-info.java
    - index-more
      - src
        java
        org
        apache
        nutch
        indexer
        more
        MoreIndexingFilter.java
        test
        org
        apache
        nutch
        indexer
        more
        TestMoreIndexingFilter.java
    - index-replace
      - src
        java
        org
        apache
        nutch
        indexer
        replace
        FieldReplacer.java
        ReplaceIndexer.java
        package-info.java
        test
        org
        apache
        nutch
        indexer
        replace
        TestIndexReplace.java
    - index-static
      - src
        java
        org
        apache
        nutch
        indexer
        staticfield
        StaticFieldIndexer.java
        test
        org
        apache
        nutch
        indexer
        staticfield
        TestStaticFieldIndexerTest.java
    - indexer-cloudsearch
      - src
        java
        org
        apache
        nutch
        indexwriter
        cloudsearch
        CloudSearchConstants.java
        CloudSearchIndexWriter.java
        CloudSearchUtils.java
    - indexer-dummy
      - src
        java
        org
        apache
        nutch
        indexwriter
        dummy
        DummyIndexWriter.java
        package-info.java
    - indexer-elastic
      - src
        java
        org
        apache
        nutch
        indexwriter
        elastic
        ElasticConstants.java
        ElasticIndexWriter.java
        package-info.java
        test
        org
        apache
        nutch
        indexwriter
        elastic
        TestElasticIndexWriter.java
    - indexer-elastic-rest
      - src
        java
        org
        apache
        nutch
        indexwriter
        elasticrest
        ElasticRestConstants.java
        ElasticRestIndexWriter.java
        package-info.java
    - indexer-rabbit
      - src
        java
        org
        apache
        nutch
        indexwriter
        rabbit
        RabbitDocument.java
        RabbitIndexWriter.java
        RabbitMQConstants.java
        RabbitMessage.java
    - indexer-solr
      - src
        java
        org
        apache
        nutch
        indexwriter
        solr
        SolrConstants.java
        SolrIndexWriter.java
        SolrMappingReader.java
        SolrUtils.java
        package-info.java
    - language-identifier
      - src
        java
        org
        apache
        nutch
        analysis
        lang
        HTMLLanguageParser.java
        LanguageIndexingFilter.java
        test
        org
        apache
        nutch
        analysis
        lang
        TestHTMLLanguageParser.java
    - lib-htmlunit
      - src
        java
        org
        apache
        nutch
        protocol
        htmlunit
        HtmlUnitWebDriver.java
        HtmlUnitWebWindowListener.java
    - lib-http
      - src
        java
        org
        apache
        nutch
        protocol
        http
        api
        BlockedException.java
        HttpBase.java
        HttpException.java
        HttpRobotRulesParser.java
        test
        org
        apache
        nutch
        protocol
        http
        api
        TestRobotRulesParser.java
    - lib-regex-filter
      - src
        java
        org
        apache
        nutch
        urlfilter
        api
        RegexRule.java
        RegexURLFilterBase.java
        package-info.java
        test
        org
        apache
        nutch
        urlfilter
        api
        RegexURLFilterBaseTest.java
    - lib-selenium
      - src
        java
        org
        apache
        nutch
        protocol
        selenium
        HttpWebClient.java
    - microformats-reltag
      - src
        java
        org
        apache
        nutch
        microformats
        reltag
        RelTagIndexingFilter.java
        RelTagParser.java
    - mimetype-filter
      - src
        java
        org
        apache
        nutch
        indexer
        filter
        MimeTypeIndexingFilter.java
        test
        org
        apache
        nutch
        indexer
        filter
        MimeTypeIndexingFilterTest.java
    - parse-ext
      - src
        java
        org
        apache
        nutch
        parse
        ext
        ExtParser.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        ext
        TestExtParser.java
    - parse-html
      - src
        java
        org
        apache
        nutch
        parse
        html
        DOMBuilder.java
        DOMContentUtils.java
        HTMLMetaProcessor.java
        HtmlParser.java
        XMLCharacterRecognizer.java
        test
        org
        apache
        nutch
        parse
        html
        TestDOMContentUtils.java
        TestHtmlParser.java
        TestRobotsMetaProcessor.java
    - parse-js
      - src
        java
        org
        apache
        nutch
        parse
        js
        JSParseFilter.java
        package-info.java
    - parse-metatags
      - src
        java
        org
        apache
        nutch
        parse
        metatags
        MetaTagsParser.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        metatags
        TestMetatagParser.java
    - parse-replace
      - src
        java
        org
        apache
        nutch
        parse
        replace
        ReplaceParser.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        replace
        TestParseReplace.java
    - parse-swf
      - src
        java
        org
        apache
        nutch
        parse
        swf
        SWFParser.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        swf
        TestSWFParser.java
    - parse-tika
      - src
        java
        org
        apache
        nutch
        parse
        tika
        BoilerpipeExtractorRepository.java
        DOMBuilder.java
        DOMContentUtils.java
        HTMLMetaProcessor.java
        TikaParser.java
        XMLCharacterRecognizer.java
        package-info.java
        test
        org
        apache
        nutch
        tika
        TestDOMContentUtils.java
        TestFeedParser.java
        TestImageMetadata.java
        TestMSWordParser.java
        TestOOParser.java
        TestPdfParser.java
        TestRTFParser.java
        TestRobotsMetaProcessor.java
    - parse-zip
      - src
        java
        org
        apache
        nutch
        parse
        zip
        ZipParser.java
        ZipTextExtractor.java
        package-info.java
        test
        org
        apache
        nutch
        parse
        zip
        TestZipParser.java
    - parsefilter-naivebayes
      - src
        java
        org
        apache
        nutch
        parsefilter
        naivebayes
        Classify.java
        NaiveBayesParseFilter.java
        Train.java
        package-info.java
    - parsefilter-regex
      - src
        java
        org
        apache
        nutch
        parsefilter
        regex
        RegexParseFilter.java
        package-info.java
        test
        org
        apache
        nutch
        parsefilter
        regex
        TestRegexParseFilter.java
    - protocol-file
      - src
        java
        org
        apache
        nutch
        protocol
        file
        File.java
        FileError.java
        FileException.java
        FileResponse.java
        test
        org
        apache
        nutch
        protocol
        file
        TestProtocolFile.java
    - protocol-ftp
      - src
        java
        org
        apache
        nutch
        protocol
        ftp
        Client.java
        Ftp.java
        FtpError.java
        FtpException.java
        FtpExceptionBadSystResponse.java
        FtpExceptionCanNotHaveDataConnection.java
        FtpExceptionControlClosedByForcedDataClose.java
        FtpExceptionUnknownForcedDataClose.java
        FtpResponse.java
        FtpRobotRulesParser.java
        PrintCommandListener.java
    - protocol-htmlunit
      - src
        java
        org
        apache
        nutch
        protocol
        htmlunit
        Http.java
        HttpResponse.java
    - protocol-http
      - src
        java
        org
        apache
        nutch
        protocol
        http
        Http.java
        HttpResponse.java
        test
        org
        apache
        nutch
        protocol
        http
        TestProtocolHttp.java
    - protocol-httpclient
      - src
        java
        org
        apache
        nutch
        protocol
        httpclient
        DummySSLProtocolSocketFactory.java
        DummyX509TrustManager.java
        Http.java
        HttpAuthentication.java
        HttpAuthenticationException.java
        HttpAuthenticationFactory.java
        HttpBasicAuthentication.java
        HttpFormAuthConfigurer.java
        HttpFormAuthentication.java
        HttpResponse.java
        test
        org
        apache
        nutch
        protocol
        httpclient
        TestProtocolHttpClient.java
    - protocol-interactiveselenium
      - src
        java
        org
        apache
        nutch
        protocol
        interactiveselenium
        Http.java
        HttpResponse.java
        handlers
        DefalultMultiInteractionHandler.java
        DefaultClickAllAjaxLinksHandler.java
        DefaultHandler.java
        InteractiveSeleniumHandler.java
    - protocol-selenium
      - src
        java
        org
        apache
        nutch
        protocol
        selenium
        Http.java
        HttpResponse.java
    - publish-rabbitmq
      - src
        java
        org
        apache
        nutch
        publisher
        rabbitmq
        RabbitMQPublisherImpl.java
        package-info.java
    - scoring-depth
      - src
        java
        org
        apache
        nutch
        scoring
        depth
        DepthScoringFilter.java
        package-info.java
    - scoring-link
      - src
        java
        org
        apache
        nutch
        scoring
        link
        LinkAnalysisScoringFilter.java
        package-info.java
    - scoring-opic
      - src
        java
        org
        apache
        nutch
        scoring
        opic
        OPICScoringFilter.java
        package-info.java
    - scoring-similarity
      - src
        java
        org
        apache
        nutch
        scoring
        similarity
        SimilarityModel.java
        SimilarityScoringFilter.java
        cosine
        CosineSimilarity.java
        DocVector.java
        Model.java
        package-info.java
        util
        LuceneAnalyzerUtil.java
        LuceneTokenizer.java
        package-info.java
    - subcollection
      - src
        java
        org
        apache
        nutch
        collection
        CollectionManager.java
        Subcollection.java
        indexer
        subcollection
        SubcollectionIndexingFilter.java
        package-info.java
        test
        org
        apache
        nutch
        collection
        TestSubcollection.java
    - tld
      - src
        java
        org
        apache
        nutch
        indexer
        tld
        TLDIndexingFilter.java
        scoring
        tld
        TLDScoringFilter.java
    - urlfilter-automaton
      - src
        java
        org
        apache
        nutch
        urlfilter
        automaton
        AutomatonURLFilter.java
        test
        org
        apache
        nutch
        urlfilter
        automaton
        TestAutomatonURLFilter.java
    - urlfilter-domain
      - src
        java
        org
        apache
        nutch
        urlfilter
        domain
        DomainURLFilter.java
        package-info.java
        test
        org
        apache
        nutch
        urlfilter
        domain
        TestDomainURLFilter.java
    - urlfilter-domainblacklist
      - src
        java
        org
        apache
        nutch
        urlfilter
        domainblacklist
        DomainBlacklistURLFilter.java
        package-info.java
        test
        org
        apache
        nutch
        urlfilter
        domainblacklist
        TestDomainBlacklistURLFilter.java
    - urlfilter-ignoreexempt
      - src
        java
        org
        apache
        nutch
        urlfilter
        ignoreexempt
        ExemptionUrlFilter.java
        package-info.java
    - urlfilter-prefix
      - src
        java
        org
        apache
        nutch
        urlfilter
        prefix
        PrefixURLFilter.java
        test
        org
        apache
        nutch
        urlfilter
        prefix
        TestPrefixURLFilter.java
    - urlfilter-regex
      - src
        java
        org
        apache
        nutch
        urlfilter
        regex
        RegexURLFilter.java
        test
        org
        apache
        nutch
        urlfilter
        regex
        TestRegexURLFilter.java
    - urlfilter-suffix
      - src
        java
        org
        apache
        nutch
        urlfilter
        suffix
        SuffixURLFilter.java
        package-info.java
        test
        org
        apache
        nutch
        urlfilter
        suffix
        TestSuffixURLFilter.java
    - urlfilter-validator
      - src
        java
        org
        apache
        nutch
        urlfilter
        validator
        UrlValidator.java
        test
        org
        apache
        nutch
        urlfilter
        validator
        TestUrlValidator.java
    - urlmeta
      - src
        java
        org
        apache
        nutch
        indexer
        urlmeta
        URLMetaIndexingFilter.java
        scoring
        urlmeta
        URLMetaScoringFilter.java
    - urlnormalizer-ajax
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        ajax
        AjaxURLNormalizer.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        ajax
        TestAjaxURLNormalizer.java
    - urlnormalizer-basic
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        basic
        BasicURLNormalizer.java
        package-info.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        basic
        TestBasicURLNormalizer.java
    - urlnormalizer-host
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        host
        HostURLNormalizer.java
        package-info.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        host
        TestHostURLNormalizer.java
    - urlnormalizer-pass
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        pass
        PassURLNormalizer.java
        package-info.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        pass
        TestPassURLNormalizer.java
    - urlnormalizer-protocol
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        protocol
        ProtocolURLNormalizer.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        protocol
        TestProtocolURLNormalizer.java
    - urlnormalizer-querystring
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        querystring
        QuerystringURLNormalizer.java
        package-info.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        querystring
        TestQuerystringURLNormalizer.java
    - urlnormalizer-regex
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        regex
        RegexURLNormalizer.java
        package-info.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        regex
        TestRegexURLNormalizer.java
    - urlnormalizer-slash
      - src
        java
        org
        apache
        nutch
        net
        urlnormalizer
        slash
        SlashURLNormalizer.java
        test
        org
        apache
        nutch
        net
        urlnormalizer
        slash
        TestSlashURLNormalizer.java
  - test
    - org
      - apache
        nutch
        crawl
        ContinuousCrawlTestUtil.java
        CrawlDBTestUtil.java
        CrawlDbUpdateTestDriver.java
        CrawlDbUpdateUtil.java
        DummyWritable.java
        TODOTestCrawlDbStates.java
        TestAdaptiveFetchSchedule.java
        TestCrawlDbFilter.java
        TestCrawlDbMerger.java
        TestCrawlDbStates.java
        TestGenerator.java
        TestInjector.java
        TestLinkDbMerger.java
        TestSignatureFactory.java
        fetcher
        TestFetcher.java
        indexer
        TestIndexerMapReduce.java
        TestIndexingFilters.java
        metadata
        TestMetadata.java
        TestSpellCheckedMetadata.java
        net
        TestURLFilters.java
        TestURLNormalizers.java
        parse
        TestOutlinkExtractor.java
        TestParseData.java
        TestParseText.java
        TestParserFactory.java
        plugin
        HelloWorldExtension.java
        ITestExtension.java
        SimpleTestPlugin.java
        TestPluginSystem.java
        protocol
        TestContent.java
        TestProtocolFactory.java
        segment
        TestSegmentMerger.java
        TestSegmentMergerCrawlDatums.java
        service
        TestNutchServer.java
        tools
        TestCommonCrawlDataDumper.java
        proxy
        AbstractTestbedHandler.java
        DelayHandler.java
        FakeHandler.java
        LogDebugHandler.java
        NotFoundHandler.java
        ProxyTestbed.java
        SegmentHandler.java
        package-info.java
        util
        DumpFileUtilTest.java
        TestEncodingDetector.java
        TestGZIPUtils.java
        TestMimeUtil.java
        TestNodeWalker.java
        TestPrefixStringMatcher.java
        TestStringUtil.java
        TestSuffixStringMatcher.java
        TestTableUtil.java
        TestURLUtil.java
        WritableTestUtils.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.nutch.segment;

import java.io.Closeable;
import java.io.IOException;
import java.lang.invoke.MethodHandles;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.TreeMap;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.MapFile;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.MapFile.Writer.Option;
import org.apache.hadoop.io.SequenceFile.CompressionType;
import org.apache.hadoop.io.SequenceFile.Metadata;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.RecordWriter;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.SequenceFileInputFormat;
import org.apache.hadoop.mapred.SequenceFileOutputFormat;
import org.apache.hadoop.mapred.SequenceFileRecordReader;
import org.apache.hadoop.util.Progressable;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Generator;
import org.apache.nutch.metadata.MetaWrapper;
import org.apache.nutch.metadata.Nutch;
import org.apache.nutch.net.URLFilters;
import org.apache.nutch.net.URLNormalizers;
import org.apache.nutch.parse.ParseData;
import org.apache.nutch.parse.ParseText;
import org.apache.nutch.protocol.Content;
import org.apache.nutch.util.HadoopFSUtil;
import org.apache.nutch.util.NutchConfiguration;
import org.apache.nutch.util.NutchJob;

/**
 * This tool takes several segments and merges their data together. Only the
 * latest versions of data is retained.
 * Optionally, you can apply current URLFilters to remove prohibited URL-s.
 * <p>
 * Also, it's possible to slice the resulting segment into chunks of fixed size.
 * </p>
 * <h3>Important Notes</h3> <h4>Which parts are merged?</h4>
 * <p>
 * It doesn't make sense to merge data from segments, which are at different
 * stages of processing (e.g. one unfetched segment, one fetched but not parsed,
 * and one fetched and parsed). Therefore, prior to merging, the tool will
 * determine the lowest common set of input data, and only this data will be
 * merged. This may have some unintended consequences: e.g. if majority of input
 * segments are fetched and parsed, but one of them is unfetched, the tool will
 * fall back to just merging fetchlists, and it will skip all other data from
 * all segments.
 * </p>
 * <h4>Merging fetchlists</h4>
 * <p>
 * Merging segments, which contain just fetchlists (i.e. prior to fetching) is
 * not recommended, because this tool (unlike the
 * {@link org.apache.nutch.crawl.Generator} doesn't ensure that fetchlist parts
 * for each map task are disjoint.
 * </p>
 * <p>
 * <h4>Duplicate content</h4>
 * Merging segments removes older content whenever possible (see below).
 * However, this is NOT the same as de-duplication, which in addition removes
 * identical content found at different URL-s. In other words, running
 * DeleteDuplicates is still necessary.
 * <p>
 * For some types of data (especially ParseText) it's not possible to determine
 * which version is really older. Therefore the tool always uses segment names
 * as timestamps, for all types of input data. Segment names are compared in
 * forward lexicographic order (0-9a-zA-Z), and data from segments with "higher"
 * names will prevail. It follows then that it is extremely important that
 * segments be named in an increasing lexicographic order as their creation time
 * increases.
 * </p>
 * <p>
 * <h4>Merging and indexes</h4>
 * Merged segment gets a different name. Since Indexer embeds segment names in
 * indexes, any indexes originally created for the input segments will NOT work
 * with the merged segment. Newly created merged segment(s) need to be indexed
 * afresh. This tool doesn't use existing indexes in any way, so if you plan to
 * merge segments you don't have to index them prior to merging.
 * 
 * @author Andrzej Bialecki
 */
public class SegmentMerger extends Configured implements Tool,
    Mapper<Text, MetaWrapper, Text, MetaWrapper>,
    Reducer<Text, MetaWrapper, Text, MetaWrapper> {
  private static final Logger LOG = LoggerFactory
      .getLogger(MethodHandles.lookup().lookupClass());

  private static final String SEGMENT_PART_KEY = "part";
  private static final String SEGMENT_SLICE_KEY = "slice";

  private URLFilters filters = null;
  private URLNormalizers normalizers = null;
  private SegmentMergeFilters mergeFilters = null;
  private long sliceSize = -1;
  private long curCount = 0;

  /**
   * Wraps inputs in an {@link MetaWrapper}, to permit merging different types
   * in reduce and use additional metadata.
   */
  public static class ObjectInputFormat extends
      SequenceFileInputFormat<Text, MetaWrapper> {

    @Override
    public RecordReader<Text, MetaWrapper> getRecordReader(
        final InputSplit split, final JobConf job, Reporter reporter)
        throws IOException {

      reporter.setStatus(split.toString());

      // find part name
      SegmentPart segmentPart;
      final String spString;
      final FileSplit fSplit = (FileSplit) split;
      try {
        segmentPart = SegmentPart.get(fSplit);
        spString = segmentPart.toString();
      } catch (IOException e) {
        throw new RuntimeException("Cannot identify segment:", e);
      }

      SequenceFile.Reader reader = new SequenceFile.Reader(job, SequenceFile.Reader.file(fSplit.getPath()));

      final Writable w;
      try {
        w = (Writable) reader.getValueClass().newInstance();
      } catch (Exception e) {
        throw new IOException(e.toString());
      } finally {
        try {
          reader.close();
        } catch (Exception e) {
          // ignore
        }
      }
      final SequenceFileRecordReader<Text, Writable> splitReader = new SequenceFileRecordReader<>(
          job, (FileSplit) split);

      try {
        return new SequenceFileRecordReader<Text, MetaWrapper>(job, fSplit) {

          public synchronized boolean next(Text key, MetaWrapper wrapper)
              throws IOException {
            LOG.debug("Running OIF.next()");

            boolean res = splitReader.next(key, w);
            wrapper.set(w);
            wrapper.setMeta(SEGMENT_PART_KEY, spString);
            return res;
          }

          @Override
          public synchronized void close() throws IOException {
            splitReader.close();
          }

          @Override
          public MetaWrapper createValue() {
            return new MetaWrapper();
          }

        };
      } catch (IOException e) {
        throw new RuntimeException("Cannot create RecordReader: ", e);
      }
    }
  }

  public static class SegmentOutputFormat extends
      FileOutputFormat<Text, MetaWrapper> {
    private static final String DEFAULT_SLICE = "default";

    @Override
    public RecordWriter<Text, MetaWrapper> getRecordWriter(final FileSystem fs,
        final JobConf job, final String name, final Progressable progress)
        throws IOException {
      return new RecordWriter<Text, MetaWrapper>() {
        MapFile.Writer c_out = null;
        MapFile.Writer f_out = null;
        MapFile.Writer pd_out = null;
        MapFile.Writer pt_out = null;
        SequenceFile.Writer g_out = null;
        SequenceFile.Writer p_out = null;
        HashMap<String, Closeable> sliceWriters = new HashMap<>();
        String segmentName = job.get("segment.merger.segmentName");

        public void write(Text key, MetaWrapper wrapper) throws IOException {
          // unwrap
          SegmentPart sp = SegmentPart.parse(wrapper.getMeta(SEGMENT_PART_KEY));
          Writable o = wrapper.get();
          String slice = wrapper.getMeta(SEGMENT_SLICE_KEY);
          if (o instanceof CrawlDatum) {
            if (sp.partName.equals(CrawlDatum.GENERATE_DIR_NAME)) {
              g_out = ensureSequenceFile(slice, CrawlDatum.GENERATE_DIR_NAME);
              g_out.append(key, o);
            } else if (sp.partName.equals(CrawlDatum.FETCH_DIR_NAME)) {
              f_out = ensureMapFile(slice, CrawlDatum.FETCH_DIR_NAME,
                  CrawlDatum.class);
              f_out.append(key, o);
            } else if (sp.partName.equals(CrawlDatum.PARSE_DIR_NAME)) {
              p_out = ensureSequenceFile(slice, CrawlDatum.PARSE_DIR_NAME);
              p_out.append(key, o);
            } else {
              throw new IOException("Cannot determine segment part: "
                  + sp.partName);
            }
          } else if (o instanceof Content) {
            c_out = ensureMapFile(slice, Content.DIR_NAME, Content.class);
            c_out.append(key, o);
          } else if (o instanceof ParseData) {
            // update the segment name inside contentMeta - required by Indexer
            if (slice == null) {
              ((ParseData) o).getContentMeta().set(Nutch.SEGMENT_NAME_KEY,
                  segmentName);
            } else {
              ((ParseData) o).getContentMeta().set(Nutch.SEGMENT_NAME_KEY,
                  segmentName + "-" + slice);
            }
            pd_out = ensureMapFile(slice, ParseData.DIR_NAME, ParseData.class);
            pd_out.append(key, o);
          } else if (o instanceof ParseText) {
            pt_out = ensureMapFile(slice, ParseText.DIR_NAME, ParseText.class);
            pt_out.append(key, o);
          }
        }

        // lazily create SequenceFile-s.
        private SequenceFile.Writer ensureSequenceFile(String slice,
            String dirName) throws IOException {
          if (slice == null)
            slice = DEFAULT_SLICE;
          SequenceFile.Writer res = (SequenceFile.Writer) sliceWriters
              .get(slice + dirName);
          if (res != null)
            return res;
          Path wname;
          Path out = FileOutputFormat.getOutputPath(job);
          if (slice == DEFAULT_SLICE) {
            wname = new Path(new Path(new Path(out, segmentName), dirName),
                name);
          } else {
            wname = new Path(new Path(new Path(out, segmentName + "-" + slice),
                dirName), name);
          }
          
//          Option rKeyClassOpt = MapFile.Writer.keyClass(Text.class);
//          org.apache.hadoop.io.SequenceFile.Writer.Option rValClassOpt = SequenceFile.Writer.valueClass(CrawlDatum.class);
//          Option rProgressOpt = (Option) SequenceFile.Writer.progressable(progress);
//          Option rCompOpt = (Option) SequenceFile.Writer.compression(SequenceFileOutputFormat.getOutputCompressionType(job));
//          Option rFileOpt = (Option) SequenceFile.Writer.file(wname);
          
          //res = SequenceFile.createWriter(job, rFileOpt, rKeyClassOpt,
           //   rValClassOpt, rCompOpt, rProgressOpt);
          
          res = SequenceFile.createWriter(job, SequenceFile.Writer.file(wname),
              SequenceFile.Writer.keyClass(Text.class),
              SequenceFile.Writer.valueClass(CrawlDatum.class),
              SequenceFile.Writer.bufferSize(fs.getConf().getInt("io.file.buffer.size",4096)),
              SequenceFile.Writer.replication(fs.getDefaultReplication(wname)),
              SequenceFile.Writer.blockSize(1073741824),
              SequenceFile.Writer.compression(SequenceFileOutputFormat.getOutputCompressionType(job), new DefaultCodec()),
              SequenceFile.Writer.progressable(progress),
              SequenceFile.Writer.metadata(new Metadata())); 
          
          sliceWriters.put(slice + dirName, res);
          return res;
        }

        // lazily create MapFile-s.
        private MapFile.Writer ensureMapFile(String slice, String dirName,
            Class<? extends Writable> clazz) throws IOException {
          if (slice == null)
            slice = DEFAULT_SLICE;
          MapFile.Writer res = (MapFile.Writer) sliceWriters.get(slice
              + dirName);
          if (res != null)
            return res;
          Path wname;
          Path out = FileOutputFormat.getOutputPath(job);
          if (slice == DEFAULT_SLICE) {
            wname = new Path(new Path(new Path(out, segmentName), dirName),
                name);
          } else {
            wname = new Path(new Path(new Path(out, segmentName + "-" + slice),
                dirName), name);
          }
          CompressionType compType = SequenceFileOutputFormat
              .getOutputCompressionType(job);
          if (clazz.isAssignableFrom(ParseText.class)) {
            compType = CompressionType.RECORD;
          }
          
          Option rKeyClassOpt = (Option) MapFile.Writer.keyClass(Text.class);
          org.apache.hadoop.io.SequenceFile.Writer.Option rValClassOpt = SequenceFile.Writer.valueClass(clazz);
          org.apache.hadoop.io.SequenceFile.Writer.Option rProgressOpt = SequenceFile.Writer.progressable(progress);
          org.apache.hadoop.io.SequenceFile.Writer.Option rCompOpt = SequenceFile.Writer.compression(compType);
          
          res = new MapFile.Writer(job, wname, rKeyClassOpt,
              rValClassOpt, rCompOpt, rProgressOpt);
          sliceWriters.put(slice + dirName, res);
          return res;
        }

        public void close(Reporter reporter) throws IOException {
          Iterator<Closeable> it = sliceWriters.values().iterator();
          while (it.hasNext()) {
            Object o = it.next();
            if (o instanceof SequenceFile.Writer) {
              ((SequenceFile.Writer) o).close();
            } else {
              ((MapFile.Writer) o).close();
            }
          }
        }
      };
    }
  }

  public SegmentMerger() {
    super(null);
  }

  public SegmentMerger(Configuration conf) {
    super(conf);
  }

  public void setConf(Configuration conf) {
    super.setConf(conf);
    if (conf == null)
      return;
    if (conf.getBoolean("segment.merger.filter", false)) {
      filters = new URLFilters(conf);
      mergeFilters = new SegmentMergeFilters(conf);
    }
    if (conf.getBoolean("segment.merger.normalizer", false))
      normalizers = new URLNormalizers(conf, URLNormalizers.SCOPE_DEFAULT);
    sliceSize = conf.getLong("segment.merger.slice", -1);
    if ((sliceSize > 0) && (LOG.isInfoEnabled())) {
      LOG.info("Slice size: " + sliceSize + " URLs.");
    }
  }

  public void close() throws IOException {
  }

  public void configure(JobConf conf) {
    setConf(conf);
    if (sliceSize > 0) {
      sliceSize = sliceSize / conf.getNumReduceTasks();
    }
  }

  private Text newKey = new Text();

  public void map(Text key, MetaWrapper value,
      OutputCollector<Text, MetaWrapper> output, Reporter reporter)
      throws IOException {
    String url = key.toString();
    if (normalizers != null) {
      try {
        url = normalizers.normalize(url, URLNormalizers.SCOPE_DEFAULT); // normalize
                                                                        // the
                                                                        // url
      } catch (Exception e) {
        LOG.warn("Skipping " + url + ":" + e.getMessage());
        url = null;
      }
    }
    if (url != null && filters != null) {
      try {
        url = filters.filter(url);
      } catch (Exception e) {
        LOG.warn("Skipping key " + url + ": " + e.getMessage());
        url = null;
      }
    }
    if (url != null) {
      newKey.set(url);
      output.collect(newKey, value);
    }
  }

  /**
   * NOTE: in selecting the latest version we rely exclusively on the segment
   * name (not all segment data contain time information). Therefore it is
   * extremely important that segments be named in an increasing lexicographic
   * order as their creation time increases.
   */
  public void reduce(Text key, Iterator<MetaWrapper> values,
      OutputCollector<Text, MetaWrapper> output, Reporter reporter)
      throws IOException {
    CrawlDatum lastG = null;
    CrawlDatum lastF = null;
    CrawlDatum lastSig = null;
    Content lastC = null;
    ParseData lastPD = null;
    ParseText lastPT = null;
    String lastGname = null;
    String lastFname = null;
    String lastSigname = null;
    String lastCname = null;
    String lastPDname = null;
    String lastPTname = null;
    TreeMap<String, ArrayList<CrawlDatum>> linked = new TreeMap<>();
    while (values.hasNext()) {
      MetaWrapper wrapper = values.next();
      Object o = wrapper.get();
      String spString = wrapper.getMeta(SEGMENT_PART_KEY);
      if (spString == null) {
        throw new IOException("Null segment part, key=" + key);
      }
      SegmentPart sp = SegmentPart.parse(spString);
      if (o instanceof CrawlDatum) {
        CrawlDatum val = (CrawlDatum) o;
        // check which output dir it belongs to
        if (sp.partName.equals(CrawlDatum.GENERATE_DIR_NAME)) {
          if (lastG == null) {
            lastG = val;
            lastGname = sp.segmentName;
          } else {
            // take newer
            if (lastGname.compareTo(sp.segmentName) < 0) {
              lastG = val;
              lastGname = sp.segmentName;
            }
          }
        } else if (sp.partName.equals(CrawlDatum.FETCH_DIR_NAME)) {
          // only consider fetch status and ignore fetch retry status
          // https://issues.apache.org/jira/browse/NUTCH-1520
          // https://issues.apache.org/jira/browse/NUTCH-1113
          if (CrawlDatum.hasFetchStatus(val)
              && val.getStatus() != CrawlDatum.STATUS_FETCH_RETRY
              && val.getStatus() != CrawlDatum.STATUS_FETCH_NOTMODIFIED) {
            if (lastF == null) {
              lastF = val;
              lastFname = sp.segmentName;
            } else {
              if (lastFname.compareTo(sp.segmentName) < 0) {
                lastF = val;
                lastFname = sp.segmentName;
              }
            }
          }
        } else if (sp.partName.equals(CrawlDatum.PARSE_DIR_NAME)) {
          if (val.getStatus() == CrawlDatum.STATUS_SIGNATURE) {
            if (lastSig == null) {
              lastSig = val;
              lastSigname = sp.segmentName;
            } else {
              // take newer
              if (lastSigname.compareTo(sp.segmentName) < 0) {
                lastSig = val;
                lastSigname = sp.segmentName;
              }
            }
            continue;
          }
          // collect all LINKED values from the latest segment
          ArrayList<CrawlDatum> segLinked = linked.get(sp.segmentName);
          if (segLinked == null) {
            segLinked = new ArrayList<>();
            linked.put(sp.segmentName, segLinked);
          }
          segLinked.add(val);
        } else {
          throw new IOException("Cannot determine segment part: " + sp.partName);
        }
      } else if (o instanceof Content) {
        if (lastC == null) {
          lastC = (Content) o;
          lastCname = sp.segmentName;
        } else {
          if (lastCname.compareTo(sp.segmentName) < 0) {
            lastC = (Content) o;
            lastCname = sp.segmentName;
          }
        }
      } else if (o instanceof ParseData) {
        if (lastPD == null) {
          lastPD = (ParseData) o;
          lastPDname = sp.segmentName;
        } else {
          if (lastPDname.compareTo(sp.segmentName) < 0) {
            lastPD = (ParseData) o;
            lastPDname = sp.segmentName;
          }
        }
      } else if (o instanceof ParseText) {
        if (lastPT == null) {
          lastPT = (ParseText) o;
          lastPTname = sp.segmentName;
        } else {
          if (lastPTname.compareTo(sp.segmentName) < 0) {
            lastPT = (ParseText) o;
            lastPTname = sp.segmentName;
          }
        }
      }
    }
    // perform filtering based on full merge record
    if (mergeFilters != null
        && !mergeFilters.filter(key, lastG, lastF, lastSig, lastC, lastPD,
            lastPT, linked.isEmpty() ? null : linked.lastEntry().getValue())) {
      return;
    }

    curCount++;
    String sliceName = null;
    MetaWrapper wrapper = new MetaWrapper();
    if (sliceSize > 0) {
      sliceName = String.valueOf(curCount / sliceSize);
      wrapper.setMeta(SEGMENT_SLICE_KEY, sliceName);
    }
    SegmentPart sp = new SegmentPart();
    // now output the latest values
    if (lastG != null) {
      wrapper.set(lastG);
      sp.partName = CrawlDatum.GENERATE_DIR_NAME;
      sp.segmentName = lastGname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (lastF != null) {
      wrapper.set(lastF);
      sp.partName = CrawlDatum.FETCH_DIR_NAME;
      sp.segmentName = lastFname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (lastSig != null) {
      wrapper.set(lastSig);
      sp.partName = CrawlDatum.PARSE_DIR_NAME;
      sp.segmentName = lastSigname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (lastC != null) {
      wrapper.set(lastC);
      sp.partName = Content.DIR_NAME;
      sp.segmentName = lastCname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (lastPD != null) {
      wrapper.set(lastPD);
      sp.partName = ParseData.DIR_NAME;
      sp.segmentName = lastPDname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (lastPT != null) {
      wrapper.set(lastPT);
      sp.partName = ParseText.DIR_NAME;
      sp.segmentName = lastPTname;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      output.collect(key, wrapper);
    }
    if (linked.size() > 0) {
      String name = linked.lastKey();
      sp.partName = CrawlDatum.PARSE_DIR_NAME;
      sp.segmentName = name;
      wrapper.setMeta(SEGMENT_PART_KEY, sp.toString());
      ArrayList<CrawlDatum> segLinked = linked.get(name);
      for (int i = 0; i < segLinked.size(); i++) {
        CrawlDatum link = segLinked.get(i);
        wrapper.set(link);
        output.collect(key, wrapper);
      }
    }
  }

  public void merge(Path out, Path[] segs, boolean filter, boolean normalize,
      long slice) throws Exception {
    String segmentName = Generator.generateSegmentName();
    if (LOG.isInfoEnabled()) {
      LOG.info("Merging " + segs.length + " segments to " + out + "/"
          + segmentName);
    }
    JobConf job = new NutchJob(getConf());
    job.setJobName("mergesegs " + out + "/" + segmentName);
    job.setBoolean("segment.merger.filter", filter);
    job.setBoolean("segment.merger.normalizer", normalize);
    job.setLong("segment.merger.slice", slice);
    job.set("segment.merger.segmentName", segmentName);
    // prepare the minimal common set of input dirs
    boolean g = true;
    boolean f = true;
    boolean p = true;
    boolean c = true;
    boolean pd = true;
    boolean pt = true;
    
    // These contain previous values, we use it to track changes in the loop
    boolean pg = true;
    boolean pf = true;
    boolean pp = true;
    boolean pc = true;
    boolean ppd = true;
    boolean ppt = true;
    for (int i = 0; i < segs.length; i++) {
      FileSystem fs = segs[i].getFileSystem(job);
      if (!fs.exists(segs[i])) {
        if (LOG.isWarnEnabled()) {
          LOG.warn("Input dir " + segs[i] + " doesn't exist, skipping.");
        }
        segs[i] = null;
        continue;
      }
      if (LOG.isInfoEnabled()) {
        LOG.info("SegmentMerger:   adding " + segs[i]);
      }
      Path cDir = new Path(segs[i], Content.DIR_NAME);
      Path gDir = new Path(segs[i], CrawlDatum.GENERATE_DIR_NAME);
      Path fDir = new Path(segs[i], CrawlDatum.FETCH_DIR_NAME);
      Path pDir = new Path(segs[i], CrawlDatum.PARSE_DIR_NAME);
      Path pdDir = new Path(segs[i], ParseData.DIR_NAME);
      Path ptDir = new Path(segs[i], ParseText.DIR_NAME);
      c = c && fs.exists(cDir);
      g = g && fs.exists(gDir);
      f = f && fs.exists(fDir);
      p = p && fs.exists(pDir);
      pd = pd && fs.exists(pdDir);
      pt = pt && fs.exists(ptDir);
      
      // Input changed?
      if (g != pg || f != pf || p != pp || c != pc || pd != ppd || pt != ppt) {
        LOG.info(segs[i] + " changed input dirs");
      }
      
      pg = g; pf = f; pp = p; pc = c; ppd = pd; ppt = pt;
    }
    StringBuffer sb = new StringBuffer();
    if (c)
      sb.append(" " + Content.DIR_NAME);
    if (g)
      sb.append(" " + CrawlDatum.GENERATE_DIR_NAME);
    if (f)
      sb.append(" " + CrawlDatum.FETCH_DIR_NAME);
    if (p)
      sb.append(" " + CrawlDatum.PARSE_DIR_NAME);
    if (pd)
      sb.append(" " + ParseData.DIR_NAME);
    if (pt)
      sb.append(" " + ParseText.DIR_NAME);
    if (LOG.isInfoEnabled()) {
      LOG.info("SegmentMerger: using segment data from:" + sb.toString());
    }
    for (int i = 0; i < segs.length; i++) {
      if (segs[i] == null)
        continue;
      if (g) {
        Path gDir = new Path(segs[i], CrawlDatum.GENERATE_DIR_NAME);
        FileInputFormat.addInputPath(job, gDir);
      }
      if (c) {
        Path cDir = new Path(segs[i], Content.DIR_NAME);
        FileInputFormat.addInputPath(job, cDir);
      }
      if (f) {
        Path fDir = new Path(segs[i], CrawlDatum.FETCH_DIR_NAME);
        FileInputFormat.addInputPath(job, fDir);
      }
      if (p) {
        Path pDir = new Path(segs[i], CrawlDatum.PARSE_DIR_NAME);
        FileInputFormat.addInputPath(job, pDir);
      }
      if (pd) {
        Path pdDir = new Path(segs[i], ParseData.DIR_NAME);
        FileInputFormat.addInputPath(job, pdDir);
      }
      if (pt) {
        Path ptDir = new Path(segs[i], ParseText.DIR_NAME);
        FileInputFormat.addInputPath(job, ptDir);
      }
    }
    job.setInputFormat(ObjectInputFormat.class);
    job.setMapperClass(SegmentMerger.class);
    job.setReducerClass(SegmentMerger.class);
    FileOutputFormat.setOutputPath(job, out);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(MetaWrapper.class);
    job.setOutputFormat(SegmentOutputFormat.class);

    setConf(job);

    JobClient.runJob(job);
  }

  /**
   * @param args
   */
  public int run(String[] args)  throws Exception {
    if (args.length < 2) {
      System.err
          .println("SegmentMerger output_dir (-dir segments | seg1 seg2 ...) [-filter] [-slice NNNN]");
      System.err
          .println("\toutput_dir\tname of the parent dir for output segment slice(s)");
      System.err
          .println("\t-dir segments\tparent dir containing several segments");
      System.err.println("\tseg1 seg2 ...\tlist of segment dirs");
      System.err
          .println("\t-filter\t\tfilter out URL-s prohibited by current URLFilters");
      System.err
          .println("\t-normalize\t\tnormalize URL via current URLNormalizers");
      System.err
          .println("\t-slice NNNN\tcreate many output segments, each containing NNNN URLs");
      return -1;
    }
    Configuration conf = NutchConfiguration.create();
    Path out = new Path(args[0]);
    ArrayList<Path> segs = new ArrayList<>();
    long sliceSize = 0;
    boolean filter = false;
    boolean normalize = false;
    for (int i = 1; i < args.length; i++) {
      if (args[i].equals("-dir")) {
        Path dirPath = new Path(args[++i]);
        FileSystem fs = dirPath.getFileSystem(conf);
        FileStatus[] fstats = fs.listStatus(dirPath,
            HadoopFSUtil.getPassDirectoriesFilter(fs));
        Path[] files = HadoopFSUtil.getPaths(fstats);
        for (int j = 0; j < files.length; j++)
          segs.add(files[j]);
      } else if (args[i].equals("-filter")) {
        filter = true;
      } else if (args[i].equals("-normalize")) {
        normalize = true;
      } else if (args[i].equals("-slice")) {
        sliceSize = Long.parseLong(args[++i]);
      } else {
        segs.add(new Path(args[i]));
      }
    }
    if (segs.size() == 0) {
      System.err.println("ERROR: No input segments.");
      return -1;
    }

    merge(out, segs.toArray(new Path[segs.size()]), filter, normalize,
        sliceSize);
    return 0;
  }

  public static void main(String[] args) throws Exception {
    int result = ToolRunner.run(NutchConfiguration.create(),
        new SegmentMerger(), args);
    System.exit(result);
  }

}