AggressiveUrlCanonicalizer.java example

Explorer

openwayback-master
- wayback-cdx-server-core
  - src
    - main
      - java
        org
        archive
        cdxserver
        BaseCDXServer.java
        CDXQuery.java
        CDXServer.java
        HowManyController.java
        auth
        AllAccessAuth.java
        AuthChecker.java
        AuthToken.java
        PrivTokenAuthChecker.java
        RemoteAuthChecker.java
        filter
        CDXAccessFilter.java
        CDXFilter.java
        CollapseFieldFilter.java
        FieldRegexFilter.java
        FilenamePrefixFilter.java
        processor
        BaseProcessor.java
        ClosestTimestampSorted.java
        DupeCountProcessor.java
        DupeTimestampBestStatusFilter.java
        DupeTimestampLastBestStatusFilter.java
        ForwardRevisitResolver.java
        GroupCountProcessor.java
        LastNLineProcessor.java
        ReverseRevisitResolver.java
        RevisitResolver.java
        WrappedProcessor.java
        writer
        CDXListWriter.java
        CDXWriter.java
        HttpCDXWriter.java
        JsonWriter.java
        MementoLinkWriter.java
        PlainTextWriter.java
    - test
      - java
        org
        archive
        cdxserver
        processor
        DupeTimestampBestStatusFilterTest.java
- wayback-core
  - src
    - main
      - java
        org
        archive
        wayback
        ExceptionRenderer.java
        QueryRenderer.java
        ReplayDispatcher.java
        ReplayRenderer.java
        RequestParser.java
        ResourceIndex.java
        ResourceStore.java
        ResultURIConverter.java
        Shutdownable.java
        UrlCanonicalizer.java
        WaybackConstants.java
        accesscontrol
        CollectionContext.java
        CompositeExclusionFilterFactory.java
        ContextExclusionFilterFactory.java
        ExclusionFilterFactory.java
        ExternalExcluder.java
        oracleclient
        CustomPolicyOracleFilter.java
        CustomPolicyOracleFilterFactory.java
        OracleExclusionFilter.java
        OracleExclusionFilterFactory.java
        OraclePolicyService.java
        remote
        RemoteExclusionFilter.java
        RemoteExclusionFilterFactory.java
        robotstxt
        AccessControlChecker.java
        FixedRobotsDirectives.java
        HRobotExclusionFilter.java
        RobotExclusionFilter.java
        RobotExclusionFilterFactory.java
        RobotRules.java
        RobotsDirectiveAggregation.java
        RobotsDirectives.java
        Robotstxt.java
        redis
        RedisConnectionManager.java
        RedisRefresher.java
        RedisRobotExclusionFilter.java
        RedisRobotExclusionFilterFactory.java
        RedisRobotsLogic.java
        RobotsTxtResource.java
        SimpleRedisRobotsCache.java
        TimedDNSLookup.java
        UpdateRobotsRequestHandler.java
        staticmap
        StaticListExclusionFilter.java
        StaticListExclusionFilterFactory.java
        StaticMapExclusionFilter.java
        StaticMapExclusionFilterFactory.java
        accesspoint
        AccessPointAdapter.java
        AccessPointConfig.java
        AccessPointConfigs.java
        CompositeAccessPoint.java
        proxy
        AuthProxyConfigSelector.java
        IPProxyConfigSelector.java
        ProxyAccessPoint.java
        ProxyConfigSelector.java
        archivalurl
        ArchivalURLJSStringTransformerReplayRenderer.java
        ArchivalUrl.java
        ArchivalUrlASXReplayRenderer.java
        ArchivalUrlCSSReplayRenderer.java
        ArchivalUrlContextResultURIConverterFactory.java
        ArchivalUrlDateRedirectReplayRenderer.java
        ArchivalUrlDateRedirectingClosestResultSelector.java
        ArchivalUrlJSReplayRenderer.java
        ArchivalUrlRequestParser.java
        ArchivalUrlResultURIConverter.java
        ArchivalUrlResultURIConverterFactory.java
        ArchivalUrlSAXRewriteReplayRenderer.java
        AttributeRewriter.java
        ClientSideHTMLReplayRenderer.java
        FastArchivalUrlReplayParseEventHandler.java
        ServerSideHTMLReplayRenderer.java
        StandardAttributeRewriter.java
        requestparser
        ArchivalUrlFormRequestParser.java
        DateUrlPathRequestParser.java
        DatelessReplayRequestParser.java
        PathDatePrefixQueryRequestParser.java
        PathDateRangeQueryRequestParser.java
        PathPrefixDatePrefixQueryRequestParser.java
        PathPrefixDateRangeQueryRequestParser.java
        ReplayRequestParser.java
        authenticationcontrol
        AccessControlSettingOperation.java
        HTTPAuthBooleanOperator.java
        IPMatchesBooleanOperator.java
        PathMappingBooleanOperator.java
        core
        Capture.java
        CaptureSearchResult.java
        CaptureSearchResults.java
        FastCaptureSearchResult.java
        Resource.java
        SearchResult.java
        SearchResults.java
        UIResults.java
        UTF8Control.java
        UrlSearchResult.java
        UrlSearchResults.java
        WaybackRequest.java
        domainprefix
        DomainPrefixCompositeRequestParser.java
        DomainPrefixRequestParser.java
        DomainPrefixResultURIConverter.java
        DomainPrefixTextReplayRenderer.java
        exception
        AccessControlException.java
        AdministrativeAccessControlException.java
        AnchorWindowTooSmallException.java
        AnnotationExceptionRenderer.java
        AuthenticationControlException.java
        BadContentException.java
        BadQueryException.java
        BaseExceptionRenderer.java
        BetterReplayRequestException.java
        BetterRequestException.java
        ConfigurationException.java
        CustomNotInArchiveExceptionRenderer.java
        LiveDocumentNotAvailableException.java
        LiveWebCacheUnavailableException.java
        LiveWebTimeoutException.java
        RangeNotSatisfiableException.java
        ResourceIndexNotAvailableException.java
        ResourceNotAvailableException.java
        ResourceNotInArchiveException.java
        RobotAccessControlException.java
        RobotNotAvailableException.java
        RobotTimedOutAccessControlException.java
        SpecificCaptureReplayException.java
        WaybackException.java
        liveweb
        ARCCacheDirectory.java
        ARCRecordingProxy.java
        ARCUnwrappingProxy.java
        ArcRemoteLiveWebCache.java
        DNSTimingProtocolSocketFactory.java
        FileRegion.java
        LiveRobotsNoCache.java
        LiveWebCache.java
        NoRetryHandler.java
        RemoteLiveWebCache.java
        StdRemoteLiveWebCache.java
        URLtoARCCacher.java
        memento
        DefaultMementoHandler.java
        MementoConstants.java
        MementoHandler.java
        MementoUtils.java
        TimeGateBadQueryException.java
        TimeMapRequestParser.java
        partition
        BubbleCalendarData.java
        CaptureSearchResultPartitionMap.java
        NotableResultExtractor.java
        PartitionPartitionMap.java
        PartitionsToGraph.java
        ToolBarData.java
        proxy
        ProxyArchivalRequestParser.java
        ProxyHTMLMarkupReplayRenderer.java
        ProxyHttpsResultURIConverter.java
        ProxyReplayRequestParser.java
        ProxyRequestParser.java
        RedirectResultURIConverter.java
        query
        Renderer.java
        resultspartitioner
        DayResultsPartitioner.java
        HourResultsPartitioner.java
        MonthResultsPartitioner.java
        ResultsPartition.java
        ResultsPartitioner.java
        ResultsPartitionsFactory.java
        ResultsTimelinePartitionsFactory.java
        TwoMonthResultsPartitioner.java
        TwoMonthTimelineResultsPartitioner.java
        WeekResultsPartitioner.java
        YearResultsPartitioner.java
        replay
        ClosestResultSelector.java
        CompositeResource.java
        DateRedirectReplayRenderer.java
        DateRedirectingClosestResultSelector.java
        DefaultClosestResultSelector.java
        DefaultReplayCaptureSelector.java
        GzipDecodingResource.java
        HttpHeaderOperation.java
        HttpHeaderProcessor.java
        IdentityHttpHeaderProcessor.java
        JSPExecutor.java
        JSPReplayRenderer.java
        PreservingHttpHeaderProcessor.java
        RangeResource.java
        RedirectRewritingHttpHeaderProcessor.java
        ReplayCaptureSelector.java
        ReplayRendererDecorator.java
        ReplayRendererDecoratorFactory.java
        ReplayRendererSelector.java
        SelectorReplayDispatcher.java
        StringHttpServletResponseWrapper.java
        TagMagix.java
        TextDocument.java
        TextReplayRenderer.java
        TransparentReplayRenderer.java
        XArchiveHttpHeaderProcessor.java
        charset
        BaseEncodingSniffer.java
        ByteOrderMarkSniffer.java
        CharsetDetector.java
        ContentTypeHeaderSniffer.java
        EncodingSniffer.java
        PrescanMetadataSniffer.java
        RotatingCharsetDetector.java
        StandardCharsetDetector.java
        UniversalChardetSniffer.java
        html
        ContextResultURIConverterFactory.java
        IdentityResultURIConverterFactory.java
        ReplayParseContext.java
        ReplayParseEventDelegator.java
        ReplayParseEventDelegatorVisitor.java
        RewriteDirector.java
        StringTransformer.java
        rewrite
        DisableJSBlocksRewriteRule.java
        DisableJSIncludeRewriteRule.java
        ExtractJSLine.java
        RewriteRule.java
        RewritingStringTransformer.java
        rules
        AfterBodyStartTagJSPExecRule.java
        AttributeModifyingRule.java
        BeforeBodyEndTagJSPExecRule.java
        CommentRule.java
        JSContentRule.java
        JSPExecRule.java
        RawNodeRule.java
        StaticStringRule.java
        StyleContentRule.java
        transformer
        BaseCSSStringTransformer.java
        BaseHrefStringTransformer.java
        BlockCSSStringTransformer.java
        CompositeStringTransformer.java
        ExtractInsertTransformer.java
        IdentityStringTransformer.java
        InlineCSSStringTransformer.java
        JSStringTransformer.java
        MetaRefreshUrlStringTransformer.java
        MultiRegexReplaceStringTransformer.java
        RegexReplaceStringTransformer.java
        SrcsetStringTransformer.java
        URLStringTransformer.java
        mimetype
        MimeTypeDetector.java
        SimpleMimeTypeDetector.java
        selector
        AlwaysMatchSelector.java
        BaseReplayRendererSelector.java
        CSSRequestSelector.java
        DateMismatchSelector.java
        FrameEmbeddedRequestSelector.java
        IFrameEmbeddedRequestSelector.java
        IMGRequestSelector.java
        IdentityRequestSelector.java
        JSRequestSelector.java
        MimeTypeSelector.java
        ObjectEmbedRequestSelector.java
        PathMatchSelector.java
        RedirectSelector.java
        swf
        RobustMovieDecoder.java
        SWFReplayRenderer.java
        requestparser
        BaseRequestParser.java
        CompositeRequestParser.java
        FormRequestParser.java
        OpenSearchRequestParser.java
        PathRequestParser.java
        WrappedRequestParser.java
        resourceindex
        CompositeSearchResultSource.java
        LocalResourceIndex.java
        NutchResourceIndex.java
        RemoteResourceIndex.java
        SearchResultComparator.java
        SearchResultSource.java
        SequencedSearchResultSource.java
        UpdatableSearchResultSource.java
        WatchedCDXSource.java
        ZipNumClusterSearchResultSource.java
        adapters
        CaptureToUrlSearchResultIterator.java
        bdb
        BDBIndex.java
        BDBRecordToSearchResultAdapter.java
        SearchResultToBDBRecordAdapter.java
        cdx
        CDXFormatIndex.java
        CDXFormatToSearchResultAdapter.java
        CDXIndex.java
        CDXLineToSearchResultAdapter.java
        SearchResultToCDXFormatAdapter.java
        SearchResultToCDXLineAdapter.java
        dynamic
        CDXDefinitionFile.java
        DynamicCDXIndex.java
        MD5LocationFile.java
        RangeAssignmentFile.java
        format
        CDXField.java
        CDXFlexFormat.java
        CDXFormat.java
        CDXFormatException.java
        CompressedLengthCDXField.java
        DigestCDXField.java
        FilenameCDXField.java
        HTTPCodeCDXField.java
        MIMETypeCDXField.java
        OriginalURLCDXField.java
        RedirectURLCDXField.java
        RobotFlagsCDXField.java
        StartOffsetCDXField.java
        TimestampCDXField.java
        URLKeyCDXField.java
        cdxserver
        APContextAuthToken.java
        AccessCheckFilter.java
        AccessPointAuthChecker.java
        CDXToCaptureSearchResultsWriter.java
        CDXToSearchResultWriter.java
        CDXToUrlSearchResultWriter.java
        EmbeddedCDXServerIndex.java
        WaybackAPAuthChecker.java
        WaybackAuthChecker.java
        distributed
        AlphaPartitionedIndex.java
        RangeGroup.java
        RangeMember.java
        filterfactory
        AccessPointCaptureFilterGroup.java
        AccessPointCaptureFilterGroupFactory.java
        AnnotatingCaptureFilterGroup.java
        AnnotatingCaptureFilterGroupFactory.java
        CaptureFilterGroup.java
        ClosestTrackingCaptureFilterGroup.java
        ClosestTrackingCaptureFilterGroupFactory.java
        CoreCaptureFilterGroup.java
        CoreCaptureFilterGroupFactory.java
        ExclusionCaptureFilterGroup.java
        ExclusionCaptureFilterGroupFactory.java
        FilterGroupFactory.java
        QueryCaptureFilterGroup.java
        QueryCaptureFilterGroupFactory.java
        WindowFilterGroup.java
        filters
        BeanShellFilter.java
        ClosestResultTrackingFilter.java
        CompositeExclusionFilter.java
        CompositeFilter.java
        ConditionalGetAnnotationFilter.java
        CounterFilter.java
        DateEmbargoFilter.java
        DateRangeFilter.java
        DuplicateHashFilter.java
        DuplicateRecordFilter.java
        DuplicateTimestampFilter.java
        EndDateFilter.java
        ExclusionFilter.java
        FilePrefixDateEmbargoFilter.java
        FilePrefixFilter.java
        FileRegexFilter.java
        GuardRailFilter.java
        HostMatchFilter.java
        HttpCodeFilter.java
        MimeTypeFilter.java
        OracleAnnotationFilter.java
        SchemeMatchFilter.java
        SelfRedirectFilter.java
        StartDateFilter.java
        UrlMatchFilter.java
        UrlPrefixMatchFilter.java
        UserInfoInAuthorityFilter.java
        WARCRevisitAnnotationFilter.java
        WindowEndFilter.java
        WindowStartFilter.java
        updater
        IndexClient.java
        LocalResourceIndexUpdater.java
        RemoteSubmitFilter.java
        ziplines
        BlockLoader.java
        BlockLocation.java
        GenericBlockLoader.java
        HDFSBlockLoader.java
        Http11BlockLoader.java
        LocalFileBlockLoader.java
        RemoteHttp11BlockLoader.java
        SkippingStringPrefixIterator.java
        StringBoundedRangeIterator.java
        StringPrefixIterator.java
        ZiplineBlockMatches.java
        ZiplinedBlock.java
        ZiplinedBlockStringSequence.java
        ZiplinedMultiBlock.java
        ZiplinesChunkIterator.java
        ZiplinesSearchResultSource.java
        resourcestore
        FlexResourceStore.java
        LocationDBResourceStore.java
        MultipleResourceStore.java
        SimpleResourceStore.java
        indexer
        ARCRecordToSearchResultAdapter.java
        ArcIndexer.java
        ArchiveReaderCloseableIterator.java
        DirectoryIndexQueue.java
        HTTPRecordAnnotater.java
        IndexQueue.java
        IndexQueueUpdater.java
        IndexWorker.java
        RobotMetaFlags.java
        RobotMetaRule.java
        WARCRecordToSearchResultAdapter.java
        WarcIndexer.java
        jwat
        JWATFlexResourceStore.java
        JWATResource.java
        locationdb
        BDBResourceFileLocationDB.java
        FileProxyServlet.java
        FlatFileResourceFileLocationDB.java
        RemoteResourceFileLocationDB.java
        ResourceFileLocationDB.java
        ResourceFileLocationDBLog.java
        ResourceFileLocationDBServlet.java
        ResourceFileLocationDBUpdater.java
        resourcefile
        ArcResource.java
        ArcWarcFilenameFilter.java
        DirectoryResourceFileSource.java
        JspUrlResourceFileSource.java
        RegexFilenameFilter.java
        ResourceFactory.java
        ResourceFileList.java
        ResourceFileLocation.java
        ResourceFileSource.java
        ResourceFileSourceUpdater.java
        TimeoutArchiveReaderFactory.java
        UrlLinkExtractor.java
        WarcResource.java
        surt
        SURTTokenizer.java
        util
        ARCCreator.java
        AdaptedIterator.java
        Adapter.java
        BitArray.java
        ByteOp.java
        CachedFile.java
        CompositeSortedIterator.java
        DirMaker.java
        FileDownloader.java
        IPRange.java
        MonitoredFileSet.java
        ObjectFilter.java
        ObjectFilterChain.java
        ObjectFilterIterator.java
        PeekableIterator.java
        StringFormatter.java
        Timestamp.java
        WARCHeader.java
        WrappedCloseableIterator.java
        bdb
        BDBMap.java
        BDBRecord.java
        BDBRecordIterator.java
        BDBRecordSet.java
        flatfile
        FlatFile.java
        RecordIterator.java
        ReverseBufferedReader.java
        ReverseRecordIterator.java
        graph
        Graph.java
        GraphConfiguration.java
        GraphElement.java
        GraphEncoder.java
        GraphEncodingException.java
        GraphRenderer.java
        RectangularGraphElement.java
        RegionData.java
        RegionGraphElement.java
        ValueGraphElement.java
        ValueGraphElements.java
        html
        SelectHTML.java
        htmllex
        ContextAwareLexer.java
        NodeUtils.java
        ParseContext.java
        ParseEventDelegator.java
        ParseEventDelegatorVisitor.java
        ParseEventHandler.java
        handlers
        AllEventsHandler.java
        CSSTextHandler.java
        CloseTagHandler.java
        ContentTextHandler.java
        JSTextHandler.java
        OpenTagHandler.java
        ParseCompleteHandler.java
        ParseStartHandler.java
        RemarkTextHandler.java
        http
        BadRequestException.java
        HttpMessage.java
        HttpRequest.java
        HttpRequestMessage.java
        HttpResponse.java
        HttpResponseMessage.java
        iterator
        AbstractPeekableIterator.java
        IPeekableIterator.java
        PeekableIteratorComparator.java
        operator
        AndBooleanOperator.java
        BinaryBooleanOperator.java
        BooleanOperator.java
        FalseBooleanOperator.java
        NotBooleanOperator.java
        OrBooleanOperator.java
        TrueBooleanOperator.java
        UnaryBooleanOperator.java
        Utils.java
        partition
        ElementPartitionMap.java
        Partition.java
        PartitionSize.java
        Partitioner.java
        size
        DayPartitionSize.java
        HourPartitionSize.java
        MonthPartitionSize.java
        TwoMonthPartitionSize.java
        TwoYearPartitionSize.java
        WeekPartitionSize.java
        YearPartitionSize.java
        url
        AggressiveUrlCanonicalizer.java
        CanonicalizationInput.java
        CanonicalizationRule.java
        IdentityUrlCanonicalizer.java
        KeyMakerUrlCanonicalizer.java
        PatternBasedTextProcessor.java
        UriMatchRule.java
        UriMatchRuleInput.java
        UriStripper.java
        UriTranscoder.java
        UrlOperations.java
        webapp
        AbstractRequestHandler.java
        BeanNameRegistrar.java
        PortMapper.java
        RequestFilter.java
        RequestHandler.java
        RequestHandlerContext.java
        RequestMapper.java
        ShutdownListener.java
        SpringReader.java
        StaticFileRequestHandler.java
        webapp
        AccessPoint.java
        AccessPointAware.java
        CustomMultiFilterFactory.java
        CustomResultFilterFactory.java
        DefaultLiveWebRedirector.java
        DuplicateFiltersFactory.java
        FileRegexParamFilterAndFactory.java
        LiveWebAccessPoint.java
        LiveWebRedirector.java
        LiveWebRequestHandler.java
        PerfStats.java
        PerfWritingHttpServletResponse.java
        PerformanceLogger.java
        PrefixEmbargoPeriodTuple.java
        PrefixEmbargoResultFilterFactory.java
        ServerRelativeArchivalRedirect.java
        WaybackCollection.java
    - test
      - java
        org
        archive
        io
        arc
        TestARCReader.java
        warc
        TestWARCReader.java
        TestWARCRecordInfo.java
        wayback
        accesscontrol
        ExternalExcluderTest.java
        oracleclient
        CustomPolicyOracleFilterTest.java
        robotstxt
        RobotExclusionFilterTest.java
        RobotRulesTest.java
        RobotsDirectiveAggregationTest.java
        staticmap
        StaticListExclusionFilterTest.java
        StaticMapExclusionFilterTest.java
        accesspoint
        CompositeAccessPointTest.java
        proxy
        ProxyAccessPointTest.java
        archivalurl
        ArchivalURLJSStringTransformerReplayRendererTest.java
        ArchivalUrlCSSReplayRendererTest.java
        ArchivalUrlRequestParserTest.java
        ArchivalUrlSAXRewriteReplayRendererTest.java
        ArchivalUrlTest.java
        FastArchivalUrlReplayParseEventHandlerTest.java
        requestparser
        DatelessReplayRequestParserTest.java
        ReplayRequestParserTest.java
        liveweb
        URLtoARCCacherTest.java
        memento
        MementoUtilsTest.java
        partition
        BubbleCalendarDataTest.java
        proxy
        ProxyHttpsResultURIConverterTest.java
        replay
        HttpHeaderOperationTest.java
        RedirectRewritingHttpHeaderProcessorTest.java
        SelectorReplayDispatcherTest.java
        TagMagixTest.java
        TransparentReplayRendererTest.java
        charset
        ByteOrderMarkSnifferTest.java
        RotatingCharsetDetectorTest.java
        html
        transformer
        BlockCSSStringTransformerTest.java
        InlineCSSStringTransformerTest.java
        JSStringTransformerTest.java
        MetaRefreshUrlStringTransformerTest.java
        SrcsetStringTransformerTest.java
        mimetype
        SimpleMimeTypeDetectorTest.java
        requestparser
        PathRequestParserTest.java
        resourceindex
        RemoteResourceIndexTest.java
        WatchedCDXSourceTest.java
        cdx
        format
        CDXFormatTest.java
        cdxserver
        AccessCheckFilterTest.java
        EmbeddedCDXServerIndexTest.java
        distributed
        AlphaPartitionedIndexTest.java
        filters
        FileRegexFilterTest.java
        ziplines
        ZiplinedBlockStringSequenceTest.java
        ZiplinesSearchResultSourceTest.java
        resourcestore
        jwat
        JWATResourceTest.java
        locationdb
        BDBResourceFileLocationDBTest.java
        ResoruceFileLocationDBLogTest.java
        resourcefile
        ArcResourceTest.java
        RegexFilenameFilterTest.java
        WarcResourceTest.java
        surt
        SURTTokenizerTest.java
        util
        BitArrayTest.java
        CachedFileTest.java
        IPRangeTest.java
        MonitoredFileSetTest.java
        StringFormatterTest.java
        TimestampTest.java
        htmllex
        ContextAwareLexerTest.java
        ParseContextTest.java
        operator
        BooleanOperatorTest.java
        url
        AggressiveUrlCanonicalizerTest.java
        UrlOperationsTest.java
        webapp
        AccessPointTest.java
        ServerRelativeArchivalRedirectTest.java

/*
 *  This file is part of the Wayback archival access software
 *   (http://archive-access.sourceforge.net/projects/wayback/).
 *
 *  Licensed to the Internet Archive (IA) by one or more individual 
 *  contributors. 
 *
 *  The IA licenses this file to You under the Apache License, Version 2.0
 *  (the "License"); you may not use this file except in compliance with
 *  the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 *  Unless required by applicable law or agreed to in writing, software
 *  distributed under the License is distributed on an "AS IS" BASIS,
 *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *  See the License for the specific language governing permissions and
 *  limitations under the License.
 */
package org.archive.wayback.util.url;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.httpclient.URIException;
import org.archive.url.UsableURI;
import org.archive.url.UsableURIFactory;
import org.archive.wayback.UrlCanonicalizer;
import org.archive.wayback.util.ByteOp;

/**
 * Class that performs the standard Heritrix URL canonicalization. Eventually,
 * this should all be configurable, or perhaps be able to read the settings
 * used within a Heritrix crawler... or even multiple crawlers... this is hard.
 *
 * @author brad
 * @version $Date$, $Revision$
 */
public class AggressiveUrlCanonicalizer implements UrlCanonicalizer {
	
	private static final Logger LOGGER = Logger.getLogger(
			AggressiveUrlCanonicalizer.class.getName());
	
	private static final String CDX_PREFIX = " CDX ";
    /**
     * Strip leading 'www.'
     */
    private static final Pattern STRIP_WWW_REGEX =
        Pattern.compile("(?i)^(?:https?://)(www[0-9]*\\.)(?:[^/]*/.+)$");
    private static final String STRIP_WWW_CHOOSER = "/www";
//    /**
//     * Strip leading 'www44.', 'www3.', etc.
//     */
//    private static final Pattern STRIP_WWWN_REGEX =
//        Pattern.compile("(?i)^(https?://)(?:www[0-9]+\\.)([^/]*/.+)$");
    /**
     * Strip userinfo.
     */
    private static final Pattern STRIP_USERINFO_REGEX =
        Pattern.compile("^(?:(?:(?:https?)|(?:ftps?))://)([^/]+@)(?:.*)$",
            Pattern.CASE_INSENSITIVE);
    private static final String STRIP_USERINFO_CHOOSER = "@";

    /**
     * Example: PHPSESSID=9682993c8daa2c5497996114facdc805.
     */
    private static final Pattern STRIP_PHPSESSION_ID_REGEX =
    	 Pattern.compile("^(?:.+)(phpsessid=" +
    	                 "[0-9a-zA-Z]{32}&?)(?:(?:.*))?$",  
    	                 Pattern.CASE_INSENSITIVE);
    private static final String STRIP_PHPSESSION_ID_CHOOSER = "phpsessid=";

    
    /**
     * Example: jsessionid=999A9EF028317A82AC83F0FDFE59385A.
     */
    private static final Pattern STRIP_JSESSION_ID_REGEX =
    	 Pattern.compile("^.*(jsessionid=[0-9a-zA-Z]{32}&?).*$",  
    	                 Pattern.CASE_INSENSITIVE);
    private static final String STRIP_JSESSION_ID_CHOOSER = "jsessionid=";
    
    /**
     * Example: sid=9682993c8daa2c5497996114facdc805. 
     * 'sid=' can be tricky but all sid= followed by 32 byte string
     * so far seen have been session ids.  Sid is a 32 byte string
     * like the BASE_PATTERN only 'sid' is the tail of 'phpsessid'
     * so have to have it run after the phpsessid elimination.
     */
    private static final Pattern STRIP_SID_REGEX =
        Pattern.compile("^(?:.+)" +
                "(sid=[0-9a-zA-Z]{32}&?)(?:(?:.*))?$", Pattern.CASE_INSENSITIVE);
    private static final String STRIP_SID_CHOOSER = "sid=";
    
    /**
     * Example:ASPSESSIONIDAQBSDSRT=EOHBLBDDPFCLHKPGGKLILNAM.
     */
    private static final Pattern STRIP_ASPSESSION_REGEX =
        Pattern.compile("^(?:.+)" +
                "(ASPSESSIONID[a-zA-Z]{8}=[a-zA-Z]{24}&?)(?:(?:.*))?$",
                    Pattern.CASE_INSENSITIVE);
    private static final String STRIP_ASPSESSION_CHOOSER = "aspsessionid";

    /**
     * Examples:
     *
     *        (.NET 2.0)
     *        http://legislature.mi.gov/(S(4hqa0555fwsecu455xqckv45))/mileg.aspx
     *     => http://legislature.mi.gov/mileg.aspx
     *
     *		  (.NET 1.0/1.1)
     *        http://legislature.mi.gov/(4hqa0555fwsecu455xqckv45)/mileg.aspx
     *     => http://legislature.mi.gov/mileg.aspx
     *     
     *     For more info, see: 
     *     	  http://msdn2.microsoft.com/en-us/library/aa479315.aspx
     *     
     */
    private static final Pattern STRIP_ASPSESSION2_REGEX =
    	Pattern.compile(".*/(\\([0-9a-z]{24}\\)/)(?:[^\\?]+\\.aspx.*)$",
    			Pattern.CASE_INSENSITIVE);
    private static final String STRIP_ASPSESSION2_CHOOSER = ".aspx";

    /**
     * Examples:
     *
     *        (.NET 2.0)
     *        http://legislature.mi.gov/(a(4hqa0555fwsecu455xqckv45)S(4hqa0555fwsecu455xqckv45)f(4hqa0555fwsecu455xqckv45))/mileg.aspx?page=SessionSchedules
     *     => http://legislature.mi.gov/(a(4hqa0555fwsecu455xqckv45)f(4hqa0555fwsecu455xqckv45))/mileg.aspx?page=SessionSchedules
     *
     *     For more info, see: 
     *     	  http://msdn2.microsoft.com/en-us/library/aa479315.aspx
     *     
     */   
    private static final Pattern STRIP_ASPSESSION3_REGEX =
    	Pattern.compile(".*/(\\((?:[a-z]\\([0-9a-z]{24}\\))+\\)/)[^\\?]+\\.aspx.*$",
    			Pattern.CASE_INSENSITIVE);
    private static final String STRIP_ASPSESSION3_CHOOSER = ".aspx";
    
    /**
     * Strip ColdFusion session IDs. Remove sessionids that look like the 
     * following:
     * CFID=12412453&CFTOKEN=15501799
     * CFID=3304324&CFTOKEN=57491900&jsessionid=a63098d96360$B0$D9$A
     */
    private static final Pattern STRIP_CFSESSION_REGEX = 
    	Pattern.compile(".+(cfid=[^&]+&cftoken=[^&]+(?:&jsessionid=[^&]+)?&?).*$",
    			Pattern.CASE_INSENSITIVE);
    private static final String STRIP_CFSESSION_CHOOSER = "cftoken=";
        
	
	private static final String choosers[] = {
			STRIP_USERINFO_CHOOSER,
			STRIP_WWW_CHOOSER,
			STRIP_PHPSESSION_ID_CHOOSER,
			STRIP_JSESSION_ID_CHOOSER,
			STRIP_ASPSESSION_CHOOSER,
			STRIP_ASPSESSION2_CHOOSER,
			STRIP_ASPSESSION3_CHOOSER,
			STRIP_SID_CHOOSER,
			STRIP_CFSESSION_CHOOSER				
	};
	private static final Pattern strippers[] = {
			STRIP_USERINFO_REGEX,
			STRIP_WWW_REGEX,
			STRIP_PHPSESSION_ID_REGEX,
			STRIP_JSESSION_ID_REGEX,
			STRIP_ASPSESSION_REGEX,
			STRIP_ASPSESSION2_REGEX,
			STRIP_ASPSESSION3_REGEX,
			STRIP_SID_REGEX,
			STRIP_CFSESSION_REGEX 
    };
	
	private List<CanonicalizationRule> processingRules = new ArrayList<CanonicalizationRule>();
	
	public List<CanonicalizationRule> getProcessingRules() {
	    return processingRules;
    }

    public void setProcessingRules(List<CanonicalizationRule> processingRules) {
        this.processingRules = processingRules;
    }

    /**
     * Run a regex against a StringBuilder, removing group 1 if it matches.
     * 
     * Assumes the regex has a form that wants to strip elements of the passed
     * string.  Assumes that if a match, group 1 should be removed
     * @param url Url to search in.
     * @param matcher Matcher whose form yields a group to remove
     * @return true if the StringBuilder was modified
     */
    protected boolean doStripRegexMatch(StringBuilder url, Matcher matcher) {
    	if(matcher != null && matcher.matches()) {
    		url.delete(matcher.start(1), matcher.end(1));
    		return true;
    	}
    	return false;
    }

	public String urlStringToKey(final String urlString) throws URIException {

		if(urlString.startsWith("dns:")) {
			return urlString;
		}
		String searchUrl = canonicalize(urlString);
		String scheme = UrlOperations.urlToScheme(searchUrl);
		if(scheme != null) {
			searchUrl = searchUrl.substring(scheme.length());
		} else {
			scheme = UrlOperations.HTTP_SCHEME;
		}
	
		if (-1 == searchUrl.indexOf("/")) {
			searchUrl = scheme + searchUrl + "/";
		} else {
			searchUrl = scheme + searchUrl;
		}

        // Custom rules

        for (CanonicalizationRule rule : getProcessingRules()) {
            searchUrl = rule.processIfMatches(new CanonicalizationInput(searchUrl));
        }

        // Core rules

		// TODO: These next few lines look crazy -- need to be reworked.. This
		// was the only easy way I could find to get the correct unescaping
		// out of UsableURIs, possible a bug. Definitely needs some TLC in any case,
		// as building UsableURIs is *not* a cheap operation.
		
		// unescape anything that can be:
		UsableURI tmpURI = null;
		try {
			tmpURI = UsableURIFactory.getInstance(searchUrl);
		} catch (StringIndexOutOfBoundsException e) {
			LOGGER.warning(e.getMessage() + ": " + searchUrl);
			return searchUrl;
//		} catch(URIException e) {
//			LOGGER.warning(e.getMessage() + ": " + searchUrl);
//			return searchUrl;			
		}
		tmpURI.setPath(tmpURI.getPath());
		
		// convert to UsableURI to perform required URI fixup:
		UsableURI searchURI = UsableURIFactory.getInstance(tmpURI.getURI());
		
		// replace ' ' with '+' (this is only to match Alexa's canonicalization)
		String newPath = searchURI.getEscapedPath().replace("%20","+");
		
		// replace multiple consecutive '/'s in the path.
		while(newPath.contains("//")) {
			newPath = newPath.replace("//","/");
		}
		
		// this would remove trailing a '/' character, unless the path is empty
		// but we're not going to do this just yet..
//		if((newPath.length() > 1) && newPath.endsWith("/")) {
//			newPath = newPath.substring(0,newPath.length()-1);
//		}
		
		StringBuilder sb = new StringBuilder(searchUrl.length());
		sb.append(searchURI.getHostBasename());

		// omit port if scheme default:
		int defaultSchemePort = UrlOperations.schemeToDefaultPort(scheme);
		if(searchURI.getPort() != defaultSchemePort 
				&& searchURI.getPort() != -1) {

			sb.append(":").append(searchURI.getPort());
		}

		sb.append(newPath);
		if(searchURI.getEscapedQuery() != null) {
			sb.append("?").append(searchURI.getEscapedQuery());
		}

		return sb.toString();
	}

	/**
	 * Idempotent operation that will determine the 'fuzziest'
	 * form of the url argument. This operation is done prior to adding records
	 * to the ResourceIndex, and prior to lookup. Current version is exactly
	 * the default found in Heritrix. When the configuration system for
	 * Heritrix stabilizes, hopefully this can use the system directly within
	 * Heritrix.
	 * 
	 * @param url to be canonicalized.
	 * @return canonicalized version of url argument.
	 */
	public String canonicalize(String url) {

        if (url == null || url.length() <= 0) {
            return url;
        }

        // hang on, we're about to get aggressive:
        url = url.toLowerCase();
        StringBuilder sb = new StringBuilder(url);
        boolean changed = false;
		for(int i=0; i<choosers.length; i++) {
			if(sb.indexOf(choosers[i]) != -1) {
				changed |= doStripRegexMatch(sb,strippers[i].matcher(sb));
			}
		}
		if(changed) {
			url = sb.toString();
		}
        
        int index = url.lastIndexOf('?');
        if (index > 0) {
            if (index == (url.length() - 1)) {
                // '?' is last char in url.  Strip it.
                url = url.substring(0, url.length() - 1);
            } else if (url.charAt(index + 1) == '&') {
                // Next char is '&'. Strip it.
                if (url.length() == (index + 2)) {
                    // Then url ends with '?&'.  Strip them.
                    url = url.substring(0, url.length() - 2);
                } else {
                    // The '&' is redundant.  Strip it.
                    url = url.substring(0, index + 1) + 
                    	url.substring(index + 2);
                }
            } else if (url.charAt(url.length() - 1) == '&') {
                // If we have a lone '&' on end of query str,
                // strip it.
                url = url.substring(0, url.length() - 1);
            }
        }
        return url;
	}
	
	private static void USAGE() {
		System.err.println("Usage: [-f FIELD] [-d DELIM]");
		System.exit(3);
	}
	/**
	 * @param args program arguments
	 */
	public static void main(String[] args) {
		AggressiveUrlCanonicalizer canonicalizer = new AggressiveUrlCanonicalizer();
		int n = 0;
		int i = 0;
		ArrayList<Integer> columns = new ArrayList<Integer>();
		
		long lineNumber = 0;
		boolean cdxPassThru = false;
		String delimiter = " ";
		while(n < args.length) {
			String arg = args[n];
			if(arg.compareTo("-cdx") == 0) {
				cdxPassThru = true;
				n++;
				continue;
			}
			if(n == (args.length -1)) {
				USAGE();
			}
			String val = args[n+1];
			if(arg.compareTo("-f") == 0) {
				columns.add(new Integer(val));
			} else if(arg.compareTo("-d") == 0) {
				delimiter = val;
			} else {
				USAGE();
			}
			n += 2;
		}
		// place default '0' in case none specified:
		if(columns.size() == 0) {
			columns.add(new Integer(1));
		}
		
		// convert to int[]:
		int[] cols = new int[columns.size()];
		for(int idx = 0; idx < columns.size(); idx++) {
			cols[idx] = columns.get(idx).intValue() - 1;
		}
		BufferedReader r = new BufferedReader(new InputStreamReader(System.in,ByteOp.UTF8));
		StringBuilder sb = new StringBuilder();
		String line = null;
		
		while(true) {
			try {
				line = r.readLine();
			} catch (IOException e) {
				e.printStackTrace();
				System.exit(1);
			}
			if(line == null) {
				break;
			}
			lineNumber++;
			if(cdxPassThru && line.startsWith(CDX_PREFIX)) {
				System.out.println(line);
				continue;
			}
			String parts[] = line.split(delimiter);
			for(int column : cols) {
				if(column >= parts.length) {
					System.err.println("Invalid line " + lineNumber + " (" +
							line + ") skipped");
				} else {
					try {
						parts[column] = canonicalizer.urlStringToKey(parts[column]);
					} catch (URIException e) {
						System.err.println("Invalid URL in line " + lineNumber + " (" +
								line + ") skipped (" + parts[column] + ")");
						e.printStackTrace();
						continue;
					} catch (StringIndexOutOfBoundsException e) {
						System.err.println("Invalid URL in line " + lineNumber + " (" +
								line + ") skipped (" + parts[column] + ")");
						e.printStackTrace();
						continue;
					}
				}
			}
			sb.setLength(0);
			for(i = 0; i < parts.length; i++) {
				sb.append(parts[i]);
				if(i < (parts.length-1)) {
					sb.append(delimiter);
				}
			}
			System.out.println(sb.toString());
		}
	}

	public boolean isSurtForm() {
		return false;
	}
}