EwcmsContentCrawler.java example

Explorer

ewcms-master
- src
  - main
    - java
      - com
        ewcms
        common
        convert
        BigDecimalConvert.java
        BigIntegerConvert.java
        BooleanConvert.java
        ByteConvert.java
        ConvertDateable.java
        ConvertException.java
        ConvertFactory.java
        Convertable.java
        DateConvert.java
        DoubleConvert.java
        FloatConvert.java
        IntegerConvert.java
        LongConvert.java
        ShortConvert.java
        SqlDateConvert.java
        SqlTimeConvert.java
        SqlTimestampConvert.java
        StringConvert.java
        dao
        JpaDAO.java
        JpaDAOable.java
        io
        FileInfo.java
        FileUtil.java
        HtmlFileUtil.java
        HtmlNumberUtil.java
        HtmlStringUtil.java
        ImageUtil.java
        lang
        EmptyUtil.java
        message
        EwcmsMessageSource.java
        query
        Paginationable.java
        Queryable.java
        Result.java
        Resultable.java
        cache
        CacheResult.java
        CacheResultable.java
        DefaultGeneratorCacheKey.java
        EhcacheResultCache.java
        GeneratorCacheKeyable.java
        NullCacheResult.java
        ResultCacheable.java
        jpa
        AbstractQuery.java
        EntityQuery.java
        EntityQueryTemplate.java
        EntityQueryable.java
        HqlQuery.java
        HqlQueryTemplate.java
        HqlQueryable.java
        Parameterable.java
        Predicatesable.java
        QueryFactory.java
        QueryFactoryBean.java
        QueryTemplateCallback.java
        QueryTemplateable.java
        SelectCallback.java
        content
        document
        BaseException.java
        DocumentFac.java
        DocumentFacable.java
        dao
        ArticleDAO.java
        ArticleMainDAO.java
        CategoryDAO.java
        OperateTrackDAO.java
        RelationDAO.java
        ReviewProcessDAO.java
        model
        Article.java
        ArticleMain.java
        Category.java
        Content.java
        OperateTrack.java
        Relation.java
        ReviewGroup.java
        ReviewProcess.java
        ReviewUser.java
        service
        ArticleMainService.java
        ArticleMainServiceable.java
        ArticleService.java
        CategoryService.java
        CategoryServiceable.java
        OperateTrackService.java
        OperateTrackServiceable.java
        RelationService.java
        RelationServiceable.java
        ReviewProcessService.java
        ReviewProcessServiceable.java
        util
        analyzer
        Context.java
        IKSegmentation.java
        Lexeme.java
        cfg
        Configuration.java
        dic
        DictSegment.java
        Dictionary.java
        Hit.java
        help
        CharacterHelper.java
        lucene
        IKAnalyzer.java
        IKQueryParser.java
        IKSimilarity.java
        IKTokenizer.java
        seg
        CJKSegmenter.java
        ISegmenter.java
        LetterSegmenter.java
        QuantifierSegmenter.java
        solr
        IKTokenizerFactory.java
        search
        ExtractKeywordAndSummary.java
        web
        ArticleAction.java
        ArticleMainAction.java
        ArticleMainQueryAction.java
        CategoryAction.java
        CategoryQueryAction.java
        HistoryAction.java
        HistoryQueryAction.java
        OperateTrackAction.java
        OperateTrackQueryAction.java
        ReasonAction.java
        RecycleBinAction.java
        RecycleBinQueryAction.java
        ReferArticleAction.java
        ReferQueryAction.java
        RelationAction.java
        RelationQueryAction.java
        ReviewProcessAction.java
        ReviewProcessQueryAction.java
        ShareAction.java
        ShareQueryAction.java
        history
        History.java
        HistoryHandler.java
        dao
        HistoryModelDAO.java
        fac
        HistoryModelFac.java
        HistoryModelFacable.java
        model
        HistoryModel.java
        service
        HistoryModelService.java
        HistoryModelServiceable.java
        util
        ByteToObject.java
        web
        HistoryAction.java
        HistoryQueryAction.java
        particular
        BaseException.java
        ParticularFac.java
        ParticularFacable.java
        dao
        ApprovalRecordDAO.java
        EmployeArticleDAO.java
        EmployeBasicDAO.java
        EnterpriseArticleDAO.java
        EnterpriseBasicDAO.java
        IndustryCodeDAO.java
        ProjectArticleDAO.java
        ProjectBasicDAO.java
        ZoningCodeDAO.java
        model
        ApprovalRecord.java
        Dense.java
        EmployeArticle.java
        EmployeBasic.java
        EnterpriseArticle.java
        EnterpriseBasic.java
        IndustryCode.java
        ParticularContent.java
        ProjectArticle.java
        ProjectBasic.java
        ZoningCode.java
        service
        ApprovalRecordService.java
        ApprovalRecordServiceable.java
        EmployeArticleService.java
        EmployeArticleServiceable.java
        EmployeBasicService.java
        EmployeBasicServiceable.java
        EnterpriseArticleService.java
        EnterpriseArticleServiceable.java
        EnterpriseBasicService.java
        EnterpriseBasicServiceable.java
        IndustryCodeService.java
        IndustryCodeServiceable.java
        ProjectArticleService.java
        ProjectArticleServiceable.java
        ProjectBasicService.java
        ProjectBasicServiceable.java
        ZoningCodeService.java
        ZoningCodeServiceable.java
        util
        FileType.java
        FileTypeJudge.java
        XmlConvert.java
        web
        ApprovalRecordAction.java
        ApprovalRecordQueryAction.java
        EmployeArticleAction.java
        EmployeArticleQueryAction.java
        EmployeBasicAction.java
        EmployeBasicQueryAction.java
        EnterpriseArticleAction.java
        EnterpriseArticleQueryAction.java
        EnterpriseBasicAction.java
        EnterpriseBasicQueryAction.java
        IndustryCodeAction.java
        IndustryCodeQueryAction.java
        ProjectArticleAction.java
        ProjectArticleQueryAction.java
        ProjectBasicAction.java
        ProjectBasicQueryAction.java
        ZoningCodeAction.java
        ZoningCodeQueryAction.java
        resource
        ResourceFac.java
        ResourceFacable.java
        dao
        ResourceDAO.java
        ResourceDAOable.java
        model
        Resource.java
        service
        ResourceService.java
        ResourceServiceable.java
        operator
        FileOperator.java
        ResourceOperatorable.java
        web
        InsertAction.java
        ManageAction.java
        QueryAction.java
        RecycleAction.java
        ResourceAction.java
        ThumbAction.java
        core
        site
        ChannelNode.java
        SiteFac.java
        SiteFacable.java
        dao
        ChannelDAO.java
        OrganDAO.java
        SiteDAO.java
        TemplateDAO.java
        TemplateSourceDAO.java
        model
        Channel.java
        Organ.java
        OrganInfo.java
        Site.java
        SiteServer.java
        Template.java
        TemplateEntity.java
        TemplateSource.java
        TemplatesrcEntity.java
        service
        ChannelService.java
        ChannelServiceable.java
        OrganService.java
        OrganServiceable.java
        SiteService.java
        SiteServiceable.java
        TemplateService.java
        TemplateServiceable.java
        TemplateSourceService.java
        TemplateSourceServiceable.java
        util
        ConvertUtil.java
        TemplateUtil.java
        web
        AclAction.java
        AppChannelAction.java
        AppChannelQueryAction.java
        ChannelAction.java
        OrganAction.java
        SetupAction.java
        SourceAction.java
        SourceQueryAction.java
        TemplateAction.java
        TemplateHistoryAction.java
        TemplateHistoryQueryAction.java
        TemplateQueryAction.java
        plugin
        BaseException.java
        BaseRuntimeException.java
        BaseRuntimeExceptionWrapper.java
        citizen
        CitizenFac.java
        CitizenFacable.java
        dao
        CitizenDAO.java
        model
        Citizen.java
        service
        CitizenService.java
        CitizenServiceable.java
        web
        CitizenAction.java
        CitizenQueryAction.java
        comment
        CommentFac.java
        CommentFacable.java
        dao
        CommentDAO.java
        model
        Comment.java
        service
        CommentService.java
        CommentServiceable.java
        web
        CommentAction.java
        CommentQueryAction.java
        contribute
        ContributeFac.java
        ContributeFacable.java
        dao
        ContributeDAO.java
        model
        Contribute.java
        service
        ContributeService.java
        ContributeServiceable.java
        web
        ContributeAction.java
        ContributeQueryAction.java
        crawler
        generate
        EwcmsContentCrawler.java
        EwcmsController.java
        EwcmsControllerable.java
        EwcmsResourceCrawler.java
        crawler
        Configurable.java
        CrawlConfig.java
        CrawlController.java
        Page.java
        WebCrawler.java
        fetcher
        CustomFetchStatus.java
        IdleConnectionMonitorThread.java
        PageFetchResult.java
        PageFetcher.java
        frontier
        Counters.java
        DocIDServer.java
        Frontier.java
        InProcessPagesDB.java
        WebURLTupleBinding.java
        WorkQueues.java
        parser
        BinaryParseData.java
        ExtractedUrlAnchorPair.java
        HtmlContentHandler.java
        HtmlParseData.java
        ParseData.java
        Parser.java
        TextParseData.java
        robotstxt
        HostDirectives.java
        RobotstxtConfig.java
        RobotstxtParser.java
        RobotstxtServer.java
        RuleSet.java
        url
        TLDList.java
        URLCanonicalizer.java
        UrlResolver.java
        WebURL.java
        util
        Cryptography.java
        IO.java
        Util.java
        manager
        CrawlerFac.java
        CrawlerFacable.java
        dao
        DomainDAO.java
        GatherDAO.java
        StorageDAO.java
        service
        GatherService.java
        GatherServiceable.java
        web
        BlockTreeGridNode.java
        DomainAction.java
        DomainQueryAction.java
        FilterBlockAction.java
        FilterBlockQueryAction.java
        GatherAction.java
        GatherQueryAction.java
        MatchBlockAction.java
        MatchBlockQueryAction.java
        StorageAction.java
        StorageQueryAction.java
        model
        Domain.java
        FilterBlock.java
        Gather.java
        MatchBlock.java
        Storage.java
        util
        CrawlerUtil.java
        externalds
        generate
        factory
        DataSourceFactoryable.java
        bean
        BeanDataSourceFactory.java
        custom
        CustomDataSourceFactory.java
        dbcp
        DbcpDataSourceFactory.java
        DbcpDataSourceFactoryable.java
        init
        EwcmsDataSourceFactory.java
        EwcmsDataSourceFactoryable.java
        bean
        BeanForInterfaceFactory.java
        BeanForInterfaceFactoryable.java
        jdbc
        JdbcDataSourceFactory.java
        jndi
        JndiDataSourceFactory.java
        service
        BaseDataSourceServiceable.java
        EwcmsDataSourceServiceable.java
        dbcp
        DbcpDataSource.java
        DbcpDataSourceable.java
        jdbc
        JdbcDataSourceService.java
        jndi
        JndiDataSourceService.java
        util
        CustomDataSourceDefinition.java
        CustomDataSourceValidatorable.java
        manager
        BaseDSFac.java
        BaseDSFacable.java
        dao
        BaseDSDAO.java
        service
        BaseDSService.java
        BaseDSServiceable.java
        web
        BeanDSAction.java
        BeanDSQueryAction.java
        ConnectDSAction.java
        CustomDSAction.java
        CustomDSQueryAction.java
        JdbcDSAction.java
        JdbcDSQueryAction.java
        JndiDSAction.java
        JndiDSQueryAction.java
        model
        BaseDS.java
        BeanDS.java
        CustomDS.java
        JdbcDS.java
        JndiDS.java
        interaction
        InteractionFac.java
        InteractionFacable.java
        dao
        InteractionDAO.java
        SpeakDAO.java
        model
        Interaction.java
        InteractionRatio.java
        Speak.java
        service
        InteractionService.java
        InteractionServiceable.java
        web
        InteractionAction.java
        InteractionQueryAction.java
        SpeakAction.java
        SpeakQueryAction.java
        message
        manager
        MessageFac.java
        MessageFacable.java
        dao
        MsgContentDAO.java
        MsgReceiveDAO.java
        MsgSendDAO.java
        service
        MsgReceiveService.java
        MsgReceiveServiceable.java
        MsgSendService.java
        MsgSendServiceable.java
        web
        MoreAction.java
        MoreQueryAction.java
        MsgContentAction.java
        MsgDetailAction.java
        MsgReceiveAction.java
        MsgReceiveQueryAction.java
        MsgSendAction.java
        MsgSendQueryAction.java
        model
        MsgContent.java
        MsgReceive.java
        MsgReceiveUser.java
        MsgSend.java
        MsgStatus.java
        notes
        manager
        NotesFac.java
        NotesFacable.java
        dao
        MemorandaDAO.java
        service
        MemorandaService.java
        MemorandaServiceable.java
        web
        MemorandaAction.java
        MemorandaQueryAction.java
        model
        Memoranda.java
        util
        Lunar.java
        SolarTerm.java
        online
        OnlineFac.java
        OnlineFacable.java
        dao
        AdvisorDAO.java
        MatterAnnexDAO.java
        MatterDAO.java
        WorkingBodyDAO.java
        model
        Advisor.java
        Matter.java
        MatterAnnex.java
        WorkingBody.java
        service
        AdvisorService.java
        AdvisorServiceable.java
        MatterService.java
        MatterServiceable.java
        WorkingBodyService.java
        WorkingBodyServiceable.java
        util
        FormatText.java
        web
        AdvisorAction.java
        AdvisorEditAction.java
        AdvisorQueryAction.java
        MatterAction.java
        MatterArticleAction.java
        MatterArticleQueryAction.java
        MatterQueryAction.java
        WorkingBodyAction.java
        report
        generate
        factory
        ChartFactory.java
        ChartFactoryable.java
        TextFactory.java
        TextFactoryable.java
        service
        chart
        ChartGenerationService.java
        text
        BaseTextGenerateServiceable.java
        HtmlGenerateService.java
        PdfGenerateService.java
        RtfGenerateService.java
        XlsGenerateService.java
        XmlGenerateService.java
        util
        AnalysisUtil.java
        ParamConversionPage.java
        vo
        PageShowParam.java
        manager
        ReportFac.java
        ReportFacable.java
        dao
        CategoryReportDAO.java
        ChartReportDAO.java
        ParameterDAO.java
        RepositoryDAO.java
        TextReportDAO.java
        service
        CategoryReportService.java
        CategoryReportServiceable.java
        ChartReportService.java
        ChartReportServiceable.java
        ParameterService.java
        ParameterServiceable.java
        RepositoryService.java
        RepositoryServiceable.java
        TextReportService.java
        TextReportServiceable.java
        util
        ChartAnalysisUtil.java
        ChartUtil.java
        ParameterSetValueUtil.java
        TextDesignUtil.java
        web
        CategoryReportAction.java
        CategoryReportDetailAction.java
        CategoryReportDetailQueryAction.java
        CategoryReportQueryAction.java
        ChartReportAction.java
        ChartReportQueryAction.java
        ParameterAction.java
        ParameterQueryAction.java
        ParameterSetAction.java
        RepositoryAction.java
        RepositoryQueryAction.java
        ShowReportAction.java
        TextReportAction.java
        TextReportQueryAction.java
        model
        CategoryReport.java
        ChartReport.java
        Parameter.java
        Repository.java
        TextReport.java
        data
        Data.java
        SqlData.java
        StaticData.java
        view
        BooleanView.java
        CheckView.java
        ComponentView.java
        DateView.java
        ListView.java
        SessionView.java
        TextView.java
        visit
        manager
        VisitFac.java
        VisitFacable.java
        dao
        VisitDAO.java
        VisitItemDAO.java
        service
        ClickRateService.java
        ClickRateServiceable.java
        ClientService.java
        ClientServiceable.java
        InteractiveService.java
        InteractiveServiceable.java
        LoyaltyService.java
        LoyaltyServiceable.java
        PublishedService.java
        PublishedServiceable.java
        SummaryService.java
        SummaryServiceable.java
        TrafficService.java
        TrafficServiceable.java
        VisitService.java
        VisitServiceable.java
        vo
        ClickRateVo.java
        ClientVo.java
        InteractiveVo.java
        LoyaltyVo.java
        PublishedVo.java
        SummaryVo.java
        TrafficVo.java
        web
        ClickRateAction.java
        ClientAction.java
        InteractiveAction.java
        ListVisitAction.java
        LoyaltyAction.java
        PublishedAction.java
        SummaryAction.java
        TrafficAction.java
        VisitBaseAction.java
        VisitTreeAction.java
        model
        Visit.java
        VisitItem.java
        util
        ChartVisitUtil.java
        DateTimeUtil.java
        NumberUtil.java
        SourceUtil.java
        VisitUtil.java
        vote
        manager
        VoteFac.java
        VoteFacable.java
        dao
        PersonDAO.java
        QuestionnaireDAO.java
        SubjectDAO.java
        SubjectItemDAO.java
        service
        PersonService.java
        PersonServiceable.java
        QuestionnaireService.java
        QuestionnaireServiceable.java
        SubjectItemService.java
        SubjectItemServiceable.java
        SubjectService.java
        SubjectServiceable.java
        web
        PersonAction.java
        PersonQueryAction.java
        QuestionnaireAction.java
        QuestionnaireQueryAction.java
        RecordAction.java
        ResultServlet.java
        SubjectAction.java
        SubjectItemAction.java
        SubjectItemQueryAction.java
        SubjectQueryAction.java
        SubmitServlet.java
        ViewServlet.java
        model
        Person.java
        Questionnaire.java
        Record.java
        Subject.java
        SubjectItem.java
        publication
        PublishException.java
        PublishService.java
        PublishServiceFactoryBean.java
        PublishServiceable.java
        SchedulePublishFac.java
        SchedulePublishFacable.java
        WebPublishFac.java
        WebPublishFacable.java
        deploy
        DeployOperatorFactory.java
        DeployOperatorable.java
        provider
        DeployOperatorBase.java
        FtpDeployOperator.java
        FtpsDeployOperator.java
        LocalDeployOperator.java
        SftpDeployOperator.java
        freemarker
        EwcmsConfigurationFactory.java
        EwcmsConfigurationFactoryBean.java
        FreemarkerUtil.java
        GlobalVariable.java
        cache
        DatabaseTemplateLoader.java
        directive
        ArticleDirective.java
        ArticleListDirective.java
        ChannelDirective.java
        ChannelListDirective.java
        IncludeDirective.java
        IndexDirective.java
        PositionDirective.java
        PropertyDirective.java
        UriFormat.java
        component
        CountDirective.java
        out
        DateDirectiveOut.java
        DefaultDirectiveOut.java
        DirectiveOutable.java
        HtmlDirectiveOut.java
        LengthDirectiveOut.java
        article
        CategoriesDirectiveOut.java
        ContentDirectiveOut.java
        RelationsDirectiveOut.java
        page
        PageOut.java
        PageOutDirective.java
        PageUtil.java
        SkipBaseDirective.java
        SkipDirective.java
        SkipNumberDirective.java
        SkipPageFirst.java
        SkipPageLast.java
        SkipPageNext.java
        SkipPagePrevious.java
        SkipPageable.java
        error
        EwcmsFreemarkerExceptionHandler.java
        generator
        DetailGenerator.java
        GeneratorBase.java
        HomeGenerator.java
        ListGenerator.java
        preview
        PreviewService.java
        generator
        Generatorable.java
        preview
        PreviewServiceFactoryBean.java
        PreviewServiceable.java
        service
        ArticlePublishServiceWrapper.java
        service
        ArticlePublishServiceable.java
        ChannelPublishServiceable.java
        ResourcePublishServiceable.java
        SitePublishServiceable.java
        TemplatePublishServiceable.java
        TemplateSourcePublishServiceable.java
        task
        MemoryTaskRegistry.java
        QueueSiteTaskRunner.java
        SiteTaskRunnerable.java
        TaskException.java
        TaskRegistryable.java
        Taskable.java
        impl
        ChannelTask.java
        DetailTask.java
        HomeTask.java
        ListTask.java
        NoneTask.java
        ResourceTask.java
        SiteTask.java
        TaskBase.java
        TemplateSourceTask.java
        TemplateTask.java
        event
        CompleteEvent.java
        DetailEvent.java
        NoneEvent.java
        ResourceEvent.java
        TaskEventable.java
        TemplateSourceEvent.java
        process
        GeneratorProcess.java
        ResourceProcess.java
        TaskProcessBase.java
        TaskProcessable.java
        TemplateSourceProcess.java
        publish
        SiteMultiPublish.java
        SitePublish.java
        SitePublishable.java
        uri
        NullUriRule.java
        RuleParse.java
        RuleParseable.java
        UriRule.java
        UriRuleable.java
        UriRules.java
        scheduling
        BaseException.java
        BaseRuntimeException.java
        BaseRuntimeExceptionWrapper.java
        generate
        common
        ValidationError.java
        ValidationErrorable.java
        ValidationErrors.java
        ValidationErrorsable.java
        job
        BaseEwcmsExecutionJob.java
        JobClassEntity.java
        channel
        EwcmsExecutionChannelJob.java
        EwcmsJobChannelFac.java
        EwcmsJobChannelFacable.java
        dao
        EwcmsJobChannelDAO.java
        model
        EwcmsJobChannel.java
        service
        EwcmsJobChannelService.java
        EwcmsJobChannelServiceable.java
        crawler
        EwcmsExecutionCrawlerJob.java
        EwcmsJobCrawlerFac.java
        EwcmsJobCrawlerFacable.java
        dao
        EwcmsJobCrawlerDAO.java
        model
        EwcmsJobCrawler.java
        service
        EwcmsJobCrawlerService.java
        EwcmsJobCrawlerServiceable.java
        history
        EwcmsExecutionHistoryJob.java
        report
        EwcmsExecutionReportJob.java
        EwcmsJobReportFac.java
        EwcmsJobReportFacable.java
        dao
        EwcmsJobReportDAO.java
        model
        EwcmsJobParameter.java
        EwcmsJobReport.java
        service
        EwcmsJobReportService.java
        EwcmsJobReportServiceable.java
        trs
        EwcmsExecutionTrsJob.java
        quartz
        EwcmsCronTriggerBean.java
        EwcmsJobMethodInvocationFailedException.java
        EwcmsMethodInvokingJobDetailFactoryBean.java
        EwcmsQuartzJobBean.java
        EwcmsSchedulerFactory.java
        EwcmsSchedulerFactoryBean.java
        EwcmsSimpleTriggerBean.java
        JobsQuartzScheduler.java
        JobsQuartzSchedulerable.java
        LocalThreadExecutor.java
        NullTaskExecutor.java
        NullThreadExecutor.java
        QuartzSchedulerControl.java
        SchedulerListenerable.java
        validator
        JobInfoValidator.java
        JobInfoValidatorable.java
        vo
        JobInfoRuntimeInformation.java
        manager
        SchedulingFac.java
        SchedulingFacable.java
        dao
        JobClassDAO.java
        JobInfoDAO.java
        JobTriggerDAO.java
        service
        JobClassService.java
        JobClassServiceable.java
        JobInfoService.java
        JobInfoServiceable.java
        util
        ConversionUtil.java
        ValidationException.java
        vo
        PageDisplayVO.java
        web
        JobChannelAction.java
        JobClassAction.java
        JobClassQueryAction.java
        JobCrawlerAction.java
        JobInfoAction.java
        JobInfoQueryAction.java
        JobReportAction.java
        model
        JobCalendarTrigger.java
        JobClass.java
        JobInfo.java
        JobSimpleTrigger.java
        JobTrigger.java
        security
        acls
        EwcmsAclPermissionEvaluator.java
        NullAclCache.java
        domain
        EwcmsPermission.java
        EwcmsPermissionFactory.java
        PermissionNotFoundException.java
        service
        EwcmsAclService.java
        EwcmsAclServiceable.java
        core
        session
        EwcmsSessionRegistry.java
        EwcmsSessionRegistryImpl.java
        manage
        SecurityFac.java
        SecurityFacable.java
        dao
        AuthorityDAO.java
        AuthorityDAOable.java
        GroupDAO.java
        GroupDAOable.java
        LoginLogsDAO.java
        LoginLogsDAOable.java
        UserDAO.java
        UserDAOable.java
        model
        Authority.java
        Group.java
        LoginLogs.java
        User.java
        UserInfo.java
        service
        AbstractService.java
        AuthorityService.java
        AuthorityServiceable.java
        GroupService.java
        GroupServiceable.java
        LoginLogsService.java
        LoginLogsServiceable.java
        UserService.java
        UserServiceException.java
        UserServiceable.java
        web
        account
        PasswordAction.java
        UserAction.java
        authority
        QueryAction.java
        group
        DetailAction.java
        GroupAction.java
        QueryAction.java
        loginlogs
        QueryAction.java
        user
        DetailAction.java
        InitPasswordAction.java
        QueryAction.java
        UserAction.java
        web
        authentication
        UsernamePasswordCheckcodeAuthenticationFilter.java
        rememberme
        IPPersistentRememberMeToken.java
        JPAPersistentTokenRepository.java
        JPATokenBasedRememberMeService.java
        dao
        RememberMeTokenDAO.java
        model
        RememberMeToken.java
        web
        AccessDeniedAction.java
        CrudBaseAction.java
        EwcmsBaseAction.java
        FcfAction.java
        HomeAction.java
        JsonBaseAction.java
        QueryBaseAction.java
        SiteSwitchAction.java
        context
        EwcmsContext.java
        EwcmsContextFilter.java
        EwcmsContextHolder.java
        EwcmsContextHolderStrategy.java
        EwcmsContextable.java
        ThreadLocalEwcmsContextHolderStrategy.java
        filter
        CacheControlHeaderFilter.java
        Error404Filter.java
        PreviewFilter.java
        render
        AbstractResourceRender.java
        PreviewRender.java
        Renderable.java
        ResourceRender.java
        TemplateSourceRender.java
        pubsub
        MessageSender.java
        NoneSender.java
        ProgressSender.java
        PubsubSender.java
        PubsubSenderable.java
        PubsubServlet.java
        servlet
        ImageCaptchaServlet.java
        VisitServlet.java
        struts2
        convert
        DateConvert.java
        date
        component
        Body.java
        Head.java
        view
        BodyTagLibrary.java
        HeadTagLibrary.java
        freemarker
        tag
        BodyModel.java
        HeadModel.java
        jsp
        ui
        BodyTag.java
        HeadTag.java
        util
        EncodeUtil.java
        EwcmsContextUtil.java
        GlobaPath.java
        JSONUtil.java
        ServletUtil.java
        Struts2Util.java
        TreeNodeConvert.java
        XMLUtil.java
        vo
        ComboBox.java
        ComboBoxString.java
        DataGrid.java
        PropertyGrid.java
        TreeGridNode.java
        TreeNode.java
  - test
    - java
      - com
        ewcms
        common
        convert
        BigDecimalConvertTest.java
        BigIntegerConvertTest.java
        BooleanConvertTest.java
        ByteConvertTest.java
        ConvertFactoryTest.java
        DateConvertTest.java
        DoubleConvertTest.java
        FloatConvertTest.java
        IntegerConvertTest.java
        LongConvertTest.java
        ShortConvertTest.java
        SqlDateConvertTest.java
        SqlTimeConvertTest.java
        SqlTimestampConvertTest.java
        StringConvertTest.java
        dao
        JpaDAOImpl.java
        JpaDAOTest.java
        model
        Model.java
        io
        ImageUtilTest.java
        query
        cache
        CacheResultTest.java
        EhcacheResultCacheTest.java
        jpa
        EntityQueryTemplateTest.java
        EntityQueryTest.java
        HqlQueryTemplateTest.java
        HqlQueryTest.java
        QueryInit.java
        model
        Certificate.java
        LimitLog.java
        Sex.java
        content
        document
        PatternTest.java
        search
        ExtractKeywordAndSummaryTest.java
        service
        CategoryServiceTest.java
        particular
        Dom4jTest.java
        EnumTest.java
        util
        XmlConvertTest.java
        resource
        service
        ResourceServiceTest.java
        UriReleaseTest.java
        operator
        FileOperatorTest.java
        core
        site
        service
        ChannelSortInitTest.java
        TemplateServiceTest.java
        pinyin4j
        ConvertToPinYinTest.java
        plugin
        crawler
        BlockIterationTest.java
        PatternTest.java
        generate
        url
        TLDListTest.java
        URLCanonicalizerTest.java
        externalds
        generate
        factory
        init
        EwcmsDataSourceFactoryTest.java
        manager
        service
        BaseDSServiceTest.java
        notes
        NotesWeekTest.java
        report
        generate
        util
        AnalysisUtilTest.java
        vote
        service
        QuestionnaireServiceTest.java
        publication
        ObjectBean.java
        PublishIntegratedTest.java
        deploy
        provider
        DeployOperatorBaseTest.java
        FtpDeployOperatorTest.java
        LocalDeployOperatorTest.java
        SftpDeployOperatorTest.java
        freemarker
        FreemarkerTest.java
        FreemarkerUtilTest.java
        cache
        DatabaseTemplateLoaderTest.java
        directive
        ArticleDirectiveTest.java
        ArticleListDirectiveTest.java
        ChannelDirectiveTest.java
        ChannelListDirectiveTest.java
        IncludeDirectiveTest.java
        IndexDirectiveTest.java
        PositionDirectiveTest.java
        PropertyDirectiveTest.java
        component
        CountDirectiveTest.java
        out
        DateDirectiveOutTest.java
        DefaultDirectiveOutTest.java
        LengthDirectiveOutTest.java
        article
        CategoriesDirectiveOutTest.java
        ContentDirectiveOutTest.java
        RelationsDirectiveOutTest.java
        page
        SkipDirectiveTest.java
        SkipNumberDirectiveTest.java
        SkipPageFirstTest.java
        SkipPageLastTest.java
        SkipPageNextTest.java
        SkipPagePreviousTest.java
        generator
        DetailGeneratorTest.java
        GeneratorBaseTest.java
        HomeGeneratorTest.java
        ListGeneratorTest.java
        preview
        PreviewServiceTest.java
        preview
        service
        ArticlePublishServiceWrapperTest.java
        task
        MemoryTaskRegistryTest.java
        QueueSiteTaskRunnerTest.java
        impl
        HomeTaskTest.java
        ResourceTaskTest.java
        TaskBaseTest.java
        TemplateSourceTaskTest.java
        event
        CompleteEventTest.java
        ResourceEventTest.java
        TemplateSourceEventTest.java
        process
        TaskProcessBaseTest.java
        publish
        MultiSitePublishTest.java
        SitePublishTest.java
        uri
        RuleParseTest.java
        UriRuleTest.java
        security
        PasswordMd5Test.java
        core
        session
        EwcmsSessionRegistryImplTest.java
        manage
        service
        GroupServiceTest.java
        UserServiceTest.java
        web
        authentication
        UsernamePasswordCheckcodeAuthenticationFilterTest.java
        web
        JsonBaseActionTest.java
        util
        JSONModel.java
        JSONUtilTest.java

/**
 * Copyright (c)2010-2011 Enterprise Website Content Management System(EWCMS), All rights reserved.
 * EWCMS PROPRIETARY/CONFIDENTIAL. Use is subject to license terms.
 * http://www.ewcms.com
 */

package com.ewcms.plugin.crawler.generate;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Pattern;

import org.apache.http.HttpStatus;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.ewcms.content.document.model.Article;
import com.ewcms.content.document.model.Content;
import com.ewcms.content.document.service.ArticleMainServiceable;
import com.ewcms.plugin.crawler.generate.crawler.Page;
import com.ewcms.plugin.crawler.generate.crawler.WebCrawler;
import com.ewcms.plugin.crawler.generate.url.WebURL;
import com.ewcms.plugin.crawler.manager.service.GatherServiceable;
import com.ewcms.plugin.crawler.model.Gather;
import com.ewcms.plugin.crawler.model.Storage;
import com.ewcms.plugin.crawler.util.CrawlerUtil;

/**
 * 
 * @author wu_zhijun
 * 
 */
public class EwcmsContentCrawler extends WebCrawler {

	private static final Logger logger = LoggerFactory.getLogger(EwcmsContentCrawler.class);

	private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g|png|tiff?|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf|rm|smil|wmv|swf|wma|zip|rar|gz))$");
	
	private String[] crawlDomains;
	private ArticleMainServiceable articleMainService;
	private GatherServiceable gatherService;
	private Gather gather;
	private String matchRegex;
	private String filterRegex;
	private String htmlType;
	private Boolean isLocal;
	private String[] keys;

	@Override
	public void onStart() {
		super.onStart();
		crawlDomains = (String[]) myController.getCustomData();
		articleMainService = (ArticleMainServiceable)getPassingParameters().get("articleMainService");
		gatherService = (GatherServiceable)getPassingParameters().get("gatherService");
		matchRegex = (String)getPassingParameters().get("matchRegex");
		filterRegex = (String)getPassingParameters().get("filterRegex");
		gather = (Gather)getPassingParameters().get("gather");
		htmlType = gather.getHtmlType();
		isLocal = gather.getIsLocal();
		if (isLocal){
			keys = gather.getKeys().split(",");
		}
	}

	/**
	 * 根据url进行网页的解析，对返回为TRUE的网页进行抓取
	 */
	@Override
	public boolean shouldVisit(WebURL url) {
		String href = url.getURL().toLowerCase();
		if (FILTERS.matcher(href).matches()) return false;
		if (href.lastIndexOf("." + htmlType) == -1)	return false;
		if (crawlDomains != null && crawlDomains.length > 0){
			for (String crawlDomain : crawlDomains) {
				if (href.startsWith(crawlDomain)) {
					return true;
				}
			}
		}
		return false;
	}

	/**
	 * 解析网页内容，page类包含了丰富的方法，可以利用这些方法得到网页的内容和属性。
	 */
	@Override
	public void visit(Page page) {
		try {
			String url = page.getWebURL().getURL();
			
			page.setContentType("text/html; charset=" + gather.getEncoding());
			Document doc = Jsoup.connect(url).timeout(gather.getTimeOutWait().intValue() * 1000).get();
	
			String title = doc.title();
			if (gather.getTitleExternal() && gather.getTitleRegex() != null && gather.getTitleRegex().length() > 0) {
				Elements titleEles = doc.select(gather.getTitleRegex());
				if (!titleEles.isEmpty()) {
					String tempTitle = titleEles.text();
					if (tempTitle != null && tempTitle.length() > 0) {
						title = tempTitle;
					}
				}
			}
			
			if (title != null && title.trim().length() > 0){
				Elements elements = doc.select(matchRegex);
				if (filterRegex != null && filterRegex.trim().length() > 0){
						elements = elements.not(filterRegex);
				}
				if (!elements.isEmpty()){
					String subHtml = elements.html();
					Document blockDoc = Jsoup.parse(subHtml);
					String contentText = blockDoc.html();
				
					if (gather.getRemoveHref()) {
						Document moveDoc = Jsoup.parse(contentText);
						Elements moveEles = moveDoc.select("*").not("a");
						contentText = moveEles.html();
					}
					if (gather.getRemoveHtmlTag())
						contentText = doc.text();
		
					if (isLocal){
						contentText = doc.text();
						
						Boolean isMatcher = true;
						for (int i = 0 ; i < keys.length ; i++){
							Boolean result = Pattern.compile(keys[i].trim()).matcher(contentText).find();
							if (!result){
								isMatcher = false;
								break;
							}
						}
						
						if (isMatcher){
							Storage storage = new Storage();
							storage.setGatherId(gather.getId());
							storage.setGatherName(gather.getName());
							storage.setTitle(title);
							storage.setUrl(url);
							try{
								gatherService.addStorage(storage);
							}catch(Exception e){
								logger.error("save storage error : {}", e.getLocalizedMessage());
							}finally{
								storage = null;
							}
						}
					}else{
						Content content = new Content();
						content.setDetail(contentText);
						content.setPage(1);
						List<Content> contents = new ArrayList<Content>();
						contents.add(content);
					
						Article article = new Article();
						article.setTitle(title);
						article.setContents(contents);
					
						articleMainService.addArticleMainByCrawler(article, gather.getChannelId(), CrawlerUtil.USER_NAME);
					}
				}
			}
		} catch (IOException e) {
			logger.warn(e.getLocalizedMessage());
		}
	}

	/**
	 * 当作业完成时，由控制器调用获得此crawler本地数据
	 */
	@Override
	public Object getMyLocalData() {
		return null;
	}

	/**
	 * 控制器退出之前执行
	 */
	@Override
	public void onBeforeExit() {
		gather = null;
		matchRegex = null;
		filterRegex = null;
		articleMainService = null;
	}
	
	@Override
	protected void handlePageStatusCode(WebURL webUrl, int statusCode, String statusDescription) {
		if (statusCode != HttpStatus.SC_OK) {
			if (statusCode == HttpStatus.SC_NOT_FOUND) {
				logger.info("Broken link: {} , this link was found in page with docid: {}" , webUrl.getURL(), webUrl.getParentDocid());
			} else {
				logger.info("Non success status for link: {} , status code: {} , description: {}", webUrl.getURL(), statusCode);
			}
		}
	}
}