ScrapedBillTextParser.java example

Explorer

OpenLegislation-master
- OpenLegislation-dev
  - src
    - main
      - java
        gov
        nysenate
        openleg
        client
        response
        base
        BaseResponse.java
        DateRangeListViewResponse.java
        ListViewResponse.java
        PaginationResponse.java
        SimpleResponse.java
        ViewObjectResponse.java
        error
        ErrorCode.java
        ErrorResponse.java
        ViewObjectErrorResponse.java
        view
        agenda
        AgendaAttendanceView.java
        AgendaCommAddendumView.java
        AgendaCommFlatView.java
        AgendaCommView.java
        AgendaIdView.java
        AgendaInfoCommView.java
        AgendaItemView.java
        AgendaMeetingDetailView.java
        AgendaMeetingView.java
        AgendaSummaryView.java
        AgendaView.java
        AgendaVoteBillView.java
        AgendaVoteView.java
        CommAgendaIdView.java
        CommAgendaSummaryView.java
        base
        ListView.java
        MapView.java
        ModelView.java
        SearchResultView.java
        StringView.java
        ViewObject.java
        bill
        ApprovalMessageView.java
        BaseBillIdView.java
        BillActionView.java
        BillAmendmentView.java
        BillDiffView.java
        BillFullTextView.java
        BillIdView.java
        BillInfoView.java
        BillPdfView.java
        BillStatusView.java
        BillTypeView.java
        BillView.java
        BillVoteView.java
        DetailBillView.java
        ProgramInfoView.java
        PublishStatusView.java
        SimpleBillInfoView.java
        SponsorView.java
        VetoMessageView.java
        cache
        CacheStatsView.java
        calendar
        ActiveListView.java
        CalendarActiveListIdView.java
        CalendarEntryView.java
        CalendarIdView.java
        CalendarSupEntryView.java
        CalendarSupIdView.java
        CalendarSupView.java
        CalendarView.java
        CalendarViewFactory.java
        SimpleActiveListView.java
        SimpleCalendarSupView.java
        SimpleCalendarView.java
        committee
        CommitteeIdView.java
        CommitteeMemberView.java
        CommitteeSessionIdView.java
        CommitteeVersionIdView.java
        CommitteeView.java
        entity
        AdminUserView.java
        ExtendedMemberView.java
        FullMemberView.java
        MemberView.java
        PersonView.java
        SimpleMemberView.java
        environment
        EnvVarNotFoundException.java
        EnvironmentVariableView.java
        ImmutableEnvVarException.java
        SimpleEnvironmentVariableView.java
        error
        InvalidParameterView.java
        hearing
        PublicHearingIdView.java
        PublicHearingInfoView.java
        PublicHearingPdfView.java
        PublicHearingUpdateTokenView.java
        PublicHearingView.java
        law
        LawDocIdView.java
        LawDocInfoView.java
        LawDocQueryView.java
        LawDocView.java
        LawDocWithRefsView.java
        LawIdQueryView.java
        LawInfoView.java
        LawNodeView.java
        LawTreeView.java
        LawVersionIdView.java
        log
        ApiLogItemView.java
        notification
        NotificationSubscriptionView.java
        NotificationSummaryView.java
        NotificationView.java
        process
        DataProcessRunDetailView.java
        DataProcessRunInfoView.java
        DataProcessRunView.java
        DataProcessUnitView.java
        request
        ConstrainedParameterView.java
        ParameterView.java
        source
        SourceFileView.java
        SourceIdView.java
        spotcheck
        BillScrapeQueueEntryView.java
        MismatchSummaryView.java
        MismatchView.java
        PriorMismatchView.java
        SpotCheckMismatchStatusSummaryView.java
        temporal
        DateTimeRangeView.java
        transcript
        TranscriptIdView.java
        TranscriptInfoView.java
        TranscriptPdfView.java
        TranscriptUpdateTokenView.java
        TranscriptView.java
        updates
        UpdateDigestModelView.java
        UpdateDigestView.java
        UpdateTokenModelView.java
        UpdateTokenView.java
        config
        ApplicationConfig.java
        ConsoleApplicationConfig.java
        DatabaseConfig.java
        Environment.java
        PropertyConfig.java
        SecurityConfig.java
        WebApplicationConfig.java
        WebInitializer.java
        WebSocketsConfig.java
        controller
        api
        admin
        AdminAccountCtrl.java
        ApiLogCtrl.java
        ApiUserCtrl.java
        BillScrapeQueueCtrl.java
        CacheCtrl.java
        DataProcessCtrl.java
        EnvironmentCtrl.java
        MemberManageCtrl.java
        NotificationCtrl.java
        NotificationSubscriptionCtrl.java
        SearchIndexCtrl.java
        SpotCheckCtrl.java
        agenda
        AgendaGetCtrl.java
        AgendaSearchCtrl.java
        AgendaUpdatesCtrl.java
        base
        ApiAuthFilter.java
        ApiErrorCode.java
        ApiLogFilter.java
        ApiPingCtrl.java
        BaseCtrl.java
        CorsFilter.java
        InvalidRequestParamEx.java
        bill
        BillGetCtrl.java
        BillSearchCtrl.java
        BillUpdatesCtrl.java
        calendar
        CalendarGetCtrl.java
        CalendarSearchCtrl.java
        CalendarUpdatesCtrl.java
        committee
        CommitteeGetCtrl.java
        CommitteeSearchCtrl.java
        entity
        MemberGetCtrl.java
        MemberSearchCtrl.java
        hearing
        PublicHearingGetCtrl.java
        PublicHearingSearchCtrl.java
        PublicHearingUpdatesCtrl.java
        law
        LawGetCtrl.java
        LawSearchCtrl.java
        LawUpdatesCtrl.java
        senatesite
        SenateSiteDumpCtrl.java
        source
        SourceGetCtrl.java
        transcript
        TranscriptGetCtrl.java
        TranscriptSearchCtrl.java
        TranscriptUpdatesCtrl.java
        update
        AggregateUpdatesCtrl.java
        pdf
        BillPdfCtrl.java
        PublicHearingPdfCtrl.java
        TranscriptPdfCtrl.java
        ui
        AngularAppCtrl.java
        BaseContentPageCtrl.java
        DocsPageCtrl.java
        PartialTmplCtrl.java
        PingCtrl.java
        RegistrationPageCtrl.java
        dao
        activelist
        ActiveListReferenceDAO.java
        SqlActiveListReferenceDAO.java
        SqlActiveListReferenceQuery.java
        agenda
        data
        AgendaDao.java
        AgendaUpdatesDao.java
        SqlAgendaDao.java
        SqlAgendaQuery.java
        SqlAgendaUpdatesDao.java
        SqlAgendaUpdatesQuery.java
        reference
        AgendaAlertDao.java
        SqlAgendaAlertQuery.java
        SqlFsAgendaAlertDao.java
        search
        AgendaSearchDao.java
        ElasticAgendaSearchDao.java
        auth
        AdminUserDao.java
        AdminUserQuery.java
        ApiUserDao.java
        ApiUserQuery.java
        SqlAdminUserDao.java
        SqlApiUserDao.java
        base
        BasicSqlQuery.java
        ElasticBaseDao.java
        ImmutableParams.java
        LimitOffset.java
        OrderBy.java
        PaginatedList.java
        PaginatedRowHandler.java
        SearchIndex.java
        SearchSqlQuery.java
        SortOrder.java
        SqlBaseDao.java
        SqlQueryUtils.java
        SqlTable.java
        bill
        data
        ApprovalDao.java
        BillDao.java
        BillUpdatesDao.java
        SqlApprovalDao.java
        SqlApprovalQuery.java
        SqlBillDao.java
        SqlBillQuery.java
        SqlBillUpdatesDao.java
        SqlBillUpdatesQuery.java
        SqlVetoDao.java
        SqlVetoQuery.java
        VetoDao.java
        reference
        daybreak
        DaybreakDao.java
        SqlDaybreakQuery.java
        SqlFsDaybreakDao.java
        senatesite
        FsSenateSiteDao.java
        SenateSiteDao.java
        search
        BillSearchDao.java
        ElasticBillSearchDao.java
        text
        BillTextReferenceDao.java
        SqlBillTextReferenceQuery.java
        SqlFsBillTextReferenceDao.java
        calendar
        FloorCalendarReferenceDAO.java
        SqlFloorCalendarReferenceDao.java
        SqlFloorCalendarReferenceQuery.java
        alert
        CalendarAlertDao.java
        SqlCalendarAlertDao.java
        SqlCalendarAlertFileQuery.java
        SqlCalendarAlertQuery.java
        SqlFsCalendarAlertFileDao.java
        data
        CalendarDao.java
        CalendarUpdatesDao.java
        SqlCalendarDao.java
        SqlCalendarQuery.java
        SqlCalendarUpdatesDao.java
        SqlCalendarUpdatesQuery.java
        search
        CalendarSearchDao.java
        ElasticCalendarSearchDao.java
        common
        BillVoteIdRowMapper.java
        BillVoteRowHandler.java
        entity
        committee
        data
        CommitteeDao.java
        SqlCommitteeDao.java
        SqlCommitteeQuery.java
        search
        CommitteeSearchDao.java
        ElasticCommitteeSearchDao.java
        member
        data
        MemberDao.java
        SqlMemberDao.java
        SqlMemberQuery.java
        search
        ElasticMemberSearchDao.java
        MemberSearchDao.java
        hearing
        PublicHearingDao.java
        PublicHearingFileDao.java
        SqlFsPublicHearingFileDao.java
        SqlPublicHearingDao.java
        SqlPublicHearingFileQuery.java
        SqlPublicHearingQuery.java
        search
        ElasticPublicHearingSearchDao.java
        PublicHearingSearchDao.java
        law
        data
        LawDataDao.java
        LawFileDao.java
        LawUpdatesDao.java
        SqlFsLawFileDao.java
        SqlLawDataDao.java
        SqlLawDataQuery.java
        SqlLawFileQuery.java
        SqlLawUpdatesDao.java
        SqlLawUpdatesQuery.java
        search
        ElasticLawSearchDao.java
        LawSearchDao.java
        log
        data
        ApiLogDao.java
        ApiRequestResponseQuery.java
        SqlApiLogDao.java
        search
        ApiLogSearchDao.java
        ApiLogStompService.java
        ElasticApiLogSearchDao.java
        notification
        ElasticNotificationSearchDao.java
        NotificationSearchDao.java
        NotificationSubscriptionDao.java
        SqlNotificationSubscriptionDao.java
        SqlNotificationSubscriptionQuery.java
        process
        DataProcessLogDao.java
        SqlDataProcessLogDao.java
        SqlDataProcessLogQuery.java
        scraping
        AssemblyAgnScraper.java
        CalendarScraper.java
        LRSScraper.java
        ScrapingIOException.java
        SenateAgnScraper.java
        sobi
        SobiDao.java
        SqlFsSobiDao.java
        SqlSobiQuery.java
        spotcheck
        AbstractSpotCheckReportDao.java
        BaseBillIdSpotCheckReportDao.java
        BillIdSpotCheckReportDao.java
        CalendarAlertReportDao.java
        CalendarEntryListIdSpotCheckReportDao.java
        CommitteeAgendaAddendumIdSpotCheckReportDao.java
        CommitteeAgendaReportDao.java
        MismatchOrderBy.java
        SpotCheckReportDao.java
        SqlSpotCheckReportQuery.java
        transcript
        SqlFsTranscriptFileDao.java
        SqlTranscriptDao.java
        SqlTranscriptFileQuery.java
        SqlTranscriptQuery.java
        TranscriptDao.java
        TranscriptFileDao.java
        search
        ElasticTranscriptSearchDao.java
        TranscriptSearchDao.java
        updates
        AggregateUpdatesDao.java
        SqlAggregateUpdatesDao.java
        SqlAggregateUpdatesQuery.java
        xml
        SqlFsXmlDao.java
        XmlDao.java
        model
        agenda
        Agenda.java
        AgendaId.java
        AgendaInfoAddendum.java
        AgendaInfoCommittee.java
        AgendaInfoCommitteeItem.java
        AgendaNotFoundEx.java
        AgendaVoteAction.java
        AgendaVoteAddendum.java
        AgendaVoteAttendance.java
        AgendaVoteBill.java
        AgendaVoteCommittee.java
        CommitteeAgendaAddendumId.java
        CommitteeAgendaId.java
        auth
        AdminUser.java
        ApiKeyLoginToken.java
        ApiRequest.java
        ApiResponse.java
        ApiUser.java
        ApiUserAuthEvictEvent.java
        base
        BaseLegislativeContent.java
        BaseSourceData.java
        PublishStatus.java
        SessionYear.java
        Version.java
        bill
        ApprovalId.java
        ApprovalMessage.java
        BaseBillId.java
        Bill.java
        BillAction.java
        BillAmendment.java
        BillId.java
        BillInfo.java
        BillSponsor.java
        BillStatus.java
        BillStatusType.java
        BillTextType.java
        BillType.java
        BillUpdateField.java
        BillVote.java
        BillVoteCode.java
        BillVoteId.java
        BillVoteType.java
        ProgramInfo.java
        VetoId.java
        VetoMessage.java
        VetoType.java
        cache
        BaseCacheEvent.java
        CacheEvictEvent.java
        CacheEvictIdEvent.java
        CacheWarmEvent.java
        ContentCache.java
        calendar
        Calendar.java
        CalendarActiveList.java
        CalendarActiveListId.java
        CalendarEntry.java
        CalendarId.java
        CalendarSectionType.java
        CalendarSupplemental.java
        CalendarSupplementalEntry.java
        CalendarSupplementalId.java
        CalendarType.java
        alert
        CalendarAlertFile.java
        spotcheck
        CalendarEntryListId.java
        entity
        Chamber.java
        Committee.java
        CommitteeId.java
        CommitteeMember.java
        CommitteeMemberTitle.java
        CommitteeNotFoundEx.java
        CommitteeSessionId.java
        CommitteeVersionId.java
        FullMember.java
        Member.java
        MemberId.java
        MemberNotFoundEx.java
        Person.java
        SessionMember.java
        hearing
        PublicHearing.java
        PublicHearingCommittee.java
        PublicHearingFile.java
        PublicHearingId.java
        PublicHearingUpdateToken.java
        law
        LawActionType.java
        LawChapterCode.java
        LawDocId.java
        LawDocInfo.java
        LawDocument.java
        LawDocumentType.java
        LawFile.java
        LawInfo.java
        LawTree.java
        LawTreeNode.java
        LawType.java
        LawVersionId.java
        mail
        MessageBuilder.java
        notification
        Notification.java
        NotificationDigest.java
        NotificationDigestSubscription.java
        NotificationSubscription.java
        NotificationTarget.java
        NotificationType.java
        RegisteredNotification.java
        process
        DataProcessAction.java
        DataProcessErrorEvent.java
        DataProcessRun.java
        DataProcessRunInfo.java
        DataProcessUnit.java
        DataProcessUnitEvent.java
        DataProcessWarnEvent.java
        search
        BaseIndexEvent.java
        ClearIndexEvent.java
        RebuildIndexEvent.java
        SearchException.java
        SearchResult.java
        SearchResults.java
        UnexpectedSearchException.java
        slack
        SlackAddress.java
        SlackAttachment.java
        SlackField.java
        SlackMessage.java
        sobi
        InvalidSobiNameEx.java
        SobiBlock.java
        SobiFile.java
        SobiFileNotFoundEx.java
        SobiFragment.java
        SobiFragmentNotFoundEx.java
        SobiFragmentType.java
        SobiLineType.java
        SobiProcessOptions.java
        UnreadableSobiEx.java
        sobixml
        SobiXmlFile.java
        spotcheck
        ActiveListHTMLParser.java
        ActiveListSpotcheckReference.java
        DeNormSpotCheckMismatch.java
        MismatchQuery.java
        MismatchSummary.java
        ReferenceDataNotFoundEx.java
        SpotCheckAbortException.java
        SpotCheckContentType.java
        SpotCheckDataSource.java
        SpotCheckMismatch.java
        SpotCheckMismatchId.java
        SpotCheckMismatchIgnore.java
        SpotCheckMismatchStatus.java
        SpotCheckMismatchStatusSummary.java
        SpotCheckMismatchTracked.java
        SpotCheckMismatchType.java
        SpotCheckObservation.java
        SpotCheckPriorMismatch.java
        SpotCheckRefType.java
        SpotCheckReferenceEvent.java
        SpotCheckReferenceId.java
        SpotCheckReport.java
        SpotCheckReportId.java
        SpotCheckReportMismatchId.java
        SpotCheckReportNotFoundEx.java
        SpotCheckReportSummary.java
        SpotCheckSummary.java
        agenda
        AgendaAlertId.java
        AgendaAlertInfoCommId.java
        AgendaAlertInfoCommittee.java
        billtext
        BillScrapeQueueEntry.java
        BillTextReference.java
        ScrapeQueuePriority.java
        calendar
        FloorCalendarSpotcheckReference.java
        daybreak
        DaybreakBill.java
        DaybreakBillAmendment.java
        DaybreakBillId.java
        DaybreakDocType.java
        DaybreakDocument.java
        DaybreakFile.java
        DaybreakFragment.java
        DaybreakMessage.java
        DaybreakReport.java
        DaybreakReportSet.java
        PageFileEntry.java
        senatesite
        SenateSiteDump.java
        SenateSiteDumpFragment.java
        SenateSiteDumpId.java
        SenateSiteDumpRangeId.java
        SenateSiteDumpSessionId.java
        agenda
        SenateSiteAgenda.java
        SenateSiteAgendaBill.java
        bill
        SenateSiteBill.java
        calendar
        SenateSiteCalendar.java
        transcript
        Transcript.java
        TranscriptFile.java
        TranscriptId.java
        TranscriptNotFoundEx.java
        TranscriptUpdateToken.java
        updates
        UpdateContentType.java
        UpdateDigest.java
        UpdateReturnType.java
        UpdateToken.java
        UpdateType.java
        processor
        DataProcessor.java
        agenda
        AgendaProcessor.java
        AgendaVoteProcessor.java
        reference
        AgendaAlertParser.java
        AgendaAlertProcessor.java
        base
        AbstractDataProcessor.java
        IngestCache.java
        ParseError.java
        ProcessService.java
        bill
        AbstractBillProcessor.java
        ApprovalMessageParser.java
        BillActionAnalyzer.java
        BillActionParser.java
        BillLawCodeParser.java
        BillSobiProcessor.java
        BillTextParser.java
        BillXMLBillDigestProcessor.java
        BillXMLBillTextProcessor.java
        VetoMemoParser.java
        calendar
        ActiveListProcessor.java
        CalendarProcessor.java
        daybreak
        DaybreakFileParser.java
        DaybreakFragmentParser.java
        DaybreakPageFileParser.java
        DaybreakProcessService.java
        ManagedDaybreakProcessService.java
        entity
        CommitteeProcessor.java
        hearing
        ManagedPublicHearingProcessService.java
        PublicHearingAddressParser.java
        PublicHearingCommitteeParser.java
        PublicHearingDateParser.java
        PublicHearingParser.java
        PublicHearingProcessService.java
        PublicHearingTextParser.java
        PublicHearingTitleParser.java
        law
        AbstractLawBuilder.java
        HintBasedLawBuilder.java
        IdBasedLawBuilder.java
        LawBlock.java
        LawBuilder.java
        LawDocIdFixer.java
        LawParseException.java
        LawProcessService.java
        LawProcessor.java
        LawTitleParser.java
        ManagedLawProcessService.java
        rules
        RulesProcessService.java
        sobi
        ManagedSobiProcessService.java
        SobiParseException.java
        SobiProcessService.java
        SobiProcessor.java
        spotcheck
        calendar
        BaseCalendarAlertParser.java
        CalendarAlertActiveListParser.java
        CalendarAlertProcessor.java
        CalendarAlertSupplementalParser.java
        CalendarHTMLParser.java
        transcript
        ManagedTranscriptProcessService.java
        TranscriptLine.java
        TranscriptParser.java
        TranscriptProcessService.java
        xml
        ManagedXmlProcessService.java
        XmlParseException.java
        XmlProcessor.java
        script
        BaseScript.java
        ImportCommittees.java
        LRSScraper.java
        MemberScraperCLI.java
        ProcessDataCLI.java
        ProcessDaybreaks.java
        SearchIndexUpdate.java
        SpotCheckCLI.java
        admin
        CheckMail.java
        service
        agenda
        data
        AgendaDataService.java
        CachedAgendaDataService.java
        event
        AgendaUpdateEvent.java
        BulkAgendaUpdateEvent.java
        search
        AgendaSearchService.java
        ElasticAgendaSearchService.java
        auth
        AdminLoginAuthRealm.java
        AdminUserService.java
        ApiUserLoginAuthRealm.java
        ApiUserService.java
        AuthRealmConfigurer.java
        CachedSqlApiUserService.java
        InvalidUsernameException.java
        OpenLegAuthStrategy.java
        OpenLegAuthorizingRealm.java
        OpenLegRole.java
        SqlAdminUserService.java
        UsernameExistsException.java
        base
        data
        CachingService.java
        ContentUpdateEvent.java
        search
        ElasticSearchServiceUtils.java
        IndexedSearchService.java
        bill
        data
        ApprovalDataService.java
        ApprovalNotFoundException.java
        BillAmendNotFoundEx.java
        BillCacheEvictionPolicy.java
        BillCacheEvictionService.java
        BillDataService.java
        BillNotFoundEx.java
        CachedBillDataService.java
        SimpleApprovalDataService.java
        SimpleVetoDataService.java
        VetoDataService.java
        VetoNotFoundException.java
        event
        BillFieldUpdateEvent.java
        BillUpdateEvent.java
        BulkBillUpdateEvent.java
        search
        BillSearchService.java
        ElasticBillSearchService.java
        calendar
        data
        CachedCalendarDataService.java
        CalendarDataService.java
        CalendarNotFoundEx.java
        event
        BulkCalendarUpdateEvent.java
        CalendarUpdateEvent.java
        search
        CalendarSearchService.java
        ElasticCalendarSearchService.java
        entity
        committee
        data
        CachedCommitteeDataService.java
        CommitteeCacheEvictionPolicy.java
        CommitteeDataService.java
        event
        CommitteeUpdateEvent.java
        search
        CommitteeSearchService.java
        ElasticCommitteeSearchService.java
        member
        data
        CachedMemberService.java
        MemberService.java
        event
        BulkMemberUpdateEvent.java
        MemberUpdateEvent.java
        UnverifiedMemberEvent.java
        search
        ElasticMemberSearchService.java
        MemberSearchService.java
        hearing
        data
        CachedPublicHearingDataService.java
        PublicHearingDataService.java
        PublicHearingNotFoundEx.java
        event
        BulkPublicHearingUpdateEvent.java
        PublicHearingUpdateEvent.java
        search
        ElasticPublicHearingSearchService.java
        PublicHearingSearchService.java
        law
        data
        CachedLawDataService.java
        LawDataService.java
        LawDocumentNotFoundEx.java
        LawTreeNotFoundEx.java
        event
        BulkLawUpdateEvent.java
        LawUpdateEvent.java
        search
        ElasticLawSearchService.java
        LawSearchService.java
        log
        data
        ApiLogDataService.java
        SqlApiLogDataService.java
        event
        ApiLogEvent.java
        ApiLogIndexEvent.java
        search
        ApiLogSearchService.java
        ElasticApiLogSearchService.java
        mail
        MimeSendMailService.java
        SendMailService.java
        notification
        data
        ElasticNotificationDigestService.java
        ElasticNotificationService.java
        NotificationDigestService.java
        NotificationNotFoundException.java
        NotificationService.java
        dispatch
        BaseNotificationSender.java
        BaseSlackNotificationSender.java
        EmailNotificationDigestSender.java
        EmailNotificationSender.java
        FullEmailNotificationSender.java
        NotificationDigestDispatcher.java
        NotificationDigestFormatter.java
        NotificationDigestSender.java
        NotificationDispatcher.java
        NotificationSender.java
        SimpleEmailNotificationSender.java
        SlackNotificationDigestSender.java
        SlackNotificationSender.java
        subscription
        CachedNotificationSubscriptionDataService.java
        NotificationSubscriptionDataService.java
        process
        DataProcessLogService.java
        DataProcessNotificationService.java
        ProcessLogEvent.java
        SimpleDataProcessLogService.java
        scraping
        ActiveListScrapingService.java
        BillTextScraper.java
        ScrapedBillMemoParser.java
        ScrapedBillTextParser.java
        shiro
        shiroCacheManager.java
        shiroCacheService.java
        slack
        DefaultSlackChatService.java
        SlackApi.java
        SlackApiException.java
        SlackChannelNotFoundException.java
        SlackChatService.java
        source
        LRSBillTextSobiMaker.java
        spotcheck
        agenda
        AgendaAlertCheckMailService.java
        AgendaReportService.java
        AgendaSpotCheckService.java
        AgendaSpotcheckProcessService.java
        BaseAgendaCheckReportService.java
        CommAgendaAlertCheckMailService.java
        base
        BaseCheckMailService.java
        BaseSpotCheckReportService.java
        BaseSpotCheckService.java
        BaseSpotcheckProcessService.java
        CheckMailService.java
        MismatchNotFoundEx.java
        MismatchStatusService.java
        SenateSiteBillSpotcheckProcessService.java
        SimpleCheckMailService.java
        SpotCheckNotificationService.java
        SpotCheckReportService.java
        SpotCheckService.java
        SpotcheckMismatchEvent.java
        SpotcheckRunService.java
        billtext
        BillTextCheckService.java
        BillTextReportService.java
        BillTextScrapeQueueService.java
        BillTextSpotcheckProcessService.java
        calendar
        ActiveListAlertCheckMailService.java
        ActiveListSpotCheckService.java
        BaseCalendarReportService.java
        CalendarCheckService.java
        CalendarReportService.java
        CalendarSpotCheckProcessService.java
        FloorCalAlertCheckMailService.java
        daybreak
        DaybreakCheckMailService.java
        DaybreakCheckService.java
        DaybreakReportService.java
        DaybreakSpotcheckProcessService.java
        senatesite
        agenda
        AgendaCheckServices.java
        AgendaJsonParser.java
        AgendaReportServices.java
        base
        JsonParser.java
        bill
        BillCheckService.java
        BillJsonParser.java
        BillReportService.java
        calendar
        CalendarCheckServices.java
        CalendarJsonParser.java
        CalendarReportServices.java
        transcript
        data
        SqlTranscriptDataService.java
        TranscriptDataService.java
        event
        BulkTranscriptUpdateEvent.java
        TranscriptUpdateEvent.java
        search
        ElasticTranscriptSearchService.java
        TranscriptSearchService.java
        util
        AsciiArt.java
        AsyncRunner.java
        BillTextUtils.java
        CollectionUtils.java
        DateUtils.java
        DebugUtils.java
        FileIOUtils.java
        MailUtils.java
        MemberScraperUtils.java
        OpenlegThreadFactory.java
        OutputUtils.java
        PublicHearingTextUtils.java
        RandomUtils.java
        ScrapeUtils.java
        SenateSiteDumpFragParser.java
        StringDiffer.java
        TranscriptTextUtils.java
        UIKeyUtil.java
        XmlHelper.java
    - test
      - java
        gov
        nysenate
        openleg
        BaseTests.java
        SillyTests.java
        SillyWebAppTests.java
        TestConfig.java
        WebAppBaseTests.java
        config
        CacheConfigurationTests.java
        DatabaseConfigTests.java
        TransactionConfigTests.java
        dao
        BillDaoTests.java
        DaybreakProcessServiceTests.java
        base
        ImmutableParamsTest.java
        LimitOffsetTests.java
        SqlBaseDaoTests.java
        SqlQueryUtilsTest.java
        bill
        SqlBillDaoTests.java
        SqlBillSearchDaoTests.java
        reference
        daybreak
        SqlFsDaybreakDaoTests.java
        calendar
        CalendarSearchDaoTests.java
        CalendarUpdatesDaoTests.java
        data
        SqlCalendarDaoTest.java
        entity
        committee
        CommitteeDaoTests.java
        TestCommittees.java
        member
        SqlMemberDaoTests.java
        law
        SqlFsLawFileDaoTests.java
        sobi
        SqlFsSobiDaoTest.java
        spotcheck
        DaybreakSpotCheckReportDaoTests.java
        SenateSiteBillDumpTests.java
        SpotcheckReportDaoTests.java
        SqlSpotCheckReportQueryTest.java
        transcript
        SqlTranscriptDaoTest.java
        model
        TestServletContext.java
        base
        SessionYearTests.java
        bill
        BillIdTests.java
        BillVersionTests.java
        BillVoteTests.java
        calendar
        CalendarSupplementalTests.java
        processor
        activelist
        ActiveListHTMLParserTest.java
        bill
        BillActionAnalyzerTests.java
        BillActionParserTests.java
        calendar
        CalendarAlertProcessorTest.java
        CalendarHTMLParserTest.java
        MockCalendarAlertDao.java
        hearing
        PublicHearingAddressParserTest.java
        PublicHearingCommitteeParserTest.java
        PublicHearingDateParserTest.java
        PublicHearingTestHelper.java
        PublicHearingTitleParserTest.java
        law
        LawParserTests.java
        LawProcessorTests.java
        ManagedLawProcessServiceTests.java
        transcript
        TranscriptLineTest.java
        script
        DataProcessorTests.java
        MemberProcessorTests.java
        service
        bill
        CachedBillDataServiceTests.java
        search
        ElasticBillSearchServiceTests.java
        calendar
        CalendarDataServiceTest.java
        entity
        committee
        CommitteeSearchServiceTests.java
        CommitteeServiceTests.java
        member
        ElasticMemberSearchServiceTests.java
        SqlMemberServiceTests.java
        notification
        NotificationTests.java
        slack
        SlackChatServiceTests.java
        sobi
        ManagedSobiProcessServiceTest.java
        SobiProcessServiceTest.java
        spotcheck
        CheckMailServiceTests.java
        DaybreakCheckServiceTests.java
        DaybreakSpotCheckReportServiceTests.java
        MismatchStatusServiceTest.java
        SpotcheckTests.java
        stupid
        ActiveListDAOTest.java
        ActiveListScrapingServiceTest.java
        BillTextTest.java
        KTests.java
        LRSAssemblyAgnScraperTest.java
        LRSCalendarScraperTest.java
        LRSSenateAgnScraperTest.java
        StupidTests.java
        view
        ViewTests.java

package gov.nysenate.openleg.service.scraping;

import gov.nysenate.openleg.model.base.SessionYear;
import gov.nysenate.openleg.model.bill.BaseBillId;
import gov.nysenate.openleg.model.bill.BillId;
import gov.nysenate.openleg.model.spotcheck.billtext.BillTextReference;
import gov.nysenate.openleg.processor.base.ParseError;
import gov.nysenate.openleg.util.DateUtils;
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.nodes.TextNode;
import org.jsoup.select.Elements;
import org.springframework.stereotype.Service;

import java.io.File;
import java.io.IOException;
import java.time.LocalDateTime;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Created by kyle on 3/10/15.
 */
@Service
public class ScrapedBillTextParser {

    private static final Pattern scrapedBillFilePattern = Pattern.compile("^(\\d{4})-([A-z]\\d+)-(\\d{8}T\\d{6}).html$");

    private static final Pattern billIdPattern = Pattern.compile("^([A-z]\\d+)(?:-([A-z]))?$");

    private static final Pattern resolutionStartPattern = Pattern.compile("^\\s+([A-z]{2,})");

    /**
     * Parses a scraped bill file into a bill text reference containing an active amendment, full text, and a sponsor memo
     * @param file File
     * @return BillTextReference
     * @throws IOException if there are troubles reading the file
     * @throws ParseError if there are troubles while parsing the file
     */
    public BillTextReference parseReference(File file) throws IOException, ParseError{
        Matcher filenameMatcher = scrapedBillFilePattern.matcher(file.getName());
        if (filenameMatcher.matches()) {
            // Parse metadata from the file name
            BaseBillId baseBillId = new BaseBillId(filenameMatcher.group(2), Integer.parseInt(filenameMatcher.group(1)));
            LocalDateTime referenceDateTime = LocalDateTime.parse(filenameMatcher.group(3), DateUtils.BASIC_ISO_DATE_TIME);

            Document document = Jsoup.parse(file, "UTF-8");
            // If the scraped page indicates the bill was not found, return a "not found" bill text reference
            if (billNotFound(document)) {
                return new BillTextReference(baseBillId, referenceDateTime, FileUtils.readFileToString(file), "", true);
            }
            try {
                // Get the active amendment id, full text and memo
                BillId billId = getBillId(document, baseBillId.getSession());
                String text = getText(document, baseBillId);
                String memo = getMemo(document, baseBillId);
                return new BillTextReference(billId, referenceDateTime, text, memo, false);
            } catch (ParseError ex) {
//                throw new ParseError("Error while parsing scraped bill: " + file.getName(), ex);
                return new BillTextReference(baseBillId, referenceDateTime, "", "", true);
            }
        }
        throw new ParseError("Could not parse scraped bill filename: " + file.getName());
    }

    /** --- Internal Methods --- */

    /**
     * Parses the amendment bill id from one of the first header lines
     */
    private BillId getBillId(Document document, SessionYear sessionYear) throws ParseError {
        Element printNoEle = document.select("span.nv_bot_info > strong").first();
        if (printNoEle != null) {
            Matcher printNoMatcher = billIdPattern.matcher(printNoEle.text());
            if (printNoMatcher.matches()) {
                String basePrintNo = printNoMatcher.group(1);
                String version = printNoMatcher.group(2);
                return new BillId(basePrintNo + (version != null ? version : ""), sessionYear);
            }
            throw new ParseError("could not parse scraped bill print no: " + printNoEle.text());
        }
        throw new ParseError("could not get scraped bill print no:");
    }

    /**
     * Parses the full bill text and formats it to account for standard differences between LRS and sobi data
     */
    private String getText(Document document, BaseBillId baseBillId) throws ParseError {
        Element contents = document.getElementById("nv_bot_contents");
        if (contents == null) {
            throw new ParseError("Could not locate scraped bill contents");
        }
        Elements textEles = new Elements();

        // Bill text is found in all pre tags contained in <div id="nv_bot_contents"> before the first <hr class="noprint">
        for (Element element : contents.children()) {
            if ("pre".equalsIgnoreCase(element.tagName())) {
                textEles.add(element);
            } else if ("hr".equalsIgnoreCase(element.tagName()) && element.classNames().contains("noprint")) {
                break;
            }
        }

        StringBuilder textBuilder = new StringBuilder();

        textEles.forEach(ele -> processTextNode(ele, textBuilder));

        return formatBillText(textBuilder.toString(), baseBillId);
    }

    /**
     * Alters the raw bill text to match the standard formatting of sobi bill text
     */
    private String formatBillText(String billText, BaseBillId billId) {
        billText = billText.replaceAll("[\r\\uFEFF-\\uFFFF]|(?<=\n) ", "");
        billText = billText.replaceAll("§", "S");
        if (billId.getBillType().isResolution()) {
            billText = billText.replaceFirst("^\n\n[\\w \\.-]+\n\n[\\w '\\.\\-:]+\n", "");
            billText = billText.replaceFirst("^\\s+PROVIDING", String.format("\n%s RESOLUTION providing", billId.getChamber()));
            Matcher resoStartMatcher = resolutionStartPattern.matcher(billText);
            if (resoStartMatcher.find()) {
                billText = billText.replaceFirst(resolutionStartPattern.pattern(),
                        "\nLEGISLATIVE RESOLUTION " + resoStartMatcher.group(1).toLowerCase());
            }
        } else {
            billText = billText.replaceFirst("^\n\n[ ]{12}STATE OF NEW YORK(?=\n)",
                    "\n                           S T A T E   O F   N E W   Y O R K");
            billText = billText.replaceFirst("(?<=\\n)[ ]{16}IN SENATE(?=\\n)",
                    "                                   I N  S E N A T E");
            billText = billText.replaceFirst("(?<=\\n)[ ]{15}IN ASSEMBLY(?=\\n)",
                    "                                 I N  A S S E M B L Y");
            billText = billText.replaceFirst("(?<=\\n)[ ]{12}SENATE - ASSEMBLY(?=\\n)",
                    "                             S E N A T E - A S S E M B L Y");
        }
        return billText;
    }

    /**
     * Parses and returns the sponsor memo
     */
    private String getMemo(Document document, BaseBillId baseBillId) {
        Element memoEle = document.select("pre:last-of-type").first(); // you are the first and last of your kind
        // Do not get memo if bill is a resolution
        if (!baseBillId.getBillType().isResolution() && memoEle != null) {
            StringBuilder memoBuilder = new StringBuilder();
            processTextNode(memoEle, memoBuilder);
            // todo format text
            return memoBuilder.toString();
        }
        return "";
    }

    /**
     * Extracts bill/memo text from an element recursively
     */
    private void processTextNode(Element ele, StringBuilder stringBuilder) {
        for (Node t : ele.childNodes()) {
            if (t instanceof Element) {
                Element e = (Element) t;
                // TEXT IN <U> TAGS IS REPRESENTED IN CAPS FOR SOBI BILL TEXT
                if ("u".equals(e.tag().getName())) {
                    stringBuilder.append(e.text().toUpperCase());
                } else {
                    processTextNode(e, stringBuilder);
                }
            } else if (t instanceof TextNode) {
                stringBuilder.append(((TextNode) t).getWholeText());
            }
        }
    }

    /**
     * Returns true if a "Bill Status Information Not Found" tag is located in the document indicating that
     * the bill is not on LRS
     */
    private boolean billNotFound(Document document) {
        Element botContents = document.getElementById("nv_bot_contents");
        if (botContents == null) return true;
        Elements redFonts = botContents.select("font[color=\"red\"]");
        Element notFoundText = redFonts.first();
        return notFoundText != null && "Bill Status Information Not Found".equals(notFoundText.text());
    }
}