OpenNlpExtractor.java example

Explorer

manifold-master
- manifoldcf-trunk
  - connectors
    - activedirectory
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        activedirectory
        ActiveDirectoryAuthority.java
        ActiveDirectoryConfig.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        activedirectory
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - alfresco
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        alfresco
        AlfrescoConfig.java
        AlfrescoRepositoryConnector.java
        Constants.java
        ContentModelUtils.java
        ContentReader.java
        Messages.java
        NodeUtils.java
        PropertiesUtils.java
        SearchUtils.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        alfresco
        tests
        APISanityHSQLDBIT.java
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
        SanityHSQLDBTest.java
        SanityPostgresqlTest.java
    - alfresco-webscript
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        alfrescowebscript
        AlfrescoAuthorityConnector.java
        ConfigurationHandler.java
        Messages.java
        crawler
        connectors
        alfrescowebscript
        AlfrescoConnector.java
        ConfigurationHandler.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        alfrescowebscript
        AlfrescoAuthorityConnectorTest.java
        crawler
        connectors
        alfrescowebscript
        AlfrescoConnectorTest.java
        tests
        APISanityHSQLDBIT.java
        BaseITHSQLDB.java
        BaseUIHSQLDB.java
        CMISUtils.java
        NavigationHSQLDBUI.java
    - amazoncloudsearch
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        amazoncloudsearch
        AmazonCloudSearchConfig.java
        AmazonCloudSearchConnector.java
        DocumentChunkManager.java
        DocumentRecord.java
        Messages.java
    - amazons3
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        amazons3
        S3Artifact.java
        XThreadBuffer.java
        authorities
        authorities
        amazons3
        AmazonS3Authority.java
        AmazonS3Config.java
        Messages.java
        ResponseException.java
        crawler
        connectors
        amazons3
        AmazonS3Config.java
        AmazonS3Connector.java
        AmazonS3DocumentProcessUtility.java
        DocumentProcess.java
        GenericDocumentProcess.java
        Messages.java
        ResponseException.java
    - cmis
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        cmis
        CmisAuthorityConnector.java
        Messages.java
        crawler
        connectors
        cmis
        CmisConfig.java
        CmisRepositoryConnector.java
        CmisRepositoryConnectorUtils.java
        ColumnSet.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        cmis
        tests
        APISanityHSQLDBIT.java
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        CMISServer.java
        CheckObjectIDTest.java
        NavigationHSQLDBUI.java
        SanityHSQLDBTest.java
        SanityPostgresqlTest.java
    - confluence
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        confluence
        ConfluenceAuthorityConnector.java
        Messages.java
        crawler
        connectors
        confluence
        ConfluenceConfiguration.java
        ConfluenceRepositoryConnector.java
        Messages.java
        client
        ConfluenceClient.java
        exception
        ConfluenceException.java
        PageNotFoundException.java
        model
        Attachment.java
        ConfluenceResource.java
        ConfluenceResponse.java
        ConfluenceUser.java
        Label.java
        MutableAttachment.java
        MutablePage.java
        Page.java
        PageType.java
        Space.java
        Spaces.java
        builder
        ConfluenceResourceBuilder.java
        util
        ConfluenceUtil.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        confluence
        tests
        ConfluenceAuthorityTest.java
        crawler
        connectors
        confluence
        tests
        ConfluenceConnectorTest.java
    - contentlimiter
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        contentlimiter
        ContentLimiter.java
        ContentLimiterConfig.java
        Messages.java
    - documentfilter
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        documentfilter
        DocumentFilter.java
        DocumentFilterConfig.java
        Messages.java
    - documentum
      - build-stub
        src
        main
        java
        com
        documentum
        com
        DfClientX.java
        IDfClientX.java
        fc
        client
        DfAuthenticationException.java
        DfDocbaseUnreachableException.java
        DfIOException.java
        DfIdentityException.java
        DfQuery.java
        DfServiceException.java
        IDfClient.java
        IDfCollection.java
        IDfFolder.java
        IDfPersistentObject.java
        IDfQuery.java
        IDfSession.java
        IDfSessionManager.java
        IDfSysObject.java
        IDfType.java
        IDfTypedObject.java
        IDfUser.java
        IDfVersionPolicy.java
        common
        DfException.java
        DfObject.java
        DfTime.java
        IDfId.java
        IDfLoginInfo.java
        IDfTime.java
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        DCTM
        AuthorityConnector.java
        Messages.java
        crawler
        connectors
        DCTM
        DCTM.java
        MatchMap.java
        Messages.java
      - implementation
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        common
        DCTM
        DocumentumFactoryImpl.java
        DocumentumImpl.java
        DocumentumObjectImpl.java
        DocumentumResultImpl.java
      - interface
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        common
        DCTM
        DocumentumException.java
        IDocumentum.java
        IDocumentumFactory.java
        IDocumentumObject.java
        IDocumentumResult.java
        LocalClientSocket.java
        RMILocalClientSocketFactory.java
        RMILocalSocketFactory.java
      - registry
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        registry
        DCTM
        DCTM.java
      - server
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        server
        DCTM
        DCTM.java
    - dropbox
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        dropbox
        DropboxConfig.java
        DropboxRepositoryConnector.java
        DropboxSession.java
        Messages.java
    - elasticsearch
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        elasticsearch
        ElasticSearchAction.java
        ElasticSearchConfig.java
        ElasticSearchConnection.java
        ElasticSearchConnector.java
        ElasticSearchDelete.java
        ElasticSearchIndex.java
        ElasticSearchParam.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        elasticsearch
        tests
        APISanityHSQLDBIT.java
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - email
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        email
        EmailConfig.java
        EmailConnector.java
        EmailSession.java
        Messages.java
        notifications
        email
        EmailConfig.java
        EmailConnector.java
        EmailSession.java
        Messages.java
    - filenet
      - build-stub
        src
        main
        java
        com
        filenet
        api
        admin
        ClassDefinition.java
        DocumentClassDefinition.java
        SubscribableClassDefinition.java
        VersionableClassDefinition.java
        collection
        AccessPermissionList.java
        ClassDefinitionSet.java
        ContainableSet.java
        ContentElementList.java
        DependentObjectList.java
        EngineCollection.java
        EngineSet.java
        FolderSet.java
        IndependentObjectSet.java
        PropertyDescriptionList.java
        RepositoryRowSet.java
        SubscribableSet.java
        constants
        AccessLevel.java
        AccessType.java
        FilteredPropertyType.java
        SecurityPrincipalType.java
        core
        Connection.java
        Containable.java
        ContentElement.java
        ContentTransfer.java
        DependentObject.java
        Document.java
        Domain.java
        EngineObject.java
        Factory.java
        Folder.java
        IndependentObject.java
        IndependentlyPersistableObject.java
        InstantiatingScope.java
        ObjectStore.java
        RepositoryObject.java
        Scope.java
        Subscribable.java
        Versionable.java
        exception
        EngineRuntimeException.java
        ExceptionCode.java
        meta
        ClassDescription.java
        Metadata.java
        PropertyDescription.java
        property
        Properties.java
        Property.java
        PropertyFilter.java
        query
        RepositoryRow.java
        SearchSQL.java
        SearchScope.java
        security
        AccessPermission.java
        DiscretionaryPermission.java
        Group.java
        Permission.java
        SecurityPrincipal.java
        User.java
        util
        ConfigurationParameters.java
        Id.java
        UserContext.java
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        filenet
        DocClassSpec.java
        FilenetConnector.java
        Messages.java
      - implementation
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        common
        filenet
        FilenetFactoryImpl.java
        FilenetImpl.java
      - interface
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        common
        filenet
        DocumentClassDefinition.java
        FileInfo.java
        FileSeedInfo.java
        FilenetException.java
        IFilenet.java
        IFilenetFactory.java
        LocalClientSocket.java
        MetadataFieldDefinition.java
        NameDescription.java
        RMILocalClientSocketFactory.java
        RMILocalSocketFactory.java
      - registry
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        registry
        filenet
        Filenet.java
      - server
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        server
        filenet
        Filenet.java
    - filesystem
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        filesystem
        FileOutputConfig.java
        FileOutputConnector.java
        FileOutputConstant.java
        FileOutputParam.java
        Messages.java
        ParameterEnum.java
        crawler
        connectors
        filesystem
        FileConnector.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        filesystem
        BaseHSQLDB.java
        BaseMySQL.java
        BasePostgresql.java
        SanityHSQLDBTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
        crawler
        connectors
        filesystem
        tests
        APISanityCombinedHSQLDBIT.java
        APISanityHSQLDBIT.java
        APISanityMySQLIT.java
        APISanityPostgresqlIT.java
        APISanityTester.java
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BaseITMySQL.java
        BaseITPostgresql.java
        BaseMySQL.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        BigCrawlHSQLDBLT.java
        BigCrawlMySQLLT.java
        BigCrawlPostgresqlLT.java
        BigCrawlTester.java
        ExpirationHSQLDBIT.java
        ExpirationMySQLIT.java
        ExpirationPostgresqlIT.java
        ExpirationTester.java
        FileHelper.java
        HopcountHSQLDBIT.java
        HopcountMySQLIT.java
        HopcountPostgresqlIT.java
        HopcountTester.java
        NavigationCombinedHSQLDBUI.java
        NavigationHSQLDBUI.java
        NavigationUITester.java
        SanityHSQLDBIT.java
        SanityHSQLDBTest.java
        SanityMySQLIT.java
        SanityMySQLTest.java
        SanityPostgresqlIT.java
        SanityPostgresqlTest.java
        SanityTester.java
    - forcedmetadata
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        forcedmetadata
        FieldDataFactory.java
        FieldSource.java
        ForcedMetadataConnector.java
        IDataSource.java
        Messages.java
        StringSource.java
        test
        java
        org
        apache
        manifoldcf
        agents
        transformation
        forcedmetadata
        ExpressionTest.java
    - generic
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        generic
        GenericAuthority.java
        Messages.java
        crawler
        connectors
        generic
        GenericConnector.java
        Messages.java
        api
        Auth.java
        BooleanAdapter.java
        DateAdapter.java
        Item.java
        Items.java
        Meta.java
        Seed.java
        Seeds.java
    - googledrive
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        googledrive
        GoogleDriveConfig.java
        GoogleDriveRepositoryConnector.java
        GoogleDriveSession.java
        Messages.java
    - gridfs
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        gridfs
        GridFSConstants.java
        GridFSRepositoryConnector.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        gridfs
        tests
        BaseHSQLDB.java
        BaseMySQL.java
        BasePostgresql.java
        SanityHSQLDBTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
    - gts
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        gts
        GTSConfig.java
        GTSConnector.java
        HttpPoster.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        gts
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - hdfs
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        hdfs
        HDFSOutputConfig.java
        HDFSOutputConnector.java
        HDFSOutputParam.java
        HDFSSession.java
        Messages.java
        ParameterEnum.java
        crawler
        connectors
        hdfs
        HDFSRepositoryConnector.java
        HDFSSession.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        hdfs
        BaseHSQLDB.java
        BaseMySQL.java
        BasePostgresql.java
        SanityHSQLDBTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
        crawler
        connectors
        hdfs
        tests
        BaseHSQLDB.java
        BaseMySQL.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
        NavigationUITester.java
        SanityHSQLDBTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
    - jcifs
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        sharedrive
        GetConnectionInfo.java
        MatchMap.java
        Messages.java
        SharedDriveConnector.java
        SharedDriveHelpers.java
        SharedDriveParameters.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        sharedrive
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - jdbc
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        jdbc
        JDBCAuthority.java
        Messages.java
        crawler
        connectors
        jdbc
        JDBCConnector.java
        Messages.java
        jdbc
        IDynamicResultRow.java
        IDynamicResultSet.java
        JDBCConnection.java
        JDBCConnectionFactory.java
        JDBCConstants.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        jdbc
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - jira
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        jira
        JiraAuthorityConnector.java
        JiraConfig.java
        JiraJSONResponse.java
        JiraSession.java
        JiraUserQueryResults.java
        Messages.java
        ResponseException.java
        crawler
        connectors
        jira
        JiraConfig.java
        JiraIssue.java
        JiraJSONResponse.java
        JiraQueryResults.java
        JiraRepositoryConnector.java
        JiraServerInfo.java
        JiraSession.java
        JiraUserQueryResults.java
        Messages.java
        ResponseException.java
    - kafka
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        kafka
        KafkaConfig.java
        KafkaMessage.java
        KafkaOutputConnector.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        kafka
        APISanityHSQLDBIT.java
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        KafkaConnectorTest.java
        KafkaLocal.java
        NavigationHSQLDBUI.java
        ZooKeeperLocal.java
    - ldap
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        ldap
        LDAPAuthority.java
        LDAPProtocolEnum.java
        Messages.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        ldap
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - livelink
      - build-stub
        src
        main
        java
        com
        opentext
        api
        LAPI_ATTRIBUTES.java
        LAPI_DOCUMENTS.java
        LAPI_USERS.java
        LLBadServerCertificateException.java
        LLConnect.java
        LLCouldNotConnectHTTPException.java
        LLHTTPAccessDeniedException.java
        LLHTTPCGINotFoundException.java
        LLHTTPClientException.java
        LLHTTPForbiddenException.java
        LLHTTPProxyAuthRequiredException.java
        LLHTTPRedirectionException.java
        LLHTTPServerException.java
        LLIOException.java
        LLIllegalOperationException.java
        LLIndexOutOfBoundsException.java
        LLNoFieldSpecifiedException.java
        LLNoValueSpecifiedException.java
        LLSSLNotAvailableException.java
        LLSecurityProviderException.java
        LLSession.java
        LLUnknownFieldException.java
        LLUnsupportedAuthMethodException.java
        LLValue.java
        LLValueEnumeration.java
        LLWebAuthInitException.java
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        livelink
        LivelinkAuthority.java
        Messages.java
        crawler
        connectors
        livelink
        GetConnectionInfo.java
        LivelinkConnector.java
        MatchMap.java
        Messages.java
        livelink
        LLSERVER.java
        LiveLinkParameters.java
    - meridio
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        meridio
        MeridioAuthority.java
        Messages.java
        crawler
        connectors
        meridio
        MatchMap.java
        MeridioClassContents.java
        MeridioConnector.java
        Messages.java
        meridio
        DMSearchResults.java
        MeridioDataSetException.java
        MeridioWrapper.java
        MeridioWrapperException.java
    - nullauthority
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        nullauthority
        Messages.java
        NullAuthority.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        nullauthority
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - nulloutput
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        nullconnector
        Messages.java
        NullConnector.java
    - nulltransformation
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        nullconnector
        NullConnector.java
    - nuxeo
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        nuxeo
        Messages.java
        NuxeoAuthorityConnector.java
        crawler
        connectors
        nuxeo
        Messages.java
        NuxeoConfiguration.java
        NuxeoRepositoryConnector.java
        exception
        NuxeoException.java
        model
        Attachment.java
        DocumentManifold.java
        test
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        nuxeo
        NuxeoAuthorityTest.java
        crawler
        connectors
        nuxeo
        NuxeoConnectorTest.java
    - opennlp
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        opennlp
        Messages.java
        OpenNlpExtractor.java
        OpenNlpExtractorConfig.java
    - opensearchserver
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        opensearchserver
        Messages.java
        OpenSearchServerAction.java
        OpenSearchServerConfig.java
        OpenSearchServerConnection.java
        OpenSearchServerConnector.java
        OpenSearchServerDelete.java
        OpenSearchServerIndex.java
        OpenSearchServerParam.java
        OpenSearchServerScheduler.java
        OpenSearchServerSchema.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        opensearchserver
        tests
        BaseUIHSQLDB.java
        NavigationHSQLDBUI.java
    - regexpmapper
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        mappers
        regexp
        MatchMap.java
        Messages.java
        RegexpMapper.java
        RegexpParameters.java
    - rss
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        rss
        DataCache.java
        GetSeedList.java
        IThrottledConnection.java
        Messages.java
        RSSConfig.java
        RSSConnector.java
        Robots.java
        SetSeedList.java
        ThrottledFetcher.java
        WebURL.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        rss
        tests
        BaseITHSQLDB.java
        BaseITMySQL.java
        BaseITPostgresql.java
        BaseUIHSQLDB.java
        BigCrawlHSQLDBLT.java
        BigCrawlMySQLLT.java
        BigCrawlPostgresqlLT.java
        BigCrawlTester.java
        FlakyHSQLDBInstance.java
        MockRSSService.java
        NavigationHSQLDBUI.java
        RSSFlakyHSQLDBIT.java
        RSSSimpleCrawlCombinedHSQLDBIT.java
        RSSSimpleCrawlHSQLDBIT.java
        RSSSimpleCrawlMySQLIT.java
        RSSSimpleCrawlPostgresqlIT.java
        RSSSimpleCrawlTester.java
        URLTest.java
    - searchblox
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        searchblox
        Messages.java
        SearchBloxClient.java
        SearchBloxConfig.java
        SearchBloxConnector.java
        SearchBloxDocument.java
        SearchBloxException.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        searchblox
        SearchBloxDocumentTest.java
    - sharepoint
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        authorities
        authorities
        sharepoint
        Messages.java
        SPSProxyHelper.java
        SharePointADAuthority.java
        SharePointAuthority.java
        SharePointConfig.java
        crawler
        connectors
        sharepoint
        IFileStream.java
        MatchMap.java
        Messages.java
        NameValue.java
        SPSProxyHelper.java
        SharePointConfig.java
        SharePointRepository.java
        VersionsHeader.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        sharepoint
        XMLGenTest.java
    - slack
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        notifications
        slack
        Messages.java
        SlackConfig.java
        SlackConnector.java
        SlackMessage.java
        SlackSession.java
    - solr
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        output
        solr
        HttpPoster.java
        Messages.java
        ModifiedHttpMultipart.java
        ModifiedHttpSolrClient.java
        ModifiedLBHttpSolrClient.java
        ModifiedMultipartEntity.java
        SolrConfig.java
        SolrConnector.java
        test
        java
        org
        apache
        manifoldcf
        agents
        output
        solr
        tests
        BaseITHSQLDB.java
        BaseUIHSQLDB.java
        MockSolrService.java
        NavigationHSQLDBUI.java
        SolrCrawlHSQLDBIT.java
        SolrTester.java
    - tika
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        tika
        Messages.java
        TikaConfig.java
        TikaExtractor.java
        TikaParser.java
        test
        java
        org
        apache
        manifoldcf
        agents
        transformation
        tika
        tests
        TikaParserTest.java
    - tikaservice
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        agents
        transformation
        tikaservice
        Messages.java
        TikaConfig.java
        TikaExtractor.java
    - webcrawler
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        webcrawler
        AbortChecker.java
        AuthenticationCredentials.java
        CookieManager.java
        CookieSet.java
        CredentialsDescription.java
        DNSManager.java
        DataCache.java
        FindContentHandler.java
        FindHTMLFormHandler.java
        FindHTMLHrefHandler.java
        FindHandler.java
        FindPreferredRedirectionHandler.java
        FindRedirectionHandler.java
        FormData.java
        FormDataAccumulator.java
        FormDataElement.java
        FormItem.java
        FormParseState.java
        IDiscoveredLinkHandler.java
        IHTMLHandler.java
        IMetaTagHandler.java
        IRedirectionHandler.java
        IThrottledConnection.java
        IXMLHandler.java
        LinkParseState.java
        LoginCookies.java
        LoginParameters.java
        Messages.java
        MetaParseState.java
        PageCredentials.java
        RobotsManager.java
        ScriptParseState.java
        SequenceCredentials.java
        ThrottleDescription.java
        ThrottledFetcher.java
        TrustsDescription.java
        WebURL.java
        WebcrawlerConfig.java
        WebcrawlerConnector.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        webcrawler
        ProcessActivityHTMLHandlerTest.java
        RobotsTest.java
        URLTest.java
        tests
        BaseITHSQLDB.java
        BaseITMySQL.java
        BaseITPostgresql.java
        BaseUIHSQLDB.java
        BigCrawlMySQLLT.java
        BigCrawlPostgresqlIT.java
        BigCrawlTester.java
        DocumentContentExclusionHSQLDBIT.java
        MockSessionWebService.java
        MockWebService.java
        NavigationHSQLDBUI.java
        SessionLoginHSQLDBIT.java
        SessionTester.java
        ThrottlingHSQLDBLT.java
        ThrottlingPostgresqlLT.java
        ThrottlingTester.java
    - wiki
      - connector
        src
        main
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        wiki
        BaseProcessingContext.java
        Messages.java
        SingleLevelContext.java
        SingleLevelErrorContext.java
        WikiConfig.java
        WikiConnector.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        connectors
        wiki
        tests
        BaseHSQLDB.java
        BaseITHSQLDB.java
        BaseMySQL.java
        BasePostgresql.java
        BaseUIHSQLDB.java
        MockWikiService.java
        NavigationHSQLDBUI.java
        SanityHSQLDBIT.java
        SanityHSQLDBTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
  - framework
    - agents
      - src
        main
        java
        org
        apache
        manifoldcf
        agents
        AgentRun.java
        AgentStop.java
        BaseAgentsInitializationCommand.java
        DefineOutputConnection.java
        DefineTransformationConnection.java
        DeleteOutputConnection.java
        DeleteTransformationConnection.java
        Install.java
        Register.java
        RegisterOutput.java
        RegisterTransformation.java
        SynchronizeAll.java
        SynchronizeOutputs.java
        SynchronizeTransformations.java
        TransactionalAgentsInitializationCommand.java
        UnRegister.java
        UnRegisterAll.java
        UnRegisterAllOutputs.java
        UnRegisterAllTransformations.java
        UnRegisterOutput.java
        UnRegisterTransformation.java
        Uninstall.java
        agentmanager
        AgentManager.java
        common
        XMLContext.java
        XMLFileContext.java
        XMLOutputStreamContext.java
        XMLStream.java
        XMLStringContext.java
        XMLWriterContext.java
        incrementalingest
        IncrementalIngester.java
        RepositoryDocumentFactory.java
        interfaces
        AgentFactory.java
        AgentManagerFactory.java
        CacheKeyFactory.java
        DocumentIngestStatus.java
        DocumentIngestStatusSet.java
        IAgent.java
        IAgentManager.java
        IIncrementalIngester.java
        IIngestLogger.java
        IOutputActivity.java
        IOutputAddActivity.java
        IOutputCheckActivity.java
        IOutputConnection.java
        IOutputConnectionManager.java
        IOutputConnector.java
        IOutputConnectorManager.java
        IOutputConnectorPool.java
        IOutputHistoryActivity.java
        IOutputNotifyActivity.java
        IOutputQualifyActivity.java
        IOutputRemoveActivity.java
        IPipelineConnections.java
        IPipelineConnector.java
        IPipelineSpecification.java
        IPipelineSpecificationBasic.java
        IPipelineSpecificationWithVersions.java
        ITransformationCheckActivity.java
        ITransformationConnection.java
        ITransformationConnectionManager.java
        ITransformationConnector.java
        ITransformationConnectorManager.java
        ITransformationConnectorPool.java
        IncrementalIngesterFactory.java
        IngestStatuses.java
        OutputConnectionManagerFactory.java
        OutputConnectorFactory.java
        OutputConnectorManagerFactory.java
        OutputConnectorPoolFactory.java
        RepositoryDocument.java
        ServiceInterruption.java
        TransformationConnectionManagerFactory.java
        TransformationConnectorFactory.java
        TransformationConnectorManagerFactory.java
        TransformationConnectorPoolFactory.java
        output
        BaseOutputConnector.java
        outputconnection
        OutputConnection.java
        OutputConnectionManager.java
        outputconnectorpool
        OutputConnectorPool.java
        outputconnmgr
        OutputConnectorManager.java
        system
        AgentsDaemon.java
        IdleCleanupThread.java
        Logging.java
        ManifoldCF.java
        transformation
        BaseTransformationConnector.java
        transformationconnection
        TransformationConnection.java
        TransformationConnectionManager.java
        transformationconnectorpool
        TransformationConnectorPool.java
        transformationconnmgr
        TransformationConnectorManager.java
        test
        java
        org
        apache
        manifoldcf
        agents
        tests
        BaseHSQLDB.java
        BaseHSQLDBext.java
        BaseMySQL.java
        BasePostgresql.java
        SanityHSQLDBTest.java
        SanityHSQLDBextTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
        TestingOutputConnector.java
    - api-service
      - src
        main
        java
        org
        apache
        manifoldcf
        apiservice
        IdleCleanupThread.java
        ServletListener.java
    - api-servlet
      - src
        main
        java
        org
        apache
        manifoldcf
        apiservlet
        APIServlet.java
    - authority-service
      - src
        main
        java
        org
        apache
        manifoldcf
        authorityservice
        ServletListener.java
    - authority-servlet
      - src
        main
        java
        org
        apache
        manifoldcf
        authorityservlet
        UserACLServlet.java
    - combined-service
      - src
        main
        java
        org
        apache
        manifoldcf
        combinedservice
        IdleCleanupThread.java
        ServletListener.java
    - connector-common
      - src
        main
        java
        org
        apache
        http
        impl
        cookie
        LaxBrowserCompatSpec.java
        manifoldcf
        connectorcommon
        common
        CommonsHTTPSender.java
        DeflateInputStream.java
        InterruptibleSocketFactory.java
        XThreadInputStream.java
        XThreadOutputStream.java
        XThreadStringBuffer.java
        extmimemap
        ExtensionMimeMap.java
        fuzzyml
        AttrNameValue.java
        BOMEncodingDetector.java
        ByteBuffer.java
        ByteReceiver.java
        CharacterBuffer.java
        CharacterReceiver.java
        DecodingByteReceiver.java
        EncodingDetector.java
        HTMLParseState.java
        Parser.java
        PrefixedInputStream.java
        PrefixedReader.java
        ReplayableInputStream.java
        SingleByteReceiver.java
        SingleCharacterReceiver.java
        TagParseState.java
        XMLEncodingDetector.java
        XMLFileParsingContext.java
        XMLFuzzyHierarchicalParseState.java
        XMLFuzzyParseState.java
        XMLOutputStreamParsingContext.java
        XMLParseState.java
        XMLParsingContext.java
        XMLStringParsingContext.java
        XMLWriterParsingContext.java
        interfaces
        BreakException.java
        IBreakCheck.java
        IConnectionThrottler.java
        IFetchThrottler.java
        IKeystoreManager.java
        IStreamThrottler.java
        IThrottleGroups.java
        IThrottleSpec.java
        KeystoreManagerFactory.java
        ThrottleGroupsFactory.java
        jsongen
        JSONArrayReader.java
        JSONDoubleReader.java
        JSONIntegerReader.java
        JSONNameValueReader.java
        JSONObjectReader.java
        JSONReader.java
        JSONStringReader.java
        JSONValueReader.java
        keystore
        KeystoreManager.java
        TrustingSSLSocketFactoryProducer.java
        system
        ManifoldCF.java
        throttler
        ConnectionBin.java
        FetchBin.java
        ThrottleBin.java
        ThrottleGroups.java
        Throttler.java
        test
        java
        org
        apache
        manifoldcf
        connectorcommon
        fuzzyml
        TestFuzzyML.java
        jsongen
        TestJsonGen.java
        throttler
        TestThrottler.java
    - core
      - src
        main
        java
        org
        apache
        manifoldcf
        core
        DBCreate.java
        DBDrop.java
        DBInitializationCommand.java
        InitializationCommand.java
        LockClean.java
        Obfuscate.java
        auth
        DefaultAuthenticator.java
        LdapAuthenticator.java
        cachemanager
        BaseDescription.java
        CacheManager.java
        ExecutorBase.java
        GeneralCache.java
        common
        Base64.java
        DateParser.java
        LDAPSSLSocketFactory.java
        XMLDoc.java
        connector
        BaseConnector.java
        connectorpool
        ConnectorPool.java
        database
        BaseObject.java
        BaseTable.java
        ConnectionFactory.java
        DBInterfaceHSQLDB.java
        DBInterfaceMariaDB.java
        DBInterfaceMySQL.java
        DBInterfacePostgreSQL.java
        Database.java
        MergedResultSet.java
        QueryDescription.java
        RRow.java
        RSet.java
        TransactionHandle.java
        i18n
        MCFVelocityResourceLoader.java
        Messages.java
        interfaces
        AuthFactory.java
        BinaryInput.java
        CacheKeyFactory.java
        CacheManagerFactory.java
        CharacterInput.java
        ClauseDescription.java
        ColumnDescription.java
        ConfigNode.java
        ConfigParams.java
        Configuration.java
        ConfigurationNode.java
        ConnectorFactory.java
        DBInterfaceFactory.java
        IAuth.java
        IAuthorizer.java
        ICacheClass.java
        ICacheCreateHandle.java
        ICacheDescription.java
        ICacheExecutor.java
        ICacheHandle.java
        ICacheManager.java
        IConnector.java
        IDBInterface.java
        IDFactory.java
        IHTTPOutput.java
        IHTTPOutputActivity.java
        IHierarchyParent.java
        ILimitChecker.java
        ILockManager.java
        IParameterActivity.java
        IPasswordMapperActivity.java
        IPollingHook.java
        IPostParameters.java
        IResultRow.java
        IResultSet.java
        ISSLSocketFactoryProducer.java
        IServiceCleanup.java
        IServiceDataAcceptor.java
        IShutdownHook.java
        IThreadContext.java
        IndexDescription.java
        JoinClause.java
        LockException.java
        LockManagerFactory.java
        ManifoldCFConfiguration.java
        ManifoldCFException.java
        MultiClause.java
        NullCharacterInput.java
        NullCheckClause.java
        PersistentDatabaseObject.java
        ResultSpecification.java
        Specification.java
        SpecificationNode.java
        StringSet.java
        StringSetBuffer.java
        TempFileCharacterInput.java
        TempFileInput.java
        ThreadContextFactory.java
        TimeMarker.java
        UTF8Stderr.java
        UTF8Stdout.java
        UnitaryClause.java
        VersionContext.java
        jdbcpool
        ConnectionPool.java
        ConnectionPoolManager.java
        WrappedConnection.java
        lockmanager
        BaseLockManager.java
        ExpiredObjectException.java
        FileLockManager.java
        FileLockObject.java
        FileLockObjectFactory.java
        LocalLock.java
        LocalLockException.java
        LocalLockPool.java
        LockGate.java
        LockManager.java
        LockObject.java
        LockObjectFactory.java
        LockPool.java
        ZooKeeperConnection.java
        ZooKeeperConnectionPool.java
        ZooKeeperEphemeralNodeObject.java
        ZooKeeperEphemeralNodePool.java
        ZooKeeperLockManager.java
        ZooKeeperLockObject.java
        ZooKeeperLockObjectFactory.java
        system
        Logging.java
        ManifoldCF.java
        ManifoldCFResourceLoader.java
        threadcontext
        ThreadContext.java
        util
        Converter.java
        URLDecoder.java
        URLEncoder.java
        test
        java
        org
        apache
        manifoldcf
        core
        common
        DateTest.java
        interfaces
        ConfigurationTest.java
        lockmanager
        TestZooKeeperLocks.java
        ZooKeeperBase.java
        ZooKeeperInstance.java
        tests
        Base.java
        BaseDatabase.java
        BaseHSQLDB.java
        BaseHSQLDBext.java
        BaseMySQL.java
        BasePostgresql.java
        HTMLTester.java
        SeleniumTester.java
        UILockSpinner.java
    - crawler-ui
      - src
        main
        java
        org
        apache
        manifoldcf
        crawlerui
        IdleCleanupThread.java
        ServletListener.java
    - jetty-runner
      - src
        main
        java
        org
        apache
        manifoldcf
        jettyrunner
        ManifoldCFCombinedJettyRunner.java
        ManifoldCFJettyRunner.java
        ManifoldCFJettyShutdown.java
    - less-compiler
      - src
        main
        java
        org
        apache
        manifoldcf
        less
        MCFLessCompiler.java
    - pull-agent
      - src
        main
        java
        org
        apache
        manifoldcf
        authorities
        BaseAuthoritiesInitializationCommand.java
        BaseDomainsInitializationCommand.java
        BaseMappersInitializationCommand.java
        ChangeAuthSpec.java
        CheckAll.java
        CheckConfigured.java
        DefineAuthorityConnection.java
        DefineMappingConnection.java
        DeleteAuthorityConnection.java
        DeleteMappingConnection.java
        RegisterAuthority.java
        RegisterDomain.java
        RegisterMapper.java
        SynchronizeAuthorities.java
        SynchronizeMappers.java
        UnRegisterAllAuthorities.java
        UnRegisterAllMappers.java
        UnRegisterAuthority.java
        UnRegisterDomain.java
        UnRegisterMapper.java
        authconnmgr
        AuthorityConnectorManager.java
        authdomains
        AuthorizationDomainManager.java
        authgroups
        AuthorityGroup.java
        AuthorityGroupManager.java
        authorities
        BaseAuthorityConnector.java
        authority
        AuthorityConnection.java
        AuthorityConnectionManager.java
        authorityconnectorpool
        AuthorityConnectorPool.java
        interfaces
        AuthorityConnectionManagerFactory.java
        AuthorityConnectorFactory.java
        AuthorityConnectorManagerFactory.java
        AuthorityConnectorPoolFactory.java
        AuthorityGroupManagerFactory.java
        AuthorizationDomainManagerFactory.java
        AuthorizationResponse.java
        CacheKeyFactory.java
        IAuthorityConnection.java
        IAuthorityConnectionManager.java
        IAuthorityConnector.java
        IAuthorityConnectorManager.java
        IAuthorityConnectorPool.java
        IAuthorityGroup.java
        IAuthorityGroupManager.java
        IAuthorizationDomainManager.java
        IMappingConnection.java
        IMappingConnectionManager.java
        IMappingConnector.java
        IMappingConnectorManager.java
        IMappingConnectorPool.java
        MappingConnectionManagerFactory.java
        MappingConnectorFactory.java
        MappingConnectorManagerFactory.java
        MappingConnectorPoolFactory.java
        mapconnmgr
        MappingConnectorManager.java
        mappers
        BaseMappingConnector.java
        mapping
        MappingConnection.java
        MappingConnectionManager.java
        mappingconnectorpool
        MappingConnectorPool.java
        system
        AuthCheckThread.java
        AuthRequest.java
        IdleCleanupThread.java
        Logging.java
        ManifoldCF.java
        MappingRequest.java
        MappingThread.java
        RequestQueue.java
        crawler
        AbortJob.java
        AddScheduledTime.java
        BaseCrawlerInitializationCommand.java
        ChangeJobDocSpec.java
        CheckConfigured.java
        DefineJob.java
        DefineRepositoryConnection.java
        DeleteJob.java
        DeleteRepositoryConnection.java
        ExportConfiguration.java
        FindJob.java
        GetJobSchedule.java
        ImportConfiguration.java
        InitializeAndRegister.java
        ListJobStatuses.java
        ListJobs.java
        PauseJob.java
        Register.java
        RestartJob.java
        RunDocumentStatus.java
        RunMaxActivityHistory.java
        RunMaxBandwidthHistory.java
        RunQueueStatus.java
        RunResultHistory.java
        RunSimpleHistory.java
        StartJob.java
        SynchronizeConnectors.java
        TransactionalCrawlerInitializationCommand.java
        UnRegister.java
        UnRegisterAll.java
        WaitForJobDeleted.java
        WaitForJobInactive.java
        WaitJobPaused.java
        bins
        BinManager.java
        connectors
        BaseRepositoryConnector.java
        connmgr
        ConnectorManager.java
        interfaces
        BinManagerFactory.java
        BlockingDocuments.java
        BucketDescription.java
        CacheKeyFactory.java
        ConnectorManagerFactory.java
        Connectors.java
        DepthStatistics.java
        DocumentDescription.java
        DocumentSetAndFlags.java
        DocumentVersions.java
        EnumeratedValues.java
        FilterCriteria.java
        IAbortActivity.java
        IBinManager.java
        ICarrydownActivity.java
        IConnectorManager.java
        IEventActivity.java
        IExistingVersions.java
        IFingerprintActivity.java
        IHistoryActivity.java
        IJobDescription.java
        IJobManager.java
        INamingActivity.java
        INotificationConnection.java
        INotificationConnectionManager.java
        INotificationConnector.java
        INotificationConnectorManager.java
        INotificationConnectorPool.java
        IPriorityCalculator.java
        IProcessActivity.java
        IRepositoryConnection.java
        IRepositoryConnectionManager.java
        IRepositoryConnector.java
        IRepositoryConnectorPool.java
        IReprioritizationTracker.java
        ISeedingActivity.java
        JobDeleteRecord.java
        JobManagerFactory.java
        JobNotifyRecord.java
        JobRecord.java
        JobSeedingRecord.java
        JobStartRecord.java
        JobStatus.java
        NotificationConnectionManagerFactory.java
        NotificationConnectorFactory.java
        NotificationConnectorManagerFactory.java
        NotificationConnectorPoolFactory.java
        PerformanceStatistics.java
        QueueTracker.java
        RegExpCriteria.java
        RepositoryConnectionManagerFactory.java
        RepositoryConnectorFactory.java
        RepositoryConnectorPoolFactory.java
        ReprioritizationTrackerFactory.java
        ScheduleRecord.java
        SortOrder.java
        StatusFilterCriteria.java
        jobs
        Carrydown.java
        DeleteDependency.java
        EventManager.java
        HopCount.java
        HopDeleteDeps.java
        HopFilterManager.java
        IntrinsicLink.java
        JobDescription.java
        JobManager.java
        JobQueue.java
        Jobs.java
        NotificationManager.java
        PipelineManager.java
        PrereqEventManager.java
        ScheduleList.java
        ScheduleManager.java
        TrackerClass.java
        notification
        NotificationConnection.java
        NotificationConnectionManager.java
        notificationconnectorpool
        NotificationConnectorPool.java
        notificationconnmgr
        NotificationConnectorManager.java
        notifications
        BaseNotificationConnector.java
        repository
        RepositoryConnection.java
        RepositoryConnectionManager.java
        RepositoryHistoryManager.java
        ThrottleSpecManager.java
        repositoryconnectorpool
        RepositoryConnectorPool.java
        reprioritizationtracker
        ReprioritizationTracker.java
        system
        AssessmentThread.java
        CleanupQueuedDocument.java
        CrawlerAgent.java
        DeleteQueuedDocument.java
        DeleteStartupResetManager.java
        DocCleanupResetManager.java
        DocDeleteResetManager.java
        DocumentCleanupQueue.java
        DocumentCleanupSet.java
        DocumentCleanupStufferThread.java
        DocumentCleanupThread.java
        DocumentDeleteQueue.java
        DocumentDeleteSet.java
        DocumentDeleteStufferThread.java
        DocumentDeleteThread.java
        DocumentQueue.java
        ExpireStufferThread.java
        ExpireThread.java
        FinisherThread.java
        HistoryCleanupThread.java
        IdleCleanupThread.java
        JobDeleteThread.java
        JobNotificationThread.java
        JobResetThread.java
        JobStartThread.java
        Logging.java
        ManifoldCF.java
        NotificationResetManager.java
        PipelineConnections.java
        PipelineSpecification.java
        PipelineSpecificationBasic.java
        PipelineSpecificationWithVersions.java
        PriorityCalculator.java
        QueuedDocument.java
        QueuedDocumentSet.java
        ResetManager.java
        SeedingActivity.java
        SeedingResetManager.java
        SeedingThread.java
        SetPriorityThread.java
        StartDeleteThread.java
        StartupResetManager.java
        StartupThread.java
        StufferThread.java
        WorkerResetManager.java
        WorkerThread.java
        test
        java
        org
        apache
        manifoldcf
        crawler
        tests
        BaseHSQLDB.java
        BaseHSQLDBext.java
        BaseITHSQLDB.java
        BaseITMySQL.java
        BaseITPostgresql.java
        BaseMySQL.java
        BasePostgresql.java
        ConnectionChangeHSQLDBTest.java
        ConnectionChangeRepositoryConnector.java
        ConnectionChangeTester.java
        ConnectorBaseHSQLDB.java
        ConnectorBaseHSQLDBext.java
        ConnectorBaseMySQL.java
        ConnectorBasePostgresql.java
        ConnectorBaseUIHSQLDB.java
        ConnectorBaseUIMySQL.java
        ConnectorBaseUIPostgresql.java
        InterruptionHSQLDBTest.java
        InterruptionRepositoryConnector.java
        InterruptionTester.java
        ManifoldCFInstance.java
        SanityHSQLDBTest.java
        SanityHSQLDBextTest.java
        SanityMySQLTest.java
        SanityPostgresqlTest.java
        SchedulerHSQLDBTest.java
        SchedulerTester.java
        SchedulingRepositoryConnector.java
        TestingRepositoryConnector.java
    - script-engine
      - src
        main
        java
        org
        apache
        manifoldcf
        scriptengine
        BasicTokenStream.java
        BreakCommand.java
        CharacterStream.java
        Command.java
        ContextVariableReference.java
        DELETECommand.java
        ErrorCommand.java
        GETCommand.java
        IfCommand.java
        InsertCommand.java
        NewArray.java
        NewConfiguration.java
        NewConfigurationNode.java
        NewConnectionName.java
        NewDictionary.java
        NewOperation.java
        NewQueryArgument.java
        NewURL.java
        NullVariableReference.java
        POSTCommand.java
        PUTCommand.java
        PrintCommand.java
        RemoveCommand.java
        RewindableTokenStream.java
        ScriptException.java
        ScriptParser.java
        SetCommand.java
        Token.java
        TokenStream.java
        Variable.java
        VariableArray.java
        VariableBase.java
        VariableBoolean.java
        VariableConfiguration.java
        VariableConfigurationNode.java
        VariableConnectionName.java
        VariableDict.java
        VariableFloat.java
        VariableInt.java
        VariableQueryArg.java
        VariableReference.java
        VariableResult.java
        VariableString.java
        VariableURL.java
        WaitCommand.java
        WhileCommand.java
        test
        java
        org
        apache
        manifoldcf
        scriptengine
        tests
        CommandTest.java
        ExpressionTest.java
        ScriptEngineBase.java
    - ui-core
      - src
        main
        java
        org
        apache
        manifoldcf
        ui
        beans
        APIProfile.java
        AdminProfile.java
        ThreadContext.java
        i18n
        Messages.java
        ResourceBundleWrapper.java
        jsp
        JspWrapper.java
        multipart
        MultipartWrapper.java
        passwords
        PasswordMapper.java
        util
        Encoder.java
        Formatter.java
        MultilineParser.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.manifoldcf.agents.transformation.opennlp;

import java.io.*;

import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Locale;
import java.util.Map;
import java.util.HashMap;
import java.util.TreeMap;
import java.util.Map.Entry;
import java.util.Set;
import java.util.HashSet;

import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.sentdetect.SentenceDetector;
import opennlp.tools.tokenize.Tokenizer;
import opennlp.tools.util.Span;

import org.apache.commons.io.IOUtils;
import org.apache.manifoldcf.agents.interfaces.IOutputAddActivity;
import org.apache.manifoldcf.agents.interfaces.IOutputCheckActivity;
import org.apache.manifoldcf.agents.interfaces.RepositoryDocument;
import org.apache.manifoldcf.agents.interfaces.ServiceInterruption;
import org.apache.manifoldcf.agents.system.Logging;
import org.apache.manifoldcf.agents.system.ManifoldCF;
import org.apache.manifoldcf.agents.transformation.BaseTransformationConnector;
import org.apache.manifoldcf.core.interfaces.IHTTPOutput;
import org.apache.manifoldcf.core.interfaces.IPostParameters;
import org.apache.manifoldcf.core.interfaces.ManifoldCFException;
import org.apache.manifoldcf.core.interfaces.Specification;
import org.apache.manifoldcf.core.interfaces.SpecificationNode;
import org.apache.manifoldcf.core.interfaces.VersionContext;

public class OpenNlpExtractor extends BaseTransformationConnector {
  private static final String EDIT_SPECIFICATION_JS = "editSpecification.js";
  private static final String EDIT_SPECIFICATION_OPENNLP_HTML = "editSpecification_OpenNLP.html";
  private static final String VIEW_SPECIFICATION_HTML = "viewSpecification.html";

  protected static int maximumExtractionCharacters = 524288;
  
  // Meta-data fields added by this connector
  private static final String PERSONS = "ner_people";
  private static final String LOCATIONS = "ner_locations";
  private static final String ORGANIZATIONS = "ner_organizations";

  protected static final String ACTIVITY_EXTRACT = "extract";

  protected static final String[] activitiesList = new String[] { ACTIVITY_EXTRACT };

  protected final File fileDirectory = ManifoldCF.getFileProperty(ManifoldCF.fileResourcesProperty);

  /** We handle up to 64K in memory; after that we go to disk. */
  protected static final long inMemoryMaximumFile = 65536;

  
  /**
   * Return a list of activities that this connector generates. The connector
   * does NOT need to be connected before this method is called.
   * 
   * @return the set of activities.
   */
  @Override
  public String[] getActivitiesList() {
    return activitiesList;
  }

  /**
   * Get a pipeline version string, given a pipeline specification object. The
   * version string is used to uniquely describe the pertinent details of the
   * specification and the configuration, to allow the Connector Framework to
   * determine whether a document will need to be processed again. Note that
   * the contents of any document cannot be considered by this method; only
   * configuration and specification information can be considered.
   * 
   * This method presumes that the underlying connector object has been
   * configured.
   * 
   * @param spec
   *            is the current pipeline specification object for this
   *            connection for the job that is doing the crawling.
   * @return a string, of unlimited length, which uniquely describes
   *         configuration and specification in such a way that if two such
   *         strings are equal, nothing that affects how or whether the
   *         document is indexed will be different.
   */
  @Override
  public VersionContext getPipelineDescription(Specification os) throws ManifoldCFException, ServiceInterruption {
    SpecPacker sp = new SpecPacker(os);
    return new VersionContext(sp.toPackedString(), params, os);
  }

  /**
   * Add (or replace) a document in the output data store using the connector.
   * This method presumes that the connector object has been configured, and
   * it is thus able to communicate with the output data store should that be
   * necessary. The OutputSpecification is *not* provided to this method,
   * because the goal is consistency, and if output is done it must be
   * consistent with the output description, since that was what was partly
   * used to determine if output should be taking place. So it may be
   * necessary for this method to decode an output description string in order
   * to determine what should be done.
   * 
   * @param documentURI
   *            is the URI of the document. The URI is presumed to be the
   *            unique identifier which the output data store will use to
   *            process and serve the document. This URI is constructed by the
   *            repository connector which fetches the document, and is thus
   *            universal across all output connectors.
   * @param outputDescription
   *            is the description string that was constructed for this
   *            document by the getOutputDescription() method.
   * @param document
   *            is the document data to be processed (handed to the output
   *            data store).
   * @param authorityNameString
   *            is the name of the authority responsible for authorizing any
   *            access tokens passed in with the repository document. May be
   *            null.
   * @param activities
   *            is the handle to an object that the implementer of a pipeline
   *            connector may use to perform operations, such as logging
   *            processing activity, or sending a modified document to the
   *            next stage in the pipeline.
   * @return the document status (accepted or permanently rejected).
   * @throws IOException
   *             only if there's a stream error reading the document data.
   */
  @Override
  public int addOrReplaceDocumentWithException(String documentURI, VersionContext pipelineDescription,
    RepositoryDocument document, String authorityNameString, IOutputAddActivity activities)
    throws ManifoldCFException, ServiceInterruption, IOException {
    // assumes use of Tika extractor before using this connector
    Logging.agents.debug("Starting OpenNlp extraction");

    SpecPacker sp = new SpecPacker(pipelineDescription.getSpecification());

    // In order to be able to replay the input stream both for extraction and for downstream use,
    // we need to page through it, some number of characters at a time, and write those into a local buffer.
    // We can do this at the same time we're extracting, if we're clever.
      
    // Set up to spool back the original content, using either memory or disk, whichever makes sense.
    DestinationStorage ds;
    if (document.getBinaryLength() <= inMemoryMaximumFile) {
      ds = new MemoryDestinationStorage((int)document.getBinaryLength());
    } else {
      ds = new FileDestinationStorage();
    }
    
    try {

      // For logging, we'll need all of this
      long startTime = System.currentTimeMillis();
      String resultCode = "OK";
      String description = null;
      Long length = null;

      final MetadataAccumulator ma = new MetadataAccumulator(sp, document.getBinaryLength());
      
      try {

        // Page through document content, saving it aside into destination storage, while also extracting the content
        final OutputStream os = ds.getOutputStream();
        try {
          // We presume that the content is utf-8!!  Thus it has to have been run through the TikaExtractor, or equivalent.
          //
          // We're going to be paging through the input stream by chunks of characters.  Each chunk will then be passed to the
          // output stream (os) via a writer, as well as to the actual code that invokes the nlp sentence extraction.  
          
          // We need an output writer that converts the input into characters.  
          // 
          Writer w = new OutputStreamWriter(os, "utf-8");
          try {
            Reader r = new InputStreamReader(document.getBinaryStream(), "utf-8");
            try {
              // Now, page through!
              // It's too bad we have to convert FROM utf-8 and then back TO utf-8, but that can't be helped.
              char[] characterBuffer = new char[65536];
              while (true) {
                int amt = r.read(characterBuffer);
                if (amt == -1) {
                  break;
                }
                // Write into the copy buffer
                w.write(characterBuffer,0,amt);
                // Also do the processing
                ma.acceptCharacters(characterBuffer,amt);
              }
              // Do not close the reader; the underlying stream will be closed by our caller when the RepositoryDocument is done with
            } catch (IOException e) {
              // These are errors from reading the RepositoryDocument input stream; we handle them accordingly.
              resultCode = e.getClass().getSimpleName().toUpperCase(Locale.ROOT);
              description = e.getMessage();
              throw e;
            }
          } finally {
            w.flush();
          }
        }
        finally
        {
          os.close();
          length = new Long(ds.getBinaryLength());
        }

      }
      finally
      {
        // Log the extraction processing
        activities.recordActivity(new Long(startTime), ACTIVITY_EXTRACT, length, documentURI,
          resultCode, description);
      }
      
      ma.done();
      
      // Parsing complete!
      // Create a copy of Repository Document
      RepositoryDocument docCopy = document.duplicate();
        
      // Get new stream length
      long newBinaryLength = ds.getBinaryLength();
      // Open new input stream
      InputStream is = ds.getInputStream();
      try
      {
        docCopy.setBinary(is,newBinaryLength);

        // add named entity meta-data
        Map<String,Set<String>> nerMap = ma.getMetadata();
        if (!nerMap.isEmpty()) {
          for (Entry<String, Set<String>> entry : nerMap.entrySet()) {
            Set<String> neList = entry.getValue();
            String[] neArray = neList.toArray(new String[0]);
            docCopy.addField(entry.getKey(), neArray);
          }
        }

        // Send new document downstream
        return activities.sendDocument(documentURI,docCopy);
      } finally {
        is.close();
      }
    } finally {
      ds.close();
    }
  }

  private final static Set<String> acceptableMimeTypes = new HashSet<String>();
  static
  {
    acceptableMimeTypes.add("text/plain;charset=utf-8");
    acceptableMimeTypes.add("text/plain;charset=ascii");
    acceptableMimeTypes.add("text/plain;charset=us-ascii");
    acceptableMimeTypes.add("text/plain");
  }

  /** Detect if a mime type is acceptable or not.  This method is used to determine whether it makes sense to fetch a document
  * in the first place.
  *@param pipelineDescription is the document's pipeline version string, for this connection.
  *@param mimeType is the mime type of the document.
  *@param checkActivity is an object including the activities that can be performed by this method.
  *@return true if the mime type can be accepted by this connector.
  */
  @Override
  public boolean checkMimeTypeIndexable(VersionContext pipelineDescription, String mimeType, IOutputCheckActivity checkActivity)
    throws ManifoldCFException, ServiceInterruption
  {
    if (mimeType == null || !acceptableMimeTypes.contains(mimeType.toLowerCase(Locale.ROOT))) {
      return false;
    }
    // Do a downstream check too
    return super.checkMimeTypeIndexable(pipelineDescription, mimeType, checkActivity);
  }

  // ////////////////////////
  // UI Methods
  // ////////////////////////

  /**
   * Obtain the name of the form check javascript method to call.
   * 
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @return the name of the form check javascript method.
   */
  @Override
  public String getFormCheckJavascriptMethodName(int connectionSequenceNumber) {
    return "s" + connectionSequenceNumber + "_checkSpecification";
  }

  /**
   * Obtain the name of the form presave check javascript method to call.
   * 
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @return the name of the form presave check javascript method.
   */
  @Override
  public String getFormPresaveCheckJavascriptMethodName(int connectionSequenceNumber) {
    return "s" + connectionSequenceNumber + "_checkSpecificationForSave";
  }

  /**
   * Output the specification header section. This method is called in the
   * head section of a job page which has selected an output connection of the
   * current type. Its purpose is to add the required tabs to the list, and to
   * output any javascript methods that might be needed by the job editing
   * HTML.
   * 
   * @param out
   *            is the output to which any HTML should be sent.
   * @param locale
   *            is the preferred local of the output.
   * @param os
   *            is the current output specification for this job.
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @param tabsArray
   *            is an array of tab names. Add to this array any tab names that
   *            are specific to the connector.
   */
  @Override
  public void outputSpecificationHeader(IHTTPOutput out, Locale locale, Specification os,
      int connectionSequenceNumber, List<String> tabsArray) throws ManifoldCFException, IOException {
    Map<String, Object> paramMap = new HashMap<String, Object>();
    paramMap.put("SEQNUM", Integer.toString(connectionSequenceNumber));

    tabsArray.add(Messages.getString(locale, "OpenNlpExtractor.OpenNLPTabName"));

    Messages.outputResourceWithVelocity(out, locale, EDIT_SPECIFICATION_JS, paramMap);
  }

  /**
   * Output the specification body section. This method is called in the body
   * section of a job page which has selected an output connection of the
   * current type. Its purpose is to present the required form elements for
   * editing. The coder can presume that the HTML that is output from this
   * configuration will be within appropriate <html>, <body>, and <form> tags.
   * The name of the form is "editjob".
   * 
   * @param out
   *            is the output to which any HTML should be sent.
   * @param locale
   *            is the preferred local of the output.
   * @param os
   *            is the current output specification for this job.
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @param actualSequenceNumber
   *            is the connection within the job that has currently been
   *            selected.
   * @param tabName
   *            is the current tab name.
   */
  @Override
  public void outputSpecificationBody(IHTTPOutput out, Locale locale, Specification os, int connectionSequenceNumber,
      int actualSequenceNumber, String tabName) throws ManifoldCFException, IOException {
    Map<String, Object> paramMap = new HashMap<String, Object>();

    paramMap.put("TABNAME", tabName);
    paramMap.put("SEQNUM", Integer.toString(connectionSequenceNumber));
    paramMap.put("SELECTEDNUM", Integer.toString(actualSequenceNumber));

    fillInOpenNLPSpecificationMap(paramMap, os);
    setUpOpenNLPSpecificationMap(paramMap);

    Messages.outputResourceWithVelocity(out, locale, EDIT_SPECIFICATION_OPENNLP_HTML, paramMap);
  }

  /**
   * Process a specification post. This method is called at the start of job's
   * edit or view page, whenever there is a possibility that form data for a
   * connection has been posted. Its purpose is to gather form information and
   * modify the output specification accordingly. The name of the posted form
   * is "editjob".
   * 
   * @param variableContext
   *            contains the post data, including binary file-upload
   *            information.
   * @param locale
   *            is the preferred local of the output.
   * @param os
   *            is the current output specification for this job.
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @return null if all is well, or a string error message if there is an
   *         error that should prevent saving of the job (and cause a
   *         redirection to an error page).
   */
  @Override
  public String processSpecificationPost(IPostParameters variableContext, Locale locale, Specification os,
      int connectionSequenceNumber) throws ManifoldCFException {
    String seqPrefix = "s" + connectionSequenceNumber + "_";

    SpecificationNode node = new SpecificationNode(OpenNlpExtractorConfig.NODE_SMODEL_PATH);
    String smodelPath = variableContext.getParameter(seqPrefix + "smodelpath");
    if (smodelPath != null) {
      node.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_VALUE, smodelPath);
    } else {
      node.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_VALUE, "");
    }
    os.addChild(os.getChildCount(), node);

    node = new SpecificationNode(OpenNlpExtractorConfig.NODE_TMODEL_PATH);
    String tmodelPath = variableContext.getParameter(seqPrefix + "tmodelpath");
    if (tmodelPath != null) {
      node.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_VALUE, tmodelPath);
    } else {
      node.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_VALUE, "");
    }
    os.addChild(os.getChildCount(), node);

    String modelCount = variableContext.getParameter(seqPrefix+"model_count");
    if (modelCount != null)
    {
      int count = Integer.parseInt(modelCount);
      // Delete old spec data, including legacy node types we no longer use
      int i = 0;
      while (i < os.getChildCount())
      {
        SpecificationNode cn = os.getChild(i);
        if (cn.getType().equals(OpenNlpExtractorConfig.NODE_FINDERMODEL))
          os.removeChild(i);
        else
          i++;
      }

      // Now, go through form data
      for (int j = 0; j < count; j++)
      {
        String op = variableContext.getParameter(seqPrefix+"model_"+j+"_op");
        if (op != null && op.equals("Delete"))
          continue;
        String paramName = variableContext.getParameter(seqPrefix+"model_"+j+"_parametername");
        String modelFile = variableContext.getParameter(seqPrefix+"model_"+j+"_modelfile");
        SpecificationNode sn = new SpecificationNode(OpenNlpExtractorConfig.NODE_FINDERMODEL);
        sn.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_PARAMETERNAME,paramName);
        sn.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_MODELFILE,modelFile);
        os.addChild(os.getChildCount(),sn);
      }
      // Look for add operation
      String addOp = variableContext.getParameter(seqPrefix+"model_op");
      if (addOp != null && addOp.equals("Add"))
      {
        String paramName = variableContext.getParameter(seqPrefix+"model_parametername");
        String modelFile = variableContext.getParameter(seqPrefix+"model_modelfile");
        SpecificationNode sn = new SpecificationNode(OpenNlpExtractorConfig.NODE_FINDERMODEL);
        sn.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_PARAMETERNAME,paramName);
        sn.setAttribute(OpenNlpExtractorConfig.ATTRIBUTE_MODELFILE,modelFile);
        os.addChild(os.getChildCount(),sn);
      }

    }

    return null;
  }

  /**
   * View specification. This method is called in the body section of a job's
   * view page. Its purpose is to present the output specification information
   * to the user. The coder can presume that the HTML that is output from this
   * configuration will be within appropriate <html> and <body> tags.
   * 
   * @param out
   *            is the output to which any HTML should be sent.
   * @param locale
   *            is the preferred local of the output.
   * @param connectionSequenceNumber
   *            is the unique number of this connection within the job.
   * @param os
   *            is the current output specification for this job.
   */
  @Override
  public void viewSpecification(IHTTPOutput out, Locale locale, Specification os, int connectionSequenceNumber)
      throws ManifoldCFException, IOException {
    Map<String, Object> paramMap = new HashMap<String, Object>();
    paramMap.put("SEQNUM", Integer.toString(connectionSequenceNumber));

    fillInOpenNLPSpecificationMap(paramMap, os);
    Messages.outputResourceWithVelocity(out, locale, VIEW_SPECIFICATION_HTML, paramMap);
  }

  protected void setUpOpenNLPSpecificationMap(Map<String, Object> paramMap)
    throws ManifoldCFException {
    final String[] fileNames = getModelList();
    paramMap.put("FILENAMES", fileNames);
  }
  
  protected static void fillInOpenNLPSpecificationMap(Map<String, Object> paramMap, Specification os) {
    String sModelPath = "";
    String tModelPath = "";
    final List<Map<String,String>> finderModels = new ArrayList<>();
    
    for (int i = 0; i < os.getChildCount(); i++) {
      SpecificationNode sn = os.getChild(i);
      if (sn.getType().equals(OpenNlpExtractorConfig.NODE_SMODEL_PATH)) {
        sModelPath = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_VALUE);
        if (sModelPath == null) {
          sModelPath = "";
        }
      } else if (sn.getType().equals(OpenNlpExtractorConfig.NODE_TMODEL_PATH)) {
        tModelPath = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_VALUE);
        if (tModelPath == null) {
          tModelPath = "";
        }
      } else if (sn.getType().equals(OpenNlpExtractorConfig.NODE_FINDERMODEL)) {
        final String parameterName = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_PARAMETERNAME);
        final String modelFile = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_MODELFILE);
        final Map<String,String> modelRecord = new HashMap<>();
        modelRecord.put("parametername", parameterName);
        modelRecord.put("modelfile", modelFile);
        finderModels.add(modelRecord);
      }

    }
    paramMap.put("SMODELPATH", sModelPath);
    paramMap.put("TMODELPATH", tModelPath);
    paramMap.put("MODELS", finderModels);
  }

  protected static int handleIOException(IOException e)
    throws ManifoldCFException
  {
    // IOException reading from our local storage...
    if (e instanceof InterruptedIOException)
      throw new ManifoldCFException(e.getMessage(),e,ManifoldCFException.INTERRUPTED);
    throw new ManifoldCFException(e.getMessage(),e);
  }

  protected String[] getModelList() throws ManifoldCFException {
    if (fileDirectory == null) {
      return new String[0];
    }
    final String[] files = fileDirectory.list(new FileFilter());
    // Sort it!!
    java.util.Arrays.sort(files);
    return files;
  }
  
  protected static class FileFilter implements FilenameFilter {
    @Override
    public boolean accept(final File dir, final String name) {
      return new File(dir, name).isFile();
    }
  }
  
  /** An instance of this class receives characters in 64K chunks, and needs to accumulate
  * extracted metadata that this transformer will pass down.
  */
  protected class MetadataAccumulator {

    char[] characterBuffer = null;
    int bufferPointer = 0;
    
    final int bufferSize;
    
    final SentenceDetector sentenceDetector;
    final Tokenizer tokenizer;
    final Map<String,NameFinderME> finders = new HashMap<>();
    final Map<String,Set<String>> tokenLists = new HashMap<>();
   
    public MetadataAccumulator(final SpecPacker sp,
      final long bytesize)
      throws ManifoldCFException {
      try {
        sentenceDetector = OpenNlpExtractorConfig.sentenceDetector(new File(fileDirectory,sp.getSModelPath()));
        tokenizer = OpenNlpExtractorConfig.tokenizer(new File(fileDirectory,sp.getTModelPath()));
        final Map<String,String> finderFiles = sp.getFinderModels();
        for (String paramName : finderFiles.keySet()) {
          finders.put(paramName, OpenNlpExtractorConfig.finder(new File(fileDirectory,finderFiles.get(paramName))));
        }
      } catch (IOException e) {
        throw new ManifoldCFException(e.getMessage(), e);
      }
      if (bytesize > maximumExtractionCharacters) {
        bufferSize = maximumExtractionCharacters;
      } else {
        bufferSize = (int)bytesize;
      }
    }
    
    /** Accept characters, including actual count.
    */
    public void acceptCharacters(final char[] buffer, int amt) {
      if (characterBuffer == null) {
        characterBuffer = new char[bufferSize];
      }
      int copyAmt;
      if (amt > bufferSize - bufferPointer) {
        copyAmt = bufferSize - bufferPointer;
      } else {
        copyAmt = amt;
      }
      int sourcePtr = 0;
      while (copyAmt > 0) {
        characterBuffer[bufferPointer++] = buffer[sourcePtr++];
        copyAmt--;
      }
    }

    public void done() {
      if (bufferPointer == 0 || characterBuffer == null) {
        return;
      }
      
      // Make a string freom the character array
      final String textContent = new String(characterBuffer, 0, bufferPointer);

      // Break into sentences, tokens, and then people, locations, and organizations
      String[] sentences = sentenceDetector.sentDetect(textContent);
      for (String sentence : sentences) {
        String[] tokens = tokenizer.tokenize(sentence);

        for (String parameterName : finders.keySet()) {
          Set<String> stringSet = tokenLists.get(parameterName);
          if (stringSet == null) {
            stringSet = new HashSet<String>();
            tokenLists.put(parameterName, stringSet);
          }
          
          Span[] spans = finders.get(parameterName).find(tokens);
          stringSet.addAll(Arrays.asList(Span.spansToStrings(spans, tokens)));
        }
      }
    }
    
    public Map<String,Set<String>> getMetadata() {
      return tokenLists;
    }
    
  }
  
  protected static interface DestinationStorage {
    /** Get the output stream to write to.  Caller should explicitly close this stream when done writing.
    */
    public OutputStream getOutputStream()
      throws ManifoldCFException;
    
    /** Get new binary length.
    */
    public long getBinaryLength()
      throws ManifoldCFException;

    /** Get the input stream to read from.  Caller should explicitly close this stream when done reading.
    */
    public InputStream getInputStream()
      throws ManifoldCFException;
    
    /** Close the object and clean up everything.
    * This should be called when the data is no longer needed.
    */
    public void close()
      throws ManifoldCFException;
  }
  
  protected static class FileDestinationStorage implements DestinationStorage {
    protected final File outputFile;
    protected final OutputStream outputStream;

    public FileDestinationStorage()
      throws ManifoldCFException
    {
      File outputFile;
      OutputStream outputStream;
      try
      {
        outputFile = File.createTempFile("mcftika","tmp");
        outputStream = new FileOutputStream(outputFile);
      }
      catch (IOException e)
      {
        handleIOException(e);
        outputFile = null;
        outputStream = null;
      }
      this.outputFile = outputFile;
      this.outputStream = outputStream;
    }
    
    @Override
    public OutputStream getOutputStream()
      throws ManifoldCFException
    {
      return outputStream;
    }
    
    /** Get new binary length.
    */
    @Override
    public long getBinaryLength()
      throws ManifoldCFException
    {
      return outputFile.length();
    }

    /** Get the input stream to read from.  Caller should explicitly close this stream when done reading.
    */
    @Override
    public InputStream getInputStream()
      throws ManifoldCFException
    {
      try
      {
        return new FileInputStream(outputFile);
      }
      catch (IOException e)
      {
        handleIOException(e);
        return null;
      }
    }
    
    /** Close the object and clean up everything.
    * This should be called when the data is no longer needed.
    */
    @Override
    public void close()
      throws ManifoldCFException
    {
      outputFile.delete();
    }

  }
  
  protected static class MemoryDestinationStorage implements DestinationStorage {
    protected final ByteArrayOutputStream outputStream;
    
    public MemoryDestinationStorage(int sizeHint)
    {
      outputStream = new ByteArrayOutputStream(sizeHint);
    }
    
    @Override
    public OutputStream getOutputStream()
      throws ManifoldCFException
    {
      return outputStream;
    }

    /** Get new binary length.
    */
    @Override
    public long getBinaryLength()
      throws ManifoldCFException
    {
      return outputStream.size();
    }
    
    /** Get the input stream to read from.  Caller should explicitly close this stream when done reading.
    */
    @Override
    public InputStream getInputStream()
      throws ManifoldCFException
    {
      return new ByteArrayInputStream(outputStream.toByteArray());
    }
    
    /** Close the object and clean up everything.
    * This should be called when the data is no longer needed.
    */
    public void close()
      throws ManifoldCFException
    {
    }

  }

  protected static class SpecPacker {

    private final String sModelPath;
    private final String tModelPath;
    private final Map<String, String> models = new TreeMap<>();

    public SpecPacker(Specification os) {
      String sModelPath = null;
      String tModelPath = null;

      for (int i = 0; i < os.getChildCount(); i++) {
        SpecificationNode sn = os.getChild(i);

        if (sn.getType().equals(OpenNlpExtractorConfig.NODE_SMODEL_PATH)) {
          sModelPath = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_VALUE);
        }
        if (sn.getType().equals(OpenNlpExtractorConfig.NODE_TMODEL_PATH)) {
          tModelPath = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_VALUE);
        }
        if (sn.getType().equals(OpenNlpExtractorConfig.NODE_FINDERMODEL)) {
          final String parameterName = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_PARAMETERNAME);
          final String modelFile = sn.getAttributeValue(OpenNlpExtractorConfig.ATTRIBUTE_MODELFILE);
          models.put(parameterName, modelFile);
        }

      }
      this.sModelPath = sModelPath;
      this.tModelPath = tModelPath;
    }

    public String toPackedString() {
      StringBuilder sb = new StringBuilder();

      // extract nouns
      if (sModelPath != null)
        sb.append(sModelPath);
      sb.append(",");
      if (tModelPath != null)
        sb.append(tModelPath);
      sb.append("[");
      for (String parameterName : models.keySet()) {
        sb.append(parameterName).append("=").append(models.get(parameterName)).append(",");
      }

      return sb.toString();
    }

    public String getSModelPath() {
      return sModelPath;
    }

    public String getTModelPath() {
      return tModelPath;
    }

    public Map<String, String> getFinderModels() {
      return models;
    }

  }

}