CitationsFileReader.java example

Explorer

occurrence-master
- occurrence-cli
  - src
    - main
      - java
        org
        gbif
        occurrence
        cli
        FragmentProcessorCommand.java
        FragmentProcessorService.java
        InterpretedProcessorCommand.java
        InterpretedProcessorService.java
        ProcessorCliConfiguration.java
        VerbatimProcessorCommand.java
        VerbatimProcessorService.java
        common
        GangliaConfiguration.java
        HiveJdbcConfiguration.java
        HueCsvReader.java
        ZkUtils.java
        crawl
        CrawlReportGeneratorService.java
        CrawlsReportGeneratorCommand.java
        CrawlsReportGeneratorConfiguration.java
        DatasetCrawlInfo.java
        DeletePreviousCrawlsService.java
        PreviousCrawlsManagerCommand.java
        PreviousCrawlsManagerConfiguration.java
        PreviousCrawlsManagerService.java
        dataset
        DeleteDatasetListener.java
        InterpretDatasetListener.java
        ParseDatasetListener.java
        commands
        DatasetMutationCommand.java
        DatasetMutationConfiguration.java
        DeleteDatasetCommand.java
        InterpretDatasetCommand.java
        ParseDatasetCommand.java
        service
        DatasetMutationCommand.java
        DatasetMutationConfiguration.java
        DatasetMutationService.java
        delete
        DeleteOccurrenceCommand.java
        DeleteOccurrenceConfiguration.java
        service
        DeleterCommand.java
        DeleterConfiguration.java
        DeleterService.java
        index
        IndexUpdaterCallback.java
        IndexUpdaterService.java
        IndexingConfiguration.java
        UpdateOccurrenceIndexCommand.java
        process
        InterpretOccurrenceCommand.java
        InterpretOccurrenceConfiguration.java
        registry
        service
        RegistryChangeCommand.java
        RegistryChangeConfiguration.java
        RegistryChangeService.java
        sync
        SyncOccurrenceRegistryCommand.java
        SyncOccurrenceRegistryConfiguration.java
        SyncOccurrenceRegistryService.java
    - test
      - java
        org
        gbif
        occurrence
        DigesterLogTest.java
- occurrence-common
  - src
    - main
      - java
        org
        gbif
        occurrence
        common
        HiveColumnsUtils.java
        TermUtils.java
        config
        OccHBaseConfiguration.java
        ZooKeeperConfiguration.java
        download
        DownloadException.java
        DownloadUtils.java
        identifier
        HolyTriplet.java
        OccurrenceKeyHelper.java
        PublisherProvidedUniqueIdentifier.java
        UniqueIdentifier.java
        interpretation
        InterpretationRemark.java
        InterpretationRemarkSeverity.java
        InterpretationRemarksDefinition.java
        json
        ExtensionSerDeserUtils.java
        MediaSerDeserUtils.java
    - test
      - java
        org
        gbif
        occurrence
        common
        TermUtilsTest.java
        download
        DownloadUtilsTest.java
        identifier
        OccurrenceKeyHelperTest.java
        interpretation
        InterpretationRemarksDefinitionTest.java
- occurrence-deleter
  - src
    - main
      - java
        org
        gbif
        occurrence
        deleter
        OccurrenceDeletionService.java
        messaging
        DeleteOccurrenceListener.java
    - test
      - java
        org
        gbif
        occurrence
        deleter
        OccurrenceDeletionServiceTest.java
- occurrence-download
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        citations
        CitationsFileReader.java
        conf
        DownloadConfBuilder.java
        WorkflowConfiguration.java
        file
        DownloadAggregator.java
        DownloadFileWork.java
        DownloadJobConfiguration.java
        DownloadMaster.java
        OccurrenceMapReader.java
        Result.java
        common
        DatasetUsagesCollector.java
        DownloadFileUtils.java
        SolrQueryProcessor.java
        dwca
        CitationsFileWriter.java
        DownloadDwcaActor.java
        DwcArchiveUtils.java
        DwcDownloadsConstants.java
        DwcaArchiveBuilder.java
        DwcaContactsUtil.java
        DwcaDownloadAggregator.java
        TableSuffixes.java
        oozie
        ArchiveDownloadAction.java
        simplecsv
        SimpleCsvArchiveBuilder.java
        SimpleCsvDownloadActor.java
        SimpleCsvDownloadAggregator.java
        hive
        GenerateHQL.java
        Queries.java
        inject
        DownloadWorkflowModule.java
        license
        LicenseSelector.java
        LicenseSelectors.java
        oozie
        DownloadPrepareAction.java
        FromSolrDownloadAction.java
        query
        HiveQueryVisitor.java
        QueryBuildingException.java
        SolrQueryVisitor.java
        util
        HeadersFileUtil.java
        JacksonJsonContextResolver.java
        RegistryClientUtil.java
    - test
      - java
        org
        gbif
        occurrence
        download
        licenses
        LicenseSelectorTest.java
        query
        HiveQueryVisitorTest.java
        SolrQueryVisitorTest.java
        TestDownloadHeaders.java
- occurrence-hbase-solr-index
  - src
    - main
      - java
        org
        gbif
        occurrence
        hbaseindexer
        IntKeyFormatter.java
        MediaTypeByteArrayMapper.java
- occurrence-hdfs-table
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        hive
        DownloadTerms.java
        Field.java
        HBaseField.java
        HiveColumns.java
        HiveDataTypes.java
        InitializableField.java
        OccurrenceHBaseTableDefinition.java
        OccurrenceHDFSTableDefinition.java
        Terms.java
- occurrence-heatmaps
  - src
    - main
      - java
        org
        gbif
        occurrence
        search
        heatmap
        OccurrenceHeatmapRequest.java
        OccurrenceHeatmapRequestProvider.java
        OccurrenceHeatmapResponse.java
        OccurrenceHeatmapResponseBuilder.java
        OccurrenceHeatmapsModule.java
        OccurrenceHeatmapsService.java
    - test
      - java
        org
        gbif
        occurrence
        search
        heatmap
        OccurrenceHeatmapsTest.java
- occurrence-hive
  - src
    - main
      - java
        org
        gbif
        occurrence
        hive
        udf
        ArrayNullsRemoverGenericUDF.java
        BasisOfRecordParseUDF.java
        CleanDelimiterCharsUDF.java
        CollectMediaTypesUDF.java
        ContainsUDF.java
        CoordinateCountryParseUDF.java
        DateParseUDF.java
        ReinterpretLocationUDF.java
        SpeciesMatchUDF.java
        ToISO8601UDF.java
- occurrence-index-builder-workflow
  - src
    - main
      - java
        org
        gbif
        occurrence
        solr
        OccurrenceSearchFieldsDefinition.java
- occurrence-parser
  - src
    - main
      - java
        org
        gbif
        occurrence
        OccurrenceParser.java
        ParsingException.java
        constants
        ExtractionSimpleXPaths.java
        PrioritizedPropertyNameEnum.java
        ResponseElementEnum.java
        TaxonRankEnum.java
        model
        Identification.java
        IdentifierRecord.java
        ImageRecord.java
        LinkRecord.java
        PropertyPrioritizer.java
        RawOccurrenceRecord.java
        Taxon.java
        TypificationRecord.java
        parsing
        RawXmlOccurrence.java
        response_file
        ParsedSearchResponse.java
        ResponseSchemaDetector.java
        xml
        HigherTaxonParser.java
        IdentifierExtractionResult.java
        PrioritizedProperty.java
        RawOccurrenceRecordBuilder.java
        XmlFragmentParser.java
        rules
        Abcd12RuleSet.java
        Abcd206RuleSet.java
        AbstractDwcRuleSet.java
        AbstractRuleSet.java
        Dwc10RuleSet.java
        Dwc14RuleSet.java
        Dwc2009RuleSet.java
        DwcManisRuleSet.java
        SetLiteralRule.java
        util
        XmlSanitizingReader.java
    - test
      - java
        org
        gbif
        occurrence
        parsing
        response_file
        ResponseSchemaDetectorTest.java
        xml
        Abcd12RecordParserTest.java
        Abcd206RecordParserTest.java
        BadXmlCharsParserTest.java
        Dwc10RecordParserTest.java
        Dwc14RecordParserTest.java
        Dwc2009RecordParserTest.java
        DwcManisRecordParserTest.java
        NonUtf8ParserTest.java
        ParserTestCase.java
        XmlFragmentParserTest.java
        util
        XmlSanitizingReaderTest.java
- occurrence-persistence
  - src
    - main
      - java
        org
        gbif
        occurrence
        persistence
        DatasetDeletionServiceImpl.java
        FragmentPersistenceServiceImpl.java
        IllegalDataStateException.java
        OccurrenceKeyIterator.java
        OccurrenceKeyPersistenceServiceImpl.java
        OccurrencePersistenceServiceImpl.java
        api
        DatasetDeletionService.java
        Fragment.java
        FragmentCreationResult.java
        FragmentPersistenceService.java
        KeyLookupResult.java
        OccurrenceKeyPersistenceService.java
        OccurrencePersistenceService.java
        OccurrenceWriter.java
        guice
        OccurrencePersistenceModule.java
        ThreadLocalLockProvider.java
        hbase
        Columns.java
        ExtResultReader.java
        HBaseStore.java
        RowUpdate.java
        keygen
        AbstractHBaseKeyPersistenceService.java
        HBaseLockingKeyService.java
        KeyBuilder.java
        KeyPersistenceService.java
        OccurrenceKeyBuilder.java
        ZkLockingKeyService.java
        util
        OccurrenceBuilder.java
        zookeeper
        ZookeeperLockManager.java
    - test
      - java
        org
        gbif
        occurrence
        persistence
        DatasetDeletionServiceImplTest.java
        FragmentPersistenceImplThroughputTest.java
        FragmentPersistenceServiceImplTest.java
        KeyPersistenceServiceTest.java
        OccurrenceKeyIteratorTest.java
        OccurrenceKeyPersistenceServiceImplTest.java
        OccurrencePersistenceServiceImplTest.java
        guice
        OccurrencePersistenceModuleTest.java
        hbase
        BigDecimalTest.java
        ColumnsTest.java
        keygen
        HBaseLockingKeyServiceTest.java
        HBaseLockingKeyServiceThroughputTest.java
        util
        ExtensionSerDeserUtilsTest.java
        zookeeper
        ZookeeperLockManagerTest.java
- occurrence-processor
  - src
    - main
      - java
        org
        gbif
        occurrence
        processor
        FragmentProcessor.java
        InterpretedProcessor.java
        VerbatimProcessor.java
        guice
        ApiClientConfiguration.java
        OccurrenceProcessorModule.java
        ProcessorConfiguration.java
        identifiers
        IdentifierStrategy.java
        interpreting
        CoordinateInterpreter.java
        DatasetInfoInterpreter.java
        LocationInterpreter.java
        MultiMediaInterpreter.java
        OccurrenceInterpreter.java
        TaxonomyInterpreter.java
        TemporalInterpreter.java
        result
        CoordinateResult.java
        DateYearMonthDay.java
        OccurrenceInterpretationResult.java
        util
        CellIdCalculator.java
        CountryMaps.java
        ObjectMapperContextResolver.java
        RetryingWebserviceClient.java
        Wgs84Projection.java
        messaging
        FragmentPersistedListener.java
        InterpretVerbatimListener.java
        OccurrenceFragmentedListener.java
        ParseFragmentListener.java
        VerbatimPersistedListener.java
        parsing
        FragmentParser.java
        JsonFragmentParser.java
        zookeeper
        BatchingDalWrapper.java
        ZookeeperConnector.java
    - test
      - java
        org
        gbif
        occurrence
        processor
        FragmentPersistenceServiceMock.java
        FragmentProcessorTest.java
        FragmentProcessorThroughputTest.java
        OccurrenceInterpreterTest.java
        OccurrenceKeyPersistenceServiceMock.java
        OccurrencePersistenceServiceMock.java
        OccurrenceProcessorIT.java
        VerbatimProcessorTest.java
        guice
        OccurrenceProcessorModuleTest.java
        identifiers
        IdentifierStrategyTest.java
        interpreting
        CoordinateInterpreterTest.java
        DatasetInfoInterpreterTest.java
        LocationInterpreterTest.java
        MultiMediaInterpreterTest.java
        OccurrenceInterpreterTest.java
        TaxonomyInterpreterTest.java
        TemporalInterpreterTest.java
        UniquenessTest.java
        util
        CellIdCalculatorTest.java
        Wgs84ProjectionTest.java
        parsing
        FragmentParserTest.java
        JsonFragmentParserTest.java
        zookeeper
        ZookeeperConnectorTest.java
- occurrence-registry-sync
  - src
    - main
      - java
        org
        gbif
        occurrence
        cli
        registry
        RegistryChangeListener.java
        RegistryObjectMapperContextResolver.java
        sync
        AbstractOccurrenceRegistryMapper.java
        OccurrenceRegistryMapper.java
        OccurrenceScanMapper.java
        RegistryBasedOccurrenceMutator.java
        SyncCommon.java
    - test
      - java
        org
        gbif
        occurrence
        cli
        regsitry
        sync
        RegistryBasedOccurrenceMutatorTest.java
- occurrence-search
  - src
    - main
      - java
        org
        gbif
        occurrence
        search
        OccurrenceSearchImpl.java
        OccurrenceSearchRequestBuilder.java
        guice
        OccurrenceSearchModule.java
        solr
        FacetField.java
        FacetFieldConfiguration.java
        OccurrenceSolrField.java
        SolrQueryUtils.java
        SpellCheckResponseBuilder.java
        writer
        FullTextFieldBuilder.java
        SolrOccurrenceWriter.java
    - test
      - java
        org
        gbif
        occurrence
        search
        OccurrenceDataLoader.java
        OccurrenceSearchRequestBuilderTest.java
        OccurrenceSearchTestIT.java
        writers
        FullTextFieldBuilderTest.java
        HBasePredicateWriter.java
        SolrPredicateWriter.java
- occurrence-ws
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        service
        CallbackService.java
        Constants.java
        DownloadEmailUtils.java
        DownloadLimitsService.java
        DownloadRequestServiceImpl.java
        DownloadSecurityUtil.java
        EmailModel.java
        OccurrenceDownloadServiceModule.java
        PredicateFactory.java
        QueryBuildingException.java
        conf
        DownloadLimits.java
        freemarker
        NiceDateTemplateMethodModel.java
        workflow
        DownloadWorkflowParameters.java
        DownloadWorkflowParametersBuilder.java
        ws
        OccurrenceWsListener.java
        provider
        DwcXMLDocument.java
        OccurrenceDwcXMLBodyWriter.java
        OccurrenceVerbatimDwcXMLBodyWriter.java
        resources
        DownloadResource.java
        FeaturedOccurrence.java
        FeaturedOccurrenceReader.java
        InterpretationResource.java
        OccurrenceResource.java
        OccurrenceSearchResource.java
        TermResource.java
    - test
      - java
        org
        gbif
        occurrence
        download
        service
        CallbackServiceTest.java
        DownloadEmailUtilsTest.java
        DownloadRequestServiceImplTest.java
        DownloadServiceImplTest.java
        freemarker
        NiceDateTemplateMethodModelTest.java
        ws
        resources
        DownloadResourceTest.java
        provider
        DwcXMLDocumentTest.java
        OccurrenceDwcXMLBodyWriterTest.java
        VerbatimOccurrenceDwcXMLBodyWriterTest.java
- occurrence-ws-client
  - src
    - main
      - java
        org
        gbif
        occurrence
        ws
        client
        Constants.java
        OccurrenceDownloadWsClient.java
        OccurrenceWsClient.java
        OccurrenceWsClientModule.java
        OccurrenceWsSearchClient.java
    - test
      - java
        org
        gbif
        occurrence
        ws
        client
        OccurrenceWsClientIT.java
        OccurrenceWsClientModuleTest.java
        mock
        OccurrenceDownloadMockServices.java
        OccurrencePersistenceMockService.java
        OccurrencePersistenceMockServiceTest.java
        OccurrenceSearchMockService.java
        OccurrenceWsMockModule.java
        OccurrenceWsTestModule.java

package org.gbif.occurrence.download.citations;

import org.gbif.api.model.registry.Dataset;
import org.gbif.api.model.registry.DatasetOccurrenceDownloadUsage;
import org.gbif.api.service.registry.DatasetOccurrenceDownloadUsageService;
import org.gbif.api.service.registry.DatasetService;
import org.gbif.occurrence.download.file.common.DownloadFileUtils;
import org.gbif.occurrence.download.inject.DownloadWorkflowModule;
import org.gbif.occurrence.download.util.RegistryClientUtil;
import org.gbif.utils.file.properties.PropertiesUtil;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.Iterator;
import java.util.Properties;
import java.util.UUID;
import javax.annotation.Nullable;

import com.google.common.base.Charsets;
import com.google.common.base.Preconditions;
import com.google.common.base.Predicate;
import com.google.common.base.Splitter;
import com.google.common.base.Strings;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * Reads a datasets citations file and optionally persists teh data usages and return the usages into a Map object.
 */
public final class CitationsFileReader {

  private static final Logger LOG = LoggerFactory.getLogger(CitationsFileReader.class);
  private static final Splitter TAB_SPLITTER = Splitter.on('\t').trimResults();

  /**
   * Transforms tab-separated-line into a DatasetOccurrenceDownloadUsage instance.
   */
  private static DatasetOccurrenceDownloadUsage toDatasetOccurrenceDownloadUsage(String tsvLine, String downloadKey) {
    Iterator<String> tsvLineIterator = TAB_SPLITTER.split(tsvLine).iterator();
    DatasetOccurrenceDownloadUsage datasetUsage = new DatasetOccurrenceDownloadUsage();
    datasetUsage.setDatasetKey(UUID.fromString(tsvLineIterator.next()));
    datasetUsage.setDownloadKey(downloadKey);
    datasetUsage.setNumberRecords(Long.parseLong(tsvLineIterator.next()));
    return datasetUsage;
  }

  /**
   * Reads a dataset citations file with the form 'datasetkeyTABnumberOfRecords' and applies the listed predicates.
   * Each line in read from the TSV file is transformed into a DatasetOccurrenceDownloadUsage.
   *
   * @param nameNode     Hadoop name node uri
   * @param citationPath path to the directory that contains the citation table files
   * @param downloadKey  occurrence download key
   * @param predicates   list of predicates to apply while reading the file
   */
  public static void readCitations(String nameNode, String citationPath, String downloadKey,
                                   Predicate<DatasetOccurrenceDownloadUsage>... predicates) throws IOException {
    FileSystem hdfs = DownloadFileUtils.getHdfs(nameNode);
    for (FileStatus fs : hdfs.listStatus(new Path(citationPath))) {
      if (!fs.isDirectory()) {
        try (BufferedReader citationReader = new BufferedReader(new InputStreamReader(hdfs.open(fs.getPath()),
                                                                                      Charsets.UTF_8))) {
          for (String tsvLine = citationReader.readLine(); tsvLine != null; tsvLine = citationReader.readLine()) {
            if (!Strings.isNullOrEmpty(tsvLine)) {
              // catch all error to avoid breaking the loop
              try {
                for (Predicate<DatasetOccurrenceDownloadUsage> predicate : predicates) {
                  predicate.apply(toDatasetOccurrenceDownloadUsage(tsvLine, downloadKey));
                }
              } catch (Exception e) {
                LOG.info(String.format("Error processing citation line: %s", tsvLine), e);
              }
            }
          }
        }
      }
    }
  }

  public static void main(String[] args) throws IOException {
    Properties properties = PropertiesUtil.loadProperties(DownloadWorkflowModule.CONF_FILE);

    readCitations(properties.getProperty(DownloadWorkflowModule.DefaultSettings.NAME_NODE_KEY),
                  Preconditions.checkNotNull(args[0]),
                  Preconditions.checkNotNull(args[1]),
                  new PersistUsage(properties.getProperty(DownloadWorkflowModule.DefaultSettings.REGISTRY_URL_KEY)));
  }

  /**
   * Private constructor.
   */
  private CitationsFileReader() {
    //empty constructor
  }

  /**
   * Persists the dataset usage into the Registry data base.
   */
  public static class PersistUsage implements Predicate<DatasetOccurrenceDownloadUsage> {

    private final DatasetService datasetService;

    private final DatasetOccurrenceDownloadUsageService datasetUsageService;

    public PersistUsage(String registryWsUrl) {
      RegistryClientUtil registryClientUtil = new RegistryClientUtil();
      datasetService = registryClientUtil.setupDatasetService(registryWsUrl);
      datasetUsageService = registryClientUtil.setupDatasetUsageService(registryWsUrl);
    }

    public PersistUsage(DatasetService datasetService, DatasetOccurrenceDownloadUsageService datasetUsageService) {
      this.datasetService = datasetService;
      this.datasetUsageService = datasetUsageService;
    }

    @Override
    public boolean apply(@Nullable DatasetOccurrenceDownloadUsage input) {
      try {
        Dataset dataset = datasetService.get(input.getDatasetKey());
        if (dataset != null) { //the dataset still exists
          input.setDatasetDOI(dataset.getDoi());
          if (dataset.getCitation() != null && dataset.getCitation().getText() != null) {
            input.setDatasetCitation(dataset.getCitation().getText());
          }
          input.setDatasetTitle(dataset.getTitle());
          datasetUsageService.create(input);
        }
      } catch (Exception e) {
        LOG.error("Error persisting dataset usage information {}", input, e);
        return false;
      }
      return true;
    }
  }
}