XmlFragmentParser.java example

Explorer

occurrence-master
- occurrence-cli
  - src
    - main
      - java
        org
        gbif
        occurrence
        cli
        FragmentProcessorCommand.java
        FragmentProcessorService.java
        InterpretedProcessorCommand.java
        InterpretedProcessorService.java
        ProcessorCliConfiguration.java
        VerbatimProcessorCommand.java
        VerbatimProcessorService.java
        common
        GangliaConfiguration.java
        HiveJdbcConfiguration.java
        HueCsvReader.java
        ZkUtils.java
        crawl
        CrawlReportGeneratorService.java
        CrawlsReportGeneratorCommand.java
        CrawlsReportGeneratorConfiguration.java
        DatasetCrawlInfo.java
        DeletePreviousCrawlsService.java
        PreviousCrawlsManagerCommand.java
        PreviousCrawlsManagerConfiguration.java
        PreviousCrawlsManagerService.java
        dataset
        DeleteDatasetListener.java
        InterpretDatasetListener.java
        ParseDatasetListener.java
        commands
        DatasetMutationCommand.java
        DatasetMutationConfiguration.java
        DeleteDatasetCommand.java
        InterpretDatasetCommand.java
        ParseDatasetCommand.java
        service
        DatasetMutationCommand.java
        DatasetMutationConfiguration.java
        DatasetMutationService.java
        delete
        DeleteOccurrenceCommand.java
        DeleteOccurrenceConfiguration.java
        service
        DeleterCommand.java
        DeleterConfiguration.java
        DeleterService.java
        index
        IndexUpdaterCallback.java
        IndexUpdaterService.java
        IndexingConfiguration.java
        UpdateOccurrenceIndexCommand.java
        process
        InterpretOccurrenceCommand.java
        InterpretOccurrenceConfiguration.java
        registry
        service
        RegistryChangeCommand.java
        RegistryChangeConfiguration.java
        RegistryChangeService.java
        sync
        SyncOccurrenceRegistryCommand.java
        SyncOccurrenceRegistryConfiguration.java
        SyncOccurrenceRegistryService.java
    - test
      - java
        org
        gbif
        occurrence
        DigesterLogTest.java
- occurrence-common
  - src
    - main
      - java
        org
        gbif
        occurrence
        common
        HiveColumnsUtils.java
        TermUtils.java
        config
        OccHBaseConfiguration.java
        ZooKeeperConfiguration.java
        download
        DownloadException.java
        DownloadUtils.java
        identifier
        HolyTriplet.java
        OccurrenceKeyHelper.java
        PublisherProvidedUniqueIdentifier.java
        UniqueIdentifier.java
        interpretation
        InterpretationRemark.java
        InterpretationRemarkSeverity.java
        InterpretationRemarksDefinition.java
        json
        ExtensionSerDeserUtils.java
        MediaSerDeserUtils.java
    - test
      - java
        org
        gbif
        occurrence
        common
        TermUtilsTest.java
        download
        DownloadUtilsTest.java
        identifier
        OccurrenceKeyHelperTest.java
        interpretation
        InterpretationRemarksDefinitionTest.java
- occurrence-deleter
  - src
    - main
      - java
        org
        gbif
        occurrence
        deleter
        OccurrenceDeletionService.java
        messaging
        DeleteOccurrenceListener.java
    - test
      - java
        org
        gbif
        occurrence
        deleter
        OccurrenceDeletionServiceTest.java
- occurrence-download
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        citations
        CitationsFileReader.java
        conf
        DownloadConfBuilder.java
        WorkflowConfiguration.java
        file
        DownloadAggregator.java
        DownloadFileWork.java
        DownloadJobConfiguration.java
        DownloadMaster.java
        OccurrenceMapReader.java
        Result.java
        common
        DatasetUsagesCollector.java
        DownloadFileUtils.java
        SolrQueryProcessor.java
        dwca
        CitationsFileWriter.java
        DownloadDwcaActor.java
        DwcArchiveUtils.java
        DwcDownloadsConstants.java
        DwcaArchiveBuilder.java
        DwcaContactsUtil.java
        DwcaDownloadAggregator.java
        TableSuffixes.java
        oozie
        ArchiveDownloadAction.java
        simplecsv
        SimpleCsvArchiveBuilder.java
        SimpleCsvDownloadActor.java
        SimpleCsvDownloadAggregator.java
        hive
        GenerateHQL.java
        Queries.java
        inject
        DownloadWorkflowModule.java
        license
        LicenseSelector.java
        LicenseSelectors.java
        oozie
        DownloadPrepareAction.java
        FromSolrDownloadAction.java
        query
        HiveQueryVisitor.java
        QueryBuildingException.java
        SolrQueryVisitor.java
        util
        HeadersFileUtil.java
        JacksonJsonContextResolver.java
        RegistryClientUtil.java
    - test
      - java
        org
        gbif
        occurrence
        download
        licenses
        LicenseSelectorTest.java
        query
        HiveQueryVisitorTest.java
        SolrQueryVisitorTest.java
        TestDownloadHeaders.java
- occurrence-hbase-solr-index
  - src
    - main
      - java
        org
        gbif
        occurrence
        hbaseindexer
        IntKeyFormatter.java
        MediaTypeByteArrayMapper.java
- occurrence-hdfs-table
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        hive
        DownloadTerms.java
        Field.java
        HBaseField.java
        HiveColumns.java
        HiveDataTypes.java
        InitializableField.java
        OccurrenceHBaseTableDefinition.java
        OccurrenceHDFSTableDefinition.java
        Terms.java
- occurrence-heatmaps
  - src
    - main
      - java
        org
        gbif
        occurrence
        search
        heatmap
        OccurrenceHeatmapRequest.java
        OccurrenceHeatmapRequestProvider.java
        OccurrenceHeatmapResponse.java
        OccurrenceHeatmapResponseBuilder.java
        OccurrenceHeatmapsModule.java
        OccurrenceHeatmapsService.java
    - test
      - java
        org
        gbif
        occurrence
        search
        heatmap
        OccurrenceHeatmapsTest.java
- occurrence-hive
  - src
    - main
      - java
        org
        gbif
        occurrence
        hive
        udf
        ArrayNullsRemoverGenericUDF.java
        BasisOfRecordParseUDF.java
        CleanDelimiterCharsUDF.java
        CollectMediaTypesUDF.java
        ContainsUDF.java
        CoordinateCountryParseUDF.java
        DateParseUDF.java
        ReinterpretLocationUDF.java
        SpeciesMatchUDF.java
        ToISO8601UDF.java
- occurrence-index-builder-workflow
  - src
    - main
      - java
        org
        gbif
        occurrence
        solr
        OccurrenceSearchFieldsDefinition.java
- occurrence-parser
  - src
    - main
      - java
        org
        gbif
        occurrence
        OccurrenceParser.java
        ParsingException.java
        constants
        ExtractionSimpleXPaths.java
        PrioritizedPropertyNameEnum.java
        ResponseElementEnum.java
        TaxonRankEnum.java
        model
        Identification.java
        IdentifierRecord.java
        ImageRecord.java
        LinkRecord.java
        PropertyPrioritizer.java
        RawOccurrenceRecord.java
        Taxon.java
        TypificationRecord.java
        parsing
        RawXmlOccurrence.java
        response_file
        ParsedSearchResponse.java
        ResponseSchemaDetector.java
        xml
        HigherTaxonParser.java
        IdentifierExtractionResult.java
        PrioritizedProperty.java
        RawOccurrenceRecordBuilder.java
        XmlFragmentParser.java
        rules
        Abcd12RuleSet.java
        Abcd206RuleSet.java
        AbstractDwcRuleSet.java
        AbstractRuleSet.java
        Dwc10RuleSet.java
        Dwc14RuleSet.java
        Dwc2009RuleSet.java
        DwcManisRuleSet.java
        SetLiteralRule.java
        util
        XmlSanitizingReader.java
    - test
      - java
        org
        gbif
        occurrence
        parsing
        response_file
        ResponseSchemaDetectorTest.java
        xml
        Abcd12RecordParserTest.java
        Abcd206RecordParserTest.java
        BadXmlCharsParserTest.java
        Dwc10RecordParserTest.java
        Dwc14RecordParserTest.java
        Dwc2009RecordParserTest.java
        DwcManisRecordParserTest.java
        NonUtf8ParserTest.java
        ParserTestCase.java
        XmlFragmentParserTest.java
        util
        XmlSanitizingReaderTest.java
- occurrence-persistence
  - src
    - main
      - java
        org
        gbif
        occurrence
        persistence
        DatasetDeletionServiceImpl.java
        FragmentPersistenceServiceImpl.java
        IllegalDataStateException.java
        OccurrenceKeyIterator.java
        OccurrenceKeyPersistenceServiceImpl.java
        OccurrencePersistenceServiceImpl.java
        api
        DatasetDeletionService.java
        Fragment.java
        FragmentCreationResult.java
        FragmentPersistenceService.java
        KeyLookupResult.java
        OccurrenceKeyPersistenceService.java
        OccurrencePersistenceService.java
        OccurrenceWriter.java
        guice
        OccurrencePersistenceModule.java
        ThreadLocalLockProvider.java
        hbase
        Columns.java
        ExtResultReader.java
        HBaseStore.java
        RowUpdate.java
        keygen
        AbstractHBaseKeyPersistenceService.java
        HBaseLockingKeyService.java
        KeyBuilder.java
        KeyPersistenceService.java
        OccurrenceKeyBuilder.java
        ZkLockingKeyService.java
        util
        OccurrenceBuilder.java
        zookeeper
        ZookeeperLockManager.java
    - test
      - java
        org
        gbif
        occurrence
        persistence
        DatasetDeletionServiceImplTest.java
        FragmentPersistenceImplThroughputTest.java
        FragmentPersistenceServiceImplTest.java
        KeyPersistenceServiceTest.java
        OccurrenceKeyIteratorTest.java
        OccurrenceKeyPersistenceServiceImplTest.java
        OccurrencePersistenceServiceImplTest.java
        guice
        OccurrencePersistenceModuleTest.java
        hbase
        BigDecimalTest.java
        ColumnsTest.java
        keygen
        HBaseLockingKeyServiceTest.java
        HBaseLockingKeyServiceThroughputTest.java
        util
        ExtensionSerDeserUtilsTest.java
        zookeeper
        ZookeeperLockManagerTest.java
- occurrence-processor
  - src
    - main
      - java
        org
        gbif
        occurrence
        processor
        FragmentProcessor.java
        InterpretedProcessor.java
        VerbatimProcessor.java
        guice
        ApiClientConfiguration.java
        OccurrenceProcessorModule.java
        ProcessorConfiguration.java
        identifiers
        IdentifierStrategy.java
        interpreting
        CoordinateInterpreter.java
        DatasetInfoInterpreter.java
        LocationInterpreter.java
        MultiMediaInterpreter.java
        OccurrenceInterpreter.java
        TaxonomyInterpreter.java
        TemporalInterpreter.java
        result
        CoordinateResult.java
        DateYearMonthDay.java
        OccurrenceInterpretationResult.java
        util
        CellIdCalculator.java
        CountryMaps.java
        ObjectMapperContextResolver.java
        RetryingWebserviceClient.java
        Wgs84Projection.java
        messaging
        FragmentPersistedListener.java
        InterpretVerbatimListener.java
        OccurrenceFragmentedListener.java
        ParseFragmentListener.java
        VerbatimPersistedListener.java
        parsing
        FragmentParser.java
        JsonFragmentParser.java
        zookeeper
        BatchingDalWrapper.java
        ZookeeperConnector.java
    - test
      - java
        org
        gbif
        occurrence
        processor
        FragmentPersistenceServiceMock.java
        FragmentProcessorTest.java
        FragmentProcessorThroughputTest.java
        OccurrenceInterpreterTest.java
        OccurrenceKeyPersistenceServiceMock.java
        OccurrencePersistenceServiceMock.java
        OccurrenceProcessorIT.java
        VerbatimProcessorTest.java
        guice
        OccurrenceProcessorModuleTest.java
        identifiers
        IdentifierStrategyTest.java
        interpreting
        CoordinateInterpreterTest.java
        DatasetInfoInterpreterTest.java
        LocationInterpreterTest.java
        MultiMediaInterpreterTest.java
        OccurrenceInterpreterTest.java
        TaxonomyInterpreterTest.java
        TemporalInterpreterTest.java
        UniquenessTest.java
        util
        CellIdCalculatorTest.java
        Wgs84ProjectionTest.java
        parsing
        FragmentParserTest.java
        JsonFragmentParserTest.java
        zookeeper
        ZookeeperConnectorTest.java
- occurrence-registry-sync
  - src
    - main
      - java
        org
        gbif
        occurrence
        cli
        registry
        RegistryChangeListener.java
        RegistryObjectMapperContextResolver.java
        sync
        AbstractOccurrenceRegistryMapper.java
        OccurrenceRegistryMapper.java
        OccurrenceScanMapper.java
        RegistryBasedOccurrenceMutator.java
        SyncCommon.java
    - test
      - java
        org
        gbif
        occurrence
        cli
        regsitry
        sync
        RegistryBasedOccurrenceMutatorTest.java
- occurrence-search
  - src
    - main
      - java
        org
        gbif
        occurrence
        search
        OccurrenceSearchImpl.java
        OccurrenceSearchRequestBuilder.java
        guice
        OccurrenceSearchModule.java
        solr
        FacetField.java
        FacetFieldConfiguration.java
        OccurrenceSolrField.java
        SolrQueryUtils.java
        SpellCheckResponseBuilder.java
        writer
        FullTextFieldBuilder.java
        SolrOccurrenceWriter.java
    - test
      - java
        org
        gbif
        occurrence
        search
        OccurrenceDataLoader.java
        OccurrenceSearchRequestBuilderTest.java
        OccurrenceSearchTestIT.java
        writers
        FullTextFieldBuilderTest.java
        HBasePredicateWriter.java
        SolrPredicateWriter.java
- occurrence-ws
  - src
    - main
      - java
        org
        gbif
        occurrence
        download
        service
        CallbackService.java
        Constants.java
        DownloadEmailUtils.java
        DownloadLimitsService.java
        DownloadRequestServiceImpl.java
        DownloadSecurityUtil.java
        EmailModel.java
        OccurrenceDownloadServiceModule.java
        PredicateFactory.java
        QueryBuildingException.java
        conf
        DownloadLimits.java
        freemarker
        NiceDateTemplateMethodModel.java
        workflow
        DownloadWorkflowParameters.java
        DownloadWorkflowParametersBuilder.java
        ws
        OccurrenceWsListener.java
        provider
        DwcXMLDocument.java
        OccurrenceDwcXMLBodyWriter.java
        OccurrenceVerbatimDwcXMLBodyWriter.java
        resources
        DownloadResource.java
        FeaturedOccurrence.java
        FeaturedOccurrenceReader.java
        InterpretationResource.java
        OccurrenceResource.java
        OccurrenceSearchResource.java
        TermResource.java
    - test
      - java
        org
        gbif
        occurrence
        download
        service
        CallbackServiceTest.java
        DownloadEmailUtilsTest.java
        DownloadRequestServiceImplTest.java
        DownloadServiceImplTest.java
        freemarker
        NiceDateTemplateMethodModelTest.java
        ws
        resources
        DownloadResourceTest.java
        provider
        DwcXMLDocumentTest.java
        OccurrenceDwcXMLBodyWriterTest.java
        VerbatimOccurrenceDwcXMLBodyWriterTest.java
- occurrence-ws-client
  - src
    - main
      - java
        org
        gbif
        occurrence
        ws
        client
        Constants.java
        OccurrenceDownloadWsClient.java
        OccurrenceWsClient.java
        OccurrenceWsClientModule.java
        OccurrenceWsSearchClient.java
    - test
      - java
        org
        gbif
        occurrence
        ws
        client
        OccurrenceWsClientIT.java
        OccurrenceWsClientModuleTest.java
        mock
        OccurrenceDownloadMockServices.java
        OccurrencePersistenceMockService.java
        OccurrencePersistenceMockServiceTest.java
        OccurrenceSearchMockService.java
        OccurrenceWsMockModule.java
        OccurrenceWsTestModule.java

/*
 * Copyright 2011 Global Biodiversity Information Facility (GBIF)
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.gbif.occurrence.parsing.xml;

import org.gbif.api.vocabulary.OccurrenceSchemaType;
import org.gbif.occurrence.model.IdentifierRecord;
import org.gbif.occurrence.model.RawOccurrenceRecord;
import org.gbif.occurrence.parsing.RawXmlOccurrence;
import org.gbif.occurrence.parsing.xml.rules.Abcd12RuleSet;
import org.gbif.occurrence.parsing.xml.rules.Abcd206RuleSet;
import org.gbif.occurrence.parsing.xml.rules.Dwc10RuleSet;
import org.gbif.occurrence.parsing.xml.rules.Dwc14RuleSet;
import org.gbif.occurrence.parsing.xml.rules.Dwc2009RuleSet;
import org.gbif.occurrence.parsing.xml.rules.DwcManisRuleSet;
import org.gbif.occurrence.common.identifier.HolyTriplet;
import org.gbif.occurrence.common.identifier.PublisherProvidedUniqueIdentifier;
import org.gbif.occurrence.common.identifier.UniqueIdentifier;

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.StringReader;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.UUID;

import com.google.common.collect.Maps;
import com.google.common.collect.Sets;
import org.apache.commons.digester.Digester;
import org.apache.commons.digester.RuleSet;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

/**
 * Methods for parsing {@link RawXmlOccurrence}s and {@link UniqueIdentifier}s from xml fragments.
 */
public class XmlFragmentParser {

  private static final Logger LOG = LoggerFactory.getLogger(XmlFragmentParser.class);

  private static final Map<OccurrenceSchemaType, RuleSet> RULE_SETS = Maps.newHashMap();

  // static class, should never be instantiated
  private XmlFragmentParser() {
  }

  static {
    try {
      RULE_SETS.put(OccurrenceSchemaType.ABCD_1_2, new Abcd12RuleSet());
      RULE_SETS.put(OccurrenceSchemaType.ABCD_2_0_6, new Abcd206RuleSet());
      RULE_SETS.put(OccurrenceSchemaType.DWC_1_0, new Dwc10RuleSet());
      RULE_SETS.put(OccurrenceSchemaType.DWC_1_4, new Dwc14RuleSet());
      RULE_SETS.put(OccurrenceSchemaType.DWC_2009, new Dwc2009RuleSet());
      RULE_SETS.put(OccurrenceSchemaType.DWC_MANIS, new DwcManisRuleSet());
    } catch (IOException e) {
      LOG.warn("Unable to read properties files for parsing xml", e);
    }
  }

  public static List<RawOccurrenceRecord> parseRecord(RawXmlOccurrence xmlRecord) {
    return parseRecord(xmlRecord.getXml(), xmlRecord.getSchemaType());
  }

  public static List<RawOccurrenceRecord> parseRecord(String xml, OccurrenceSchemaType schemaType) {
    LOG.debug("Parsing xml [" + xml + "]");
    List<RawOccurrenceRecord> records = null;
    try {
      InputSource inputSource = new InputSource(new StringReader(xml));
      records = parseRecord(inputSource, schemaType);
    } catch (IOException e) {
      LOG.warn("IOException parsing xml string [{}]", xml, e);
    } catch (SAXException e) {
      LOG.warn("SAXException parsing xml string [{}]", xml, e);
    }
    return records;
  }

  public static List<RawOccurrenceRecord> parseRecord(byte[] xml, OccurrenceSchemaType schemaType) {
    List<RawOccurrenceRecord> records = null;
    try {
      InputSource inputSource = new InputSource(new ByteArrayInputStream(xml));
      records = parseRecord(inputSource, schemaType);
    } catch (IOException e) {
      LOG.warn("IOException parsing xml bytes", e);
    } catch (SAXException e) {
      LOG.warn("SAXException parsing xml bytes", e);
    }
    return records;
  }

  private static List<RawOccurrenceRecord> parseRecord(InputSource inputSource, OccurrenceSchemaType schemaType)
    throws IOException, SAXException {
    RawOccurrenceRecordBuilder builder = new RawOccurrenceRecordBuilder();
    Digester digester = new Digester();
    digester.setNamespaceAware(true);
    digester.setValidating(false);
    digester.push(builder);
    digester.addRuleSet(RULE_SETS.get(schemaType));
    digester.parse(inputSource);

    builder.resolvePriorities();
    return builder.generateRawOccurrenceRecords();
  }

  /**
   * This method is a hack to return a single result where ScientificName matches the given unitQualifier. This
   * behaviour is only relevant for ABCD 2.06 - the others all produce a single record anyway.
   * TODO: refactor the parse/builder to return what we want, rather than hacking around
   */
  public static RawOccurrenceRecord parseRecord(byte[] xml, OccurrenceSchemaType schemaType, String unitQualifier) {
    RawOccurrenceRecord result = null;
    List<RawOccurrenceRecord> records = parseRecord(xml, schemaType);
    if (records.isEmpty()) {
      LOG.warn("Could not parse any records from given xml - returning null.");
    } else if (records.size() == 1) {
      result = records.get(0);
    } else if (unitQualifier == null) {
      LOG.warn("Got multiple records from given xml, but no unitQualifier set - returning first record as a guess.");
      result = records.get(0);
    } else {
      for (RawOccurrenceRecord record : records) {
        if (record.getScientificName().equals(unitQualifier)) {
          result = record;
          break;
        }
      }
      if (result == null) {
        LOG.warn("Got multiple records from xml but none matched unitQualifier - returning null");
      }
    }

    return result;
  }

  /**
   * Extract sets of UniqueIdentifiers from the xml snippet. In the usual case the set will contain a single
   * result, which will in turn contain 1 or more UniqueIdentifiers for the given xml. In the ABCD 2 case there
   * may be more than one occurrence represented by the given xml, in which case there will be an
   * IdentifierExtractionResult (with UniqueIdentifiers) returned for each of the represented occurrences (e.g. if 3
   * occurrences are in the xml snippet and each have one UniqueIdentifier the result will be a set of 3
   * IdentifierExtractionResults, where each result contains a single UniqueIdentifier). If the passed in xml is
   * somehow malformed there may be 0 UniqueIdentifiers found, in which case an empty set is returned.
   *
   * @param datasetKey      UUID for this dataset
   * @param xml             snippet of xml representing one (or more, in ABCD) occurrence
   * @param schemaType      the protocol that produced this xml (e.g. DWC, ABCD)
   * @param useOccurrenceId @return a set of 0 or more IdentifierExtractionResults containing UniqueIdentifiers as found
   *                        in the xml
   *
   * @see UniqueIdentifier
   */
  public static Set<IdentifierExtractionResult> extractIdentifiers(UUID datasetKey, byte[] xml,
    OccurrenceSchemaType schemaType, boolean useTriplet, boolean useOccurrenceId) {
    Set<IdentifierExtractionResult> results = Sets.newHashSet();

    // this is somewhat wasteful, but a whole separate stack of parsing to extract triplet seems excessive
    List<RawOccurrenceRecord> records = parseRecord(xml, schemaType);
    if (records != null && !records.isEmpty()) {
      for (RawOccurrenceRecord record : records) {
        Set<UniqueIdentifier> ids = Sets.newHashSet();

        if (useTriplet) {
          HolyTriplet holyTriplet = null;
          try {
            holyTriplet = new HolyTriplet(datasetKey, record.getInstitutionCode(), record.getCollectionCode(),
              record.getCatalogueNumber(), record.getUnitQualifier());
          } catch (IllegalArgumentException e) {
            // some of the triplet was null or empty, so it's not valid - that's highly suspicious, but could be ok...
            LOG.info("No holy triplet for an xml snippet in dataset [{}] and schema [{}], got error [{}]",
              new String[] {datasetKey.toString(), schemaType.toString(), e.getMessage()});
          }
          if (holyTriplet != null) ids.add(holyTriplet);
        }

        if (useOccurrenceId) {
          if (record.getIdentifierRecords() != null && !record.getIdentifierRecords().isEmpty()) {
            for (IdentifierRecord idRecord : record.getIdentifierRecords()) {
              // TODO: this needs much better checking (ie can we trust that guid (type 1) and sourceid (type 7) are
              // getting set and parsed properly?)
              // TODO: identifier types need to be enums
              if (idRecord.getIdentifierType() == 1 || idRecord.getIdentifierType() == 7) {
                if (idRecord.getIdentifier() != null) {
                  ids.add(new PublisherProvidedUniqueIdentifier(datasetKey, idRecord.getIdentifier()));
                }
              }
            }
          }
        }

        if (!ids.isEmpty()) {
          results.add(new IdentifierExtractionResult(ids, record.getUnitQualifier()));
        }
      }
    }

    return results;
  }
}