ParquetLoader.java example

Explorer

parquet-mr-master
- parquet-avro
  - src
    - main
      - java
        parquet
        avro
        AvroDataSupplier.java
        AvroIndexedRecordConverter.java
        AvroParquetInputFormat.java
        AvroParquetOutputFormat.java
        AvroParquetReader.java
        AvroParquetWriter.java
        AvroReadSupport.java
        AvroRecordMaterializer.java
        AvroSchemaConverter.java
        AvroWriteSupport.java
        SpecificDataSupplier.java
        package-info.java
    - test
      - java
        parquet
        avro
        TestAvroSchemaConverter.java
        TestInputOutputFormat.java
        TestReadWrite.java
        TestSpecificInputOutputFormat.java
        TestSpecificReadWrite.java
- parquet-cascading
  - src
    - main
      - java
        parquet
        cascading
        ParquetTBaseScheme.java
        ParquetTupleScheme.java
        ParquetValueScheme.java
        SchemaIntersection.java
        TupleReadSupport.java
        TupleWriteSupport.java
        convert
        TupleConverter.java
        TupleRecordMaterializer.java
    - test
      - java
        parquet
        cascading
        TestParquetTBaseScheme.java
        TestParquetTupleScheme.java
- parquet-column
  - src
    - main
      - java
        parquet
        column
        ColumnDescriptor.java
        ColumnReadStore.java
        ColumnReader.java
        ColumnWriteStore.java
        ColumnWriter.java
        Dictionary.java
        Encoding.java
        ParquetProperties.java
        UnknownColumnException.java
        UnknownColumnTypeException.java
        ValuesType.java
        impl
        ColumnReadStoreImpl.java
        ColumnReaderImpl.java
        ColumnWriteStoreV1.java
        ColumnWriteStoreV2.java
        ColumnWriterV1.java
        ColumnWriterV2.java
        page
        DataPage.java
        DataPageV1.java
        DataPageV2.java
        DictionaryPage.java
        Page.java
        PageReadStore.java
        PageReader.java
        PageWriteStore.java
        PageWriter.java
        statistics
        BinaryStatistics.java
        BooleanStatistics.java
        DoubleStatistics.java
        FloatStatistics.java
        IntStatistics.java
        LongStatistics.java
        Statistics.java
        StatisticsClassException.java
        values
        RequiresFallback.java
        ValuesReader.java
        ValuesWriter.java
        bitpacking
        BitPackingValuesReader.java
        BitPackingValuesWriter.java
        ByteBitPackingValuesReader.java
        ByteBitPackingValuesWriter.java
        boundedint
        BitReader.java
        BitWriter.java
        BoundedIntValuesFactory.java
        BoundedIntValuesReader.java
        BoundedIntValuesWriter.java
        DevNullValuesWriter.java
        ZeroIntegerValuesReader.java
        delta
        DeltaBinaryPackingConfig.java
        DeltaBinaryPackingValuesReader.java
        DeltaBinaryPackingValuesWriter.java
        deltalengthbytearray
        DeltaLengthByteArrayValuesReader.java
        DeltaLengthByteArrayValuesWriter.java
        deltastrings
        DeltaByteArrayReader.java
        DeltaByteArrayWriter.java
        dictionary
        DictionaryValuesReader.java
        DictionaryValuesWriter.java
        IntList.java
        PlainValuesDictionary.java
        fallback
        FallbackValuesWriter.java
        plain
        BinaryPlainValuesReader.java
        BooleanPlainValuesReader.java
        BooleanPlainValuesWriter.java
        FixedLenByteArrayPlainValuesReader.java
        FixedLenByteArrayPlainValuesWriter.java
        PlainValuesReader.java
        PlainValuesWriter.java
        rle
        RunLengthBitPackingHybridDecoder.java
        RunLengthBitPackingHybridEncoder.java
        RunLengthBitPackingHybridValuesReader.java
        RunLengthBitPackingHybridValuesWriter.java
        example
        DummyRecordConverter.java
        Paper.java
        data
        Group.java
        GroupFactory.java
        GroupValueSource.java
        GroupWriter.java
        simple
        BinaryValue.java
        BooleanValue.java
        DoubleValue.java
        FloatValue.java
        Int96Value.java
        IntegerValue.java
        LongValue.java
        NanoTime.java
        Primitive.java
        SimpleGroup.java
        SimpleGroupFactory.java
        convert
        GroupRecordConverter.java
        SimpleGroupConverter.java
        SimplePrimitiveConverter.java
        filter
        AndRecordFilter.java
        ColumnPredicates.java
        ColumnRecordFilter.java
        NotRecordFilter.java
        OrRecordFilter.java
        PagedRecordFilter.java
        RecordFilter.java
        UnboundRecordFilter.java
        filter2
        compat
        FilterCompat.java
        predicate
        FilterApi.java
        FilterPredicate.java
        LogicalInverseRewriter.java
        LogicalInverter.java
        Operators.java
        SchemaCompatibilityValidator.java
        Statistics.java
        UserDefinedPredicate.java
        ValidTypeMap.java
        recordlevel
        FilteringGroupConverter.java
        FilteringPrimitiveConverter.java
        FilteringRecordMaterializer.java
        IncrementallyUpdatedFilterPredicate.java
        IncrementallyUpdatedFilterPredicateBuilderBase.java
        IncrementallyUpdatedFilterPredicateEvaluator.java
        IncrementallyUpdatedFilterPredicateResetter.java
        io
        BaseRecordReader.java
        ColumnIO.java
        ColumnIOFactory.java
        CompilationException.java
        EmptyRecordReader.java
        FilteredRecordReader.java
        GroupColumnIO.java
        InvalidRecordException.java
        MessageColumnIO.java
        ParquetDecodingException.java
        ParquetEncodingException.java
        PrimitiveColumnIO.java
        RecordConsumerLoggingWrapper.java
        RecordReader.java
        RecordReaderImplementation.java
        ValidatingRecordConsumer.java
        api
        Binary.java
        Converter.java
        GroupConverter.java
        PrimitiveConverter.java
        RecordConsumer.java
        RecordMaterializer.java
        schema
        ConversionPatterns.java
        DecimalMetadata.java
        GroupType.java
        IncompatibleSchemaModificationException.java
        MessageType.java
        MessageTypeParser.java
        OriginalType.java
        PrimitiveType.java
        Type.java
        TypeConverter.java
        TypeVisitor.java
        Types.java
    - test
      - java
        parquet
        column
        impl
        TestColumnReaderImpl.java
        mem
        TestMemColumn.java
        TestMemPageStore.java
        page
        mem
        MemPageReader.java
        MemPageStore.java
        MemPageWriter.java
        statistics
        TestStatistics.java
        values
        RandomStr.java
        Utils.java
        bitpacking
        BitPackingPerfTest.java
        TestBitPackingColumn.java
        boundedint
        TestBoundedColumns.java
        delta
        DeltaBinaryPackingValuesWriterTest.java
        benchmark
        BenchMarkTest.java
        BenchmarkIntegerOutputSize.java
        BenchmarkReadingRandomIntegers.java
        RandomWritingBenchmarkTest.java
        SmallRangeWritingBenchmarkTest.java
        deltalengthbytearray
        TestDeltaLengthByteArray.java
        benchmark
        BenchmarkDeltaLengthByteArray.java
        deltastrings
        TestDeltaByteArray.java
        benchmark
        BenchmarkDeltaByteArray.java
        dictionary
        TestDictionary.java
        rle
        RunLengthBitPackingHybridIntegrationTest.java
        TestRunLengthBitPackingHybridEncoder.java
        filter2
        predicate
        DummyUdp.java
        TestFilterApiMethods.java
        TestLogicalInverseRewriter.java
        TestLogicalInverter.java
        TestSchemaCompatibilityValidator.java
        TestValidTypeMap.java
        recordlevel
        TestIncrementallyUpdatedFilterPredicateEvaluator.java
        TestIncrementallyUpdatedFilterPredicateResetter.java
        TestValueInspector.java
        io
        ConverterConsumer.java
        ExpectationValidatingConverter.java
        ExpectationValidatingRecordConsumer.java
        PerfTest.java
        TestColumnIO.java
        TestFiltered.java
        parser
        TestParquetParser.java
        schema
        TestMessageType.java
        TestTypeBuilders.java
- parquet-common
  - src
    - main
      - java
        parquet
        Closeables.java
        Ints.java
        Log.java
        ParquetRuntimeException.java
        Preconditions.java
        Version.java
        bytes
        BytesUtils.java
        common
        internal
        Canonicalizer.java
        schema
        ColumnPath.java
    - test
      - java
        parquet
        TestLog.java
        bytes
        TestBytesUtil.java
- parquet-encoding
  - src
    - main
      - java
        parquet
        bytes
        BytesInput.java
        CapacityByteArrayOutputStream.java
        LittleEndianDataInputStream.java
        LittleEndianDataOutputStream.java
        column
        values
        bitpacking
        BitPacking.java
        ByteBasedBitPackingEncoder.java
        BytePacker.java
        BytePackerFactory.java
        IntPacker.java
        IntPackerFactory.java
        Packer.java
    - test
      - java
        parquet
        bytes
        TestCapacityByteArrayOutputStream.java
        column
        values
        bitpacking
        TestBitPacking.java
        TestByteBasedBitPackingEncoder.java
        TestByteBitPacking.java
        TestLemireBitPacking.java
- parquet-generator
  - src
    - main
      - java
        parquet
        encoding
        Generator.java
        bitpacking
        ByteBasedBitPackingGenerator.java
        IntBasedBitPackingGenerator.java
        filter2
        Generator.java
        IncrementallyUpdatedFilterPredicateGenerator.java
- parquet-hadoop
  - src
    - main
      - java
        parquet
        filter2
        compat
        RowGroupFilter.java
        statisticslevel
        StatisticsFilter.java
        format
        converter
        ParquetMetadataConverter.java
        hadoop
        BadConfigurationException.java
        CodecFactory.java
        ColumnChunkPageReadStore.java
        ColumnChunkPageWriteStore.java
        Footer.java
        InternalParquetRecordReader.java
        InternalParquetRecordWriter.java
        LruCache.java
        MemoryManager.java
        ParquetFileReader.java
        ParquetFileWriter.java
        ParquetInputFormat.java
        ParquetInputSplit.java
        ParquetOutputCommitter.java
        ParquetOutputFormat.java
        ParquetReader.java
        ParquetRecordReader.java
        ParquetRecordWriter.java
        ParquetWriter.java
        PrintFooter.java
        api
        DelegatingReadSupport.java
        DelegatingWriteSupport.java
        InitContext.java
        ReadSupport.java
        WriteSupport.java
        package-info.java
        codec
        CodecConfig.java
        CompressionCodecNotSupportedException.java
        NonBlockedCompressorStream.java
        NonBlockedDecompressorStream.java
        SnappyCodec.java
        SnappyCompressor.java
        SnappyDecompressor.java
        SnappyUtil.java
        example
        ExampleInputFormat.java
        ExampleOutputFormat.java
        GroupReadSupport.java
        GroupWriteSupport.java
        mapred
        Container.java
        DeprecatedParquetInputFormat.java
        DeprecatedParquetOutputFormat.java
        metadata
        BlockMetaData.java
        ColumnChunkMetaData.java
        ColumnChunkProperties.java
        CompressionCodecName.java
        EncodingList.java
        FileMetaData.java
        GlobalMetaData.java
        ParquetMetadata.java
        package-info.java
        util
        ConfigurationUtil.java
        ContextUtil.java
        SerializationUtil.java
        counters
        BenchmarkCounter.java
        CounterLoader.java
        ICounter.java
        mapred
        MapRedCounterAdapter.java
        MapRedCounterLoader.java
        mapreduce
        MapReduceCounterAdapter.java
        MapReduceCounterLoader.java
    - test
      - java
        parquet
        filter2
        compat
        TestRowGroupFilter.java
        recordlevel
        PhoneBookWriter.java
        TestRecordLevelFilters.java
        statisticslevel
        TestStatisticsFilter.java
        format
        converter
        TestParquetMetadataConverter.java
        hadoop
        DeprecatedInputFormatTest.java
        DeprecatedOutputFormatTest.java
        TestColumnChunkPageWriteStore.java
        TestInputFormat.java
        TestLruCache.java
        TestMemoryManager.java
        TestParquetFileWriter.java
        TestParquetWriter.java
        TestParquetWriterNewPage.java
        TestSnappyCodec.java
        TestUtils.java
        codec
        CodecConfigTest.java
        example
        GroupReadSupportTest.java
        TestInputOutputFormat.java
        metadata
        TestColumnChunkMetaData.java
        util
        TestSerializationUtil.java
- parquet-hive
  - parquet-hive-binding
    - parquet-hive-0.10-binding
      - src
        main
        java
        parquet
        hive
        internal
        Hive010Binding.java
    - parquet-hive-0.12-binding
      - src
        main
        java
        parquet
        hive
        internal
        Hive012Binding.java
    - parquet-hive-binding-factory
      - src
        main
        java
        parquet
        hive
        HiveBindingFactory.java
        test
        java
        parquet
        hive
        TestHiveBindingFactory.java
    - parquet-hive-binding-interface
      - src
        main
        java
        parquet
        hive
        HiveBinding.java
        internal
        AbstractHiveBinding.java
  - parquet-hive-storage-handler
    - src
      - main
        java
        org
        apache
        hadoop
        hive
        ql
        io
        IOConstants.java
        parquet
        MapredParquetInputFormat.java
        MapredParquetOutputFormat.java
        convert
        ArrayWritableGroupConverter.java
        DataWritableGroupConverter.java
        DataWritableRecordConverter.java
        ETypeConverter.java
        HiveGroupConverter.java
        HiveSchemaConverter.java
        read
        DataWritableReadSupport.java
        ParquetRecordReaderWrapper.java
        serde
        AbstractParquetMapInspector.java
        ArrayWritableObjectInspector.java
        DeepParquetHiveMapInspector.java
        ParquetHiveArrayInspector.java
        ParquetHiveSerDe.java
        StandardParquetHiveMapInspector.java
        primitive
        ParquetByteInspector.java
        ParquetPrimitiveInspectorFactory.java
        ParquetShortInspector.java
        writable
        BigDecimalWritable.java
        BinaryWritable.java
        write
        DataWritableWriteSupport.java
        DataWritableWriter.java
        ParquetRecordWriterWrapper.java
        serde2
        objectinspector
        primitive
        ParquetStringInspector.java
        parquet
        hive
        DeprecatedParquetInputFormat.java
        DeprecatedParquetOutputFormat.java
        MapredParquetInputFormat.java
        MapredParquetOutputFormat.java
        serde
        ParquetHiveSerDe.java
      - test
        java
        org
        apache
        hadoop
        hive
        ql
        io
        parquet
        TestHiveSchemaConverter.java
        TestMapredParquetInputFormat.java
        TestMapredParquetOutputFormat.java
        TestParquetSerDe.java
        serde
        TestAbstractParquetMapInspector.java
        TestDeepParquetHiveMapInspector.java
        TestParquetHiveArrayInspector.java
        TestStandardParquetHiveMapInspector.java
- parquet-pig
  - src
    - main
      - java
        parquet
        pig
        ParquetLoader.java
        ParquetStorer.java
        PigMetaData.java
        PigSchemaConverter.java
        SchemaConversionException.java
        TupleConversionException.java
        TupleReadSupport.java
        TupleWriteSupport.java
        convert
        MapConverter.java
        ParentValueContainer.java
        TupleConverter.java
        TupleRecordMaterializer.java
        summary
        BagSummaryData.java
        EnumStat.java
        FieldSummaryData.java
        MapSummaryData.java
        NumberSummaryData.java
        StringSummaryData.java
        Summary.java
        SummaryData.java
        TupleSummaryData.java
        ValueStat.java
    - test
      - java
        parquet
        pig
        PerfTest.java
        PerfTest2.java
        PerfTestReadAllCols.java
        TestParquetLoader.java
        TestParquetStorer.java
        TestPigSchemaConverter.java
        TestTupleRecordConsumer.java
        TupleConsumerPerfTest.java
        summary
        TestSummary.java
- parquet-protobuf
  - src
    - main
      - java
        parquet
        proto
        ProtoMessageConverter.java
        ProtoParquetInputFormat.java
        ProtoParquetOutputFormat.java
        ProtoParquetReader.java
        ProtoParquetWriter.java
        ProtoReadSupport.java
        ProtoRecordConverter.java
        ProtoRecordMaterializer.java
        ProtoSchemaConverter.java
        ProtoWriteSupport.java
    - test
      - java
        parquet
        proto
        ProtoInputOutputFormatTest.java
        ProtoRecordConverterTest.java
        ProtoSchemaConverterTest.java
        ProtoWriteSupportTest.java
        TestUtils.java
        utils
        ReadUsingMR.java
        WriteUsingMR.java
- parquet-scrooge
  - src
    - main
      - java
        parquet
        scrooge
        ParquetScroogeInputFormat.java
        ParquetScroogeOutputFormat.java
        ParquetScroogeScheme.java
        ScroogeReadSupport.java
        ScroogeRecordConverter.java
        ScroogeSchemaConversionException.java
        ScroogeStructConverter.java
        ScroogeWriteSupport.java
    - test
      - java
        parquet
        scrooge
        ParquetScroogeSchemeTest.java
        ScroogeStructConverterTest.java
- parquet-thrift
  - src
    - main
      - java
        parquet
        hadoop
        thrift
        AbstractThriftWriteSupport.java
        ParquetThriftBytesOutputFormat.java
        ParquetThriftInputFormat.java
        ParquetThriftOutputFormat.java
        TBaseWriteSupport.java
        ThriftBytesWriteSupport.java
        ThriftReadSupport.java
        ThriftToParquetFileWriter.java
        ThriftWriteSupport.java
        thrift
        BufferedProtocolReadToWrite.java
        DecodingSchemaMismatchException.java
        FieldIgnoredHandler.java
        ParquetProtocol.java
        ParquetReadProtocol.java
        ParquetWriteProtocol.java
        ProtocolPipe.java
        ProtocolReadToWrite.java
        SkippableException.java
        TBaseRecordConverter.java
        ThriftMetaData.java
        ThriftParquetReader.java
        ThriftParquetWriter.java
        ThriftReader.java
        ThriftRecordConverter.java
        ThriftSchemaConvertVisitor.java
        ThriftSchemaConverter.java
        pig
        ParquetThriftStorer.java
        TupleToThriftWriteSupport.java
        projection
        FieldProjectionFilter.java
        FieldsPath.java
        PathGlobPattern.java
        ThriftProjectionException.java
        amend
        DefaultEventsVisitor.java
        DefaultProtocolEventsGenerator.java
        ProtocolEventsAmender.java
        ReadFieldBeginProtocol.java
        struct
        CompatibilityChecker.java
        CompatibilityRunner.java
        JSON.java
        ThriftField.java
        ThriftType.java
        ThriftTypeID.java
    - test
      - java
        parquet
        hadoop
        thrift
        TestInputOutputFormat.java
        TestParquetToThriftReadWriteAndProjection.java
        TestThriftToParquetFileWriter.java
        thrift
        TestParquetReadProtocol.java
        TestParquetWriteProtocol.java
        TestProtocolReadToWrite.java
        TestThriftParquetReaderWriter.java
        TestThriftSchemaConverter.java
        TestThriftToPigCompatibility.java
        pig
        TestParquetThriftStorer.java
        projection
        PathGlobPatternTest.java
        struct
        CompatibilityCheckerTest.java
- parquet-tools
  - src
    - main
      - java
        parquet
        tools
        Main.java
        command
        ArgsOnlyCommand.java
        CatCommand.java
        Command.java
        DumpCommand.java
        HeadCommand.java
        Registry.java
        ShowMetaCommand.java
        ShowSchemaCommand.java
        read
        SimpleReadSupport.java
        SimpleRecord.java
        SimpleRecordConverter.java
        SimpleRecordMaterializer.java
        util
        MetadataUtils.java
        PrettyPrintWriter.java

/* 
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 * 
 *   http://www.apache.org/licenses/LICENSE-2.0
 * 
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package parquet.pig;

import static java.util.Arrays.asList;
import static org.apache.hadoop.mapreduce.lib.input.FileInputFormat.setInputPaths;
import static parquet.Log.DEBUG;
import static parquet.hadoop.util.ContextUtil.getConfiguration;
import static parquet.pig.PigSchemaConverter.parsePigSchema;
import static parquet.pig.PigSchemaConverter.pigSchemaToString;
import static parquet.pig.PigSchemaConverter.serializeRequiredFieldList;
import static parquet.pig.TupleReadSupport.PARQUET_PIG_SCHEMA;
import static parquet.pig.TupleReadSupport.PARQUET_PIG_REQUIRED_FIELDS;
import static parquet.pig.TupleReadSupport.PARQUET_COLUMN_INDEX_ACCESS;
import static parquet.pig.TupleReadSupport.getPigSchemaFromMultipleFiles;

import java.io.IOException;
import java.lang.ref.Reference;
import java.lang.ref.SoftReference;
import java.util.List;
import java.util.Map;
import java.util.WeakHashMap;

import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.pig.Expression;
import org.apache.pig.LoadFunc;
import org.apache.pig.LoadMetadata;
import org.apache.pig.LoadPushDown;
import org.apache.pig.ResourceSchema;
import org.apache.pig.ResourceStatistics;
import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.logicalLayer.FrontendException;
import org.apache.pig.impl.logicalLayer.schema.Schema;
import org.apache.pig.impl.logicalLayer.schema.Schema.FieldSchema;
import org.apache.pig.impl.util.UDFContext;
import org.apache.pig.parser.ParserException;

import parquet.Log;
import parquet.hadoop.ParquetInputFormat;
import parquet.hadoop.metadata.GlobalMetaData;
import parquet.io.ParquetDecodingException;

/**
 *
 * A Pig Loader for the Parquet file format.
 *
 *
 * @author Julien Le Dem
 *
 */
public class ParquetLoader extends LoadFunc implements LoadMetadata, LoadPushDown {
  private static final Log LOG = Log.getLog(ParquetLoader.class);

  // Using a weak hash map will ensure that the cache will be gc'ed when there is memory pressure
  static final Map<String, Reference<ParquetInputFormat<Tuple>>> inputFormatCache = new WeakHashMap<String, Reference<ParquetInputFormat<Tuple>>>();

  private Schema requestedSchema;
  private boolean columnIndexAccess;

  private String location;
  private boolean setLocationHasBeenCalled = false;
  private RecordReader<Void, Tuple> reader;
  private ParquetInputFormat<Tuple> parquetInputFormat;
  private Schema schema;
  private RequiredFieldList requiredFieldList = null;
  protected String signature;

  /**
   * To read the content in its original schema
   */
  public ParquetLoader() {
    this(null);
  }

  /**
   * To read only a subset of the columns in the file
   * @param requestedSchemaStr a subset of the original pig schema in the file
   */
  public ParquetLoader(String requestedSchemaStr) {
    this(parsePigSchema(requestedSchemaStr), false);
  }

  /**
   * To read only a subset of the columns in the file optionally assigned by
   * column positions.  Using column positions allows for renaming the fields
   * and is more inline with the "schema-on-read" approach to accessing file
   * data.
   *
   * Example:
   * File Schema:  'c1:int, c2:float, c3:double, c4:long'
   * ParquetLoader('n1:int, n2:float, n3:double, n4:long', 'true');
   *
   * This will use the names provided in the requested schema and assign them
   * to column positions indicated by order.
   *
   * @param requestedSchemaStr a subset of the original pig schema in the file
   * @param columnIndexAccess use column index positions as opposed to name (default: false)
   */
  public ParquetLoader(String requestedSchemaStr, String columnIndexAccess) {
    this(parsePigSchema(requestedSchemaStr), Boolean.parseBoolean(columnIndexAccess));
  }

  /**
   * Use the provided schema to access the underlying file data.
   *
   * The same as the string based constructor but for programmatic use.
   *
   * @param requestedSchema a subset of the original pig schema in the file
   * @param columnIndexAccess
   */
  public ParquetLoader(Schema requestedSchema, boolean columnIndexAccess) {
    this.requestedSchema = requestedSchema;
    this.columnIndexAccess = columnIndexAccess;
  }

  @Override
  public void setLocation(String location, Job job) throws IOException {
    if (DEBUG) LOG.debug("LoadFunc.setLocation(" + location + ", " + job + ")");

    setInput(location, job);
  }

  private void setInput(String location, Job job) throws IOException {
    this.setLocationHasBeenCalled  = true;
    this.location = location;
    setInputPaths(job, location);

    //This is prior to load because the initial value comes from the constructor
    //not file metadata or pig framework and would get overwritten in initSchema().
    if(UDFContext.getUDFContext().isFrontend()) {
      storeInUDFContext(PARQUET_COLUMN_INDEX_ACCESS, Boolean.toString(columnIndexAccess));
    }

    schema = PigSchemaConverter.parsePigSchema(getPropertyFromUDFContext(PARQUET_PIG_SCHEMA));
    requiredFieldList = PigSchemaConverter.deserializeRequiredFieldList(getPropertyFromUDFContext(PARQUET_PIG_REQUIRED_FIELDS));
    columnIndexAccess = Boolean.parseBoolean(getPropertyFromUDFContext(PARQUET_COLUMN_INDEX_ACCESS));

    initSchema(job);

    if(UDFContext.getUDFContext().isFrontend()) {
      //Setting for task-side loading via initSchema()
      storeInUDFContext(PARQUET_PIG_SCHEMA, pigSchemaToString(schema));
      storeInUDFContext(PARQUET_PIG_REQUIRED_FIELDS, serializeRequiredFieldList(requiredFieldList));
    }

    //Used by task-side loader via TupleReadSupport
    getConfiguration(job).set(PARQUET_PIG_SCHEMA, pigSchemaToString(schema));
    getConfiguration(job).set(PARQUET_PIG_REQUIRED_FIELDS, serializeRequiredFieldList(requiredFieldList));
    getConfiguration(job).set(PARQUET_COLUMN_INDEX_ACCESS, Boolean.toString(columnIndexAccess));
  }

  @Override
  public InputFormat<Void, Tuple> getInputFormat() throws IOException {
    if (DEBUG) LOG.debug("LoadFunc.getInputFormat()");
    return getParquetInputFormat();
  }

  private void checkSetLocationHasBeenCalled() {
    if (!setLocationHasBeenCalled) {
      throw new IllegalStateException("setLocation() must be called first");
    }
  }

  private static class UnregisteringParquetInputFormat extends ParquetInputFormat<Tuple> {

    private final String location;

    public UnregisteringParquetInputFormat(String location) {
      super(TupleReadSupport.class);
      this.location = location;
    }

    @Override
    public RecordReader<Void, Tuple> createRecordReader(
        InputSplit inputSplit, TaskAttemptContext taskAttemptContext)
            throws IOException, InterruptedException {
      // for local mode we don't want to keep that around
      inputFormatCache.remove(location);
      return super.createRecordReader(inputSplit, taskAttemptContext);
    }
  };

  private ParquetInputFormat<Tuple> getParquetInputFormat() throws ParserException {
    checkSetLocationHasBeenCalled();
    if (parquetInputFormat == null) {
      // unfortunately Pig will create many Loaders, so we cache the inputformat to avoid reading the metadata more than once
      Reference<ParquetInputFormat<Tuple>> ref = inputFormatCache.get(location);
      parquetInputFormat = ref == null ? null : ref.get();
      if (parquetInputFormat == null) {
        parquetInputFormat = new UnregisteringParquetInputFormat(location);
        inputFormatCache.put(location, new SoftReference<ParquetInputFormat<Tuple>>(parquetInputFormat));
      }
    }
    return parquetInputFormat;
  }

  @SuppressWarnings("unchecked")
  @Override
  public void prepareToRead(@SuppressWarnings("rawtypes") RecordReader reader, PigSplit split)
      throws IOException {
    if (DEBUG) LOG.debug("LoadFunc.prepareToRead(" + reader + ", " + split + ")");
    this.reader = reader;
  }

  @Override
  public Tuple getNext() throws IOException {
    try {
      if (reader.nextKeyValue()) {
        return (Tuple)reader.getCurrentValue();
      } else {
        return null;
      }
    } catch (InterruptedException e) {
      Thread.interrupted();
      throw new ParquetDecodingException("Interrupted", e);
    }
  }

  @Override
  public String[] getPartitionKeys(String location, Job job) throws IOException {
    if (DEBUG) LOG.debug("LoadMetadata.getPartitionKeys(" + location + ", " + job + ")");
    setInput(location, job);
    return null;
  }

  @Override
  public ResourceSchema getSchema(String location, Job job) throws IOException {
    if (DEBUG) LOG.debug("LoadMetadata.getSchema(" + location + ", " + job + ")");
    setInput(location, job);
    return new ResourceSchema(schema);
  }

  private void initSchema(Job job) throws IOException {
    if (schema != null) {
      return;
    }
    if (schema == null && requestedSchema != null) {
      // this is only true in front-end
      schema = requestedSchema;
    }
    if (schema == null) {
      // no requested schema => use the schema from the file
      final GlobalMetaData globalMetaData = getParquetInputFormat().getGlobalMetaData(job);
      schema = getPigSchemaFromMultipleFiles(globalMetaData.getSchema(), globalMetaData.getKeyValueMetaData());
    }
    if (isElephantBirdCompatible(job)) {
      convertToElephantBirdCompatibleSchema(schema);
    }
  }

  private void convertToElephantBirdCompatibleSchema(Schema schema) {
    if (schema == null) {
      return;
    }
    for(FieldSchema fieldSchema:schema.getFields()){
      if (fieldSchema.type== DataType.BOOLEAN) {
        fieldSchema.type=DataType.INTEGER;
      }
      convertToElephantBirdCompatibleSchema(fieldSchema.schema);
    }
  }

  private boolean isElephantBirdCompatible(Job job) {
    return getConfiguration(job).getBoolean(TupleReadSupport.PARQUET_PIG_ELEPHANT_BIRD_COMPATIBLE, false);
  }

  @Override
  public ResourceStatistics getStatistics(String location, Job job)
      throws IOException {
    if (DEBUG) LOG.debug("LoadMetadata.getStatistics(" + location + ", " + job + ")");
    /* We need to call setInput since setLocation is not
       guaranteed to be called before this */
    setInput(location, job);
    long length = 0;
    try {
      for (InputSplit split : getParquetInputFormat().getSplits(job)) {
        length += split.getLength();
      }
    } catch (InterruptedException e) {
      LOG.warn("Interrupted: ", e);
      return null;
    }
    ResourceStatistics stats = new ResourceStatistics();
    // TODO use pig-0.12 setBytes api when its available
    stats.setmBytes(length / 1024 / 1024);
    return stats;
  }

  @Override
  public void setPartitionFilter(Expression expression) throws IOException {
    if (DEBUG) LOG.debug("LoadMetadata.setPartitionFilter(" + expression + ")");
  }

  @Override
  public List<OperatorSet> getFeatures() {
    return asList(LoadPushDown.OperatorSet.PROJECTION);
  }

  protected String getPropertyFromUDFContext(String key) {
    UDFContext udfContext = UDFContext.getUDFContext();
    return udfContext.getUDFProperties(this.getClass(), new String[]{signature}).getProperty(key);
  }

  protected Object getFromUDFContext(String key) {
    UDFContext udfContext = UDFContext.getUDFContext();
    return udfContext.getUDFProperties(this.getClass(), new String[]{signature}).get(key);
  }

  protected void storeInUDFContext(String key, Object value) {
    UDFContext udfContext = UDFContext.getUDFContext();
    java.util.Properties props = udfContext.getUDFProperties(
        this.getClass(), new String[]{signature});
    props.put(key, value);
  }

  @Override
  public RequiredFieldResponse pushProjection(RequiredFieldList requiredFieldList)
      throws FrontendException {
    this.requiredFieldList = requiredFieldList;

    if (requiredFieldList == null)
      return null;

    schema = getSchemaFromRequiredFieldList(schema, requiredFieldList.getFields());
    storeInUDFContext(PARQUET_PIG_SCHEMA, pigSchemaToString(schema));
    storeInUDFContext(PARQUET_PIG_REQUIRED_FIELDS, serializeRequiredFieldList(requiredFieldList));

    return new RequiredFieldResponse(true);
  }

  @Override
  public void setUDFContextSignature(String signature) {
      this.signature = signature;
  }

  private Schema getSchemaFromRequiredFieldList(Schema schema, List<RequiredField> fieldList)
      throws FrontendException {
    Schema s = new Schema();
    for (RequiredField rf : fieldList) {
      FieldSchema f;
      try {
        f = schema.getField(rf.getAlias()).clone();
      } catch (CloneNotSupportedException e) {
        throw new FrontendException("Clone not supported for the fieldschema", e);
      }
      if (rf.getSubFields() == null) {
        s.add(f);
      } else {
        Schema innerSchema = getSchemaFromRequiredFieldList(f.schema, rf.getSubFields());
        if (innerSchema == null) {
          return null;
        } else {
          f.schema = innerSchema;
          s.add(f);
        }
      }
    }
    return s;
  }

}