AvroParquetInputFormat.java example

Explorer

parquet-mr-master
- parquet-avro
  - src
    - main
      - java
        parquet
        avro
        AvroDataSupplier.java
        AvroIndexedRecordConverter.java
        AvroParquetInputFormat.java
        AvroParquetOutputFormat.java
        AvroParquetReader.java
        AvroParquetWriter.java
        AvroReadSupport.java
        AvroRecordMaterializer.java
        AvroSchemaConverter.java
        AvroWriteSupport.java
        SpecificDataSupplier.java
        package-info.java
    - test
      - java
        parquet
        avro
        TestAvroSchemaConverter.java
        TestInputOutputFormat.java
        TestReadWrite.java
        TestSpecificInputOutputFormat.java
        TestSpecificReadWrite.java
- parquet-cascading
  - src
    - main
      - java
        parquet
        cascading
        ParquetTBaseScheme.java
        ParquetTupleScheme.java
        ParquetValueScheme.java
        SchemaIntersection.java
        TupleReadSupport.java
        TupleWriteSupport.java
        convert
        TupleConverter.java
        TupleRecordMaterializer.java
    - test
      - java
        parquet
        cascading
        TestParquetTBaseScheme.java
        TestParquetTupleScheme.java
- parquet-column
  - src
    - main
      - java
        parquet
        column
        ColumnDescriptor.java
        ColumnReadStore.java
        ColumnReader.java
        ColumnWriteStore.java
        ColumnWriter.java
        Dictionary.java
        Encoding.java
        ParquetProperties.java
        UnknownColumnException.java
        UnknownColumnTypeException.java
        ValuesType.java
        impl
        ColumnReadStoreImpl.java
        ColumnReaderImpl.java
        ColumnWriteStoreV1.java
        ColumnWriteStoreV2.java
        ColumnWriterV1.java
        ColumnWriterV2.java
        page
        DataPage.java
        DataPageV1.java
        DataPageV2.java
        DictionaryPage.java
        Page.java
        PageReadStore.java
        PageReader.java
        PageWriteStore.java
        PageWriter.java
        statistics
        BinaryStatistics.java
        BooleanStatistics.java
        DoubleStatistics.java
        FloatStatistics.java
        IntStatistics.java
        LongStatistics.java
        Statistics.java
        StatisticsClassException.java
        values
        RequiresFallback.java
        ValuesReader.java
        ValuesWriter.java
        bitpacking
        BitPackingValuesReader.java
        BitPackingValuesWriter.java
        ByteBitPackingValuesReader.java
        ByteBitPackingValuesWriter.java
        boundedint
        BitReader.java
        BitWriter.java
        BoundedIntValuesFactory.java
        BoundedIntValuesReader.java
        BoundedIntValuesWriter.java
        DevNullValuesWriter.java
        ZeroIntegerValuesReader.java
        delta
        DeltaBinaryPackingConfig.java
        DeltaBinaryPackingValuesReader.java
        DeltaBinaryPackingValuesWriter.java
        deltalengthbytearray
        DeltaLengthByteArrayValuesReader.java
        DeltaLengthByteArrayValuesWriter.java
        deltastrings
        DeltaByteArrayReader.java
        DeltaByteArrayWriter.java
        dictionary
        DictionaryValuesReader.java
        DictionaryValuesWriter.java
        IntList.java
        PlainValuesDictionary.java
        fallback
        FallbackValuesWriter.java
        plain
        BinaryPlainValuesReader.java
        BooleanPlainValuesReader.java
        BooleanPlainValuesWriter.java
        FixedLenByteArrayPlainValuesReader.java
        FixedLenByteArrayPlainValuesWriter.java
        PlainValuesReader.java
        PlainValuesWriter.java
        rle
        RunLengthBitPackingHybridDecoder.java
        RunLengthBitPackingHybridEncoder.java
        RunLengthBitPackingHybridValuesReader.java
        RunLengthBitPackingHybridValuesWriter.java
        example
        DummyRecordConverter.java
        Paper.java
        data
        Group.java
        GroupFactory.java
        GroupValueSource.java
        GroupWriter.java
        simple
        BinaryValue.java
        BooleanValue.java
        DoubleValue.java
        FloatValue.java
        Int96Value.java
        IntegerValue.java
        LongValue.java
        NanoTime.java
        Primitive.java
        SimpleGroup.java
        SimpleGroupFactory.java
        convert
        GroupRecordConverter.java
        SimpleGroupConverter.java
        SimplePrimitiveConverter.java
        filter
        AndRecordFilter.java
        ColumnPredicates.java
        ColumnRecordFilter.java
        NotRecordFilter.java
        OrRecordFilter.java
        PagedRecordFilter.java
        RecordFilter.java
        UnboundRecordFilter.java
        filter2
        compat
        FilterCompat.java
        predicate
        FilterApi.java
        FilterPredicate.java
        LogicalInverseRewriter.java
        LogicalInverter.java
        Operators.java
        SchemaCompatibilityValidator.java
        Statistics.java
        UserDefinedPredicate.java
        ValidTypeMap.java
        recordlevel
        FilteringGroupConverter.java
        FilteringPrimitiveConverter.java
        FilteringRecordMaterializer.java
        IncrementallyUpdatedFilterPredicate.java
        IncrementallyUpdatedFilterPredicateBuilderBase.java
        IncrementallyUpdatedFilterPredicateEvaluator.java
        IncrementallyUpdatedFilterPredicateResetter.java
        io
        BaseRecordReader.java
        ColumnIO.java
        ColumnIOFactory.java
        CompilationException.java
        EmptyRecordReader.java
        FilteredRecordReader.java
        GroupColumnIO.java
        InvalidRecordException.java
        MessageColumnIO.java
        ParquetDecodingException.java
        ParquetEncodingException.java
        PrimitiveColumnIO.java
        RecordConsumerLoggingWrapper.java
        RecordReader.java
        RecordReaderImplementation.java
        ValidatingRecordConsumer.java
        api
        Binary.java
        Converter.java
        GroupConverter.java
        PrimitiveConverter.java
        RecordConsumer.java
        RecordMaterializer.java
        schema
        ConversionPatterns.java
        DecimalMetadata.java
        GroupType.java
        IncompatibleSchemaModificationException.java
        MessageType.java
        MessageTypeParser.java
        OriginalType.java
        PrimitiveType.java
        Type.java
        TypeConverter.java
        TypeVisitor.java
        Types.java
    - test
      - java
        parquet
        column
        impl
        TestColumnReaderImpl.java
        mem
        TestMemColumn.java
        TestMemPageStore.java
        page
        mem
        MemPageReader.java
        MemPageStore.java
        MemPageWriter.java
        statistics
        TestStatistics.java
        values
        RandomStr.java
        Utils.java
        bitpacking
        BitPackingPerfTest.java
        TestBitPackingColumn.java
        boundedint
        TestBoundedColumns.java
        delta
        DeltaBinaryPackingValuesWriterTest.java
        benchmark
        BenchMarkTest.java
        BenchmarkIntegerOutputSize.java
        BenchmarkReadingRandomIntegers.java
        RandomWritingBenchmarkTest.java
        SmallRangeWritingBenchmarkTest.java
        deltalengthbytearray
        TestDeltaLengthByteArray.java
        benchmark
        BenchmarkDeltaLengthByteArray.java
        deltastrings
        TestDeltaByteArray.java
        benchmark
        BenchmarkDeltaByteArray.java
        dictionary
        TestDictionary.java
        rle
        RunLengthBitPackingHybridIntegrationTest.java
        TestRunLengthBitPackingHybridEncoder.java
        filter2
        predicate
        DummyUdp.java
        TestFilterApiMethods.java
        TestLogicalInverseRewriter.java
        TestLogicalInverter.java
        TestSchemaCompatibilityValidator.java
        TestValidTypeMap.java
        recordlevel
        TestIncrementallyUpdatedFilterPredicateEvaluator.java
        TestIncrementallyUpdatedFilterPredicateResetter.java
        TestValueInspector.java
        io
        ConverterConsumer.java
        ExpectationValidatingConverter.java
        ExpectationValidatingRecordConsumer.java
        PerfTest.java
        TestColumnIO.java
        TestFiltered.java
        parser
        TestParquetParser.java
        schema
        TestMessageType.java
        TestTypeBuilders.java
- parquet-common
  - src
    - main
      - java
        parquet
        Closeables.java
        Ints.java
        Log.java
        ParquetRuntimeException.java
        Preconditions.java
        Version.java
        bytes
        BytesUtils.java
        common
        internal
        Canonicalizer.java
        schema
        ColumnPath.java
    - test
      - java
        parquet
        TestLog.java
        bytes
        TestBytesUtil.java
- parquet-encoding
  - src
    - main
      - java
        parquet
        bytes
        BytesInput.java
        CapacityByteArrayOutputStream.java
        LittleEndianDataInputStream.java
        LittleEndianDataOutputStream.java
        column
        values
        bitpacking
        BitPacking.java
        ByteBasedBitPackingEncoder.java
        BytePacker.java
        BytePackerFactory.java
        IntPacker.java
        IntPackerFactory.java
        Packer.java
    - test
      - java
        parquet
        bytes
        TestCapacityByteArrayOutputStream.java
        column
        values
        bitpacking
        TestBitPacking.java
        TestByteBasedBitPackingEncoder.java
        TestByteBitPacking.java
        TestLemireBitPacking.java
- parquet-generator
  - src
    - main
      - java
        parquet
        encoding
        Generator.java
        bitpacking
        ByteBasedBitPackingGenerator.java
        IntBasedBitPackingGenerator.java
        filter2
        Generator.java
        IncrementallyUpdatedFilterPredicateGenerator.java
- parquet-hadoop
  - src
    - main
      - java
        parquet
        filter2
        compat
        RowGroupFilter.java
        statisticslevel
        StatisticsFilter.java
        format
        converter
        ParquetMetadataConverter.java
        hadoop
        BadConfigurationException.java
        CodecFactory.java
        ColumnChunkPageReadStore.java
        ColumnChunkPageWriteStore.java
        Footer.java
        InternalParquetRecordReader.java
        InternalParquetRecordWriter.java
        LruCache.java
        MemoryManager.java
        ParquetFileReader.java
        ParquetFileWriter.java
        ParquetInputFormat.java
        ParquetInputSplit.java
        ParquetOutputCommitter.java
        ParquetOutputFormat.java
        ParquetReader.java
        ParquetRecordReader.java
        ParquetRecordWriter.java
        ParquetWriter.java
        PrintFooter.java
        api
        DelegatingReadSupport.java
        DelegatingWriteSupport.java
        InitContext.java
        ReadSupport.java
        WriteSupport.java
        package-info.java
        codec
        CodecConfig.java
        CompressionCodecNotSupportedException.java
        NonBlockedCompressorStream.java
        NonBlockedDecompressorStream.java
        SnappyCodec.java
        SnappyCompressor.java
        SnappyDecompressor.java
        SnappyUtil.java
        example
        ExampleInputFormat.java
        ExampleOutputFormat.java
        GroupReadSupport.java
        GroupWriteSupport.java
        mapred
        Container.java
        DeprecatedParquetInputFormat.java
        DeprecatedParquetOutputFormat.java
        metadata
        BlockMetaData.java
        ColumnChunkMetaData.java
        ColumnChunkProperties.java
        CompressionCodecName.java
        EncodingList.java
        FileMetaData.java
        GlobalMetaData.java
        ParquetMetadata.java
        package-info.java
        util
        ConfigurationUtil.java
        ContextUtil.java
        SerializationUtil.java
        counters
        BenchmarkCounter.java
        CounterLoader.java
        ICounter.java
        mapred
        MapRedCounterAdapter.java
        MapRedCounterLoader.java
        mapreduce
        MapReduceCounterAdapter.java
        MapReduceCounterLoader.java
    - test
      - java
        parquet
        filter2
        compat
        TestRowGroupFilter.java
        recordlevel
        PhoneBookWriter.java
        TestRecordLevelFilters.java
        statisticslevel
        TestStatisticsFilter.java
        format
        converter
        TestParquetMetadataConverter.java
        hadoop
        DeprecatedInputFormatTest.java
        DeprecatedOutputFormatTest.java
        TestColumnChunkPageWriteStore.java
        TestInputFormat.java
        TestLruCache.java
        TestMemoryManager.java
        TestParquetFileWriter.java
        TestParquetWriter.java
        TestParquetWriterNewPage.java
        TestSnappyCodec.java
        TestUtils.java
        codec
        CodecConfigTest.java
        example
        GroupReadSupportTest.java
        TestInputOutputFormat.java
        metadata
        TestColumnChunkMetaData.java
        util
        TestSerializationUtil.java
- parquet-hive
  - parquet-hive-binding
    - parquet-hive-0.10-binding
      - src
        main
        java
        parquet
        hive
        internal
        Hive010Binding.java
    - parquet-hive-0.12-binding
      - src
        main
        java
        parquet
        hive
        internal
        Hive012Binding.java
    - parquet-hive-binding-factory
      - src
        main
        java
        parquet
        hive
        HiveBindingFactory.java
        test
        java
        parquet
        hive
        TestHiveBindingFactory.java
    - parquet-hive-binding-interface
      - src
        main
        java
        parquet
        hive
        HiveBinding.java
        internal
        AbstractHiveBinding.java
  - parquet-hive-storage-handler
    - src
      - main
        java
        org
        apache
        hadoop
        hive
        ql
        io
        IOConstants.java
        parquet
        MapredParquetInputFormat.java
        MapredParquetOutputFormat.java
        convert
        ArrayWritableGroupConverter.java
        DataWritableGroupConverter.java
        DataWritableRecordConverter.java
        ETypeConverter.java
        HiveGroupConverter.java
        HiveSchemaConverter.java
        read
        DataWritableReadSupport.java
        ParquetRecordReaderWrapper.java
        serde
        AbstractParquetMapInspector.java
        ArrayWritableObjectInspector.java
        DeepParquetHiveMapInspector.java
        ParquetHiveArrayInspector.java
        ParquetHiveSerDe.java
        StandardParquetHiveMapInspector.java
        primitive
        ParquetByteInspector.java
        ParquetPrimitiveInspectorFactory.java
        ParquetShortInspector.java
        writable
        BigDecimalWritable.java
        BinaryWritable.java
        write
        DataWritableWriteSupport.java
        DataWritableWriter.java
        ParquetRecordWriterWrapper.java
        serde2
        objectinspector
        primitive
        ParquetStringInspector.java
        parquet
        hive
        DeprecatedParquetInputFormat.java
        DeprecatedParquetOutputFormat.java
        MapredParquetInputFormat.java
        MapredParquetOutputFormat.java
        serde
        ParquetHiveSerDe.java
      - test
        java
        org
        apache
        hadoop
        hive
        ql
        io
        parquet
        TestHiveSchemaConverter.java
        TestMapredParquetInputFormat.java
        TestMapredParquetOutputFormat.java
        TestParquetSerDe.java
        serde
        TestAbstractParquetMapInspector.java
        TestDeepParquetHiveMapInspector.java
        TestParquetHiveArrayInspector.java
        TestStandardParquetHiveMapInspector.java
- parquet-pig
  - src
    - main
      - java
        parquet
        pig
        ParquetLoader.java
        ParquetStorer.java
        PigMetaData.java
        PigSchemaConverter.java
        SchemaConversionException.java
        TupleConversionException.java
        TupleReadSupport.java
        TupleWriteSupport.java
        convert
        MapConverter.java
        ParentValueContainer.java
        TupleConverter.java
        TupleRecordMaterializer.java
        summary
        BagSummaryData.java
        EnumStat.java
        FieldSummaryData.java
        MapSummaryData.java
        NumberSummaryData.java
        StringSummaryData.java
        Summary.java
        SummaryData.java
        TupleSummaryData.java
        ValueStat.java
    - test
      - java
        parquet
        pig
        PerfTest.java
        PerfTest2.java
        PerfTestReadAllCols.java
        TestParquetLoader.java
        TestParquetStorer.java
        TestPigSchemaConverter.java
        TestTupleRecordConsumer.java
        TupleConsumerPerfTest.java
        summary
        TestSummary.java
- parquet-protobuf
  - src
    - main
      - java
        parquet
        proto
        ProtoMessageConverter.java
        ProtoParquetInputFormat.java
        ProtoParquetOutputFormat.java
        ProtoParquetReader.java
        ProtoParquetWriter.java
        ProtoReadSupport.java
        ProtoRecordConverter.java
        ProtoRecordMaterializer.java
        ProtoSchemaConverter.java
        ProtoWriteSupport.java
    - test
      - java
        parquet
        proto
        ProtoInputOutputFormatTest.java
        ProtoRecordConverterTest.java
        ProtoSchemaConverterTest.java
        ProtoWriteSupportTest.java
        TestUtils.java
        utils
        ReadUsingMR.java
        WriteUsingMR.java
- parquet-scrooge
  - src
    - main
      - java
        parquet
        scrooge
        ParquetScroogeInputFormat.java
        ParquetScroogeOutputFormat.java
        ParquetScroogeScheme.java
        ScroogeReadSupport.java
        ScroogeRecordConverter.java
        ScroogeSchemaConversionException.java
        ScroogeStructConverter.java
        ScroogeWriteSupport.java
    - test
      - java
        parquet
        scrooge
        ParquetScroogeSchemeTest.java
        ScroogeStructConverterTest.java
- parquet-thrift
  - src
    - main
      - java
        parquet
        hadoop
        thrift
        AbstractThriftWriteSupport.java
        ParquetThriftBytesOutputFormat.java
        ParquetThriftInputFormat.java
        ParquetThriftOutputFormat.java
        TBaseWriteSupport.java
        ThriftBytesWriteSupport.java
        ThriftReadSupport.java
        ThriftToParquetFileWriter.java
        ThriftWriteSupport.java
        thrift
        BufferedProtocolReadToWrite.java
        DecodingSchemaMismatchException.java
        FieldIgnoredHandler.java
        ParquetProtocol.java
        ParquetReadProtocol.java
        ParquetWriteProtocol.java
        ProtocolPipe.java
        ProtocolReadToWrite.java
        SkippableException.java
        TBaseRecordConverter.java
        ThriftMetaData.java
        ThriftParquetReader.java
        ThriftParquetWriter.java
        ThriftReader.java
        ThriftRecordConverter.java
        ThriftSchemaConvertVisitor.java
        ThriftSchemaConverter.java
        pig
        ParquetThriftStorer.java
        TupleToThriftWriteSupport.java
        projection
        FieldProjectionFilter.java
        FieldsPath.java
        PathGlobPattern.java
        ThriftProjectionException.java
        amend
        DefaultEventsVisitor.java
        DefaultProtocolEventsGenerator.java
        ProtocolEventsAmender.java
        ReadFieldBeginProtocol.java
        struct
        CompatibilityChecker.java
        CompatibilityRunner.java
        JSON.java
        ThriftField.java
        ThriftType.java
        ThriftTypeID.java
    - test
      - java
        parquet
        hadoop
        thrift
        TestInputOutputFormat.java
        TestParquetToThriftReadWriteAndProjection.java
        TestThriftToParquetFileWriter.java
        thrift
        TestParquetReadProtocol.java
        TestParquetWriteProtocol.java
        TestProtocolReadToWrite.java
        TestThriftParquetReaderWriter.java
        TestThriftSchemaConverter.java
        TestThriftToPigCompatibility.java
        pig
        TestParquetThriftStorer.java
        projection
        PathGlobPatternTest.java
        struct
        CompatibilityCheckerTest.java
- parquet-tools
  - src
    - main
      - java
        parquet
        tools
        Main.java
        command
        ArgsOnlyCommand.java
        CatCommand.java
        Command.java
        DumpCommand.java
        HeadCommand.java
        Registry.java
        ShowMetaCommand.java
        ShowSchemaCommand.java
        read
        SimpleReadSupport.java
        SimpleRecord.java
        SimpleRecordConverter.java
        SimpleRecordMaterializer.java
        util
        MetadataUtils.java
        PrettyPrintWriter.java

/* 
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 * 
 *   http://www.apache.org/licenses/LICENSE-2.0
 * 
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package parquet.avro;

import org.apache.avro.Schema;
import org.apache.avro.generic.IndexedRecord;
import org.apache.hadoop.mapreduce.Job;
import parquet.hadoop.ParquetInputFormat;
import parquet.hadoop.util.ContextUtil;

/**
 * A Hadoop {@link org.apache.hadoop.mapreduce.InputFormat} for Parquet files.
 */
public class AvroParquetInputFormat<T> extends ParquetInputFormat<T> {
  public AvroParquetInputFormat() {
    super(AvroReadSupport.class);
  }

  /**
   * Set the subset of columns to read (projection pushdown). Specified as an Avro
   * schema, the requested projection is converted into a Parquet schema for Parquet
   * column projection.
   * <p>
   * This is useful if the full schema is large and you only want to read a few
   * columns, since it saves time by not reading unused columns.
   * <p>
   * If a requested projection is set, then the Avro schema used for reading
   * must be compatible with the projection. For instance, if a column is not included
   * in the projection then it must either not be included or be optional in the read
   * schema. Use {@link #setAvroReadSchema(org.apache.hadoop.mapreduce.Job,
   * org.apache.avro.Schema)} to set a read schema, if needed.
   * @param job
   * @param requestedProjection
   * @see #setAvroReadSchema(org.apache.hadoop.mapreduce.Job, org.apache.avro.Schema)
   * @see parquet.avro.AvroParquetOutputFormat#setSchema(org.apache.hadoop.mapreduce.Job, org.apache.avro.Schema)
   */
  public static void setRequestedProjection(Job job, Schema requestedProjection) {
    AvroReadSupport.setRequestedProjection(ContextUtil.getConfiguration(job),
        requestedProjection);
  }

  /**
   * Override the Avro schema to use for reading. If not set, the Avro schema used for
   * writing is used.
   * <p>
   * Differences between the read and write schemas are resolved using
   * <a href="http://avro.apache.org/docs/current/spec.html#Schema+Resolution">Avro's schema resolution rules</a>.
   * @param job
   * @param avroReadSchema
   * @see #setRequestedProjection(org.apache.hadoop.mapreduce.Job, org.apache.avro.Schema)
   * @see parquet.avro.AvroParquetOutputFormat#setSchema(org.apache.hadoop.mapreduce.Job, org.apache.avro.Schema)
   */
  public static void setAvroReadSchema(Job job, Schema avroReadSchema) {
    AvroReadSupport.setAvroReadSchema(ContextUtil.getConfiguration(job), avroReadSchema);
  }

  /**
   * Uses an instance of the specified {@link AvroDataSupplier} class to control how the
   * {@link org.apache.avro.specific.SpecificData} instance that is used to find
   * Avro specific records is created.
   * @param job
   * @param supplierClass
   */
  public static void setAvroDataSupplier(Job job,
      Class<? extends AvroDataSupplier> supplierClass) {
    AvroReadSupport.setAvroDataSupplier(ContextUtil.getConfiguration(job), supplierClass);
  }
}