HdfsReader.java example

Explorer

DataX-master
- adswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        adswriter
        AdsException.java
        AdsWriter.java
        AdsWriterErrorCode.java
        ads
        ColumnDataType.java
        ColumnInfo.java
        TableInfo.java
        package-info.java
        insert
        AdsInsertProxy.java
        AdsInsertUtil.java
        OperationType.java
        load
        AdsHelper.java
        TableMetaHelper.java
        TransferProjectConf.java
        odps
        DataType.java
        FieldSchema.java
        TableMeta.java
        package-info.java
        package-info.java
        util
        AdsUtil.java
        Constant.java
        Key.java
- common
  - src
    - main
      - java
        com
        alibaba
        datax
        common
        base
        BaseObject.java
        constant
        CommonConstant.java
        PluginType.java
        element
        BoolColumn.java
        BytesColumn.java
        Column.java
        ColumnCast.java
        DateColumn.java
        DoubleColumn.java
        LongColumn.java
        OverFlowUtil.java
        Record.java
        StringColumn.java
        exception
        CommonErrorCode.java
        DataXException.java
        ExceptionTracker.java
        plugin
        AbstractJobPlugin.java
        AbstractPlugin.java
        AbstractTaskPlugin.java
        JobPluginCollector.java
        PluginCollector.java
        Pluginable.java
        RecordReceiver.java
        RecordSender.java
        TaskPluginCollector.java
        spi
        ErrorCode.java
        Hook.java
        Reader.java
        Writer.java
        statistics
        PerfRecord.java
        PerfTrace.java
        VMInfo.java
        util
        Configuration.java
        FilterUtil.java
        HostUtils.java
        ListUtil.java
        RangeSplitUtil.java
        RetryUtil.java
        StrUtil.java
    - test
      - java
        com
        alibaba
        datax
        common
        base
        BaseTest.java
        element
        BoolColumnTest.java
        ColumnCastTest.java
        DateColumnTest.java
        DoubleColumnTest.java
        LongColumnTest.java
        ScientificTester.java
        StringColumnTest.java
        exception
        DataXExceptionTest.java
        FakeErrorCode.java
        statistics
        VMInfoTest.java
        util
        ConfigurationTest.java
        FilterUtilTest.java
        ListUtilTest.java
        RangeSplitUtilTest.java
        RetryUtilTest.java
        StrUtilTest.java
- core
  - src
    - main
      - java
        com
        alibaba
        datax
        core
        AbstractContainer.java
        Engine.java
        container
        util
        HookInvoker.java
        JobAssignUtil.java
        job
        JobContainer.java
        meta
        ExecuteMode.java
        State.java
        scheduler
        AbstractScheduler.java
        processinner
        ProcessInnerScheduler.java
        StandAloneScheduler.java
        statistics
        communication
        Communication.java
        CommunicationTool.java
        LocalTGCommunicationManager.java
        container
        collector
        AbstractCollector.java
        ProcessInnerCollector.java
        communicator
        AbstractContainerCommunicator.java
        job
        StandAloneJobContainerCommunicator.java
        taskgroup
        AbstractTGContainerCommunicator.java
        StandaloneTGContainerCommunicator.java
        report
        AbstractReporter.java
        ProcessInnerReporter.java
        plugin
        DefaultJobPluginCollector.java
        task
        AbstractTaskPluginCollector.java
        HttpPluginCollector.java
        StdoutPluginCollector.java
        util
        DirtyRecord.java
        taskgroup
        TaskGroupContainer.java
        TaskMonitor.java
        runner
        AbstractRunner.java
        ReaderRunner.java
        TaskGroupContainerRunner.java
        WriterRunner.java
        transport
        channel
        Channel.java
        memory
        MemoryChannel.java
        exchanger
        BufferedRecordExchanger.java
        BufferedRecordTransformerExchanger.java
        RecordExchanger.java
        TransformerExchanger.java
        record
        DefaultRecord.java
        TerminateRecord.java
        transformer
        ComplexTransformerProxy.java
        FilterTransformer.java
        GroovyTransformer.java
        GroovyTransformerStaticUtil.java
        PadTransformer.java
        ReplaceTransformer.java
        SubstrTransformer.java
        TransformerErrorCode.java
        TransformerExecution.java
        TransformerExecutionParas.java
        TransformerInfo.java
        TransformerRegistry.java
        util
        ClassSize.java
        ClassUtil.java
        ConfigParser.java
        ConfigurationValidate.java
        ErrorRecordChecker.java
        ExceptionTracker.java
        FrameworkErrorCode.java
        HttpClientUtil.java
        SecretUtil.java
        TransformerUtil.java
        container
        ClassLoaderSwapper.java
        CoreConstant.java
        JarLoader.java
        LoadUtil.java
        dataxservice
        face
        domain
        enums
        EnumStrVal.java
        EnumVal.java
        ExecuteMode.java
        State.java
    - test
      - java
        com
        alibaba
        datax
        core
        EngineTest.java
        constant
        CoreConstantTest.java
        container
        ClassLoaderSwapperTest.java
        JobAssignUtilTest.java
        JobContainerTest.java
        LoadUtilTest.java
        TaskGroupContainerTest.java
        faker
        FakeExceptionReader.java
        FakeExceptionWriter.java
        FakeGroovyTransformer.java
        FakeJobContainer.java
        FakeLongTimeWriter.java
        FakeOneReader.java
        FakeReader.java
        FakeReplaceTransformer.java
        FakeSubstrTransformer.java
        FakeWriter.java
        scaffold
        ColumnProducer.java
        ConfigurationProducer.java
        RecordProducer.java
        base
        CaseInitializer.java
        scheduler
        ErrorRecordLimitTest.java
        standalone
        StandAloneSchedulerTest.java
        StandAloneTestJobCollector.java
        StandAloneTestTaskGroupContainer.java
        statistics
        collector
        ProcessInnerCollectorTest.java
        communication
        CommunicationJsonifyTest.java
        CommunicationTest.java
        LocalTaskGroupCommunicationTest.java
        reporter
        ProcessInnerReporterTest.java
        taskgroup
        TaskMonitorTest.java
        transport
        channel
        memory
        MemoryChannelTest.java
        exchanger
        RecordExchangerTest.java
        record
        RecordTest.java
        transformer
        FilterTransformerTest.java
        GroovyTransformerTest.java
        PadTransformerTest.java
        ReplaceTransformerTest.java
        SubstrTransformerTest.java
        TransformerRegistryTest.java
        util
        ClassUtilTest.java
        ConfigParserTest.java
        HttpClientUtilTest.java
        ReflectUtil.java
        SecretUtilTest.java
- drdsreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        drdsreader
        DrdsReader.java
        DrdsReaderErrorCode.java
        DrdsReaderSplitUtil.java
- drdswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        drdswriter
        DrdsWriter.java
- ftpreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        ftpreader
        Constant.java
        FtpHelper.java
        FtpReader.java
        FtpReaderErrorCode.java
        Key.java
        SftpHelper.java
        StandardFtpHelper.java
- ftpwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        ftpwriter
        FtpWriter.java
        FtpWriterErrorCode.java
        Key.java
        util
        Constant.java
        IFtpHelper.java
        SftpHelperImpl.java
        StandardFtpHelperImpl.java
- hbase094xreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        hbase094xreader
        ColumnType.java
        Constant.java
        Hbase094xHelper.java
        Hbase094xReader.java
        Hbase094xReaderErrorCode.java
        HbaseAbstractTask.java
        HbaseColumnCell.java
        Key.java
        ModeType.java
        MultiVersionFixedColumnTask.java
        MultiVersionTask.java
        NormalTask.java
- hbase094xwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        hbase094xwriter
        ColumnType.java
        Constant.java
        Hbase094xHelper.java
        Hbase094xWriter.java
        Hbase094xWriterErrorCode.java
        HbaseAbstractTask.java
        Key.java
        ModeType.java
        NormalTask.java
        NullModeType.java
- hbase11xreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        hbase11xreader
        ColumnType.java
        Constant.java
        Hbase11xHelper.java
        Hbase11xReader.java
        Hbase11xReaderErrorCode.java
        HbaseAbstractTask.java
        HbaseColumnCell.java
        Key.java
        ModeType.java
        MultiVersionDynamicColumnTask.java
        MultiVersionFixedColumnTask.java
        MultiVersionTask.java
        NormalTask.java
- hbase11xwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        hbase11xwriter
        ColumnType.java
        Constant.java
        Hbase11xHelper.java
        Hbase11xWriter.java
        Hbase11xWriterErrorCode.java
        HbaseAbstractTask.java
        Key.java
        ModeType.java
        MultiVersionTask.java
        NormalTask.java
        NullModeType.java
- hbasereader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        hbasereader
        ColumnType.java
        Constant.java
        HTableManager.java
        HbaseColumnCell.java
        HbaseColumnConfig.java
        HbaseReader.java
        HbaseReaderErrorCode.java
        Key.java
        ModeType.java
        util
        HbaseAbstractTask.java
        HbaseSplitUtil.java
        HbaseUtil.java
        MultiVersionDynamicColumnTask.java
        MultiVersionFixedColumnTask.java
        MultiVersionTask.java
        NormalTask.java
- hbasewriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        hbasewriter
        Const.java
        HBaseCell.java
        HBaseClient.java
        HBaseTableCreate.java
        HBaseWriter.java
        HBaseWriterErrorCode.java
        Key.java
- hdfsreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        hdfsreader
        Constant.java
        DFSUtil.java
        HdfsFileType.java
        HdfsReader.java
        HdfsReaderErrorCode.java
        Key.java
- hdfswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        hdfswriter
        Constant.java
        HdfsHelper.java
        HdfsWriter.java
        HdfsWriterErrorCode.java
        Key.java
        SupportHiveDataType.java
- mongodbreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        mongodbreader
        KeyConstant.java
        MongoDBReader.java
        MongoDBReaderErrorCode.java
        util
        CollectionSplitUtil.java
        MongoUtil.java
- mongodbwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        mongodbwriter
        KeyConstant.java
        MongoDBWriter.java
        MongoDBWriterErrorCode.java
        util
        MongoUtil.java
- mysqlreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        mysqlreader
        MysqlReader.java
        MysqlReaderErrorCode.java
- mysqlwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        mysqlwriter
        MysqlWriter.java
- ocswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        ocswriter
        Key.java
        OcsWriter.java
        utils
        CommonUtils.java
        ConfigurationChecker.java
        OcsWriterErrorCode.java
- odpsreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        odpsreader
        ColumnType.java
        Constant.java
        Key.java
        OdpsReader.java
        OdpsReaderErrorCode.java
        ReaderProxy.java
        util
        DESCipher.java
        IdAndKeyUtil.java
        OdpsExceptionMsg.java
        OdpsSplitUtil.java
        OdpsUtil.java
- odpswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        odpswriter
        Constant.java
        Key.java
        OdpsWriter.java
        OdpsWriterErrorCode.java
        OdpsWriterProxy.java
        util
        DESCipher.java
        IdAndKeyUtil.java
        OdpsExceptionMsg.java
        OdpsUtil.java
- oraclereader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        oraclereader
        Constant.java
        OracleReader.java
        OracleReaderErrorCode.java
- oraclewriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        oraclewriter
        OracleWriter.java
        OracleWriterErrorCode.java
- ossreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        ossreader
        Constant.java
        Key.java
        OssReader.java
        OssReaderErrorCode.java
        util
        OssUtil.java
- osswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        osswriter
        Constant.java
        Key.java
        OssWriter.java
        OssWriterErrorCode.java
        util
        OssUtil.java
- otsreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        otsreader
        Key.java
        OtsReader.java
        OtsReaderError.java
        OtsReaderMasterProxy.java
        OtsReaderSlaveProxy.java
        adaptor
        OTSColumnAdaptor.java
        PrimaryKeyValueAdaptor.java
        callable
        GetFirstRowPrimaryKeyCallable.java
        GetRangeCallable.java
        GetTableMetaCallable.java
        model
        OTSColumn.java
        OTSConf.java
        OTSConst.java
        OTSPrimaryKeyColumn.java
        OTSRange.java
        utils
        Common.java
        DefaultNoRetry.java
        GsonParser.java
        ParamChecker.java
        RangeSplit.java
        ReaderModelParser.java
        RetryHelper.java
- otswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        otswriter
        Key.java
        OtsWriter.java
        OtsWriterError.java
        OtsWriterMasterProxy.java
        OtsWriterSlaveProxy.java
        WriterRetryPolicy.java
        callable
        GetTableMetaCallable.java
        model
        LogExceptionManager.java
        OTSAttrColumn.java
        OTSConf.java
        OTSConst.java
        OTSErrorMessage.java
        OTSOpType.java
        OTSPKColumn.java
        OTSRowPrimaryKey.java
        RowDeleteChangeWithRecord.java
        RowPutChangeWithRecord.java
        RowUpdateChangeWithRecord.java
        WithRecord.java
        utils
        ColumnConversion.java
        Common.java
        GsonParser.java
        ParamChecker.java
        RetryHelper.java
        WriterModelParser.java
- plugin-rdbms-util
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        rdbms
        reader
        CommonRdbmsReader.java
        Constant.java
        Key.java
        ResultSetReadProxy.java
        util
        HintUtil.java
        OriginalConfPretreatmentUtil.java
        PreCheckTask.java
        ReaderSplitUtil.java
        SingleTableSplitUtil.java
        util
        ConnectionFactory.java
        Constant.java
        DBUtil.java
        DBUtilErrorCode.java
        DataBaseType.java
        JdbcConnectionFactory.java
        RdbmsException.java
        RdbmsRangeSplitWrap.java
        SqlFormatUtil.java
        TableExpandUtil.java
        writer
        CommonRdbmsWriter.java
        Constant.java
        Key.java
        MysqlWriterErrorCode.java
        util
        OriginalConfPretreatmentUtil.java
        WriterUtil.java
- plugin-unstructured-storage-util
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        unstructuredstorage
        reader
        ColumnEntry.java
        Constant.java
        ExpandLzopInputStream.java
        Key.java
        UnstructuredStorageReaderErrorCode.java
        UnstructuredStorageReaderUtil.java
        ZipCycleInputStream.java
        writer
        Constant.java
        Key.java
        TextCsvWriterManager.java
        UnstructuredStorageWriterErrorCode.java
        UnstructuredStorageWriterUtil.java
        UnstructuredWriter.java
- postgresqlreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        postgresqlreader
        Constant.java
        PostgresqlReader.java
- postgresqlwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        postgresqlwriter
        PostgresqlWriter.java
- rdbmsreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        rdbmsreader
        Constant.java
        RdbmsReader.java
        SubCommonRdbmsReader.java
- rdbmswriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        rdbmswriter
        RdbmsWriter.java
        SubCommonRdbmsWriter.java
- sqlserverreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        sqlserverreader
        Constant.java
        Key.java
        SqlServerReader.java
        SqlServerReaderErrorCode.java
- sqlserverwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        sqlserverwriter
        SqlServerWriter.java
        SqlServerWriterErrorCode.java
- streamreader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        streamreader
        Constant.java
        Key.java
        StreamReader.java
        StreamReaderErrorCode.java
- streamwriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        streamwriter
        Key.java
        StreamWriter.java
        StreamWriterErrorCode.java
- transformer
  - src
    - main
      - java
        com
        alibaba
        datax
        transformer
        ComplexTransformer.java
        Transformer.java
- txtfilereader
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        reader
        txtfilereader
        Constant.java
        Key.java
        TxtFileReader.java
        TxtFileReaderErrorCode.java
- txtfilewriter
  - src
    - main
      - java
        com
        alibaba
        datax
        plugin
        writer
        txtfilewriter
        Key.java
        TxtFileWriter.java
        TxtFileWriterErrorCode.java

package com.alibaba.datax.plugin.reader.hdfsreader;

import com.alibaba.datax.common.exception.DataXException;
import com.alibaba.datax.common.plugin.RecordSender;
import com.alibaba.datax.common.spi.Reader;
import com.alibaba.datax.common.util.Configuration;
import com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil;
import org.apache.commons.io.Charsets;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.InputStream;
import java.nio.charset.UnsupportedCharsetException;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;

public class HdfsReader extends Reader {

    /**
     * Job 中的方法仅执行一次，Task 中方法会由框架启动多个 Task 线程并行执行。
     * <p/>
     * 整个 Reader 执行流程是：
     * <pre>
     * Job类init-->prepare-->split
     *
     * Task类init-->prepare-->startRead-->post-->destroy
     * Task类init-->prepare-->startRead-->post-->destroy
     *
     * Job类post-->destroy
     * </pre>
     */
    public static class Job extends Reader.Job {
        private static final Logger LOG = LoggerFactory
                .getLogger(Job.class);

        private Configuration readerOriginConfig = null;
        private String encoding = null;
        private HashSet<String> sourceFiles;
        private String specifiedFileType = null;
        private DFSUtil dfsUtil = null;
        private List<String> path = null;

        @Override
        public void init() {

            LOG.info("init() begin...");
            this.readerOriginConfig = super.getPluginJobConf();
            this.validate();
            dfsUtil = new DFSUtil(this.readerOriginConfig);
            LOG.info("init() ok and end...");

        }

        public void validate(){
            this.readerOriginConfig.getNecessaryValue(Key.DEFAULT_FS,
                    HdfsReaderErrorCode.DEFAULT_FS_NOT_FIND_ERROR);

            // path check
            String pathInString = this.readerOriginConfig.getNecessaryValue(Key.PATH, HdfsReaderErrorCode.REQUIRED_VALUE);
            if (!pathInString.startsWith("[") && !pathInString.endsWith("]")) {
                path = new ArrayList<String>();
                path.add(pathInString);
            } else {
                path = this.readerOriginConfig.getList(Key.PATH, String.class);
                if (null == path || path.size() == 0) {
                    throw DataXException.asDataXException(HdfsReaderErrorCode.REQUIRED_VALUE, "您需要指定待读取的源目录或文件");
                }
                for (String eachPath : path) {
                    if(!eachPath.startsWith("/")){
                        String message = String.format("请检查参数path:[%s],需要配置为绝对路径", eachPath);
                        LOG.error(message);
                        throw DataXException.asDataXException(HdfsReaderErrorCode.ILLEGAL_VALUE, message);
                    }
                }
            }

            specifiedFileType = this.readerOriginConfig.getNecessaryValue(Key.FILETYPE, HdfsReaderErrorCode.REQUIRED_VALUE);
            if( !specifiedFileType.equalsIgnoreCase(Constant.ORC) &&
                    !specifiedFileType.equalsIgnoreCase(Constant.TEXT) &&
                    !specifiedFileType.equalsIgnoreCase(Constant.CSV) &&
                    !specifiedFileType.equalsIgnoreCase(Constant.SEQ) &&
                    !specifiedFileType.equalsIgnoreCase(Constant.RC)){
                String message = "HdfsReader插件目前支持ORC, TEXT, CSV, SEQUENCE, RC五种格式的文件," +
                        "请将fileType选项的值配置为ORC, TEXT, CSV, SEQUENCE 或者 RC";
                throw DataXException.asDataXException(HdfsReaderErrorCode.FILE_TYPE_ERROR, message);
            }

            encoding = this.readerOriginConfig.getString(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.ENCODING, "UTF-8");

            try {
                Charsets.toCharset(encoding);
            } catch (UnsupportedCharsetException uce) {
                throw DataXException.asDataXException(
                        HdfsReaderErrorCode.ILLEGAL_VALUE,
                        String.format("不支持的编码格式 : [%s]", encoding), uce);
            } catch (Exception e) {
                throw DataXException.asDataXException(
                        HdfsReaderErrorCode.ILLEGAL_VALUE,
                        String.format("运行配置异常 : %s", e.getMessage()), e);
            }
            //check Kerberos
            Boolean haveKerberos = this.readerOriginConfig.getBool(Key.HAVE_KERBEROS, false);
            if(haveKerberos) {
                this.readerOriginConfig.getNecessaryValue(Key.KERBEROS_KEYTAB_FILE_PATH, HdfsReaderErrorCode.REQUIRED_VALUE);
                this.readerOriginConfig.getNecessaryValue(Key.KERBEROS_PRINCIPAL, HdfsReaderErrorCode.REQUIRED_VALUE);
            }

            // validate the Columns
            validateColumns();

            if(this.specifiedFileType.equalsIgnoreCase(Constant.CSV)){
                //compress校验
                UnstructuredStorageReaderUtil.validateCompress(this.readerOriginConfig);
                UnstructuredStorageReaderUtil.validateCsvReaderConfig(this.readerOriginConfig);
            }

        }

        private void validateColumns(){

            // 检测是column 是否为 ["*"] 若是则填为空
            List<Configuration> column = this.readerOriginConfig
                    .getListConfiguration(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COLUMN);
            if (null != column
                    && 1 == column.size()
                    && ("\"*\"".equals(column.get(0).toString()) || "'*'"
                    .equals(column.get(0).toString()))) {
                readerOriginConfig
                        .set(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COLUMN, new ArrayList<String>());
            } else {
                // column: 1. index type 2.value type 3.when type is Data, may have format
                List<Configuration> columns = this.readerOriginConfig
                        .getListConfiguration(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COLUMN);

                if (null == columns || columns.size() == 0) {
                    throw DataXException.asDataXException(
                            HdfsReaderErrorCode.CONFIG_INVALID_EXCEPTION,
                            "您需要指定 columns");
                }

                if (null != columns && columns.size() != 0) {
                    for (Configuration eachColumnConf : columns) {
                        eachColumnConf.getNecessaryValue(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.TYPE, HdfsReaderErrorCode.REQUIRED_VALUE);
                        Integer columnIndex = eachColumnConf.getInt(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.INDEX);
                        String columnValue = eachColumnConf.getString(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.VALUE);

                        if (null == columnIndex && null == columnValue) {
                            throw DataXException.asDataXException(
                                    HdfsReaderErrorCode.NO_INDEX_VALUE,
                                    "由于您配置了type, 则至少需要配置 index 或 value");
                        }

                        if (null != columnIndex && null != columnValue) {
                            throw DataXException.asDataXException(
                                    HdfsReaderErrorCode.MIXED_INDEX_VALUE,
                                    "您混合配置了index, value, 每一列同时仅能选择其中一种");
                        }

                    }
                }
            }
        }

        @Override
        public void prepare() {
            LOG.info("prepare(), start to getAllFiles...");
            this.sourceFiles = dfsUtil.getAllFiles(path, specifiedFileType);
            LOG.info(String.format("您即将读取的文件数为: [%s], 列表为: [%s]",
                    this.sourceFiles.size(),
                    StringUtils.join(this.sourceFiles, ",")));
        }

        @Override
        public List<Configuration> split(int adviceNumber) {

            LOG.info("split() begin...");
            List<Configuration> readerSplitConfigs = new ArrayList<Configuration>();
            // warn:每个slice拖且仅拖一个文件,
            // int splitNumber = adviceNumber;
            int splitNumber = this.sourceFiles.size();
            if (0 == splitNumber) {
                throw DataXException.asDataXException(HdfsReaderErrorCode.EMPTY_DIR_EXCEPTION,
                        String.format("未能找到待读取的文件,请确认您的配置项path: %s", this.readerOriginConfig.getString(Key.PATH)));
            }

            List<List<String>> splitedSourceFiles = this.splitSourceFiles(new ArrayList<String>(this.sourceFiles), splitNumber);
            for (List<String> files : splitedSourceFiles) {
                Configuration splitedConfig = this.readerOriginConfig.clone();
                splitedConfig.set(Constant.SOURCE_FILES, files);
                readerSplitConfigs.add(splitedConfig);
            }

            return readerSplitConfigs;
        }


        private <T> List<List<T>> splitSourceFiles(final List<T> sourceList, int adviceNumber) {
            List<List<T>> splitedList = new ArrayList<List<T>>();
            int averageLength = sourceList.size() / adviceNumber;
            averageLength = averageLength == 0 ? 1 : averageLength;

            for (int begin = 0, end = 0; begin < sourceList.size(); begin = end) {
                end = begin + averageLength;
                if (end > sourceList.size()) {
                    end = sourceList.size();
                }
                splitedList.add(sourceList.subList(begin, end));
            }
            return splitedList;
        }


        @Override
        public void post() {

        }

        @Override
        public void destroy() {

        }

    }

    public static class Task extends Reader.Task {

        private static Logger LOG = LoggerFactory.getLogger(Reader.Task.class);
        private Configuration taskConfig;
        private List<String> sourceFiles;
        private String specifiedFileType;
        private String encoding;
        private DFSUtil dfsUtil = null;
        private int bufferSize;

        @Override
        public void init() {

            this.taskConfig = super.getPluginJobConf();
            this.sourceFiles = this.taskConfig.getList(Constant.SOURCE_FILES, String.class);
            this.specifiedFileType = this.taskConfig.getNecessaryValue(Key.FILETYPE, HdfsReaderErrorCode.REQUIRED_VALUE);
            this.encoding = this.taskConfig.getString(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.ENCODING, "UTF-8");
            this.dfsUtil = new DFSUtil(this.taskConfig);
            this.bufferSize = this.taskConfig.getInt(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.BUFFER_SIZE,
                    com.alibaba.datax.plugin.unstructuredstorage.reader.Constant.DEFAULT_BUFFER_SIZE);
        }

        @Override
        public void prepare() {

        }

        @Override
        public void startRead(RecordSender recordSender) {

            LOG.info("read start");
            for (String sourceFile : this.sourceFiles) {
                LOG.info(String.format("reading file : [%s]", sourceFile));

                if(specifiedFileType.equalsIgnoreCase(Constant.TEXT)
                        || specifiedFileType.equalsIgnoreCase(Constant.CSV)) {

                    InputStream inputStream = dfsUtil.getInputStream(sourceFile);
                    UnstructuredStorageReaderUtil.readFromStream(inputStream, sourceFile, this.taskConfig,
                            recordSender, this.getTaskPluginCollector());
                }else if(specifiedFileType.equalsIgnoreCase(Constant.ORC)){

                    dfsUtil.orcFileStartRead(sourceFile, this.taskConfig, recordSender, this.getTaskPluginCollector());
                }else if(specifiedFileType.equalsIgnoreCase(Constant.SEQ)){

                    dfsUtil.sequenceFileStartRead(sourceFile, this.taskConfig, recordSender, this.getTaskPluginCollector());
                }else if(specifiedFileType.equalsIgnoreCase(Constant.RC)){

                    dfsUtil.rcFileStartRead(sourceFile, this.taskConfig, recordSender, this.getTaskPluginCollector());
                }else {

                    String message = "HdfsReader插件目前支持ORC, TEXT, CSV, SEQUENCE, RC五种格式的文件," +
                            "请将fileType选项的值配置为ORC, TEXT, CSV, SEQUENCE 或者 RC";
                    throw DataXException.asDataXException(HdfsReaderErrorCode.FILE_TYPE_UNSUPPORT, message);
                }

                if(recordSender != null){
                    recordSender.flush();
                }
            }

            LOG.info("end read source files...");
        }

        @Override
        public void post() {

        }

        @Override
        public void destroy() {

        }

    }

}