S3SinkBuffer.java example

Explorer

Scribengin-master
- V1
  - src
    - main
      - java
        com
        neverwinterdp
        scribengin
        ScribeConsumerManager
        AbstractScribeConsumerManager.java
        ClusterScribeConsumerManager.java
        YarnScribeConsumerManager.java
        ScribeMaster.java
        ScribeMasterCommandLineArgs.java
        cluster
        ScribeConsumerClusterService.java
        ScribeConsumerClusterServiceInfo.java
        ScribeConsumerStatusCommand.java
        ScribeMasterClusterService.java
        ScribeMasterClusterServiceInfo.java
        commitlog
        AbstractScribeCommitLogFactory.java
        ScribeCommitLog.java
        ScribeCommitLogFactory.java
        ScribeLogEntry.java
        constants
        Constants.java
        filesystem
        AbstractFileSystemFactory.java
        FileSystemFactory.java
        HDFSFileSystemFactory.java
        hostport
        CustomConvertFactory.java
        HostPort.java
        HostPortConverter.java
        partitioner
        AbstractPartitioner.java
        DatePartitioner.java
        DumbPartitioner.java
        scribeconsumer
        ScribeConsumer.java
        ScribeConsumerCommandLineArgs.java
        ScribeConsumerConfig.java
        utilities
        LostLeadershipException.java
        StringRecordWriter.java
        Util.java
        yarn
        AbstractApplicationMaster.java
        Client.java
        SampleAM.java
        ScribenginAM.java
        server
        module
        ScribeConsumerServiceModule.java
        ScribeMasterServiceModule.java
    - test
      - java
        com
        neverwinterdp
        scribengin
        ScribeConsumerTest.java
        ScribeKafkaTest.java
        ScribeLogEntryTest.java
        ScribenginTmp.java
        cluster
        ClusterScribeConsumerManagerTest.java
        ScribeConsumerClusterTest.java
        ScribeConsumerClusterTestHelper.java
        ScribeConsumerRestartTest.java
        ScribeMasterClusterDistributedDatePartitionerTest.java
        ScribeMasterDistributedTest.java
        ScribeMasterRestartDistributedTest.java
        ScribeMasterRestartYarnTest.java
        ScribeMasterYarnTest.java
        clusterBuilder
        SupportClusterBuilder.java
        UnitTestCluster.java
        fixture
        Fixture.java
        KafkaFixture.java
        ZookeeperFixture.java
        partitioner
        DatePartitionerTest.java
        DumbPartitionerTest.java
        scribecommitlog
        ScribeCommitLogTest.java
        ScribeCommitLogTestFactory.java
- V2
  - commons
    - src
      - main
        java
        com
        neverwinterdp
        tool
        server
        Server.java
        ServerSet.java
  - core
    - src
      - main
        java
        com
        neverwinterdp
        scribengin
        Record.java
        RecordChecksum.java
        ScribenginClient.java
        ShellMain.java
        builder
        ScribenginClusterBuilder.java
        client
        shell
        DataflowCommand.java
        DataflowTestCommand.java
        Formater.java
        ScribenginCommand.java
        ScribenginShell.java
        dataflow
        DataflowClient.java
        DataflowContainer.java
        DataflowDescriptor.java
        DataflowLifecycleStatus.java
        DataflowRegistry.java
        DataflowTask.java
        DataflowTaskContext.java
        DataflowTaskDescriptor.java
        DataflowTaskReport.java
        DataflowTaskReporter.java
        service
        AssignedDataflowTaskListener.java
        DataflowService.java
        DataflowServiceInititializer.java
        VMDataflowServiceApp.java
        test
        DataflowKafkaSinkValidator.java
        DataflowKafkaSourceGenerator.java
        DataflowSinkValidator.java
        DataflowSourceGenerator.java
        DataflowTest.java
        DataflowTestReport.java
        HdfsDataflowTest.java
        HdfsToKafkaDataflowTest.java
        HelloHDFSDataflowBuilder.java
        HelloKafkaDataflowBuilder.java
        KafkaDataflowTest.java
        KafkaToHdfsDataflowTest.java
        KafkaToS3DataflowTest.java
        worker
        DataflowTaskExecutor.java
        DataflowTaskExecutorDescriptor.java
        DataflowTaskExecutorManager.java
        EventListener.java
        VMDataflowWorkerApp.java
        event
        ScribenginEvent.java
        ScribenginEventListener.java
        ScribenginShutdownEventListener.java
        ScribenginWaitingEventListener.java
        nizarS3
        sink
        S3Module.java
        S3Sink.java
        S3SinkBuffer.java
        S3SinkConfig.java
        S3SinkStream.java
        S3SinkStreamWriter.java
        scribe
        ScribeAbstract.java
        ScribeState.java
        SimpleCopyScribe.java
        service
        ScribenginService.java
        VMScribenginServiceApp.java
        VMScribenginServiceCommand.java
        storage
        StorageDescriptor.java
        StreamDescriptor.java
        hdfs
        HDFSSourceGenerator.java
        sink
        HDFSSink.java
        HDFSSinkStream.java
        HDFSSinkStreamWriter.java
        source
        HDFSSource.java
        HDFSSourceStream.java
        HDFSSourceStreamReader.java
        kafka
        KafkaSourceGenerator.java
        sink
        KafkaSink.java
        KafkaSinkStream.java
        KafkaSinkStreamWriter.java
        source
        KafkaSource.java
        KafkaSourceStream.java
        KafkaSourceStreamReader.java
        s3
        Attributes.java
        S3Client.java
        S3Folder.java
        S3ObjectWriter.java
        S3Util.java
        sink
        S3Sink.java
        S3SinkStream.java
        S3SinkStreamWriter.java
        source
        S3Source.java
        S3SourceStream.java
        S3SourceStreamReader.java
        sink
        Sink.java
        SinkFactory.java
        SinkStream.java
        SinkStreamWriter.java
        partitioner
        OffsetPartitioner.java
        SinkPartitioner.java
        source
        CommitPoint.java
        Source.java
        SourceFactory.java
        SourceStream.java
        SourceStreamReader.java
        tool
        EmbededVMClusterBuilder.java
      - test
        java
        com
        neverwinterdp
        scribengin
        DataflowHdfsToHdfsUnitTest.java
        DataflowHdfsToKafkaUnitTest.java
        DataflowKafkaToHdfsUnitTest.java
        DataflowKafkaToKafkaUnitTest.java
        DataflowKafkaToS3UnitTest.java
        KafkaDataflowUnitTest.java
        ScribenginCommandShutdownUnitTest.java
        ScribenginCommandUnitTest.java
        ScribenginSingleJVMUnitTest.java
        ScribenginUnitTest.java
        ScribenginYarnIntegrationTest.java
        client
        shell
        DataflowCommandUnitTest.java
        HelpCommandUnitTest.java
        nizarS3
        AmazonS3Mock.java
        AmazonS3MockUnitTest.java
        S3SinkStreamUnitTest.java
        S3SinkStreamWriterIntegrationTest.java
        S3SinkStreamWriterUnitTest.java
        S3SinkUnitTest.java
        S3TestModule.java
        SinkBufferUnitTest.java
        partition
        OffsetPartitionUnitTest.java
        storage
        hdfs
        HDFSFileSystemUnitTest.java
        SinkUnitTest.java
        SourceUnitTest.java
        kafka
        ChecksumUnitTest.java
        KafkaClientUnitTest.java
        KafkaConsumeTransactionUnitTest.java
        KafkaProduceTransactionUnitTest.java
        SinkSourceUnitTest.java
        s3
        S3ClientIntegrationTest.java
        S3FeaturesDemoTest.java
        S3SinkSourceIntegrationTest.java
        util
        Label.java
        PropertyUtils.java
  - dataflow
    - hdfs
      - src
        main
        java
        com
        neverwinterdp
        scribengin
        dataflow
        HelloHDFSDataflowBuilder.java
        TestCopyDataProcessor.java
  - jvmagent
    - DemoApp
      - src
        main
        java
        com
        neverwinterdp
        jvmagent
        demo
        Main.java
        test
        java
        com
        neverwinterdp
        jvmagent
        demo
        ZookeeperInterationTest.java
    - bootstrap
      - src
        main
        java
        com
        neverwinterdp
        jvmagent
        bootstrap
        AgentMainBootstrap.java
        BootstrapAgentPlugin.java
        BootstrapAgentPluginHello.java
        PremainBootstrap.java
        test
        java
        com
        neverwinterdp
        jvmagent
        bootstrap
        BootstrapAgentUnitTest.java
    - registry
      - src
        main
        java
        com
        neverwinterdp
        jvmagent
        registry
        JVMInfo.java
        JVMRegistry.java
        RegistryAgent.java
        RegistryAgentConfig.java
        test
        java
        com
        neverwinterdp
        jvmagent
        registry
        RegistryAgentUnitTest.java
  - kafka
    - src
      - main
        java
        com
        neverwinterdp
        kafka
        BrokerRegistration.java
        SimplePartitioner.java
        consumer
        KafkaPartitionReader.java
        producer
        AbstractKafkaWriter.java
        AckKafkaWriter.java
        DefaultKafkaWriter.java
        KafkaWriter.java
        WaittingAckProducerRecord.java
        WaittingAckProducerRecordHolder.java
        tool
        KafkaClusterTool.java
        KafkaMessageCheckTool.java
        KafkaMessageSendTool.java
        KafkaTool.java
        KafkaTopicCheckTool.java
        KafkaTopicConfig.java
        KafkaTopicReport.java
        ZKTool.java
        server
        EmbededKafkaServer.java
        EmbededKafkaServerSet.java
        KafkaCluster.java
        tool
        message
        Message.java
        MessageExtractor.java
        MessageGenerator.java
        MessageTracker.java
        PartitionMessageTracker.java
      - test
        java
        com
        neverwinterdp
        kafka
        consumer
        KafkaPartitionReaderUnitTest.java
        producer
        AbstractBugsUnitTest.java
        AckKafkaWriterPerfomanceTest.java
        AckKafkaWriterTestRunner.java
        AckKafkaWriterUnitTest.java
        AnthonyAckKafkaWriterUnitTest.java
        KafkaProducerKillPartitionLeaderBugUnitTest.java
        KafkaProducerPartitionLeaderChangeBugUnitTest.java
        KafkaProducerTopicRebalanceBugUnitTest.java
        tool
        KafkaToolUnitTest.java
        KafkaTopicCheckToolUnitTest.java
        tool
        message
        MessageTrackerUnitTest.java
  - proxy
    - src
      - main
        java
        com
        neverwinterdp
        command
        server
        CommandConsole.java
        CommandProxyServer.java
        CommandProxyServlet.java
        CommandServer.java
        CommandServlet.java
        DescriptorBuilder.java
        DescriptorBuilderDefaults.java
      - test
        java
        com
        neverwinterdp
        command
        server
        CommandProxyServerRetryUnitTest.java
        CommandProxyServerUnitTest.java
        CommandProxyServletRetryUnitTest.java
        CommandProxyServletUnitTest.java
        CommandServerTestBase.java
        CommandServerUnitTest.java
        CommandServletDataFlowUnitTest.java
        CommandServletUnitTest.java
  - registry
    - src
      - main
        java
        com
        neverwinterdp
        registry
        BatchOperations.java
        DataChangeNodeWatcher.java
        DataMapperCallback.java
        ErrorCode.java
        JSONDataMapperCallback.java
        Node.java
        NodeCreateMode.java
        RefNode.java
        Registry.java
        RegistryConfig.java
        RegistryException.java
        RegistryNodeEventListener.java
        Transaction.java
        activity
        Activity.java
        ActivityBuilder.java
        ActivityCoordinator.java
        ActivityService.java
        ActivityStep.java
        ActivityStepExecutor.java
        ActivityStepResult.java
        election
        LeaderElection.java
        LeaderElectionListener.java
        LeaderElectionNodeWatcher.java
        LeaderId.java
        event
        Event.java
        EventListener.java
        NodeChildrenListener.java
        NodeEvent.java
        NodeEventListener.java
        NodeWatcher.java
        NodeWatcherWrapper.java
        RegistryListener.java
        WaitingEventListener.java
        lock
        Lock.java
        LockId.java
        queue
        DistributedQueue.java
        zk
        RegistryImpl.java
        RegistryWatcher.java
        TransactionImpl.java
        ZKNodeWatcher.java
        zk
        tool
        server
        EmbededZKServer.java
        EmbededZKServerSet.java
      - test
        java
        com
        neverwinterdp
        registry
        activity
        ActivityServiceUnitTest.java
        HelloActivityBuilder.java
        election
        LeaderElectionUnitTest.java
        lock
        LockUnitTest.java
        queue
        DistributedQueueUnitTest.java
        zk
        RegistryListenerUnitTest.java
        RegistryTransactionUnitTest.java
        RegistryUnitTest.java
        ZookeeperTransactionUnitTest.java
        ZookeeperUnitTest.java
  - release
    - src
      - test
        java
        com
        neverwinterdp
        scribengin
        dataflow
        DataflowSubmitIntegrationTest.java
  - vm
    - src
      - main
        java
        com
        neverwinterdp
        module
        AppModule.java
        MycilaJmxModuleExt.java
        vm
        HadoopProperties.java
        VM.java
        VMApp.java
        VMConfig.java
        VMDescriptor.java
        VMDummyApp.java
        VMRegistry.java
        VMStatus.java
        client
        CommandCallback.java
        LocalVMClient.java
        VMClient.java
        YarnVMClient.java
        shell
        Command.java
        CommandInput.java
        Console.java
        HelpCommand.java
        JCommanderUsage.java
        RegistryCommand.java
        Shell.java
        SubCommand.java
        VMCommand.java
        VMFormater.java
        command
        Command.java
        CommandPayload.java
        CommandResult.java
        PingCommand.java
        VMCommand.java
        VMCommandWatcher.java
        environment
        jvm
        JVMVMServicePlugin.java
        yarn
        AppClient.java
        HDFSUtil.java
        VMResources.java
        YarnManager.java
        YarnVMServicePlugin.java
        event
        VMEvent.java
        VMEventListener.java
        VMHeartbeatNodeWatcher.java
        VMShutdownEventListener.java
        VMStatusNodeWatcher.java
        VMWaitingEventListener.java
        service
        VMService.java
        VMServiceApp.java
        VMServiceCommand.java
        VMServicePlugin.java
        tool
        VMClusterBuilder.java
        VMZKClusterBuilder.java
      - test
        java
        com
        neverwinterdp
        module
        AppModuleUnitTest.java
        vm
        jvm
        VMManagerAppUnitTest.java
        yarn
        VMManagerAppUnitTest.java

package com.neverwinterdp.scribengin.nizarS3.sink;

import java.io.File;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;
import java.util.Collection;
import java.util.LinkedList;

import org.apache.commons.io.FileUtils;
import org.apache.log4j.LogManager;
import org.apache.log4j.Logger;

import com.neverwinterdp.scribengin.nizarS3.sink.S3SinkConfig;
import com.neverwinterdp.scribengin.storage.sink.partitioner.SinkPartitioner;
import com.neverwinterdp.scribengin.Record;

/**
 * The Class SinkBuffer.
 */
public final class S3SinkBuffer {

  private final long FIVE_GB = 5368709120l;

  /** The max tuples. */
  private long maxRecordsInMemory;

  /** The max buffer size. */
  private long maxRecordsSizeInMemory;

  /** The max buffering time. */
  private long maxBufferingTimeInMemory;

  /** The start time. */
  // TODO reset this after purge to memory
  private long startBufferingTimeInMemory;

  /** The files. */
  private LinkedList<String> files = new LinkedList<String>();

  /** The chunk size. */
  private int chunkSize;

  /** The partitioner. */
  private SinkPartitioner partitioner;

  /** The memory buffering enabled. */
  private boolean memoryBufferingEnabled;

  /** The logger. */
  private static Logger logger = LogManager.getLogger(S3SinkBuffer.class);
  /** The buffer. */
  private LinkedList<Record> tuples = new LinkedList<Record>();

  /** The local tmp dir. */
  private String localTmpDir;

  private Thread bufferThread;

  private boolean active = true;

  private long tuplesSizeInMemory;

  private LinkedList<Record> tuplesChunk = new LinkedList<Record>();

  /**
   * The Constructor.
   * 
   * @param partitioner
   *          the partitioner
   * @param config
   *          the configuration
   */
  public S3SinkBuffer(SinkPartitioner partitioner, S3SinkConfig config) {
    this.localTmpDir = config.getLocalTmpDir();
    this.maxRecordsSizeInMemory = config.getMemoryMaxBufferSize();
    this.maxBufferingTimeInMemory = config.getMemoryMaxBufferingTime();
    this.maxRecordsInMemory = config.getMemoryMaxRecords();
    // this.mappedByteBufferSize = config.getMappedByteBufferSize();
    this.partitioner = partitioner;
    this.chunkSize = config.getChunkSize();
    memoryBufferingEnabled = config.isMemoryBufferingEnabled();
    bufferThread = new Thread() {
      public void run() {
        try {
          runProcessLoop();
        } catch (Exception e) {
          e.printStackTrace();
        }
      }
    };
    bufferThread.start();

  }

  private void setProcessLoopActive(boolean active) {
    this.active = active;
  }

  /**
   * Adds the Record to the buffer.
   * 
   * @param tuple
   *          the tuple
   */
  public boolean add(Record tuple) {
    if (memoryBufferingEnabled) {
      if (!checkMemoryAvailability(tuple.getData().length)) {
        setProcessLoopActive(true);
        tuplesSizeInMemory = 0;
      }
      tuples.add(tuple);
      tuplesSizeInMemory += tuple.getData().length;
    } else {
      addToDisk(tuple);
    }
    return true;
  }

  /**
   * Adds the to disk.
   * 
   * @param tuple the tuple
   * @return true, if adds the to disk
   */
  private boolean addToDisk(Record tuple) {
    boolean success = false;
    RandomAccessFile randomAccessFile = null;
    FileChannel fileChannel = null;
    try {
      tuplesChunk.add(tuple);
      // write every chunk of tuples in one file

      if (tuplesChunk.size() == chunkSize) {

        try {
          // TODO retrieve the offset from the registry
          long startOffset = Long.parseLong(tuplesChunk.getFirst().getKey());
          long endOffset = Long.parseLong(tuplesChunk.getLast().getKey());
          // call partitioner to get the path of the file
          // depending on
          // the offset
          // the path will be later used to deduce the s3 path
          String path = localTmpDir + "/" + partitioner.getPartition(startOffset, endOffset);
          // create file using the path
          File file = new File(path);
          File parent = file.getParentFile();
          if (!parent.exists() && !parent.mkdirs()) {
            throw new IllegalStateException("Couldn't create dir: " + parent);
          }
          // write a memory mapped file
          int start = 0;
          randomAccessFile = new RandomAccessFile(file, "rw");
          fileChannel = randomAccessFile.getChannel();
          MappedByteBuffer mem;
          for (Record t : tuplesChunk) {

            mem = fileChannel.map(FileChannel.MapMode.READ_WRITE, start, t.getData().length + 1);
            start += t.getData().length + 1;
            mem.put(t.getData());
            mem.put("\n".getBytes());
          }
          // add the file to the list of file created
          if (file.length() >= FIVE_GB) {
            throw new IllegalArgumentException("File created is bigger than allowed s3 sink file size.");
          }
          success = files.add(file.getCanonicalPath());
          tuplesChunk.clear();
        } catch (Exception e) {
          e.printStackTrace();
        }

        finally {

          randomAccessFile.close();
          fileChannel.close();
        }

      }
    } catch (IOException e) {
      e.printStackTrace();
    }
    return success;
  }

  private void runProcessLoop() throws InterruptedException {
    while (true) {
      if (active) {
        purgeMemoryToDisk();
      }
      Thread.sleep(1000);
    }
  }

  /**
   * Writes all tuples to disk creating more in-memory space. A few tuples that
   * couldn't complete a chunk will be left in-memory.
   */
  public void purgeMemoryToDisk() {
    logger.info("purge Memory To Disk");
    LinkedList<Record> tempTuples = tuples;
    tuples = new LinkedList<Record>();
    int mustRemain = tuples.size() % chunkSize;
    if (mustRemain != 0) {
      for (int i = mustRemain; i < 1; i--) {
        tuples.add(tempTuples.get(tempTuples.size() - i));
      }
    }
    while (tempTuples.size() > mustRemain) {
      addToDisk(tempTuples.poll());
    }
    tempTuples.clear();
    tempTuples = null;

    setProcessLoopActive(false);
  }

  /**
   * Check memory availability.
   * 
   * @param newRecordSize
   *          the new tuple size
   * @return true, if check memory availability
   */
  // TODO check space availability on disk as well?
  private boolean checkMemoryAvailability(int newRecordSize) {

    if (startBufferingTimeInMemory == 0) {
      startBufferingTimeInMemory = System.currentTimeMillis();
    }
    if (tuples.size() == maxRecordsInMemory || tuplesSizeInMemory + newRecordSize > maxRecordsSizeInMemory
        || (System.currentTimeMillis() - startBufferingTimeInMemory) > maxBufferingTimeInMemory) {
      return false;
    }
    return true;
  }

  /**
   * Clear tuples in memory and on disk.
   * 
   * @throws IOException
   */
  public void clear() throws IOException {
    String separator = System.getProperty("file.separator");
    File file = new File(localTmpDir + separator + partitioner.getPartition());
    try {
      FileUtils.deleteDirectory(file);

    } catch (Exception e) {
      e.printStackTrace();
    }
    tuples.clear();
    files.clear();
    startBufferingTimeInMemory = 0;
  }

  /**
   * Gets the files size.
   * 
   * @return the files size
   */
  public int getFilesCount() {
    return files.size();
  }

  /**
   * Poll from disk.
   * 
   * @return the file
   */
  // TODO name suggests that we actually read from disk?
  public File pollFromDisk() {
    return new File(files.poll());
  }

  /*
   * Note that there are other methods for reading on-File size vs in-Memory
   * sizes
   */
  public int size() {
    return tuples.size() + (files.size() * chunkSize);
  }

  public int tuplesInMemory() {
    return tuples.size();
  }

  public int tuplesOnDisk() {
    return (files.size() * chunkSize);
  }

  public boolean isEmpty() {
    return tuples.isEmpty() && files.isEmpty();
  }

  public boolean contains(Object o) {
    return tuples.contains(o);
  }

  // TODO also get file having tuple and remove
  public boolean remove(Object o) {
    return tuples.remove(o) && files.remove(o);
  }

  public boolean containsAll(Collection<?> collection) {

    return tuples.containsAll(collection);
  }

  public boolean addAll(Collection<? extends Record> ccollection) {
    boolean success = false;
    for (Record tuple : ccollection) {
      // TODO confirm if it does what it should
      success &= add(tuple);
    }
    return success;
  }

  // TODO and remove from files as well
  public boolean removeAll(Collection<?> collection) {
    return tuples.removeAll(collection);
  }

  /*
   * This methods exists solely for testing purposes.
   */
  public LinkedList<String> getFiles() {
    return files;

  }
}