WikipediaTraceReader.java example

Explorer

caffeine-master
- caffeine
  - src
- examples
  - stats-metrics
    - src
      - main
        java
        com
        github
        benmanes
        caffeine
        examples
        stats
        metrics
        MetricsStatsCounter.java
      - test
        java
        com
        github
        benmanes
        caffeine
        examples
        stats
        metrics
        MetricsStatsCounterTest.java
  - write-behind-rxjava
    - src
      - main
        java
        com
        github
        benmanes
        caffeine
        examples
        writebehind
        rxjava
        WriteBehindCacheWriter.java
      - test
        java
        com
        github
        benmanes
        caffeine
        examples
        writebehind
        rxjava
        WriteBehindCacheWriterTest.java
- guava
  - src
    - main
      - java
        com
        github
        benmanes
        caffeine
        guava
        CaffeinatedGuava.java
        CaffeinatedGuavaCache.java
        CaffeinatedGuavaLoadingCache.java
    - test
      - java
        com
        github
        benmanes
        caffeine
        SingleConsumerQueueTests.java
        base
        PackageSanityTests.java
        cache
        CaffeineMapTests.java
        CaffeineSpecGuavaTest.java
        LinkedDequeTests.java
        MapTestFactory.java
        MpscGrowableQueueSanityTest.java
        PackageSanityTests.java
        QueueSanityTest.java
        guava
        CaffeinatedGuavaTest.java
        OSGiTest.java
        OSGiTests.java
        PackageSanityTests.java
        google
        common
        cache
        CacheBuilderFactory.java
        CacheBuilderGwtTest.java
        CacheBuilderTest.java
        CacheEvictionTest.java
        CacheExpirationTest.java
        CacheLoadingTest.java
        CacheManualTest.java
        CacheReferencesTest.java
        CacheRefreshTest.java
        CacheStatsTest.java
        CacheTesting.java
        EmptyCachesTest.java
        LocalLoadingCacheTest.java
        NullCacheTest.java
        PopulatedCachesTest.java
        TestingCacheLoaders.java
        TestingRemovalListeners.java
        TestingWeighers.java
        jsr166
        ConcurrentHashMap8Test.java
        ConcurrentHashMapTest.java
        JSR166TestCase.java
- jcache
  - src
    - main
      - java
        com
        github
        benmanes
        caffeine
        jcache
        CacheFactory.java
        CacheManagerImpl.java
        CacheProxy.java
        EntryProxy.java
        Expirable.java
        LoadingCacheProxy.java
        configuration
        CaffeineConfiguration.java
        FactoryCreator.java
        TypesafeConfigurator.java
        copy
        AbstractCopier.java
        Copier.java
        JavaSerializationCopier.java
        event
        EventDispatcher.java
        EventTypeAwareListener.java
        EventTypeFilter.java
        JCacheEntryEvent.java
        JCacheEvictionListener.java
        Registration.java
        expiry
        JCacheExpiryPolicy.java
        integration
        DisabledCacheWriter.java
        JCacheLoaderAdapter.java
        management
        JCacheMXBean.java
        JCacheStatisticsMXBean.java
        JmxRegistration.java
        processor
        Action.java
        EntryProcessorEntry.java
        spi
        CaffeineCachingProvider.java
    - test
      - java
        com
        github
        benmanes
        caffeine
        jcache
        AbstractJCacheTest.java
        CacheManagerTest.java
        JCacheGuiceTest.java
        JCacheProfiler.java
        OSGiTest.java
        configuration
        TestCacheEntryEventFilter.java
        TestCacheEntryListener.java
        TestCacheLoader.java
        TestCacheWriter.java
        TestWeigher.java
        TypesafeConfigurationTest.java
        copy
        JavaSerializationCopierTest.java
        event
        EventDispatcherTest.java
        EventTypeFilterTest.java
        JCacheEntryEventTest.java
        JCacheEvictionListenerTest.java
        expiry
        JCacheAccessExpiryTest.java
        JCacheCreationExpiryTest.java
        JCacheExpiryPolicyTest.java
        JCacheExpiryTest.java
        JCacheUpdateExpiryTest.java
        integration
        CacheLoaderTest.java
        DisabledCacheWriterTest.java
        management
        JCacheMBeanServerBuilder.java
        JCacheStatisticsMXBeanTest.java
        processor
        EntryProcessorEntryTest.java
- simulator
  - src
    - main
      - java
        com
        clearspring
        analytics
        stream
        frequency
        CountMin64TinyLfu.java
        github
        benmanes
        caffeine
        cache
        simulator
        BasicSettings.java
        Simulator.java
        Synthetic.java
        admission
        Admission.java
        Admittor.java
        Frequency.java
        TinyLfu.java
        countmin4
        AdaptiveResetCountMin4.java
        CountMin4.java
        IncrementalResetCountMin4.java
        PeriodicResetCountMin4.java
        perfect
        PerfectFrequency.java
        table
        RandomRemovalFrequencyTable.java
        tinycache
        HashFunctionParser.java
        HashedItem.java
        TinyCache.java
        TinyCacheAdapter.java
        TinyCacheSketch.java
        TinyCacheWithGhostCache.java
        TinySetIndexing.java
        membership
        FilterType.java
        Membership.java
        bloom
        AddThisBloomFilter.java
        BloomFilter.java
        GuavaBloomFilter.java
        parser
        AbstractTraceReader.java
        BinaryTraceReader.java
        TextTraceReader.java
        TraceFormat.java
        TraceReader.java
        address
        AddressTraceReader.java
        arc
        ArcTraceReader.java
        cache2k
        Cache2kTraceReader.java
        gradle
        GradleTraceReader.java
        lirs
        LirsTraceReader.java
        scarab
        ScarabTraceReader.java
        umass
        network
        YoutubeTraceReader.java
        storage
        StorageTraceReader.java
        wikipedia
        WikipediaTraceReader.java
        policy
        Policy.java
        PolicyActor.java
        PolicyStats.java
        Registry.java
        adaptive
        ArcPolicy.java
        CarPolicy.java
        CartPolicy.java
        irr
        ClockProPolicy.java
        LirsPolicy.java
        linked
        FrequentlyUsedPolicy.java
        LinkedPolicy.java
        MultiQueuePolicy.java
        S4LruPolicy.java
        SegmentedLruPolicy.java
        opt
        ClairvoyantPolicy.java
        UnboundedPolicy.java
        product
        Cache2kPolicy.java
        CaffeinePolicy.java
        CollisionPolicy.java
        Ehcache2Policy.java
        Ehcache3Policy.java
        ElasticSearchPolicy.java
        ExpiringMapPolicy.java
        GuavaPolicy.java
        OhcPolicy.java
        RapidoidPolicy.java
        TCachePolicy.java
        sampled
        SampledPolicy.java
        sketch
        WindowTinyLfuPolicy.java
        climbing
        HillClimber.java
        HillClimberType.java
        HillClimberWindowTinyLfuPolicy.java
        SimpleClimber.java
        SimulatedAnnealingClimber.java
        feedback
        FeedbackTinyLfuPolicy.java
        FeedbackWindowTinyLfuPolicy.java
        segment
        FullySegmentedWindowTinyLfuPolicy.java
        LruWindowTinyLfuPolicy.java
        RandomWindowTinyLfuPolicy.java
        S4WindowTinyLfuPolicy.java
        tinycache
        TinyCachePolicy.java
        TinyCacheWithGhostCachePolicy.java
        WindowTinyCachePolicy.java
        two_queue
        TuQueuePolicy.java
        TwoQueuePolicy.java
        report
        CsvReporter.java
        ReportFormat.java
        Reporter.java
        TableReporter.java
        TextReporter.java
    - test
      - java
        com
        github
        benmanes
        caffeine
        cache
        simulator
        admission
        bloom
        MembershipTest.java

/*
 * Copyright 2015 Ben Manes. All Rights Reserved.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package com.github.benmanes.caffeine.cache.simulator.parser.wikipedia;

import java.io.IOException;
import java.util.List;
import java.util.Objects;
import java.util.stream.LongStream;

import javax.annotation.Nullable;

import org.apache.commons.lang3.StringUtils;

import com.github.benmanes.caffeine.cache.simulator.parser.TextTraceReader;
import com.google.common.hash.Hashing;

/**
 * A reader for the trace files provided by the <a href="http://www.wikibench.eu">wikibench</a>
 * project. The requests are sanitized and filtered using the <tt>TraceBench</tt> optimizations.
 *
 * @author ben.manes@gmail.com (Ben Manes)
 */
public final class WikipediaTraceReader extends TextTraceReader {
  private static final String[] CONTAINS_FILTER = {"?search=", "&search=", "User+talk", "User_talk",
      "User:", "Talk:", "&diff=", "&action=rollback", "Special:Watchlist"};
  private static final String[] STARTS_WITH_FILTER = {"wiki/Special:Search", "w/query.php",
      "wiki/Talk:", "wiki/Special:AutoLogin", "Special:UserLogin", "w/api.php", "error:"};
  private static final String[] SEARCH_LIST = { "%2F", "%20", "&", "%3A" };
  private static final String[] REPLACEMENT_LIST = { "/", " ", "&", ":" };

  public WikipediaTraceReader(List<String> filePaths) {
    super(filePaths);
  }

  @Override
  public LongStream events() throws IOException {
    return lines()
        .map(this::parseRequest)
        .filter(Objects::nonNull)
        .mapToLong(path -> Hashing.murmur3_128().hashUnencodedChars(path).asLong());
  }

  /**
   * Returns the request's path or {@code null} if this request should be ignored. The input is
   * space deliminated with the following format,
   * <ul>
   *  <li>A monotonically increasing counter (useful for sorting the trace in chronological order)
   *  <li>The timestamp of the request in Unix notation with millisecond precision
   *  <li>The requested URL
   *  <li>A flag to indicate if the request resulted in a database update or not ('-' or 'save')
   * </ul>
   */
  private @Nullable String parseRequest(String line) {
    if (!isRead(line)) {
      return null;
    }
    String url = getRequestUrl(line);
    if (url.length() > 12) {
      String path = getPath(url);
      if (isAllowed(path)) {
        return path;
      }
    }
    return null;
  }

  /** Returns whether the request resulted in a write to the database. */
  private boolean isRead(String line) {
    return line.charAt(line.length() - 1) == '-';
  }

  /** Returns the request URL. */
  private String getRequestUrl(String line) {
    int end = line.length() - 2;
    while (line.charAt(end) != ' ') {
      end--;
    }

    int start = end - 1;
    while (line.charAt(start) != ' ') {
      start--;
    }
    return line.substring(start + 1, end);
  }

  /** Returns the path segment of the URL. */
  private String getPath(String url) {
    int index = url.indexOf('/', 7);
    if (index == -1) {
      return url;
    }

    // Replace the html entities that we want to search for inside paths
    String cleansed = url.substring(index + 1);
    for (int i = 0; i < SEARCH_LIST.length; i++) {
      cleansed = StringUtils.replace(cleansed, SEARCH_LIST[i], REPLACEMENT_LIST[i]);
    }
    return cleansed;
  }

  /**
   * Returns if the path should be included. The request is ignored if it is a search query, a
   * page revision, related to users or user management, or talk pages.
   */
  public boolean isAllowed(String path) {
    for (String filter : STARTS_WITH_FILTER) {
      if (path.startsWith(filter)) {
        return false;
      }
    }
    for (String filter : CONTAINS_FILTER) {
      if (path.contains(filter)) {
        return false;
      }
    }
    return true;
  }
}