Crawler.java example

Explorer

okhttp-master
- benchmarks
  - src
    - main
      - java
        okhttp3
        benchmarks
        ApacheHttpClient.java
        Benchmark.java
        Client.java
        HttpClient.java
        NettyHttpClient.java
        OkHttp.java
        OkHttpAsync.java
        SynchronousHttpClient.java
        UrlConnection.java
- mockwebserver
  - src
    - main
      - java
        okhttp3
        internal
        http2
        Http2Server.java
        tls
        HeldCertificate.java
        SslClient.java
        mockwebserver
        Dispatcher.java
        MockResponse.java
        MockWebServer.java
        PushPromise.java
        QueueDispatcher.java
        RecordedRequest.java
        SocketPolicy.java
    - test
      - java
        okhttp3
        mockwebserver
        CustomDispatcherTest.java
        MockWebServerTest.java
- okcurl
  - src
    - main
      - java
        okhttp3
        curl
        Main.java
    - test
      - java
        okhttp3
        curl
        MainTest.java
- okhttp
  - src
    - main
      - java
        okhttp3
        Address.java
        Authenticator.java
        Cache.java
        CacheControl.java
        Call.java
        Callback.java
        CertificatePinner.java
        Challenge.java
        CipherSuite.java
        Connection.java
        ConnectionPool.java
        ConnectionSpec.java
        Cookie.java
        CookieJar.java
        Credentials.java
        Dispatcher.java
        Dns.java
        EventListener.java
        FormBody.java
        Handshake.java
        Headers.java
        HttpUrl.java
        Interceptor.java
        MediaType.java
        MultipartBody.java
        OkHttpClient.java
        Protocol.java
        RealCall.java
        Request.java
        RequestBody.java
        Response.java
        ResponseBody.java
        Route.java
        TlsVersion.java
        WebSocket.java
        WebSocketListener.java
        internal
        Internal.java
        NamedRunnable.java
        Util.java
        cache
        CacheInterceptor.java
        CacheRequest.java
        CacheStrategy.java
        DiskLruCache.java
        FaultHidingSink.java
        InternalCache.java
        cache2
        FileOperator.java
        Relay.java
        connection
        ConnectInterceptor.java
        ConnectionSpecSelector.java
        RealConnection.java
        RouteDatabase.java
        RouteException.java
        RouteSelector.java
        StreamAllocation.java
        http
        BridgeInterceptor.java
        CallServerInterceptor.java
        HttpCodec.java
        HttpDate.java
        HttpHeaders.java
        HttpMethod.java
        RealInterceptorChain.java
        RealResponseBody.java
        RequestLine.java
        RetryAndFollowUpInterceptor.java
        StatusLine.java
        UnrepeatableRequestBody.java
        http1
        Http1Codec.java
        http2
        ConnectionShutdownException.java
        ErrorCode.java
        Header.java
        Hpack.java
        Http2.java
        Http2Codec.java
        Http2Connection.java
        Http2Reader.java
        Http2Stream.java
        Http2Writer.java
        Huffman.java
        Ping.java
        PushObserver.java
        Settings.java
        StreamResetException.java
        io
        FileSystem.java
        platform
        AndroidPlatform.java
        Jdk9Platform.java
        JdkWithJettyBootPlatform.java
        OptionalMethod.java
        Platform.java
        publicsuffix
        PublicSuffixDatabase.java
        tls
        BasicCertificateChainCleaner.java
        CertificateChainCleaner.java
        DistinguishedNameParser.java
        OkHostnameVerifier.java
        TrustRootIndex.java
        ws
        RealWebSocket.java
        WebSocketProtocol.java
        WebSocketReader.java
        WebSocketWriter.java
        package-info.java
      - java-templates
        okhttp3
        internal
        Version.java
    - test
      - java
        okhttp3
        internal
        publicsuffix
        PublicSuffixListGenerator.java
- okhttp-android-support
  - src
    - main
      - java
        okhttp3
        AndroidInternal.java
        AndroidShimResponseCache.java
        OkCacheContainer.java
        internal
        huc
        CacheAdapter.java
        JavaApiConverter.java
    - test
      - java
        okhttp3
        AbstractResponseCache.java
        android
        HttpResponseCache.java
        HttpResponseCacheTest.java
        internal
        huc
        CacheAdapterTest.java
        JavaApiConverterTest.java
        ResponseCacheTest.java
- okhttp-apache
  - src
    - main
      - java
        okhttp3
        apache
        HttpEntityBody.java
        OkApacheClient.java
    - test
      - java
        okhttp3
        apache
        OkApacheClientTest.java
- okhttp-hpacktests
  - src
    - test
      - java
        okhttp3
        internal
        http2
        HpackDecodeInteropTest.java
        HpackDecodeTestBase.java
        HpackRoundTripTest.java
        hpackjson
        Case.java
        HpackJsonUtil.java
        Story.java
- okhttp-logging-interceptor
  - src
    - main
      - java
        okhttp3
        logging
        HttpLoggingInterceptor.java
        package-info.java
    - test
      - java
        okhttp3
        logging
        HttpLoggingInterceptorTest.java
- okhttp-testing-support
  - src
    - main
      - java
        okhttp3
        FakeDns.java
        FakeProxySelector.java
        FakeSSLSession.java
        RecordingCookieJar.java
        RecordingHostnameVerifier.java
        internal
        io
        InMemoryFileSystem.java
        testing
        InstallUncaughtExceptionHandlerListener.java
- okhttp-tests
  - src
    - main
      - java
        okhttp3
        AutobahnTester.java
    - test
      - java
        okhttp3
        AddressTest.java
        CacheControlTest.java
        CacheTest.java
        CallTest.java
        CertificateChainCleanerTest.java
        CertificatePinnerTest.java
        CipherSuiteTest.java
        ConnectionCoalescingTest.java
        ConnectionPoolTest.java
        ConnectionReuseTest.java
        ConnectionSpecTest.java
        CookieTest.java
        CookiesTest.java
        DelegatingSSLSocket.java
        DelegatingSSLSocketFactory.java
        DelegatingServerSocketFactory.java
        DelegatingSocketFactory.java
        DispatcherTest.java
        FallbackTestClientSocketFactory.java
        FormBodyTest.java
        HeadersTest.java
        HttpUrlTest.java
        InterceptorTest.java
        MediaTypeTest.java
        MultipartBodyTest.java
        OkHttpClientTest.java
        RecordedResponse.java
        RecordingCallback.java
        RequestTest.java
        ResponseBodyTest.java
        ResponseTest.java
        SocksProxy.java
        SocksProxyTest.java
        TestLogHandler.java
        TestUtil.java
        URLConnectionTest.java
        UrlComponentEncodingTester.java
        WebPlatformUrlTest.java
        WebPlatformUrlTestData.java
        internal
        DoubleInetAddressDns.java
        RecordingAuthenticator.java
        RecordingOkAuthenticator.java
        SingleInetAddressDns.java
        SocketRecorder.java
        cache
        DiskLruCacheTest.java
        cache2
        FileOperatorTest.java
        RelayTest.java
        connection
        ConnectionSpecSelectorTest.java
        RouteExceptionTest.java
        RouteSelectorTest.java
        http
        DisconnectTest.java
        ExternalHttp2Example.java
        HttpDateTest.java
        RecordingProxySelector.java
        StatusLineTest.java
        ThreadInterruptTest.java
        http2
        BaseTestHandler.java
        FrameLogTest.java
        HpackTest.java
        Http2ConnectionTest.java
        Http2Test.java
        HttpOverHttp2Test.java
        HuffmanTest.java
        MockHttp2Peer.java
        SettingsTest.java
        io
        FaultyFileSystem.java
        platform
        Jdk9PlatformTest.java
        JdkWithJettyBootPlatformTest.java
        OptionalMethodTest.java
        PlatformTest.java
        publicsuffix
        PublicSuffixDatabaseTest.java
        tls
        CertificatePinnerChainValidationTest.java
        ClientAuthTest.java
        DistinguishedNameParserTest.java
        HostnameVerifierTest.java
        ws
        RealWebSocketTest.java
        WebSocketHttpTest.java
        WebSocketReaderTest.java
        WebSocketRecorder.java
        WebSocketWriterTest.java
- okhttp-urlconnection
  - src
    - main
      - java
        okhttp3
        JavaNetAuthenticator.java
        JavaNetCookieJar.java
        OkUrlFactory.java
        internal
        JavaNetHeaders.java
        URLFilter.java
        huc
        BufferedRequestBody.java
        DelegatingHttpsURLConnection.java
        OkHttpURLConnection.java
        OkHttpsURLConnection.java
        OutputStreamRequestBody.java
        StreamedRequestBody.java
    - test
      - java
        okhttp3
        OkUrlFactoryTest.java
        UrlConnectionCacheTest.java
        internal
        huc
        URLEncodingTest.java
- samples
  - crawler
    - src
      - main
        java
        okhttp3
        sample
        Crawler.java
  - guide
    - src
      - main
        java
        okhttp3
        guide
        GetExample.java
        PostExample.java
        recipes
        AccessHeaders.java
        AsynchronousGet.java
        Authenticate.java
        CacheResponse.java
        CancelCall.java
        CertificatePinning.java
        CheckHandshake.java
        ConfigureTimeouts.java
        CustomCipherSuites.java
        CustomTrust.java
        LoggingInterceptors.java
        ParseResponseWithMoshi.java
        PerCallSettings.java
        PostFile.java
        PostForm.java
        PostMultipart.java
        PostStreaming.java
        PostStreamingWithPipe.java
        PostString.java
        Progress.java
        RequestBodyCompression.java
        RewriteResponseCacheControl.java
        SynchronousGet.java
        WebSocketEcho.java
  - simple-client
    - src
      - main
        java
        okhttp3
        sample
        OkHttpContributors.java
  - slack
    - src
      - main
        java
        okhttp3
        slack
        OAuthSession.java
        OAuthSessionFactory.java
        RtmSession.java
        RtmStartResponse.java
        SlackApi.java
        SlackClient.java
  - static-server
    - src
      - main
        java
        okhttp3
        sample
        SampleServer.java

/*
 * Copyright (C) 2014 Square, Inc.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package okhttp3.sample;

import java.io.File;
import java.io.IOException;
import java.util.Collections;
import java.util.LinkedHashSet;
import java.util.Set;
import java.util.concurrent.ConcurrentHashMap;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.atomic.AtomicInteger;
import okhttp3.Cache;
import okhttp3.HttpUrl;
import okhttp3.MediaType;
import okhttp3.OkHttpClient;
import okhttp3.Request;
import okhttp3.Response;
import okhttp3.internal.NamedRunnable;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

/**
 * Fetches HTML from a requested URL, follows the links, and repeats.
 */
public final class Crawler {
  private final OkHttpClient client;
  private final Set<HttpUrl> fetchedUrls = Collections.synchronizedSet(
      new LinkedHashSet<HttpUrl>());
  private final LinkedBlockingQueue<HttpUrl> queue = new LinkedBlockingQueue<>();
  private final ConcurrentHashMap<String, AtomicInteger> hostnames = new ConcurrentHashMap<>();

  public Crawler(OkHttpClient client) {
    this.client = client;
  }

  private void parallelDrainQueue(int threadCount) {
    ExecutorService executor = Executors.newFixedThreadPool(threadCount);
    for (int i = 0; i < threadCount; i++) {
      executor.execute(new NamedRunnable("Crawler %s", i) {
        @Override protected void execute() {
          try {
            drainQueue();
          } catch (Exception e) {
            e.printStackTrace();
          }
        }
      });
    }
    executor.shutdown();
  }

  private void drainQueue() throws Exception {
    for (HttpUrl url; (url = queue.take()) != null; ) {
      if (!fetchedUrls.add(url)) {
        continue;
      }

      Thread currentThread = Thread.currentThread();
      String originalName = currentThread.getName();
      currentThread.setName("Crawler " + url.toString());
      try {
        fetch(url);
      } catch (IOException e) {
        System.out.printf("XXX: %s %s%n", url, e);
      } finally {
        currentThread.setName(originalName);
      }
    }
  }

  public void fetch(HttpUrl url) throws IOException {
    // Skip hosts that we've visited many times.
    AtomicInteger hostnameCount = new AtomicInteger();
    AtomicInteger previous = hostnames.putIfAbsent(url.host(), hostnameCount);
    if (previous != null) hostnameCount = previous;
    if (hostnameCount.incrementAndGet() > 100) return;

    Request request = new Request.Builder()
        .url(url)
        .build();
    Response response = client.newCall(request).execute();
    String responseSource = response.networkResponse() != null
        ? ("(network: " + response.networkResponse().code() + " over " + response.protocol() + ")")
        : "(cache)";
    int responseCode = response.code();

    System.out.printf("%03d: %s %s%n", responseCode, url, responseSource);

    String contentType = response.header("Content-Type");
    if (responseCode != 200 || contentType == null) {
      response.body().close();
      return;
    }

    MediaType mediaType = MediaType.parse(contentType);
    if (mediaType == null || !mediaType.subtype().equalsIgnoreCase("html")) {
      response.body().close();
      return;
    }

    Document document = Jsoup.parse(response.body().string(), url.toString());
    for (Element element : document.select("a[href]")) {
      String href = element.attr("href");
      HttpUrl link = response.request().url().resolve(href);
      if (link == null) continue; // URL is either invalid or its scheme isn't http/https.
      queue.add(link.newBuilder().fragment(null).build());
    }
  }

  public static void main(String[] args) throws IOException {
    if (args.length != 2) {
      System.out.println("Usage: Crawler <cache dir> <root>");
      return;
    }

    int threadCount = 20;
    long cacheByteCount = 1024L * 1024L * 100L;

    Cache cache = new Cache(new File(args[0]), cacheByteCount);
    OkHttpClient client = new OkHttpClient.Builder()
        .cache(cache)
        .build();

    Crawler crawler = new Crawler(client);
    crawler.queue.add(HttpUrl.parse(args[1]));
    crawler.parallelDrainQueue(threadCount);
  }
}