HtmlStripper.java example

Explorer

javardices-master
- fast.wstest
  - src
    - main
      - java
        wstest
        srv
        BuildMessages.java
        IWSTest.java
        OrderBL.java
        WSTestImpl.java
        actors
        Address.java
        COfLineItem.java
        COfTestStruct.java
        Customer.java
        EchoList.java
        EchoListResponse.java
        EchoStruct.java
        EchoStructResponse.java
        EchoSynthetic.java
        EchoSyntheticResponse.java
        EchoVoid.java
        EchoVoidResponse.java
        GetOrder.java
        GetOrderResponse.java
        LineItem.java
        Order.java
        Synthetic.java
        TestNode.java
        TestStruct.java
        netty
        Main.java
        NettyWSRouter.java
        NettyWSTestAction.java
        ws
        xml
        JibxActors.java
        SoapBody.java
        SoapEnvelope.java
        SoapFault.java
        SoapHeader.java
        SoapSerializer.java
- feed.parser
  - src
    - main
      - java
        feed
        parser
        AddFeedEntryProcessor.java
        AtomContentProcessor.java
        AtomFeedChannelLinkProcessor.java
        AtomFeedEntryLinkProcessor.java
        AtomLink.java
        CategoryProcessor.java
        DateParser.java
        Enclosure.java
        EnclosureProcessor.java
        FeedChannel.java
        FeedChannelProcessor.java
        FeedEntry.java
        FeedEntryProcessor.java
        FeedParser.java
        FeedXmlElement.java
        Guid.java
        GuidProcessor.java
        ImageMimeTable.java
        Rss.java
        SimpleFeedChannelProcessor.java
        SimpleFeedEntryProcessor.java
        Stack.java
        StaxParser.java
        Test.java
        package-info.java
- jpt.sample.project
  - src
    - main
      - java
        org
        caudexorigo
        jpt
        sample
        AppMapper.java
        Customer.java
        CustomerList.java
        CustomerService.java
        Main.java
        XorShift.java
- org.caudexorigo
  - src
    - main
      - java
        org
        caudexorigo
        ErrorAnalyser.java
        Shutdown.java
        builder
        CompareToBuilder.java
        EqualsBuilder.java
        HashCodeBuilder.java
        ReflectionToStringBuilder.java
        StandardToStringStyle.java
        ToStringBuilder.java
        ToStringStyle.java
        cli
        ArgumentCollection.java
        ArgumentParser.java
        ArgumentParserImpl.java
        ArgumentPresenter.java
        ArgumentPresenterImpl.java
        ArgumentSpecification.java
        ArgumentSpecificationImpl.java
        ArgumentTyper.java
        ArgumentTyperImpl.java
        ArgumentValidationException.java
        ArgumentValidator.java
        ArgumentValidatorImpl.java
        ArgumentsImpl.java
        Cli.java
        CliException.java
        CliFactory.java
        CliImpl.java
        CliRuntimeException.java
        CliSpecificationImpl.java
        CommandLineInterface.java
        HelpValidationErrorImpl.java
        Option.java
        OptionNotPresentException.java
        OptionSpecification.java
        OptionSpecificationImpl.java
        OptionsSpecification.java
        OptionsSpecificationImpl.java
        ParsedArguments.java
        ParsedArgumentsBuilder.java
        TypedArguments.java
        TypedArgumentsImpl.java
        UnexpectedOptionSpecification.java
        Unparsed.java
        UnparsedSpecificationImpl.java
        ValidatedArguments.java
        ValidationErrorBuilder.java
        ValidationErrorBuilderImpl.java
        ValueFormatException.java
        concurrent
        CustomExecutors.java
        SimpleThreadFactory.java
        Sleep.java
        conf
        PropertiesManager.java
        PropertyReader.java
        cryto
        MD5.java
        MD5InputStream.java
        MD5OutputStream.java
        ds
        Cache.java
        CacheFiller.java
        PagedList.java
        Stack.java
        io
        ByteArrayOutputStream.java
        FileChangeListener.java
        FileMonitor.java
        FilenameUtils.java
        IOCase.java
        IOUtils.java
        NullOutputStream.java
        NullOutputWriter.java
        UnsynchronizedBufferedOutputStream.java
        UnsynchronizedBufferedReader.java
        UnsynchronizedBufferedWriter.java
        UnsynchronizedByteArrayInputStream.java
        UnsynchronizedByteArrayOutputStream.java
        UnsynchronizedCharArrayWriter.java
        UnsynchronizedStringReader.java
        UnsynchronizedStringWriter.java
        lang
        ArrayUtils.java
        BooleanUtils.java
        ClassUtils.java
        ObjectUtils.java
        SystemUtils.java
        math
        DoubleRange.java
        FloatRange.java
        Fraction.java
        IEEE754rUtils.java
        IntRange.java
        JVMRandom.java
        LongRange.java
        NumberRange.java
        NumberUtils.java
        RandomUtils.java
        Range.java
        text
        CharUtils.java
        DateUtil.java
        DetectEncoding.java
        Entities.java
        HexUtil.java
        HtmlStripper.java
        RandomStringUtils.java
        StringBuilderWriter.java
        StringEscapeUtils.java
        StringPrintWriter.java
        StringUtils.java
        UrlCodec.java
        Win1252Cleaner.java
        xml
        XpathNamespaceContext.java
- org.caudexorigo.commons
  - src
    - main
      - java
        org
        caudexorigo
        ErrorAnalyser.java
        Shutdown.java
        Text.java
        concurrent
        CustomExecutors.java
        SimpleThreadFactory.java
        Sleep.java
        conf
        PropertiesManager.java
        PropertyReader.java
        cryto
        MD5.java
        MD5InputStream.java
        MD5OutputStream.java
        ds
        Cache.java
        CacheFiller.java
        PagedList.java
        Stack.java
        io
        ByteArrayOutputStream.java
        FileChangeListener.java
        FileMonitor.java
        FilenameUtils.java
        IOCase.java
        IOUtils.java
        NullOutputStream.java
        NullOutputWriter.java
        UnicodeBOMInputStream.java
        UnsynchronizedBufferedOutputStream.java
        UnsynchronizedBufferedReader.java
        UnsynchronizedBufferedWriter.java
        UnsynchronizedByteArrayInputStream.java
        UnsynchronizedByteArrayOutputStream.java
        UnsynchronizedCharArrayWriter.java
        UnsynchronizedStringReader.java
        UnsynchronizedStringWriter.java
        text
        DetectEncoding.java
        HexUtil.java
        HtmlStripper.java
        TextUtils.java
        UrlCodec.java
        Win1252Cleaner.java
        time
        ISO8601.java
        RFC822.java
        xml
        JaxbConverter.java
        StreamingUnmarshaller.java
        XpathNamespaceContext.java
- org.caudexorigo.http.netty3
  - src
    - main
      - java
        org
        caudexorigo
        http
        netty
        CorsAction.java
        DefaultAction.java
        DefaultObserver.java
        DefaultRouter.java
        DefaultServer.java
        ErrorAction.java
        HelloWorldAction.java
        HttpAction.java
        HttpDateFormat.java
        HttpProtocolHandler.java
        HttpRequestWrapper.java
        HttpSslContext.java
        MimeTable.java
        NettyHttpServer.java
        NettyHttpServerCliArgs.java
        RedirectAction.java
        RequestObserver.java
        RequestRouter.java
        StaticFileAction.java
        TestForm.java
        WebException.java
        reporting
        ErrorTemplates.java
        MessageBody.java
        ResponseFormatter.java
        StandardResponseFormatter.java
        jboss
        netty
        example
        http
        helloworld
        HttpHelloWorldServer.java
        HttpHelloWorldServerHandler.java
        HttpHelloWorldServerPipelineFactory.java
  - web.socket.src
- org.caudexorigo.http.netty4
  - src
    - main
      - java
        io
        netty
        example
        http
        helloworld
        HttpHelloWorldServer.java
        HttpHelloWorldServerHandler.java
        HttpHelloWorldServerInitializer.java
        org
        caudexorigo
        http
        netty4
        CacheAdapter.java
        CacheKey.java
        CacheKeyBuilder.java
        CachedResponse.java
        CompressionAdapter.java
        CorsAction.java
        DefaultAction.java
        DefaultObserver.java
        DefaultRouter.java
        DefaultServer.java
        ErrorAction.java
        GzipStaticFileAction.java
        HelloWorldAction.java
        HttpAction.java
        HttpDateFormat.java
        HttpProtocolHandler.java
        HttpSslContext.java
        MimeTable.java
        NettyHttpServer.java
        NettyHttpServerCliArgs.java
        NettyHttpServerInitializer.java
        NettyRequest.java
        NettySslHttpServerInitializer.java
        ParameterDecoder.java
        RedirectAction.java
        RequestObserver.java
        RequestRouter.java
        StaticFileAction.java
        TestForm.java
        WebException.java
        reporting
        ErrorTemplates.java
        MessageBody.java
        ResponseFormatter.java
        StandardResponseFormatter.java
- org.caudexorigo.jdbc.v4
  - src
    - main
      - java
        org
        caudexorigo
        jdbc
        CallableStatementEntry.java
        Db.java
        DbConfigReader.java
        DbFetcher.java
        DbHandler.java
        DbInfo.java
        DbPool.java
        DbRunner.java
        DbType.java
        DefaultRowHandler.java
        NullSQLType.java
        PingHandler.java
        PreparedStatementEntry.java
        RowConverter.java
        RowHandler.java
        ScalarBigDecimalConverter.java
        ScalarConverter.java
        ScalarDoubleConverter.java
        ScalarFloatConverter.java
        ScalarIntegerConverter.java
        ScalarLongConverter.java
        SqlArray.java
        StringConverter.java
- org.caudexorigo.jersey.netty3
  - src
    - main
      - java
        org
        caudexorigo
        jersey
        JerseyHttpAction.java
        JerseyNettyResponseWriter.java
        examples
        HelloResource.java
        SampleJerseyRouter.java
        SampleNettyContainerServer.java
- org.caudexorigo.jpt.v3
  - src
    - main
      - java
        org
        caudexorigo
        jpt
        BaseJptContext.java
        BaseJptNodeBuilder.java
        ContextBuilder.java
        Dependency.java
        JptAttributeNode.java
        JptConditionEval.java
        JptConditionalAttributeNode.java
        JptConditionalNode.java
        JptConfiguration.java
        JptConstants.java
        JptContext.java
        JptDocument.java
        JptEvalUtils.java
        JptException.java
        JptFunctions.java
        JptHolderNode.java
        JptIncludeNode.java
        JptInstance.java
        JptInstanceBuilder.java
        JptLoopNode.java
        JptMacroNode.java
        JptNode.java
        JptNodeBuilder.java
        JptNotFoundException.java
        JptOutputExpressionNode.java
        JptParentNode.java
        JptStaticFragment.java
        JptTemplateNode.java
        JptUtil.java
        RepeatElements.java
        SlotElement.java
        xom
        SafeDocumentBuilder.java
        XhtmlEntityResolver.java
        XomDocumentBuilder.java
        XomUtils.java
    - test
      - java
        jpt
        test
        Customer.java
        CustomerDao.java
        CustomerList.java
        CustomerListRenderer.java
        EditCustomer.java
        FieldTest.java
        MacroContext.java
        Person.java
        SimpleContext.java
        SimpleContext2.java
        TalExecute.java
- org.caudexorigo.jpt.web
  - src
    - main
      - java
        org
        caudexorigo
        jpt
        web
        ErrorHandler.java
        HttpJptContext.java
        HttpJptController.java
        HttpJptProcessor.java
        Method.java
- org.caudexorigo.jpt.web.netty3
  - src
    - main
      - java
        org
        caudexorigo
        jpt
        web
        netty
        NettyJptProcessor.java
        NettyWebJptAction.java
        routing
        RoutingManager.java
        namedregexp
        NamedMatchResult.java
        NamedMatcher.java
        NamedPattern.java
        test
        TestRouting.java
- org.caudexorigo.jpt.web.netty4
  - src
    - main
      - java
        org
        caudexorigo
        jpt
        web
        netty
        NettyJptProcessor.java
        NettyWebJptAction.java
- org.caudexorigo.json
  - src
    - main
      - java
        org
        caudexorigo
        json
        JsonConverter.java
        JsonStringWriter.java
- org.caudexorigo.netty4
  - src
    - main
      - java
        org
        caudexorigo
        netty
        DefaultNettyContext.java
        NettyContext.java
        VoidNettyContext.java

package org.caudexorigo.text;

import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.lang3.StringEscapeUtils;
import org.apache.commons.lang3.StringUtils;
import org.caudexorigo.io.IOUtils;

public class HtmlStripper
{
	private static final Pattern breaker = Pattern.compile("(<blockquote|<center|<div|<p|<br|<h\\d|<ul|<dl|<ol|<hr|<table)", Pattern.CASE_INSENSITIVE);

	private static final Pattern markup_cleaner = Pattern.compile("<xml.*?xml>|<style.*?style>|<script.*?script>|<.*?>", Pattern.CASE_INSENSITIVE | Pattern.DOTALL);

	private static final Pattern space_cleaner = Pattern.compile("[\\u2002\\u2003\\u2004\\u2005\\u2006\\u2007\\u2008\\u2009\\u200a\\u00a0\\u1680\\u000b\\u0020\\u00a0\\u1680\\u202f\\u205f\\u3000\\u0009]");

	private static final Pattern nl_cleaner = Pattern.compile("[\r\\u000a\\u000c\\u000d\\u0085\\u2028\\u2029]");

	private static final Pattern trim_space = Pattern.compile("^[ \t]+|[ \t]+$", Pattern.MULTILINE);

	private static final Pattern multi_space = Pattern.compile("[ \t]{2,}");

	private static final Pattern multi_ln = Pattern.compile("[\\x0B\n]{2,}");

	public static String strip(String html)
	{
		if (StringUtils.isBlank(html))
		{
			return "";
		}

		Matcher m = breaker.matcher(html);

		String step0;

		if (m.find())
		{
			step0 = m.replaceAll("\n" + m.group(1));
		}
		else
		{
			step0 = html;
		}

		String step1 = markup_cleaner.matcher(step0).replaceAll(" ");
		String step2 = StringEscapeUtils.unescapeHtml4(step1);
		String step3 = space_cleaner.matcher(step2).replaceAll(" ");
		String step4 = nl_cleaner.matcher(step3).replaceAll("\n");
		String step5 = trim_space.matcher(step4).replaceAll("");
		String step6 = multi_ln.matcher(step5).replaceAll("\n");
		String step7 = multi_space.matcher(step6).replaceAll(" ").trim();

		return step7;
	}

	public static void main(String[] args) throws Throwable
	{
		String link = "http://technotes.blogs.sapo.pt/";
		URL url = new URL(link);

		String html = IOUtils.toString(url.openStream());

		System.out.println(strip(html));
	}

}