TextTokenizer.java example

Explorer

chililog-server-master
- src
  - main
    - java
      - org
        chililog
        server
        App.java
        common
        AppProperties.java
        BuildProperties.java
        ChiliLogException.java
        CryptoUtils.java
        JsonTranslator.java
        Log4JLogger.java
        StringsProperties.java
        SystemProperties.java
        TextTokenizer.java
        data
        BO.java
        Controller.java
        ListCriteria.java
        MongoConnection.java
        MongoJsonParser.java
        MongoJsonSerializer.java
        MongoUtils.java
        RepositoryConfigBO.java
        RepositoryConfigController.java
        RepositoryConfigListCriteria.java
        RepositoryEntryBO.java
        RepositoryEntryController.java
        RepositoryEntryListCriteria.java
        RepositoryFieldConfigBO.java
        RepositoryParserConfigBO.java
        Strings.java
        UserBO.java
        UserController.java
        UserListCriteria.java
        engine
        InternalLog4JAppender.java
        JAASCallbackHandler.java
        JAASConfiguration.java
        JAASLoginModule.java
        MqService.java
        Repository.java
        RepositoryEntryMqMessage.java
        RepositoryService.java
        RepositoryStorageWorker.java
        Strings.java
        parsers
        BooleanFieldParser.java
        DateFieldParser.java
        DefaultEntryParser.java
        DelimitedEntryParser.java
        DoubleFieldParser.java
        EntryParser.java
        EntryParserFactory.java
        FieldParser.java
        FieldParserFactory.java
        IntegerFieldParser.java
        JsonEntryParser.java
        LongIntegerFieldParser.java
        RegexEntryParser.java
        StringFieldParser.java
        pubsub
        MqProducerSessionPool.java
        PubSubService.java
        Strings.java
        jsonhttp
        JsonHttpRequestHandler.java
        JsonHttpSSLTrustManager.java
        JsonHttpServerPipelineFactory.java
        JsonHttpService.java
        JsonHttpSslContextManager.java
        LogEntryAO.java
        PublicationRequestAO.java
        PublicationResponseAO.java
        PublicationWorker.java
        SubscriptionRequestAO.java
        SubscriptionResponseAO.java
        SubscriptionWorker.java
        websocket
        BinaryWebSocketFrame.java
        CloseWebSocketFrame.java
        ContinuationWebSocketFrame.java
        PingWebSocketFrame.java
        PongWebSocketFrame.java
        TextWebSocketFrame.java
        UTF8Exception.java
        UTF8Output.java
        WebSocket00FrameDecoder.java
        WebSocket00FrameEncoder.java
        WebSocket08FrameDecoder.java
        WebSocket08FrameEncoder.java
        WebSocketClientHandshaker.java
        WebSocketClientHandshaker00.java
        WebSocketClientHandshaker10.java
        WebSocketClientHandshakerFactory.java
        WebSocketFrame.java
        WebSocketFrameType.java
        WebSocketHandshakeException.java
        WebSocketServerHandshaker.java
        WebSocketServerHandshaker00.java
        WebSocketServerHandshaker10.java
        WebSocketServerHandshakerFactory.java
        WebSocketSpecificationVersion.java
        package-info.java
        workbench
        ApiRequestHandler.java
        EchoRequestHandler.java
        HttpRequestHandler.java
        HttpServerPipelineFactory.java
        SSLTrustManager.java
        SslContextManager.java
        StaticFileRequestHandler.java
        Strings.java
        WorkbenchRequestHandler.java
        WorkbenchService.java
        workers
        AO.java
        ApiResult.java
        AuthenticatedUserAO.java
        AuthenticatedUserPasswordAO.java
        AuthenticationAO.java
        AuthenticationTokenAO.java
        AuthenticationWorker.java
        ErrorAO.java
        RepositoryConfigAO.java
        RepositoryConfigWorker.java
        RepositoryFieldConfigAO.java
        RepositoryParserConfigAO.java
        RepositoryPropertyConfigAO.java
        RepositoryRuntimeWorker.java
        RepositoryStatusAO.java
        UserAO.java
        UsersWorker.java
        Worker.java
  - test
    - java
      - org
        chililog
        client
        stomp
        AllowAllAuthenticator.java
        Authenticatable.java
        Authenticator.java
        Client.java
        Command.java
        FileQueue.java
        IntraVMClient.java
        Listener.java
        Message.java
        MessageReceiver.java
        Queue.java
        Receiver.java
        Server.java
        Stomp.java
        TestListener.java
        Transmitter.java
        Version.java
        websocket
        WebSocketCallback.java
        WebSocketClient.java
        WebSocketClientFactory.java
        WebSocketClientHandler.java
        WebSocketException.java
        WebSocketHttpResponseDecoder.java
        server
        AppTest.java
        common
        AppPropertiesTest.java
        BuildPropertiesTest.java
        ChiliLogExceptionTest.java
        CryptoUtilsTest.java
        JsonTranslatorTest.java
        Log4JLoggerTest.java
        StringsPropertiesTest.java
        SystemPropertiesTest.java
        TextTokenizerTest.java
        data
        MongoConnectionTest.java
        RepositoryConfigTest.java
        RepsitoryEntryTest.java
        UserTest.java
        engine
        HornetQEmbeddedTest.java
        InternalLog4JAppenderTest.java
        MqServiceTest.java
        MqServiceTransportTest.java
        RepositoryTest.java
        parsers
        DefaultEntryParserTest.java
        DelimitedEntryParserTest.java
        FieldParserTest.java
        JsonEntryParserTest.java
        RegexEntryParserTest.java
        pubsub
        JsonHttpPubishTest.java
        JsonWebSocketTest.java
        MqProducerSessionPoolTest.java
        TestUtils.java
        workbench
        ApiUtils.java
        AuthenticationTest.java
        RepositoryConfigTest.java
        RepositoryRuntimeTest.java
        UsersTest.java
        WorkbenchServiceTest.java

//
// Copyright 2010 Cinch Logic Pty Ltd.
//
// http://www.chililog.com
//
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this file except in compliance with the License.
// You may obtain a copy of the License at
//
// http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.
//

package org.chililog.server.common;

import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.HashMap;

import org.apache.commons.lang.StringUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.apache.lucene.util.Version;

public class TextTokenizer {

    /**
     * Returns the singleton instance for this class
     */
    public static TextTokenizer getInstance() {
        return SingletonHolder.INSTANCE;
    }

    /**
     * SingletonHolder is loaded on the first execution of Singleton.getInstance() or the first access to
     * SingletonHolder.INSTANCE, not before.
     * 
     * @see http://en.wikipedia.org/wiki/Singleton_pattern
     */
    private static class SingletonHolder {

        public static final TextTokenizer INSTANCE = new TextTokenizer();
    }

    /**
     * 
     */
    private TextTokenizer() {

    }

    /**
     * <p>
     * Tokenizes text to get keywords
     * </p>
     * <p>
     * We use lucene <code>StandardAnalyzer</code> with a bit of spice. We want to break up domain names, class names
     * and emails so we have to do some extra parsing.
     * </p>
     * <p>
     * Lucene parsing:
     * <ul>
     * <li>"email@address.com" = ["email@address", "com"]</li>
     * <li>"com.chililog.server.common.ChiliLogExceptionTest" = ["com.chililog.server.common", "chililogexceptiontest"]</li>
     * </ul>
     * </p>
     * <p>
     * We have not used regular expression because it is slow. We have implemented this as a singleton so that in the
     * future we can allow user customization.
     * </p>
     * 
     * @param text
     *            Text to extract keywords
     * @param maxKeywords
     *            Maximum number of keywords to extract. If < 0, then no limit will be used.
     * @return Array of keywords
     * @throws IOException
     */
    public ArrayList<String> tokenize(String text, long maxKeywords) throws IOException {
        ArrayList<String> tokens = new ArrayList<String>();

        if (StringUtils.isEmpty(text) || maxKeywords == 0) {
            return tokens;
        }

        Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
        HashMap<String, String> lookup = new HashMap<String, String>();
        TokenStream stream = analyzer.tokenStream("field", new StringReader(text));

        StringBuilder sb = new StringBuilder();
        TermAttribute termAttribute = stream.getAttribute(TermAttribute.class);
        while (stream.incrementToken()) {
            char[] termBuffer = termAttribute.termBuffer();
            int length = termAttribute.termLength();

            boolean doSplit = true;

            // Check if we want to split
            if (Character.isDigit(termBuffer[0])) {
                doSplit = false;
            } else {
                for (int j = 0; j < length; j++) {
                    char c = termBuffer[j];
                    if (!Character.isLetterOrDigit(c) && c != '.' && c != '@') {
                        doSplit = false;
                        break;
                    }
                }
            }

            if (doSplit) {
                sb.setLength(0);
                for (int i = 0; i < length; i++) {
                    char c = termBuffer[i];
                    if (c == '.' || c == '@') {
                        if (!addToken(tokens, lookup, sb.toString(), maxKeywords)) {
                            return tokens;
                        }
                        sb.setLength(0);
                    } else {
                        sb.append(c);
                    }
                }

                // Add last part
                if (!addToken(tokens, lookup, sb.toString(), maxKeywords)) {
                    return tokens;
                }
            } else {
                // No splitting, just add term
                if (!addToken(tokens, lookup, termAttribute.term(), maxKeywords)) {
                    return tokens;
                }
            }
        }

        return tokens;
    }

    /**
     * Adds our token to our collection
     * 
     * @param tokens
     *            collection of tokens
     * @param lookup
     *            lookup hashmap for duplicates
     * @param token
     *            token or term to add to the collection
     * @param maxKeywords
     *            maximum number of keywords
     * @return True if it is OK to keep adding tokens, False if no more tokens should be added
     */
    private boolean addToken(ArrayList<String> tokens, HashMap<String, String> lookup, String token, long maxKeywords) {
        if (!StringUtils.isBlank(token) && !lookup.containsKey(token)) {
            tokens.add(token);
            lookup.put(token, null);
            if (maxKeywords > 0 && tokens.size() >= maxKeywords) {
                return false;
            }
        }
        return true;
    }

}