MessageLexer.java example

Explorer

CSTIB-Echo-master
- EchoAndroid
  - src
    - main
      - java
        com
        google
        zxing
        integration
        android
        IntentIntegrator.java
        IntentResult.java
        uk
        ac
        cam
        echo
        BitmapUtil.java
        ConnectionDetector.java
        ConversationAdapter.java
        ConversationStringUtil.java
        MessageAdapter.java
        PreferenceAttributes.java
        Toaster.java
        UserAdapter.java
        UserCache.java
        activities
        ConversationDetailActivity.java
        ConversationListActivity.java
        MainActivity.java
        RegisterActivity.java
        UserListActivity.java
        UserSettingsActivity.java
        dummy
        Conversation.java
        fragments
        AddConversationDialog.java
        ConversationDialog.java
        ConversationFragment.java
        ConversationListFragment.java
        onListLoadedListener.java
        services
        EchoService.java
- TouchClient
  - src
    - uk
      - ac
        cam
        echo
        TouchClient
        AddChange.java
        ConfrenceLoadScreenController.java
        ConfrenceNotFoundException.java
        ConfrenceStats.java
        ConvStats.java
        ConversationAlredyDisplayedException.java
        ConversationListCellFactory.java
        ConversationPlaceHolder.java
        Delta.java
        ECHOResource.java
        ErrorMessagePopupController.java
        ErrorResourceBundle.java
        GUIController.java
        InvalidServerCredentialsException.java
        InvalidServerCredentialsIDException.java
        InvalidServerCredentialsIPException.java
        InvalidServerCredentialsPortException.java
        MessageDisplayList.java
        NoMessageListException.java
        NotCurrentConversationException.java
        RemoveChange.java
        ServerConnection.java
        TagCloud.java
        TestCloud.java
        TouchClient.java
        avitarCellFactory.java
        messageCellFactory.java
        notInstantiatedYetException.java
- client
  - src
    - main
      - java
        uk
        ac
        cam
        echo
        client
        ClientApi.java
        ClientSubscription.java
        ProxyResource.java
        ResourceFactory.java
        data
        BaseData.java
        ConferenceData.java
        ConversationData.java
        InterestData.java
        MessageData.java
        TagData.java
        UserData.java
- data
  - src
    - main
      - java
        uk
        ac
        cam
        echo
        data
        Base.java
        Conference.java
        Conversation.java
        Interest.java
        Message.java
        Tag.java
        User.java
        async
        Handler.java
        Subscription.java
        SubscriptionResource.java
        resources
        ConferenceResource.java
        ConversationResource.java
        InterestResource.java
        MessageResource.java
        Resource.java
        RestResource.java
        TagResource.java
        UserResource.java
- server
  - src
    - main
      - java
        uk
        ac
        cam
        echo
        server
        GravatarUtil.java
        HibernateConfigurator.java
        HibernateUtil.java
        Main.java
        analysis
        DataAnalyst.java
        ServerDataAnalyst.java
        cmp
        ConversationComparatorByActivity.java
        ConversationComparatorByMatchFrequency.java
        ConversationComparatorByMessageCount.java
        ConversationComparatorByUserCount.java
        UserComparatorByActivity.java
        hunspell
        SpellChecker.java
        internal
        DoubleConversationPair.java
        ForceGraphUtil.java
        GraphUtil.java
        GraphUtil2.java
        IntegerConversationPair.java
        IntegerUserPair.java
        MessageLexer.java
        NPForceGraph.java
        StringMatcher.java
        UserKeyworder.java
        porterstemmer
        StemProxy.java
        Stemmer.java
        filters
        HibernateRequestFilter.java
        HibernateResponseFilter.java
        JacksonWithHibernateJsonProvider.java
        models
        BaseModel.java
        ConferenceModel.java
        ConversationModel.java
        ForceEdgeModel.java
        ForceNodeModel.java
        InterestModel.java
        MessageModel.java
        NodeModel.java
        TagModel.java
        UserModel.java
        resources
        AnalystFactory.java
        ConferenceResourceImpl.java
        ConversationResourceImpl.java
        IdSubscriptionFactory.java
        InterestResourceImpl.java
        MessageResourceImpl.java
        SubscriptionResourceImpl.java
        TagResourceImpl.java
        UserResourceImpl.java
        serializers
        ConferenceSerializer.java
        ConversationSerializer.java
        ForceEdgeSerializer.java
        ForceNodeSerializer.java
        InterestSerializer.java
        MessageSerializer.java
        NodeSerializer.java
        TagSerializer.java
        UserSerializer.java
    - test
      - java
        uk
        ac
        cam
        echo
        server
        DemoTest.java
        HibernateTestCase.java
        analysis
        MessageLexerTest.java
        SpellCheckerTest.java
        StringMatcherTest.java
        UserKeyworderTest.java
- text-client
  - src
    - main
      - java
        uk
        ac
        cam
        echo
        textClient
        Main.java

package uk.ac.cam.echo.server.analysis.internal;

import uk.ac.cam.echo.server.analysis.hunspell.SpellChecker;
import uk.ac.cam.echo.server.analysis.porterstemmer.StemProxy;

import java.io.*;
import java.util.*;

/**
 Author: Petar 'PetarV' Veličković

 This class does lexical analysis on a string message,
 ideally returning a list of base words contained
 within that message.

 Errors are possible, as this is an open problem in NLP.
 However we will treat those errors as correct output
 when doing our keyword search.

 The algorithm is thoroughly described within.
*/
public class MessageLexer
{
    private static SpellChecker checker = null;
    private static Set<String> stopWords = null;
    private static Map<String, String> cache = new HashMap<String, String>();

    /**
     The main method that handles lexical analysis.

     The algorithm can be described in steps as follows:
        1. Convert the entire string to lowercase.
        2. Remove punctuation symbols and other non-letters, replacing them by whitespace.
        3. Split the resulting string into words using whitespace as a delimiter.
        4. Perform a spell-checker pass over the resulting words.
        5. Remove stop-words and single-character words from the list.
        6. Perform a stemming pass over the resulting words, to reduce words to base form.
        7. Perform another spell-checking pass, to try and fix errors made by the stemmer.
        8. Return the obtained list of words.

     @param message     A string containing the message to be decoded.
     @param dictionary  The path to an English dictionary file.
     @param affix       The path to an English dictionary affix file.
     @param stopList    The path to a file containing the list of stop-words.
     @return            The list of base words extracted from the message.
    */
    public static List<String> lexAnalyse(String message, String dictionary, String affix, String stopList)
    {
        // Initialising the necessary resources.
        if (checker == null) checker = new SpellChecker(dictionary, affix);
        if (stopWords == null)
        {
            stopWords = new HashSet<String>();
            try
            {
                BufferedReader reader = new BufferedReader(new InputStreamReader(new BufferedInputStream(new FileInputStream(stopList))));
                String stopWord;
                while ((stopWord = reader.readLine()) != null) stopWords.add(stopWord);
            }
            catch (IOException e)
            {
                e.printStackTrace();
                return new LinkedList<String>();
            }

        }
        List<String> ret = new LinkedList<String>();

        // Step 1.
        message = message.toLowerCase(Locale.ENGLISH);

        // Step 2.
        message = message.replaceAll("[^a-zA-Z ]"," ");

        // Step 3.
        String[] tokens = message.split("\\s+");

        // Steps 4 & 5.
        for (int i=0;i<tokens.length;i++)
        {
            tokens[i] = checker.correct(tokens[i]);
            if (!stopWords.contains(tokens[i]) && tokens[i].length() > 1) ret.add(tokens[i]);
        }

        // Steps 6 & 7.
        ListIterator<String> it = ret.listIterator();
        while (it.hasNext())
        {
            String word = it.next();
            if (cache.containsKey(word)) it.set(cache.get(word));
            else
            {
                String baseWord = checker.correct(StemProxy.stem(word)).toLowerCase(Locale.ENGLISH);
                cache.put(word, baseWord);
                it.set(baseWord);
            }
        }

        // Step 8.
        return ret;
    }
}