SentenceTokenizer.java example

Explorer

yoshikoder-master
- src
  - java
    - edu
      - harvard
        wcfia
        yoshikoder
        AddCategoryAction.java
        AddDocumentAction.java
        AddHighlightsAction.java
        AddPatternAction.java
        AddWordsToCategoryAction.java
        ApplicationCloser.java
        ConcordanceFrequencyReportAction.java
        DictionaryRRDocumentComparisonAction.java
        DuplicateReportAction.java
        EditDocumentAction.java
        EditNodeAction.java
        ExitAction.java
        ExportConcordanceAsExcelAction.java
        ExportConcordanceAsHtmlAction.java
        ExportDictionaryAsHtml.java
        ExportDocumentAsUTF16Action.java
        ExportDocumentAsUTF8Action.java
        ExportProjectAsHtmlAction.java
        HelpAction.java
        HelpBook.java
        ImportDocumentAction.java
        ImportVBProAction.java
        MacAboutAction.java
        MacHelpAction.java
        MakeConcordanceAction.java
        MultipleConcordanceFrequencyReportAction.java
        NewProjectAction.java
        OpenConcordanceAction.java
        OpenDictionaryAction.java
        OpenProjectAction.java
        PreferencesAction.java
        QuitAction.java
        RemoveDocumentAction.java
        RemoveHighlightsAction.java
        RemoveNodeAction.java
        SaveAsDictionaryAction.java
        SaveConcordanceAction.java
        SaveProjectAction.java
        SaveProjectAsAction.java
        SetHighlightColorAction.java
        ShowConsoleAction.java
        ShowLicenseAction.java
        SingleDocumentDictionaryReportAction.java
        SingleDocumentWordFrequencyReportAction.java
        UnifiedDictionaryFrequencyReportAction.java
        UnifiedWordFrequencyReportAction.java
        WindowsAboutAction.java
        YAction.java
        YKCommandLine.java
        YKFS.java
        YKProject.java
        Yoshikoder.java
        YoshikoderAction.java
        YoshikoderOSX.java
        cl
        Annotator.java
        concordance
        Concordance.java
        ConcordanceImpl.java
        ConcordanceLine.java
        ConcordanceLineImpl.java
        dictionary
        AbstractYKDictionary.java
        CategoryNode.java
        CategoryNodeImpl.java
        DemoDictionary.java
        DictionaryException.java
        DictionaryReplacedEvent.java
        DuplicateException.java
        Node.java
        NodeImpl.java
        PatternEngine.java
        PatternEngineFactory.java
        PatternNode.java
        PatternNodeImpl.java
        RegexpPatternEngine.java
        SimpleDictionary.java
        SubstringPatternEngine.java
        YKDictionary.java
        document
        AbstractYKDocument.java
        DocumentAddedEvent.java
        DocumentChangedEvent.java
        DocumentList.java
        DocumentListImpl.java
        DocumentModifiedException.java
        DocumentRemovedEvent.java
        DocumentRemovedException.java
        DocumentTextException.java
        LazyYKDocument.java
        TokenStructuredDocument.java
        YKDocument.java
        YKDocumentFactory.java
        YKDocumentImpl.java
        tokenizer
        BITokenizerImpl.java
        ConcordanceSpanList.java
        DuplicatePluginException.java
        Location.java
        LocationImpl.java
        LocationList.java
        LocationListImpl.java
        PluginException.java
        SentenceTokenizer.java
        SpanList.java
        TM.java
        Token.java
        TokenCache.java
        TokenImpl.java
        TokenList.java
        TokenListImpl.java
        TokenizationCache.java
        TokenizationException.java
        TokenizationService.java
        Tokenizer.java
        TokenizerSource.java
        WordTokenizer.java
        reporting
        AbstractReport.java
        ComparisonMap.java
        DictionaryComparisonReport.java
        DictionaryFrequencyReport.java
        DictionaryRRDocumentComparisonReport.java
        DocumentFrequencyReport.java
        EntryFrequencyMap.java
        RiskRatioStatistics.java
        UncomputableRiskRatioException.java
        UnifiedDocumentFrequencyReport.java
        WordFrequencyMap.java
        YKReport.java
        ui
        CommitException.java
        Commitable.java
        CommitableJPanel.java
        CommitablePanel.java
        ComparisonPanel.java
        DictionaryPanel.java
        DictionaryTreeCellRenderer.java
        DocumentPanel.java
        DocumentPropertiesPanel.java
        DocumentState.java
        EditCategoryPanel.java
        EditPatternPanel.java
        FatalErrorPanel.java
        FontPanel.java
        FormPanel.java
        GeneralPreferencesPanel.java
        ImportDocumentPanel.java
        ListConcordancePanel.java
        NewCategoryPanel.java
        NewPatternPanel.java
        NewProjectPanel.java
        PreferencePanel.java
        PreviewPanel.java
        ReportTable.java
        TableConcordancePanel.java
        TableSorter.java
        TableUtil.java
        TokenizerPluginsPanel.java
        TransferableTreeNode.java
        TreeDragSource.java
        TreeDropTarget.java
        YKReportPanel.java
        dialog
        AboutDialog.java
        AbstractOkCancelDialog.java
        ComparisonReportDialog.java
        DocumentScoreDialog.java
        EditCategoryDialog.java
        EditPatternDialog.java
        ExportDialog.java
        ImportDocumentDialog.java
        MessageDialog.java
        MultiReportDialog.java
        NewCategoryDialog.java
        NewPatternDialog.java
        NewProjectDialog.java
        PreferencesDialog.java
        TextResultsDialog.java
        TokenizerPluginsDialog.java
        YKDictionaryReportDialog.java
        YKReportDialog.java
        model
        ConcordanceTableModel.java
        DocumentListModel.java
        util
        ApplicationDetails.java
        CharsetWrapper.java
        ConcordanceHandler.java
        DialogUtil.java
        DialogWorker.java
        ExportUtil.java
        FileUtil.java
        GlassPane.java
        ImportUtil.java
        LocaleWrapper.java
        Messages.java
        SwingWorkerVariant.java
        TaskWorker.java
        VBProFileParser.java
        VersionHandler.java
        YKDictionaryHandler.java
        YKOldDictionaryHandler.java
        YKProjectHandler.java

package edu.harvard.wcfia.yoshikoder.document.tokenizer;

import java.io.File;
import java.text.BreakIterator;
import java.util.ArrayList;
import java.util.List;
import java.util.Locale;
import java.util.logging.Level;
import java.util.logging.Logger;

import edu.harvard.wcfia.yoshikoder.util.FileUtil;

/**
 * Breaks a text into sentence spans.  Note that this will leave trailing newlines (paragraph
 * breaks etc.) in its current incarnation.  These should be fixed.
 * 
 * @author will
 *
 */
public class SentenceTokenizer {
    
    private static Logger log = 
        Logger.getLogger("edu.harvard.wcfia.yoshikoder.document.tokenizer.SentenceTokenizer");
    
    protected Locale locale;
    protected BreakIterator sentenceIterator;
    
    public SentenceTokenizer(Locale loc){
        if (loc == null){
            locale = Locale.getDefault();
            log.info("Null handed in as Locale, using default: " + locale.toString());
        } else 
            locale = loc;
        
        sentenceIterator = BreakIterator.getSentenceInstance(locale);
    }
    
    public int [][] getTokenSpans(String txt){
        sentenceIterator.setText(txt);
        List list = new ArrayList();
        
        int start = sentenceIterator.first();
        int end = sentenceIterator.next();
        while (end != BreakIterator.DONE) {
            if (Character.isLetterOrDigit( txt.charAt(start) ))
                list.add(new int[]{start, end});            

            start = end;
            try {
                end = sentenceIterator.next(); // throws exceptions rarely
            } catch (Exception e) {
                log.log(Level.WARNING, 
                        "tokenization exception somewhere after character " + end,
                        e);
            }
        }
        sentenceIterator.setText(""); // drop any document references we might be keeping
        return (int[][])list.toArray(new int[list.size()][2]);
    }
    
    public String[] getTokens(String txt){
        int[][] spans = getTokenSpans(txt);
        String[] s = new String[spans.length];
        for (int ii = 0; ii < s.length; ii++) {
            s[ii] = txt.substring(spans[ii][0], spans[ii][1]);
        }
        return s;
    }
    
    public static void main(String[] args) throws Exception {
        File f = new File("/Users/will/review.txt");
        String txt = FileUtil.slurp(f);
        txt = txt.replace('\r', '\n');
        WordTokenizer tok = new WordTokenizer(null);
        String[] spans = tok.getTokens(txt);
        
        for (int ii = 0; ii < spans.length; ii++) {
          System.out.println(ii + ": " + spans[ii] + "]");
        }
    }
    
}