Unigram.java example

Explorer

jstk-master
- jstk
  - src
    - de
      - fau
        cs
        jstk
        agmt
        AgreementMeasure.java
        Alpha.java
        BasicStats.java
        Categorizer.java
        CicchettiMetric.java
        Correlator.java
        Distance.java
        Histogram.java
        IntervalMetric.java
        Kappa.java
        Metric.java
        NominalMetric.java
        PeakProminence.java
        RatioMetric.java
        Utils.java
        app
        Aligner.java
        Concat.java
        Convert.java
        Decoder.java
        Duration.java
        GaussEM.java
        IWRecognizer.java
        Initializer.java
        LBG.java
        MNAP.java
        Map.java
        Merge.java
        Mfcc.java
        MkInitFtFile.java
        ParallelUbmGmm.java
        Posteriors.java
        SpeexPlayer.java
        Split.java
        Trainer.java
        VADFilter.java
        Version.java
        blitzscribe
        AudioPanel.java
        Blitzscribe2.java
        Turn.java
        jstktranscriber
        AboutDialog.java
        AutocorrelationWindow.java
        ContrastBrightnessControl.java
        ContrastBrightnessListener.java
        JFrame.java
        JSTKTranscriber.java
        JSTKTranscriberPreferences.java
        PitchEstimatorWindow.java
        Preferences.java
        PreferencesDialog.java
        SpectralWindow.java
        SpectrogramControlWindow.java
        SpectrumWindow.java
        TurnListDialog.java
        TurnSelectedListener.java
        WindowClosedListener.java
        transcriberOld
        AboutDialog.java
        AutocorrelationWindow.java
        ContrastBrightnessControl.java
        ContrastBrightnessListener.java
        JFrame.java
        PitchEstimatorWindow.java
        Preferences.java
        PreferencesDialog.java
        SpectralWindow.java
        SpectrogramControlWindow.java
        SpectrumWindow.java
        Transcriber.java
        TranscriberPreferences.java
        TurnListDialog.java
        TurnSelectedListener.java
        WindowClosedListener.java
        arch
        Alphabet.java
        Codebook.java
        Configuration.java
        Token.java
        TokenHierarchy.java
        TokenTree.java
        Tokenization.java
        Tokenizer.java
        TreeNode.java
        mf
        CModelFactory.java
        ModelFactory.java
        SCModelFactory.java
        decoder
        ViterbiBeamSearch.java
        exceptions
        AlignmentException.java
        CodebookException.java
        DataSetException.java
        EvaluationException.java
        InvalidFormatException.java
        LanguageModelException.java
        MalformedParameterStringException.java
        OutOfVocabularyException.java
        TrainingException.java
        framed
        AutoCorrelation.java
        DCT.java
        DHT.java
        EnergyDetector.java
        F0.java
        FFT.java
        FastACF.java
        FilterBank.java
        Formants.java
        HammingWindow.java
        HannWindow.java
        LPCSpectrum.java
        MVN.java
        RectangularWindow.java
        Selection.java
        ShiftedDeltaCoefficients.java
        SimpleACF.java
        SimulatedFrameSource.java
        Slope.java
        SpectralTransformation.java
        Traps.java
        TriangularWindow.java
        VUVDetection.java
        VUVSmoothing.java
        Window.java
        filters
        MeanSubtraction.java
        MedianFilter.java
        io
        BufferedAudioSource.java
        BufferedAudioSourceReader.java
        BufferedFrameSource.java
        BufferedFrameSourceReader.java
        ChunkedDataSet.java
        ChunkedTranscribedData.java
        FrameDestination.java
        FrameInputStream.java
        FrameOutputStream.java
        FrameReader.java
        FrameSource.java
        FrameWriter.java
        IOUtil.java
        LabelFrameInputStream.java
        SampleDestination.java
        SampleInputStream.java
        SampleOutputStream.java
        SampleReader.java
        SampleSource.java
        SampleWriter.java
        lm
        Bigram.java
        FixedSequences.java
        LanguageModel.java
        Unigram.java
        Zerogram.java
        sampled
        AudioBuffer.java
        AudioCapture.java
        AudioFileListReader.java
        AudioFileReader.java
        AudioPlay.java
        AudioSource.java
        ConstantGenerator.java
        DCShiftRemover.java
        MixerDescription.java
        MixerUtil.java
        RawAudioFormat.java
        RawCapturer.java
        RawPlayer.java
        RingModulation.java
        Samples.java
        Segmenter.java
        SineGenerator.java
        SpeexFileReader.java
        SplitbandInversion.java
        Synthesizer.java
        TeeInputStream.java
        TeeOutputStream.java
        ThreadedPlayer.java
        ThreadedRecorder.java
        WaveFileWriter.java
        filters
        BandPassFilter.java
        Butterworth.java
        FIRFilter.java
        IIRFilter.java
        segmented
        Boundary.java
        Phoneme.java
        Subdivision.java
        Syllable.java
        SyllableNucleiDetector.java
        SyllableNucleus.java
        Utterance.java
        UtteranceCollection.java
        UtteranceCollectionTest.java
        UtteranceTest.java
        Word.java
        stat
        Density.java
        DensityDiagonal.java
        DensityFull.java
        DistributionTest.java
        Initialization.java
        Mixture.java
        MleDensityAccumulator.java
        MleMixtureAccumulator.java
        MmieAccumulator.java
        ParallelEM.java
        ParallelML.java
        Sample.java
        Trainer.java
        hmm
        Alignment.java
        CState.java
        DState.java
        Hmm.java
        MetaAlignment.java
        SCState.java
        State.java
        trans
        Gaussianization.java
        LDA.java
        NAP.java
        PCA.java
        Projection.java
        SparseDataPCA.java
        util
        Arithmetics.java
        ArrayUtils.java
        ArrayUtilsTest.java
        Distances.java
        Gnuplot.java
        LabelTranslator.java
        Pair.java
        Palindrome.java
        SplineInterpolation.java
        Various.java
        vc
        F0Point.java
        FileVisualizer.java
        FrameFileReader.java
        FrameFileWriter.java
        VisualComponent.java
        VisualizationInformer.java
        VisualizerAutocorrelation.java
        VisualizerPitch.java
        VisualizerPitchEstimator.java
        VisualizerPower.java
        VisualizerSpectrogram.java
        VisualizerSpectrum.java
        VisualizerSpeechSignal.java
        interfaces
        AudioBufferListener.java
        F0PointsSelectedListener.java
        MouseMotionVisualizationListener.java
        PitchDefinedListener.java
        SampleSelectedListener.java
        SignalSectionSelectedListener.java
        VisualizationListener.java
        WordClickListener.java
        WordDblClickListener.java
        WordHighlightedListener.java
        transcription
        Transcription.java
        TranscriptionEntry.java
        TranscriptionList.java
        TranscriptionOverlappingEntriesException.java
        VisualizerTranscription.java

/*
	Copyright (c) 2009-2011
		Speech Group at Informatik 5, Univ. Erlangen-Nuremberg, GERMANY
		Korbinian Riedhammer
		Tobias Bocklet
		Stephan Steidl
		Florian Hoenig

	This file is part of the Java Speech Toolkit (JSTK).

	The JSTK is free software: you can redistribute it and/or modify
	it under the terms of the GNU General Public License as published by
	the Free Software Foundation, either version 3 of the License, or
	(at your option) any later version.

	The JSTK is distributed in the hope that it will be useful,
	but WITHOUT ANY WARRANTY; without even the implied warranty of
	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
	GNU General Public License for more details.

	You should have received a copy of the GNU General Public License
	along with the JSTK. If not, see <http://www.gnu.org/licenses/>.
*/

package de.fau.cs.jstk.lm;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import de.fau.cs.jstk.arch.TokenHierarchy;
import de.fau.cs.jstk.arch.TokenTree;
import de.fau.cs.jstk.arch.Tokenization;
import de.fau.cs.jstk.arch.Tokenizer;
import de.fau.cs.jstk.arch.TreeNode;
import de.fau.cs.jstk.exceptions.OutOfVocabularyException;

/**
 * The uni-gram allows (in contrast to the zero-gram) specify language model
 * weights for each word.
 * 
 * @author sikoried
 *
 */
public class Unigram implements LanguageModel {
	/** The default language model probability for OOV words */
	public static final float DEFAULT_OOV = 0.001f;
	
	/** out-of-vocabulary probability */
	private float oovProb = DEFAULT_OOV;
	
	private Tokenizer tok;
	private TokenHierarchy th;
	private HashMap<Tokenization, Float> sils = new HashMap<Tokenization, Float>();
	private HashMap<Tokenization, Float> probs = new HashMap<Tokenization, Float>();
	
	/**
	 * Generate a new Zerogram for all words in the given Tokenizer. The words
	 * are uniformly weighted after subtraction of the silence probability mass.
	 * 
	 * @param tokenizer
	 * @param hierarchy
	 * @param sils
	 */
	public Unigram(Tokenizer tokenizer, TokenHierarchy hierarchy, HashMap<Tokenization, Float> sils) {
		this.tok = tokenizer;
		this.th = hierarchy;
		this.sils = sils;
	}
	
	/**
	 * Set the uni-gram probability
	 * @param t
	 * @param p
	 */
	public void setProb(Tokenization t, float p) {
		probs.put(t, p);
	}
	
	public void setOovProb(float p) {
		oovProb = p;
	}
	
	public double getOovProb() {
		return oovProb;
	}
	
	/**
	 * Load uni-gram Probabilities froom SRILM-stype LM file
	 * @param file
	 * @throws IOException
	 */
	public void loadSrilm(File file) throws IOException, OutOfVocabularyException {
		BufferedReader br = new BufferedReader(new FileReader(file));
		String lin;
		
		// skip everything till \1-gram
		while ((lin = br.readLine()) != null) {
			if (lin.equals("\\1-grams:"))
				break;
		}
		
		// now read everything till next thing starts with a backslash
		while ((lin = br.readLine()) != null) {
			if (lin.startsWith("\\"))
				break;
			if (lin.trim().length() < 3)
				continue;
			String [] sp = lin.trim().split("\\s+");
			
			// ignore words not in the tokenizer
			if (!tok.validate(sp[1]))
				continue;
			
			// set the prob, mind the exponentiation!
			probs.put(tok.getWordTokenization(sp[1]), (float) Math.pow(10, Float.parseFloat(sp[0])));
		}
	}
	
	public TreeNode generateNetwork() {
		// re-distribute the probability masses to compensate for the silences
		float pmass = 0.f;
		for (Map.Entry<Tokenization, Float> e : sils.entrySet()) 
			pmass += e.getValue();
		
		float umass = 0.f;
		for (Tokenization t : tok.tokenizations) {
			if (sils.containsKey(t))
				continue;
			Float p = probs.get(t);
			if (p == null)
				probs.put(t, p = oovProb);
			umass += p;
		}
		
		float skew = (1.f - pmass) / umass;
		for (Tokenization t : probs.keySet())
			probs.put(t, probs.get(t) * skew);
		
		// build lexical tree
		TokenTree tree = new TokenTree(0);
		for (Tokenization t : tok.tokenizations) {
			if (sils.containsKey(t))
				tree.addToTree(t, th.tokenizeWord(t.sequence), sils.get(t));
			else 
				tree.addToTree(t, th.tokenizeWord(t.sequence), probs.get(t));
		}
		
		// factor
		tree.factor();
		
		// loop
		for (TreeNode n : tree.leaves())
			n.setLst(tree.root);
		
		return tree.root;
	}
}