Seg.java example

Explorer

jnlp-master
- src
  - com
    - google
      - common
        annotations
        Beta.java
        GwtCompatible.java
        GwtIncompatible.java
        VisibleForTesting.java
        package-info.java
        base
        Absent.java
        AbstractIterator.java
        Ascii.java
        CaseFormat.java
        CharMatcher.java
        Charsets.java
        Converter.java
        Defaults.java
        Enums.java
        Equivalence.java
        FinalizablePhantomReference.java
        FinalizableReference.java
        FinalizableReferenceQueue.java
        FinalizableSoftReference.java
        FinalizableWeakReference.java
        Function.java
        FunctionalEquivalence.java
        Functions.java
        Joiner.java
        MoreObjects.java
        Objects.java
        Optional.java
        PairwiseEquivalence.java
        Platform.java
        Preconditions.java
        Predicate.java
        Predicates.java
        Present.java
        SmallCharMatcher.java
        Splitter.java
        StandardSystemProperty.java
        Stopwatch.java
        Strings.java
        Supplier.java
        Suppliers.java
        Throwables.java
        Ticker.java
        Utf8.java
        Verify.java
        VerifyException.java
        internal
        Finalizer.java
        package-info.java
        cache
        AbstractCache.java
        AbstractLoadingCache.java
        Cache.java
        CacheBuilder.java
        CacheBuilderSpec.java
        CacheLoader.java
        CacheStats.java
        ForwardingCache.java
        ForwardingLoadingCache.java
        LoadingCache.java
        LocalCache.java
        LongAddable.java
        LongAddables.java
        LongAdder.java
        RemovalCause.java
        RemovalListener.java
        RemovalListeners.java
        RemovalNotification.java
        Striped64.java
        Weigher.java
        package-info.java
        collect
        AbstractBiMap.java
        AbstractIndexedListIterator.java
        AbstractIterator.java
        AbstractListMultimap.java
        AbstractMapBasedMultimap.java
        AbstractMapBasedMultiset.java
        AbstractMapEntry.java
        AbstractMultimap.java
        AbstractMultiset.java
        AbstractNavigableMap.java
        AbstractRangeSet.java
        AbstractSequentialIterator.java
        AbstractSetMultimap.java
        AbstractSortedKeySortedSetMultimap.java
        AbstractSortedMultiset.java
        AbstractSortedSetMultimap.java
        AbstractTable.java
        AllEqualOrdering.java
        ArrayListMultimap.java
        ArrayTable.java
        BiMap.java
        BinaryTreeTraverser.java
        BoundType.java
        ByFunctionOrdering.java
        CartesianList.java
        ClassToInstanceMap.java
        CollectPreconditions.java
        Collections2.java
        ComparatorOrdering.java
        ComparisonChain.java
        CompoundOrdering.java
        ComputationException.java
        ComputingConcurrentHashMap.java
        ConcurrentHashMultiset.java
        Constraint.java
        Constraints.java
        ContiguousSet.java
        Count.java
        Cut.java
        DenseImmutableTable.java
        DescendingImmutableSortedMultiset.java
        DescendingImmutableSortedSet.java
        DescendingMultiset.java
        DiscreteDomain.java
        EmptyContiguousSet.java
        EmptyImmutableBiMap.java
        EmptyImmutableListMultimap.java
        EmptyImmutableSet.java
        EmptyImmutableSetMultimap.java
        EmptyImmutableSortedMap.java
        EmptyImmutableSortedMultiset.java
        EmptyImmutableSortedSet.java
        EnumBiMap.java
        EnumHashBiMap.java
        EnumMultiset.java
        EvictingQueue.java
        ExplicitOrdering.java
        FilteredEntryMultimap.java
        FilteredEntrySetMultimap.java
        FilteredKeyListMultimap.java
        FilteredKeyMultimap.java
        FilteredKeySetMultimap.java
        FilteredMultimap.java
        FilteredMultimapValues.java
        FilteredSetMultimap.java
        FluentIterable.java
        ForwardingBlockingDeque.java
        ForwardingCollection.java
        ForwardingConcurrentMap.java
        ForwardingDeque.java
        ForwardingImmutableCollection.java
        ForwardingImmutableList.java
        ForwardingImmutableMap.java
        ForwardingImmutableSet.java
        ForwardingIterator.java
        ForwardingList.java
        ForwardingListIterator.java
        ForwardingListMultimap.java
        ForwardingMap.java
        ForwardingMapEntry.java
        ForwardingMultimap.java
        ForwardingMultiset.java
        ForwardingNavigableMap.java
        ForwardingNavigableSet.java
        ForwardingObject.java
        ForwardingQueue.java
        ForwardingSet.java
        ForwardingSetMultimap.java
        ForwardingSortedMap.java
        ForwardingSortedMultiset.java
        ForwardingSortedSet.java
        ForwardingSortedSetMultimap.java
        ForwardingTable.java
        GeneralRange.java
        GenericMapMaker.java
        GwtTransient.java
        HashBasedTable.java
        HashBiMap.java
        HashMultimap.java
        HashMultiset.java
        Hashing.java
        ImmutableAsList.java
        ImmutableBiMap.java
        ImmutableClassToInstanceMap.java
        ImmutableCollection.java
        ImmutableEntry.java
        ImmutableEnumMap.java
        ImmutableEnumSet.java
        ImmutableList.java
        ImmutableListMultimap.java
        ImmutableMap.java
        ImmutableMapEntry.java
        ImmutableMapEntrySet.java
        ImmutableMapKeySet.java
        ImmutableMapValues.java
        ImmutableMultimap.java
        ImmutableMultiset.java
        ImmutableRangeMap.java
        ImmutableRangeSet.java
        ImmutableSet.java
        ImmutableSetMultimap.java
        ImmutableSortedAsList.java
        ImmutableSortedMap.java
        ImmutableSortedMapFauxverideShim.java
        ImmutableSortedMultiset.java
        ImmutableSortedMultisetFauxverideShim.java
        ImmutableSortedSet.java
        ImmutableSortedSetFauxverideShim.java
        ImmutableTable.java
        Interner.java
        Interners.java
        Iterables.java
        Iterators.java
        LexicographicalOrdering.java
        LinkedHashMultimap.java
        LinkedHashMultiset.java
        LinkedListMultimap.java
        ListMultimap.java
        Lists.java
        MapConstraint.java
        MapConstraints.java
        MapDifference.java
        MapMaker.java
        MapMakerInternalMap.java
        Maps.java
        MinMaxPriorityQueue.java
        Multimap.java
        MultimapBuilder.java
        Multimaps.java
        Multiset.java
        Multisets.java
        MutableClassToInstanceMap.java
        NaturalOrdering.java
        NullsFirstOrdering.java
        NullsLastOrdering.java
        ObjectArrays.java
        Ordering.java
        PeekingIterator.java
        Platform.java
        Queues.java
        Range.java
        RangeMap.java
        RangeSet.java
        RegularContiguousSet.java
        RegularImmutableAsList.java
        RegularImmutableBiMap.java
        RegularImmutableList.java
        RegularImmutableMap.java
        RegularImmutableMultiset.java
        RegularImmutableSet.java
        RegularImmutableSortedMap.java
        RegularImmutableSortedMultiset.java
        RegularImmutableSortedSet.java
        RegularImmutableTable.java
        ReverseNaturalOrdering.java
        ReverseOrdering.java
        RowSortedTable.java
        Serialization.java
        SetMultimap.java
        Sets.java
        SingletonImmutableBiMap.java
        SingletonImmutableList.java
        SingletonImmutableSet.java
        SingletonImmutableTable.java
        SortedIterable.java
        SortedIterables.java
        SortedLists.java
        SortedMapDifference.java
        SortedMultiset.java
        SortedMultisetBridge.java
        SortedMultisets.java
        SortedSetMultimap.java
        SparseImmutableTable.java
        StandardRowSortedTable.java
        StandardTable.java
        Synchronized.java
        Table.java
        Tables.java
        TransformedIterator.java
        TransformedListIterator.java
        TreeBasedTable.java
        TreeMultimap.java
        TreeMultiset.java
        TreeRangeMap.java
        TreeRangeSet.java
        TreeTraverser.java
        UnmodifiableIterator.java
        UnmodifiableListIterator.java
        UnmodifiableSortedMultiset.java
        UsingToStringOrdering.java
        WellBehavedMap.java
        package-info.java
        escape
        ArrayBasedCharEscaper.java
        ArrayBasedEscaperMap.java
        ArrayBasedUnicodeEscaper.java
        CharEscaper.java
        CharEscaperBuilder.java
        Escaper.java
        Escapers.java
        Platform.java
        UnicodeEscaper.java
        package-info.java
        eventbus
        AllowConcurrentEvents.java
        AnnotatedSubscriberFinder.java
        AsyncEventBus.java
        DeadEvent.java
        EventBus.java
        EventSubscriber.java
        Subscribe.java
        SubscriberExceptionContext.java
        SubscriberExceptionHandler.java
        SubscriberFindingStrategy.java
        SynchronizedEventSubscriber.java
        package-info.java
        hash
        AbstractByteHasher.java
        AbstractCompositeHashFunction.java
        AbstractHasher.java
        AbstractNonStreamingHashFunction.java
        AbstractStreamingHashFunction.java
        BloomFilter.java
        BloomFilterStrategies.java
        ChecksumHashFunction.java
        Funnel.java
        Funnels.java
        HashCode.java
        HashFunction.java
        Hasher.java
        Hashing.java
        HashingInputStream.java
        HashingOutputStream.java
        MessageDigestHashFunction.java
        Murmur3_128HashFunction.java
        Murmur3_32HashFunction.java
        PrimitiveSink.java
        SipHashFunction.java
        package-info.java
        html
        HtmlEscapers.java
        package-info.java
        io
        AppendableWriter.java
        BaseEncoding.java
        ByteArrayDataInput.java
        ByteArrayDataOutput.java
        ByteProcessor.java
        ByteSink.java
        ByteSource.java
        ByteStreams.java
        CharSequenceReader.java
        CharSink.java
        CharSource.java
        CharStreams.java
        Closeables.java
        Closer.java
        CountingInputStream.java
        CountingOutputStream.java
        FileBackedOutputStream.java
        FileWriteMode.java
        Files.java
        Flushables.java
        GwtWorkarounds.java
        InputSupplier.java
        LineBuffer.java
        LineProcessor.java
        LineReader.java
        LittleEndianDataInputStream.java
        LittleEndianDataOutputStream.java
        MultiInputStream.java
        MultiReader.java
        OutputSupplier.java
        PatternFilenameFilter.java
        Resources.java
        package-info.java
        math
        BigIntegerMath.java
        DoubleMath.java
        DoubleUtils.java
        IntMath.java
        LongMath.java
        MathPreconditions.java
        package-info.java
        net
        HostAndPort.java
        HostSpecifier.java
        HttpHeaders.java
        InetAddresses.java
        InternetDomainName.java
        MediaType.java
        PercentEscaper.java
        UrlEscapers.java
        package-info.java
        primitives
        Booleans.java
        Bytes.java
        Chars.java
        Doubles.java
        Floats.java
        Ints.java
        Longs.java
        ParseRequest.java
        Primitives.java
        Shorts.java
        SignedBytes.java
        UnsignedBytes.java
        UnsignedInteger.java
        UnsignedInts.java
        UnsignedLong.java
        UnsignedLongs.java
        package-info.java
        reflect
        AbstractInvocationHandler.java
        ClassPath.java
        Element.java
        ImmutableTypeToInstanceMap.java
        Invokable.java
        MutableTypeToInstanceMap.java
        Parameter.java
        Reflection.java
        TypeCapture.java
        TypeParameter.java
        TypeResolver.java
        TypeToInstanceMap.java
        TypeToken.java
        TypeVisitor.java
        Types.java
        package-info.java
        util
        concurrent
        AbstractCheckedFuture.java
        AbstractExecutionThreadService.java
        AbstractFuture.java
        AbstractIdleService.java
        AbstractListeningExecutorService.java
        AbstractScheduledService.java
        AbstractService.java
        AsyncFunction.java
        AsyncSettableFuture.java
        AtomicDouble.java
        AtomicDoubleArray.java
        AtomicLongMap.java
        Atomics.java
        Callables.java
        CheckedFuture.java
        CycleDetectingLockFactory.java
        ExecutionError.java
        ExecutionList.java
        FakeTimeLimiter.java
        ForwardingBlockingQueue.java
        ForwardingCheckedFuture.java
        ForwardingExecutorService.java
        ForwardingFuture.java
        ForwardingListenableFuture.java
        ForwardingListeningExecutorService.java
        FutureCallback.java
        FutureFallback.java
        Futures.java
        JdkFutureAdapters.java
        ListenableFuture.java
        ListenableFutureTask.java
        ListenableScheduledFuture.java
        ListenerCallQueue.java
        ListeningExecutorService.java
        ListeningScheduledExecutorService.java
        Monitor.java
        MoreExecutors.java
        RateLimiter.java
        Runnables.java
        SerializingExecutor.java
        Service.java
        ServiceManager.java
        SettableFuture.java
        SimpleTimeLimiter.java
        SmoothRateLimiter.java
        Striped.java
        ThreadFactoryBuilder.java
        TimeLimiter.java
        UncaughtExceptionHandlers.java
        UncheckedExecutionException.java
        UncheckedTimeoutException.java
        Uninterruptibles.java
        WrappingExecutorService.java
        WrappingScheduledExecutorService.java
        package-info.java
        xml
        XmlEscapers.java
        package-info.java
      - thirdparty
        publicsuffix
        PublicSuffixPatterns.java
        PublicSuffixType.java
        TrieParser.java
    - yc
      - nlp
        NLP.java
        Setup.java
        classification
        Bayes.java
        normal
        Normal.java
        ZH.java
        pojo
        ClassifyResult.java
        Pre.java
        Result.java
        StageValue.java
        Tag.java
        WordTag.java
        prob
        AddOneProb.java
        BaseProb.java
        GoodTuringProb.java
        NormalProb.java
        seg
        InitSeg.java
        Seg.java
        sentiment
        Sentiment.java
        sim
        BM25.java
        tag
        Tag.java
        test
        TestNLP.java
        textrank
        KeyWordTextRank.java
        TextRank.java
        util
        GoodTuring.java
        MemFile.java
        TnT.java
        Tuple.java

package com.yc.nlp.seg;

import java.io.BufferedReader;
import java.io.File;
import java.util.ArrayList;
import java.util.List;

import com.yc.nlp.pojo.Result;
import com.yc.nlp.pojo.WordTag;
import com.yc.nlp.util.MemFile;
import com.yc.nlp.util.TnT;

public class Seg {

	private TnT segger;

	public Seg() {
		segger = new TnT();
	}

	public void save(String fname) {
		this.segger.save(fname);
	}

	public void load(String fname) {
		this.segger.load(fname);
	}

	/**
	 * 训练文件
	 * @param fileName
	 */
	public void train(String fileName) {
		List<List<WordTag>> wordTags = new ArrayList<List<WordTag>>();
		BufferedReader br = MemFile.readFile(fileName, this);
		if (br != null) {
			wordTags = MemFile.segFile(br, wordTags);
		}
		// 加载自定义的训练文件
		File extendFiles = new File("extend");
		if (extendFiles.isDirectory() && extendFiles.listFiles().length > 0) {
			for (File file : extendFiles.listFiles()) {
				br = MemFile.readFile(file.getName(), this);
				if (br != null) {
					wordTags = MemFile.segFile(br, wordTags);
				}
			}
		}
		this.segger.train(wordTags);
	}

	/**
	 * 分词
	 * @param sentence
	 * @return
	 */
	public List<String> seg(String sentence) {
		List<String> ret = new ArrayList<String>();
		try {
			List<String> data = new ArrayList<String>();
			char[] chars = sentence.toCharArray();
			for (Character ch : chars) {
				data.add(ch.toString());
			}
			List<Result> results = this.segger.tag(data);
			StringBuilder sb = new StringBuilder();
			for (Result result : results) {
				if (result.getCh().equals("s")) {
					ret.add(result.getWord());
				} else if (result.getCh().equals("e")) {
					sb.append(result.getWord());
					ret.add(sb.toString());
					sb.delete(0, sb.length());
				} else {
					sb.append(result.getWord());
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
		return ret;
	}

	public static void main(String[] args) {
		Seg seg = new Seg();
		seg.train("data.txt");// 主要是用来放置一些简单快速的中文分词和词性标注的程序
		seg.save("seg1.marshal");
		System.out.println(seg.seg("这个东西真心很赞"));
	}
}