TestPDFTextExtractor.java example

Explorer

Hibernate-Search-on-action-master
- HSiA-1.0.0
  - ch02
    - src
      - com
        manning
        hsia
        dvdstore
        action
        Indexer.java
        Searcher.java
        model
        Item.java
        util
        EntityManagerHolder.java
        SessionHolder.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        IndexerTest.java
        JpafIndexerTest.java
        SearchTest.java
        util
        JpaTestCase.java
        TestCase.java
  - ch03
    - src
      - com
        manning
        hsia
        dvdstore
        model
        Drink.java
        Dvd.java
        Item.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        InheritanceTest.java
        util
        TestCase.java
  - ch04
    - src
      - com
        manning
        hsia
        dvdstore
        bridge
        ItemPromotionBridge.java
        MapKeyPerFieldBridge.java
        PaddedPriceBridge.java
        PaddedRoundedPriceBridge.java
        ParameterizedPaddedRoundedPriceBridge.java
        PersonPkBridge.java
        model
        Actor.java
        Country.java
        Director.java
        Item.java
        Person.java
        PersonPK.java
        Rating.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        BridgeTest.java
        BridgeUseTest.java
        IndexedEmbeddedTest.java
        util
        TestCase.java
  - ch05
    - src
      - com
        manning
        hsia
        dvdstore
        action
        Indexer.java
        StemmerIndexer.java
        StemmerIndexerImpl.java
        model
        Distributor.java
        Item.java
        util
        SessionHolder.java
        SessionInvocationHandler.java
        SnowballPorterFilterFactory.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        IndexerTest.java
        StemmerIndexerTest.java
        util
        TestCase.java
  - ch06
    - src
      - com
        manning
        hsia
        dvdstore
        action
        BatchChangeAction.java
        BatchChangeActionImpl.java
        DisplayAction.java
        DisplayActionImpl.java
        ItemAction.java
        ItemActionImpl.java
        ItemView.java
        OrderBy.java
        ResultHolder.java
        jpa
        DisplayActionImpl.java
        ItemActionImpl.java
        model
        Distributor.java
        Item.java
        Pizza.java
        PizzaSize.java
        util
        EntityManagerHolder.java
        EntityManagerInvocationHandler.java
        ProjectionToMapResultTransformer.java
        SessionHolder.java
        SessionInvocationHandler.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        BatchChangeActionTest.java
        DisplayActionTest.java
        ItemActionTest.java
        JpaDisplayActionTest.java
        JpaItemActionTest.java
        util
        FilterImport.java
        JpaTestCase.java
        TestCase.java
  - ch07
    - src
      - com
        manning
        hsia
        dvdstore
        Dvd.java
        MyQueryParser.java
        Num.java
        PadNumberBridge.java
        PaddedNum.java
        ScopedEntity.java
        TestAnalyzerWrapper.java
        TestBadRangeQuery.java
        TestBooleanQuery.java
        TestFactoryMethod.java
        TestFuzzyQuery.java
        TestFuzzyTermEnum.java
        TestGoodRangeQuery.java
        TestManualAnalyzer.java
        TestMultiField.java
        TestPhraseQuery.java
        TestPhraseQueryWithSlop.java
        TestPrefixQuery.java
        TestQueryParserQueryGeneration.java
        TestStopAnalyzer.java
        TestTermQuery.java
        TestWildcards.java
    - test
      - com
        manning
        hsia
        test
        HSiATestCase.java
        SearchTestCase.java
  - ch08
    - src
      - com
        manning
        hsia
        dvdstore
        action
        DistributorAction.java
        DistributorActionImpl.java
        ItemRetrievalAction.java
        ItemRetrievalActionImpl.java
        StockAction.java
        StockActionImpl.java
        filter
        DistributorFilter.java
        DistributorFilterFactory.java
        MaximumPriceFilterFactory.java
        NotAChildFilterFactory.java
        SearchWithinSearchFilterFactory.java
        SecurityFilter.java
        StockFilter.java
        WarnerDistributorFilterFactory.java
        model
        Category.java
        Distributor.java
        Item.java
        bridge
        ChildrenFlagBridge.java
        ParameterizedPaddedRoundedPriceBridge.java
        util
        EntityManagerHolder.java
        EntityManagerInvocationHandler.java
        NeverReleasedFilterCachingStrategy.java
        ProjectionToMapResultTransformer.java
        SessionHolder.java
        SessionInvocationHandler.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        ItemRetrievalActionTest.java
        util
        FilterImport.java
        JpaTestCase.java
        TestCase.java
  - ch09
    - src
      - com
        manning
        hsia
        dvdstore
        action
        IndexingAction.java
        IndexingActionImpl.java
        SearchingAction.java
        SearchingActionImpl.java
        model
        Category.java
        Distributor.java
        Item.java
        util
        AutomaticDistributorShardingStrategy.java
        DistributorShardingStrategy.java
        EntityManagerHolder.java
        EntityManagerInvocationHandler.java
        NeverReleasedFilterCachingStrategy.java
        ProjectionToMapResultTransformer.java
        SessionHolder.java
        SessionInvocationHandler.java
    - test
      - com
        manning
        hsia
        dvdstore
        test
        HibernateSearchIntegrationTest.java
        HibernateSearchUnitTest.java
        IndexingActionTest.java
        SearchingActionTest.java
        util
        ChapterWordcount.java
        FilterImport.java
        JpaTestCase.java
        TestCase.java
  - ch10
    - src
      - com
        manning
        hsia
        dvdstore
        action
        ItemAction.java
        ItemActionImpl.java
        master
        MDBSearchController.java
        model
        Category.java
        Distributor.java
        Item.java
        web
        WebController.java
  - ch11
    - src
      - com
        manning
        hsia
        dvdstore
        Animal.java
        Employee.java
        Furniture.java
        IndexMergeTest.java
        MergedAnimal.java
        NonShardsTest.java
        ProjectionQueryTest.java
        TestShards.java
        TwoEntitiesTest.java
    - test
      - com
        manning
        hsia
        test
        HSiATestCase.java
        SearchTestCase.java
  - ch12
    - src
      - com
        manning
        hsia
        dvdstore
        ex12_1
        TestSalesmanSearch.java
        ex12_10
        TestSalesmanSearch.java
        ex12_14
        MyTermQuery.java
        MyTermScorer.java
        TestSalesmanSearch.java
        ex12_15
        MyTermQuery.java
        MyTermScorer.java
        TestSalesmanSearch.java
        ex12_17
        ElectricalProperties.java
        TermPositionsTest.java
        ex12_19
        MoreLikeThis.java
        TestMoreLikeThis.java
        ex12_4
        ScoringTestSimilarity.java
        TestSalesmanSearch.java
        ex12_6
        TestSalesmanSearch.java
        ex12_9
        ScoringTestSimilarity.java
        TestSalesmanSearch.java
    - test
      - com
        manning
        hsia
        test
        Product.java
        ch12
        HSiATestCase.java
        SearchTestCase.java
  - ch13
    - src
      - com
        manning
        hsia
        dvdstore
        CD.java
        CDDOM.java
        DOMExampleBridge.java
        Dvd.java
        Pdf.java
        SaxExampleBridge.java
        SimpleHTMLFormatter.java
        SynonymHelper.java
        TestBoostingQuery.java
        TestHighlighter.java
        TestMSDocToIndex.java
        TestPDFTextExtractor.java
        TestPdfToDoc.java
        TestReadTextFile.java
        TestRegex.java
        TestSpellChecker.java
        TestSynonyms.java
        TestXmlBridges.java
    - test
      - com
        manning
        hsia
        ch13
        Synonym.java
        test
        Product.java
        ch13
        HSiATestCase.java
        SearchTestCase.java

package com.manning.hsia.dvdstore;

import com.manning.hsia.test.ch13.SearchTestCase;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Query;
import org.hibernate.Transaction;
import org.hibernate.search.FullTextSession;
import org.hibernate.search.Search;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdmodel.PDDocumentInformation;
import org.pdfbox.util.PDFTextStripper;
import org.testng.annotations.Test;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;

public class TestPDFTextExtractor extends SearchTestCase {
	InputStream istream = null;
	private Analyzer analyzer = new StandardAnalyzer();

	@Test(groups="ch13")
	public void testPDFExtractor() throws Exception {
		FullTextSession session = Search.getFullTextSession( openSession() );
		Transaction tx = session.beginTransaction();

		PDDocument doc;
		try {
			File f = new File( "ch13/src/com/manning/hsia/dvdstore/file1.pdf" );
			istream = new FileInputStream( f.getAbsolutePath() );

			PDFParser p = new PDFParser( istream );
			p.parse();
			doc = p.getPDDocument();

			Pdf pdf = getDocument( doc );
			closeInputStream( istream );
			closeDocument( doc );
			pdf.setId(1);
			buildIndex( pdf, session, tx );

			tx = session.beginTransaction();
			QueryParser parser = new QueryParser( "description", analyzer );

			Query query = parser.parse( "description:salesman" );
			org.hibernate.search.FullTextQuery hibQuery = session.createFullTextQuery( query, Pdf.class );
			List results = hibQuery.list();
			assert results.size() == 1 : "incorrect result size";
			Pdf result = (Pdf) results.get( 0 );
			assert result.getAuthor().startsWith( "John Griffin" ) : "incorrect author";
			assert result.getDescription().startsWith( "Keanu Reeves" ) : "incorrect description";

			for (Object element : session.createQuery( "from " + Pdf.class.getName() ).list()) {
				session.delete( element );
			}
			tx.commit();
		}
		catch (Exception e) {
			e.printStackTrace();
		}
		finally {

			session.close();
		}
	}

	private Pdf getDocument( PDDocument pd ) {
		String description;
		try {
			PDFTextStripper stripper = new PDFTextStripper();
			description = stripper.getText( pd );
		}
		catch (IOException e) {
			closeDocument( pd );
			throw new PDFExtractorException( "unable to extract text", e );
		}
		PDDocumentInformation info = pd.getDocumentInformation();
		String author = info.getAuthor();
		String title = info.getTitle();
		String keywords = info.getKeywords();
		String subject = info.getSubject();

		Pdf doc = new Pdf();
		doc.setDescription( description );
		doc.setAuthor( author );
		doc.setTitle( title );
		doc.setKeywords( keywords );
		doc.setSubject( subject );

		return doc;
	}

	private void buildIndex( Pdf doc, FullTextSession session, Transaction tx ) {
		session.save( doc );
		tx.commit();
		session.clear();
	}

	private void closeDocument( PDDocument pd ) {
		try {
			if ( pd != null ) {
				pd.close();
			}
		}
		catch (IOException e) {
			// live with it
		}
	}

	private static void closeInputStream( InputStream istream ) {
		if ( istream != null ) {
			try {
				istream.close();
			}
			catch (IOException e) {
				System.out.printf( "unable to close file input stream" );
			}
		}
	}

	public class PDFExtractorException extends RuntimeException {
		public PDFExtractorException( String msg, Throwable e ) {
			super( msg, e );
		}
	}

	protected Class[] getMappings() {
		return new Class[]{
			Pdf.class
		};
	}
}