RegexFeatureExtractor.java example

Explorer

szeke-master
- src
  - main
    - java
      - edu
        isi
        karma
        cleaning
        ANode.java
        ConfigParameters.java
        ConstrainedAlignment.java
        DataCollection.java
        ExampleSelection.java
        GrammarTreeNode.java
        InterpreterType.java
        Interpretor.java
        Loop.java
        Maintest.java
        MultipleStringAlign.java
        MyLogger.java
        Partition.java
        PartitionClassifier.java
        PartitionClassifierType.java
        Position.java
        ProgSynthesis.java
        Program.java
        ProgramRule.java
        QuestionableRecord
        Feature1.java
        Feature2.java
        Feature3.java
        Feature4.java
        FeatureVector.java
        OutlierDetector.java
        RecFeature.java
        RecordDistiller.java
        Ruler.java
        Section.java
        Segment.java
        TNode.java
        Template.java
        Test.java
        TestJAVA.java
        TextVector.java
        Tokenizer.java
        Traces.java
        UtilTools.java
        features
        CntFeature.java
        Data2Features.java
        DataRanking.java
        Feature.java
        FeatureSet.java
        LogisticModelParameters.java
        Main.java
        MovFeature.java
        RecordClassifier2.java
        RecordCntFeatures.java
        RecordFeatureSet.java
        RecordPerFeatures.java
        RecordTextFeature.java
        RegularityFeatureSet.java
        Test.java
        VarianceFeatureSet.java
        controller
        command
        CloseWorkspaceCommand.java
        CloseWorkspaceCommandFactory.java
        Command.java
        CommandException.java
        CommandFactory.java
        CommandWithPreview.java
        FetchGraphsFromTripleStoreCommand.java
        FetchGraphsFromTripleStoreCommandFactory.java
        FetchPreferencesCommand.java
        FetchPreferencesCommandFactory.java
        GetUniqueGraphUrlCommand.java
        GetUniqueGraphUrlCommandFactory.java
        JSONInputCommandFactory.java
        ResetKarmaCommand.java
        ResetKarmaCommandFactory.java
        TestSPARQLEndPointCommand.java
        TestSPARQLEndPointCommandFactory.java
        UndoRedoCommand.java
        UndoRedoCommandFactory.java
        WorksheetCommand.java
        alignment
        AddUserLinkToAlignmentCommand.java
        AddUserLinkToAlignmentCommandFactory.java
        ApplyModelFromTripleStoreCommand.java
        ApplyModelFromTripleStoreCommandFactory.java
        ChangeInternalNodeLinksCommand.java
        ChangeInternalNodeLinksCommandFactory.java
        CreateNewModelCommand.java
        CreateNewModelCommandFactory.java
        FetchExistingModelsForWorksheetCommand.java
        FetchExistingModelsForWorksheetCommandFactory.java
        FetchR2RMLModelsCommand.java
        FetchR2RMLModelsCommandFactory.java
        GenerateR2RMLModelCommand.java
        GenerateR2RMLModelCommandFactory.java
        GetAlternativeLinksCommand.java
        GetAlternativeLinksCommandFactory.java
        GetCurrentLinksOfInternalNodeCommand.java
        GetCurrentLinksOfInternalNodeCommandFactory.java
        GetDataPropertiesForClassCommand.java
        GetDataPropertiesForClassCommandFactory.java
        GetDataPropertyHierarchyCommand.java
        GetDataPropertyHierarchyCommandFactory.java
        GetDomainsForDataPropertyCommand.java
        GetDomainsForDataPropertyCommandFactory.java
        GetInternalNodesListOfAlignmentCommand.java
        GetInternalNodesListOfAlignmentCommandFactory.java
        GetLinksOfAlignmentCommand.java
        GetLinksOfAlignmentCommandFactory.java
        GetOntologyClassHierarchyCommand.java
        GetOntologyClassHierarchyCommandFactory.java
        GetPropertiesAndClassesList.java
        GetPropertiesAndClassesListCommandFactory.java
        InvokeDataMiningServiceCommand.java
        InvokeDataMiningServiceCommandFactory.java
        SetMetaPropertyCommand.java
        SetMetaPropertyCommandFactory.java
        SetSemanticTypeCommand.java
        SetSemanticTypeCommandFactory.java
        ShowAutoModelCommand.java
        ShowAutoModelCommandFactory.java
        ShowModelCommand.java
        ShowModelCommandFactory.java
        UnassignSemanticTypeCommand.java
        UnassignSemanticTypeCommandFactory.java
        cleaning
        FetchTransformingDataCommand.java
        FetchTransformingDataFactory.java
        GenerateCleaningRulesCommand.java
        GenerateCleaningRulesCommandFactory.java
        InvokeCleaningServiceCommand.java
        InvokeCleaningServiceCommandFactory.java
        SubmitCleaningCommand.java
        SubmitCleaningCommandFactory.java
        importdata
        ImportCSVFileCommand.java
        ImportCSVFileCommandFactory.java
        ImportDatabaseTableCommand.java
        ImportDatabaseTableCommandFactory.java
        ImportExcelFileCommand.java
        ImportExcelFileCommandFactory.java
        ImportJSONFileCommand.java
        ImportJSONFileCommandFactory.java
        ImportOntologyCommand.java
        ImportOntologyCommandFactory.java
        ImportServiceCommand.java
        ImportServiceCommandFactory.java
        ImportUnionResultCommand.java
        ImportUnionResultCommandFactory.java
        ImportXMLFileCommand.java
        ImportXMLFileCommandFactory.java
        publish
        PublishCSVCommand.java
        PublishCSVCommandFactory.java
        PublishDatabaseCommand.java
        PublishDatabaseCommandFactory.java
        PublishKMLLayerCommand.java
        PublishKMLLayerCommandFactory.java
        PublishMDBCommand.java
        PublishMDBCommandFactory.java
        PublishRDFCellCommand.java
        PublishRDFCellCommandFactory.java
        PublishRDFCommand.java
        PublishRDFCommandFactory.java
        PublishSpatialDataCommand.java
        PublishSpatialDataCommandFactory.java
        PublishWorksheetHistoryCommand.java
        PublishWorksheetHistoryCommandFactory.java
        reconciliation
        InvokeRubenReconciliationService.java
        InvokeRubenReconciliationServiceFactory.java
        service
        InvokeServiceCommand.java
        InvokeServiceCommandFactory.java
        PopulateCommand.java
        PopulateCommandFactory.java
        PublishModelCommand.java
        PublishModelCommandFactory.java
        ServiceTableUtil.java
        transformation
        PreviewPythonTransformationResultsCommand.java
        PreviewPythonTransformationResultsCommandFactory.java
        SubmitPythonTransformationCommand.java
        SubmitPythonTransformationCommandFactory.java
        worksheet
        AddColumnCommand.java
        AddColumnCommandFactory.java
        ApplyHistoryFromR2RMLModelCommand.java
        ApplyHistoryFromR2RMLModelCommandFactory.java
        ApplyWorksheetHistoryCommand.java
        ApplyWorksheetHistoryCommandFactory.java
        EditCellCommand.java
        EditCellCommandFactory.java
        FetchExistingWorksheetPropertiesCommand.java
        FetchExistingWorksheetPropertiesCommandFactory.java
        MultipleValueEditColumnCommand.java
        MultipleValueEditColumnCommandFactory.java
        RenameColumnCommand.java
        RenameColumnCommandFactory.java
        SetWorksheetPropertiesCommand.java
        SetWorksheetPropertiesCommandFactory.java
        SplitByCommaCommand.java
        SplitByCommaCommandFactory.java
        SplitColumnByDelimiter.java
        TablePagerCommand.java
        TablePagerCommandFactory.java
        TablePagerResizeCommand.java
        TablePagerResizeCommandFactory.java
        history
        CommandHistory.java
        CommandHistoryWriter.java
        HistoryJsonUtil.java
        WorksheetCommandHistoryReader.java
        update
        AbstractUpdate.java
        AlignmentHeadersUpdate.java
        CSVImportPreviewUpdate.java
        CleaningResultUpdate.java
        DatabaseTablePreviewUpdate.java
        DatabaseTablesListUpdate.java
        EmptyUpdate.java
        ErrorUpdate.java
        FetchPreferencesUpdate.java
        FetchR2RMLUpdate.java
        FetchResultUpdate.java
        HistoryAddCommandUpdate.java
        HistoryUpdate.java
        InfoUpdate.java
        InvokeDataMiningServiceUpdate.java
        NewDatabaseCommandUpdate.java
        NodeChangedUpdate.java
        OntologyClassHierarchyUpdate.java
        OntologyHierarchyUpdate.java
        SVGAlignmentUpdate_ForceKarmaLayout.java
        SemanticTypesUpdate.java
        TagsUpdate.java
        UpdateContainer.java
        WorksheetCleaningServiceInvocationResultsUpdate.java
        WorksheetDataUpdate.java
        WorksheetHeadersUpdate.java
        WorksheetHierarchicalDataUpdate.java
        WorksheetHierarchicalHeadersUpdate.java
        WorksheetListUpdate.java
        er
        helper
        ConfigUtil.java
        ConnectPostgis.java
        Constants.java
        SPARQLGeneratorUtil.java
        TripleStoreUtil.java
        geospatial
        FeatureTable.java
        LineString.java
        Point.java
        SpatialReferenceSystemTransformationUtil.java
        WorksheetGeospatialContent.java
        WorksheetToFeatureCollection.java
        imp
        csv
        CSVFileExport.java
        CSVFileImport.java
        database
        DatabaseTableImport.java
        excel
        ToCSV.java
        json
        JsonImport.java
        mdb
        MDBFileExport.java
        rdf
        RDFImport.java
        RDFImportMain.java
        RDFQuery.java
        UnionImport.java
        testRepository.java
        kr2rml
        ColumnTemplateTerm.java
        ErrorReport.java
        GraphMap.java
        KR2RMLMappingAuxillaryInformation.java
        KR2RMLMappingGenerator.java
        KR2RMLWorksheetRDFGenerator.java
        NamedGraph.java
        ObjectMap.java
        Predicate.java
        PredicateObjectMap.java
        Prefix.java
        R2RMLMapping.java
        RefObjectMap.java
        ReportMessage.java
        StringTemplateTerm.java
        SubjectMap.java
        TemplateTerm.java
        TemplateTermSet.java
        TemplateTermSetBuilder.java
        TermMap.java
        TriplesMap.java
        TriplesMapGraph.java
        TriplesMapLink.java
        Type.java
        WorksheetModelWriter.java
        WorksheetR2RMLJenaModelParser.java
        WorksheetR2RMLSesameModelParser.java
        linkedapi
        server
        GetRequestManager.java
        HTTPClientTest.java
        LinkedApiRequestManager.java
        PostRequestManager.java
        ResourceType.java
        model
        serialization
        DataSourceLoader.java
        DataSourcePublisher.java
        MimeType.java
        Repository.java
        SerializationLang.java
        SourceLoader.java
        SourcePublisher.java
        WebServiceLoader.java
        WebServicePublisher.java
        modeling
        ModelingParams.java
        Namespaces.java
        Prefixes.java
        Test.java
        Uris.java
        alignment
        Alignment.java
        AlignmentManager.java
        GraphBuilder.java
        GraphPreProcess.java
        GraphUtil.java
        LinkIdFactory.java
        NodeIdFactory.java
        SteinerTree.java
        TreePostProcess.java
        ontology
        AutoOntology.java
        DomainRangePair.java
        OntologyCache.java
        OntologyHandler.java
        OntologyManager.java
        OntologyTreeNode.java
        OntologyUpdateListener.java
        SubclassSuperclassPair.java
        research
        ComputeGED.java
        GraphVizUtil.java
        ModelReader.java
        Params.java
        PatternContainment.java
        SemanticLabel.java
        ServiceModel.java
        Util.java
        approach1
        Approach1.java
        CandidateSteinerSets.java
        CoherenceItem.java
        MappingStruct.java
        MappingType.java
        RankedModel.java
        RankedSteinerSet.java
        SemanticLabelType.java
        SemanticTypeMapping.java
        SteinerNodes.java
        approach2
        Approach2.java
        graph
        konstantinosnedas
        HungarianAlgorithm.java
        roek
        nlpged
        algorithm
        GraphEditDistance.java
        application
        App.java
        Config.java
        graph
        Edge.java
        Graph.java
        Node.java
        graphmatching
        algorithms
        BipartiteMatching.java
        GraphMatching.java
        HungarianAlgorithm.java
        VolgenantJonker.java
        nanoxml
        XMLElement.java
        XMLParseException.java
        net
        n3
        nanoxml
        CDATAReader.java
        ContentReader.java
        IXMLBuilder.java
        IXMLElement.java
        IXMLEntityResolver.java
        IXMLParser.java
        IXMLReader.java
        IXMLValidator.java
        NonValidator.java
        PIReader.java
        StdXMLBuilder.java
        StdXMLParser.java
        StdXMLReader.java
        ValidatorPlugin.java
        XMLAttribute.java
        XMLElement.java
        XMLEntityResolver.java
        XMLException.java
        XMLParseException.java
        XMLParserFactory.java
        XMLUtil.java
        XMLValidationException.java
        XMLWriter.java
        sax
        SAXAdapter.java
        SAXEntityResolver.java
        SAXParser.java
        util
        CostFunction.java
        Edge.java
        EditDistance.java
        Graph.java
        GraphSet.java
        MatrixGenerator.java
        Node.java
        ResultPrinter.java
        TreeNode.java
        xml
        XMLParser.java
        semantictypes
        CRFColumnModel.java
        FullCRFModel.java
        SemanticTypeTrainingThread.java
        SemanticTypeUtil.java
        crfmodelhandler
        CRFModelHandler.java
        mycrf
        common
        Constants.java
        Node.java
        crfmodel
        CRFModelAbstract.java
        CRFModelFieldOnly.java
        fieldonly
        LblFtrPair.java
        globaldata
        GlobalDataAbstract.java
        GlobalDataFieldOnly.java
        graph
        GraphFieldOnly.java
        GraphInterface.java
        map
        MAPFieldOnly.java
        math
        LargeNumber.java
        Matrix.java
        optimization
        BacktrackingLineSearch.java
        LBFGS.java
        OptimizeFieldOnly.java
        myutils
        DBTable.java
        FileIOOps.java
        FileOps.java
        FileSystemOps.java
        ListOps.java
        Prnt.java
        RandOps.java
        Test.java
        ThreadOps.java
        sl
        Feature.java
        Lexer.java
        Part.java
        RegexFeatureExtractor.java
        Type.java
        rdf
        DatabaseTableRDFGenerator.java
        OfflineRdfGenerator.java
        rep
        CellValue.java
        Entity.java
        HNode.java
        HNodePath.java
        HTable.java
        Node.java
        RepEntity.java
        RepFactory.java
        Row.java
        StringCellValue.java
        Table.java
        TablePager.java
        Worksheet.java
        Workspace.java
        WorkspaceManager.java
        alignment
        ClassInstanceLink.java
        ColumnNode.java
        ColumnSubClassLink.java
        DataPropertyLink.java
        DataPropertyOfColumnLink.java
        InternalNode.java
        Label.java
        Link.java
        LinkKeyInfo.java
        LinkPriorityComparator.java
        LinkPriorityType.java
        LinkStatus.java
        LinkType.java
        LiteralNode.java
        Node.java
        NodeType.java
        ObjectPropertyLink.java
        ObjectPropertySpecializationLink.java
        SemanticType.java
        SemanticTypes.java
        SimpleLink.java
        SimpleNode.java
        SubClassLink.java
        SynonymSemanticTypes.java
        cleaning
        RamblerTransformation.java
        RamblerTransformationExample.java
        RamblerTransformationInputs.java
        RamblerTransformationOutput.java
        RamblerValueCollection.java
        Transformation.java
        TransformationExample.java
        TransformationInputs.java
        TransformationOutput.java
        ValueCollection.java
        hierarchicalheadings
        ColorKeyTranslator.java
        ColspanMap.java
        ColumnCoordinateSet.java
        Coordinate.java
        HHCell.java
        HHTNode.java
        HHTable.java
        HHTree.java
        LeafColumnIndexMap.java
        Span.java
        TForest.java
        TNode.java
        metadata
        MetadataContainer.java
        SourceInformation.java
        Tag.java
        TagsContainer.java
        WorksheetProperties.java
        model
        Argument.java
        ArgumentType.java
        Atom.java
        ClassAtom.java
        DatavaluedPropertyAtom.java
        IndividualPropertyAtom.java
        Model.java
        sources
        Attribute.java
        AttributeRequirement.java
        DataSource.java
        IOType.java
        Invocation.java
        InvocationManager.java
        Request.java
        Response.java
        Source.java
        Table.java
        URLManager.java
        WebService.java
        service
        json
        ArrayValue.java
        Element.java
        JsonManager.java
        SingleValue.java
        Value.java
        ValueType.java
        transformation
        PythonTransformationHelper.java
        util
        AbstractJDBCUtil.java
        CommandInputJSONUtil.java
        FileIOOps.java
        FileUtil.java
        HTTPUtil.java
        JDBCUtilFactory.java
        JSONUtil.java
        Jsonizable.java
        LogStackTrace.java
        MySQLUtil.java
        OracleUtil.java
        PostGISUtil.java
        Prnt.java
        RandomGUID.java
        SQLServerUtil.java
        Util.java
        view
        Border.java
        Margin.java
        RowPathCounts.java
        RowPathCountsByColumn.java
        Stroke.java
        VCell.java
        VColumnHeader.java
        VRow.java
        VRowEntry.java
        VTable.java
        VTableCssTags.java
        VWorksheet.java
        VWorksheetList.java
        VWorkspace.java
        ViewEntity.java
        ViewFactory.java
        ViewPreferences.java
        alignmentHeadings
        AlignmentColorKeyTranslator.java
        AlignmentForest.java
        AlignmentLink.java
        AlignmentNode.java
        tabledata
        StrokeStyles.java
        VDCell.java
        VDCellStrokes.java
        VDIndexTable.java
        VDRow.java
        VDTableCells.java
        VDTableData.java
        VDTreeNode.java
        VDTriangle.java
        VDVerticalSeparator.java
        VDVerticalSeparators.java
        tableheadings
        HeadersColorKeyTranslator.java
        VColumnHeader.java
        VHTreeNode.java
        VHTreeNodeLevel.java
        VTHNode.java
        VTHeaderForest.java
        VTableHeadings.java
        webserver
        ExecutionController.java
        ExtractSpatialInformationFromOSMServiceHandler.java
        ExtractSpatialInformationFromWikimapiaServiceHandler.java
        GetExampleJSON.java
        KMLFileTransferHandler.java
        KarmaException.java
        LinkedApiServiceHandler.java
        RequestController.java
        SampleDataFactory.java
        ServerStart.java
        ServletContextParameterMap.java
        SpatialReferenceSystemServiceHandler.java
        WorkspaceRegistry.java
        helper
        CreateGeoBuildingForTable.java
        CreateGeoStreetForTable.java
        CreateNodeDataForTable.java
        CreateWikimapiaInformation.java

/*******************************************************************************
 * Copyright 2012 University of Southern California
 * 
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 * 
 * 	http://www.apache.org/licenses/LICENSE-2.0
 * 
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 * 
 * This code was developed by the Information Integration Group as part 
 * of the Karma project at the Information Sciences Institute of the 
 * University of Southern California.  For more information, publications, 
 * and related projects, please see: http://www.isi.edu/integration
 ******************************************************************************/
package edu.isi.karma.modeling.semantictypes.sl ;

import java.util.ArrayList;

import edu.isi.karma.modeling.semantictypes.myutils.Prnt;


/**
 * This class generates features for tokens.
 * Some of the features are:
 * StartsWith, NumDigits, Symbol<X>
 * 
 * @author amangoel
 *
 */
public class RegexFeatureExtractor {
	
	public static ArrayList<String> getFieldFeatures(String field) {
		ArrayList<String> feature_list = new ArrayList<String>() ;
		
		if(field == null)
			return feature_list ;
		
		field.trim() ;
		if(field.equals(""))
			return feature_list ;
		
		ArrayList<Part> parts = Lexer.tokenizeField(field) ;
		
		if(parts.size() == 1) {
			feature_list.add(Feature.single_token_field) ;
			return feature_list ;
		}
		else {
			feature_list.add(Feature.starts_with_token_ + parts.get(0).string) ;
			feature_list.add(Feature.ends_with_token_ + parts.get(parts.size()-1).string) ;
			return feature_list ;
		}
	}
	
	public static ArrayList<String> getTokenFeatures(Part part) {
		
		ArrayList<String> feature_list = new ArrayList<String>() ;
		String token = part.string ;		
		
		if(part.type == Type.pure_alpha) {
			int len = token.length() ;
			feature_list.add(Feature.alpha_length_ + len) ;   
			
			String first_character  = token.substring(0,1) ;
			feature_list.add(Feature.starts_with_char_ + first_character) ;
			
			boolean all_caps = true ;
			for(int i=0; i<token.length() ; i++) {
				if(part.string.charAt(i) >= 'A' && part.string.charAt(i) <= 'Z')
					continue ;
				else {
					all_caps = false ;
					break ;
				}
			}
			if(all_caps)
				feature_list.add(Feature.all_capitalized_token) ;
			else if(first_character.charAt(0) >= 'A' && first_character.charAt(0) <= 'Z')
				feature_list.add(Feature.capitalized_token) ;
			
			feature_list.add(Feature.alpha_id_ + token) ;
		}
		else if(part.type == Type.number) {
			
			if(token.substring(0,1) == "-") {
				token=token.substring(1) ;
				feature_list.add(Feature.neg_num) ;
			}
			
			String first_part = "" ;
			String decimal_part = "" ;
			
			int decimal_index = token.indexOf(".") ;
			if(decimal_index >= 0) {
				first_part = token.substring(0,decimal_index) ;
				decimal_part = token.substring(decimal_index+1) ;
			}
			else {
				first_part = token ;
				decimal_part = "" ;
			}
			
			feature_list.add(Feature.num_len_ + token.length()) ;
			
			feature_list.add(Feature.before_decimal_len_ + first_part.length()) ;
			
			feature_list.add(Feature.after_decimal_len_ + decimal_part.length()) ;
			
			if(!first_part.equals("")) 
				feature_list.add(Feature.starting_digit_ + first_part.substring(0,1)) ;
			
			if(!first_part.equals("")) 
				feature_list.add(Feature.unit_place_digit_ + first_part.substring(first_part.length()-1)) ;
			
			if(!decimal_part.equals(""))
				feature_list.add(Feature.tenth_place_digit_ + decimal_part.substring(0,1)) ;
			
		}
		else if(part.type == Type.symbol) {
			feature_list.add(Feature.symbol_ + token) ;
		}
		else {
			Prnt.endIt("RegexFeatureExtract.getTokenFeatures: type of part not found to be any of alpha, num, sym. \nEnding.") ;
		}
		
		return feature_list ;
	}
	
	
	
	
	
}