DataFrame.java example

Explorer

helixsoft-commons-master
- nl.helixsoft.graph
  - src
    - nl
      - helixsoft
        graph
        Edge.java
        EdgeImpl.java
        Emitter.java
        GmlEmitter.java
        GmlFormat.java
        GmlParser.java
        GmlTokenizer.java
        GraphHelper.java
        Network.java
        NetworkException.java
        NetworkImpl.java
        NetworkLayout.java
        Node.java
        NodeAttributesFormat.java
        NodeImpl.java
        SifFormat.java
  - test
    - nl
      - helixsoft
        graph
        TestTokenizer.java
- nl.helixsoft.gui
  - src
    - nl
      - helixsoft
        docking
        Dockable.java
        DockingDesktop.java
        gui
        AbstractTreeModel.java
        AppPreference.java
        BasicHyperlinkListener.java
        ColorConverter.java
        DownloadUtils.java
        IndeterminateProgressDialog.java
        MainFrame.java
        OkCancelDialog.java
        PreferencesDlg.java
        Table.java
        TextUndo.java
        preferences
        Preference.java
        PreferenceEntry.java
        PreferenceEntryImpl.java
        PreferenceEvent.java
        PreferenceListener.java
        PreferenceManager.java
        table
        ListTableModel.java
        MapTableModel.java
        TableRowAdapter.java
        param
        AbstractParameterModel.java
        BooleanEditor.java
        Editor.java
        EnumEditor.java
        FileEditor.java
        FileParameter.java
        IntegerEditor.java
        ParameterModel.java
        ParameterModelEvent.java
        ParameterPanel.java
        SimpleFileFilter.java
        SimpleParameterModel.java
        StringEditor.java
    - org
      - pathvisio
        desktop
        PreferencePanel.java
        parameter
        SimpleDialogBuilder.java
        util
        BrowseButtonActionListener.java
        ListWithPropertiesTableModel.java
        PropertyColumn.java
        RowWithProperties.java
        gui
        dialogs
        OkCancelDialog.java
  - test
    - nl
      - helixsoft
        util
        table
        TestMapTableModel.java
- nl.helixsoft.misc
  - src
    - nl
      - helixsoft
        misc
        BackupCull.java
        ExcelRecordStream.java
        RecordStreamToExcel.java
        impl
        HssfRecordStream.java
        XssfRecordStream.java
- nl.helixsoft.util
  - src
    - nl
      - helixsoft
        chart
        DonutChart.java
        debug
        MemWatch.java
        OnlineTest.java
        StopWatch.java
        WorkerThread.java
        package-info.java
        recordstream
        AbstractRecordStream.java
        AbstractStream.java
        Adjuster.java
        BiFunction.java
        Cast.java
        ChunkedRecordStream.java
        DefaultRecord.java
        DefaultRecordMetaData.java
        Filter.java
        FilterStream.java
        Function.java
        IteratorHelper.java
        Join.java
        MappingIterator.java
        Melt.java
        MemoryRecordStream.java
        NextUntilNull.java
        Predicate.java
        Record.java
        RecordMetaData.java
        RecordStream.java
        RecordStreamException.java
        RecordStreamFormatter.java
        ReduceFunctions.java
        Reducer.java
        ResultSetRecordStream.java
        Stream.java
        StreamException.java
        Supplier.java
        TabularIO.java
        TsvRecordStream.java
        package-info.java
        stats
        Column.java
        ColumnBoundDataFrame.java
        DataFrame.java
        DataFrameOperation.java
        DataFrameTableModel.java
        DataFrameUtil.java
        DefaultColumnView.java
        DefaultDataFrame.java
        DefaultHeader.java
        Factor.java
        Header.java
        ListColumn.java
        Matrix.java
        MatrixDataFrame.java
        RecordView.java
        impl
        AbstractColumn.java
        AbstractDataFrame.java
        package-info.java
        util
        AttributesTable.java
        ChunkedIterator.java
        CollectionUtils.java
        DebugUtils.java
        FileUtils.java
        FreqSortMultiset.java
        HFileUtils.java
        HStringUtils.java
        MathUtils.java
        NumberFormatter.java
        ObjectUtils.java
        ParseBuffer.java
        PeekReader.java
        SplitGzipOutputStream.java
        StringUtils.java
        Tee.java
        TeeStream.java
        TempFile.java
        TextProgressMonitor.java
        URLBuilder.java
        URLParser.java
        ValidCharacterStream.java
        package-info.java
  - test
    - nl
      - helixsoft
        recordstream
        TestFilter.java
        TestReduceAndCast.java
        TestTsvRecordStream.java
        stats
        TestDataFrame.java
        util
        TestDebugUtils.java
        TestFileUtils.java
        TestParseBuffer.java
        TestPeekReader.java
        TestStringUtils.java
        TestURLParser.java
- nl.helixsoft.xml
  - src
    - nl
      - helixsoft
        xml
        Context.java
        HelixHandler.java
        Html.java
        HtmlRenderable.java
        HtmlSite.java
        HtmlStream.java
        Lookup.java
        Page.java
        Paginator.java
        Xml.java
  - test
    - nl
      - helixsoft
        xml
        TestXml.java
- nl.helixsoft.zipper
  - src
    - nl
      - helixsoft
        zipper
        Main.java

package nl.helixsoft.stats;

import java.io.IOException;
import java.io.OutputStream;
import java.util.List;

import nl.helixsoft.recordstream.Predicate;
import nl.helixsoft.recordstream.Record;
import nl.helixsoft.recordstream.RecordMetaData;
import nl.helixsoft.recordstream.RecordStream;

/**
 * A table of data, ready for statistical operations.
 * <p>
 * All data is kept in memory
 * <p>
 * Each column can have headers
 * <p>
 * Each column is of a single type.
 * <p>
 * Implementations may use native type arrays (double[] or int[]) for efficiency.
 * <p>
 * There are facilities for statistical functions and plotting.
 * <p>
 * Some operations modify the data frame in-place. These methods typically return "this" to allow chaining operations.
 * <p>
 * Operations like cut() ... return a copy of the DataFrame object.
 * 
 * NOTE: implementing both TableModel and Iterable<Record> turned out not to be so hot because groovy inserts its own iterator() method in TableModels. 
 * Currently implementing neither. 
 * If you want a Iterable<Record>, see @link{DataFrame.asRecordIterable}
 * If you want a TableModel, use DataFrameOperation.asTableModel (df, editable)
 */
public interface DataFrame
{	
	/**
	 * Get a single row by index.
	 */
	public Record getRow(int rowIdx);
	
	/** get a name for each row, may return null */ 
	public List<String> getRowNames();
	
	/** get the name of a row by index. */
	public String getRowName (int rowIx);
	
	@Deprecated // use ColumnHeader instead
	public RecordMetaData getMetaData();
	
	/**
	 * Extract specified colums by index
	 * returns a new DataFrame object.
	 */
	public DataFrame cut (int... columnIdx);
	
	/**
	 * Extract specified colums by column name.
	 * returns a new DataFrame object.
	 */
	public DataFrame cut (String... columnName);
	
	/**
	 * Extract specified rows by index
	 * The list of indices may contain duplicate values or re-ordered values.
	 * returns a new DataFrame object.
	 */
	public DataFrame select (int... rowIdx);
	
	/**
	 * Extract specified rows by index.
	 * The input list may contain duplicate values, may re-order values, or may contain null values.
	 * returns a new DataFrame object.
	 */
	public DataFrame select (List<Integer> rowIdx);

	/**
	 * Performs a merge (a.k.a. JOIN in SQL terms) with another table.
	 * returns a new DataFrame object.
	 * This is a FULL JOIN - Rows where the primary key doesn't exists in either this or the other, are filled with null values.
	 * 
	 * @deprecated : use DataFrameOperation instead
	 * 
	 */
	public DataFrame merge (DataFrame that, int onThisColumn, int onThatColumn);
	
	/** shortCut in cases where the column name is the same
	 * 	 
	 * @deprecated : use DataFrameOperation instead
	 */
	@Deprecated public DataFrame merge (DataFrame that, String onColumn);
	
	/**
	 * return column names as list
	 * ... use getColumnHeader instead...
	 */
	@Deprecated
	List<String> getColumnNames();
	
	public Object getColumnHeader(int colIx);
	public Header getColumnHeader();
	
	/** Replace the column header with a new value. Note: modifies DataFrame in place, returns this */
	public DataFrame setColumnHeader(int colIx, String value);
	
	/**
	 * Turn an array of column names into an array of column indices 
	 */
	public int[] getColumnIndexes(String... columnNames);
	
	public int getColumnIndex(String columnName);
	
	public void toOutputStream (OutputStream os) throws IOException;

	/** 
	 * Add a column
	 * @return a new dataframe // TODO - or modify in place?
	 */
	public <T> DataFrame cbind(List<T> column);
	
	//TODO: current implementation modifies in place and returns copy of this, unlike cbind which creates a copy.
	public DataFrame rbind(Object... row);
	
	//TODO: these are very similar... do we need both???
	//asRecordStream returns a copy of the data in the current implementation, but that is very inefficient.
	public RecordStream asRecordStream();
	public Iterable<Record> asRecordIterable();

	public int getColumnCount();
	public int getRowCount();

	public Object getValueAt(int rowIndex, int columnIndex);
	public void setValueAt(Object aValue, int rowIndex, int columnIndex);

	@Deprecated /** use getColumnHeader.toString() instead */
	public String getColumnName(int columnIndex); 

	public <T> Column<T> getColumn(Class<T> clazz, int columnIndex);
	public <T> Factor<T> getColumnAsFactor(Class<T> clazz, int columnIndex);
	
	public DataFrame sort (int columnIndex);
	public DataFrame sort (String columnName);
	
	/**
	 * Ideas:
	 * 
	 * statistical
	 * 
	 * sum
	 * stddev
	 * sqsum
	 * avg
	 * ...
	 * any aggregate function
	 * 
	 * 
	 * toLongFormat
	 * toWideFormat
	 * 
	 * Grouping: factors
	 * apply an aggregate function by group
	 * 
	 * sorting
	 * 
	 * -- efficiency
	 * colToIntArray - get column as int array
	 * colToDoubleArray
	 * colToStringArray
	 * colToObjectArray
	 * 
	 * Implement iteration, Collection interface
	 * Implement TableModel
	 * 
	 * Plotting
	 * 
	 * Change Events...
	 */

	//TODO: possibly better as Stream<Record> ???
	public List<Record> filter(Predicate<Record> predicate);

}