常规的数据统计,如回归、聚类等可以选择Hipparchus、Apache Commons Math、flanagan。
1. Weka
Weka是一个可用于数据挖掘任务的机器学习算法集合。该算法可以直接应用到数据集或从自己的Java代码调用。 Weka包含数据预处理,分类,回归,聚类,关联规则,和可视化工具。它也非常适用于开发新的机器学习方案。
2. jmotif
时间序列、分类、数据挖掘开发库
3. java-ml
Java机器学习库,聚类、分类、特征选择
4. flanagan
数学和统计java开发库,包含回归算法,一次二次线性非线性回归算法,数据平滑算法,傅里叶变换,数值积分,插值法等
5. Mahout
Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括回归、聚类、分类、推荐、协同过滤、进化编程等等,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中
6. JMulTi
JMulTi 是一种开放源代码计量经济分析软件,特别应用于单变量和多变量时间序列分析中。它拥有Java的图形用户界面。
7. Tablesaw
Tablesaw是一个用来进行数据分析和可视化显示的java库,包含加载、清理、转换、过滤、汇总等,类似于python中的pandas
8. Joinery
Joinery是一个Java数据分析库,类似于python中的pandas
9. R
R语言是用于统计分析,图形表示报告的编程语言和软件环境。R语言是由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman创建的,目前由R Development Core Team开发和维护。使用Rserve得以在JAVA操作R。
10. multik
Kotlin 编写的多维数组库. 这个库提供符合 Kotlin 语言习惯的, 类型安全并且维度安全的 API, 可对多维数组进行数学操作. Multik 提供了基于 JVM 和基于原生代码的计算引擎, 可相互替换, 以及两种引擎的组合, 用于性能优化.
11. DeepLearning4J
针对 Java 的深度学习(deep learning)库
12. ND4J
用于 JVM 平台的高效率矩阵数学库
13. Smile
个非常全面的系统, 包括机器学习, 自然语言处理, 线性代数, 图, 插值, 可视化. 除 Java API 外, Smile 还提供非常便利的 Kotlin API, 以及 Scala 和 Clojure API. Smile-NLP-kt - 针对 Smile 的自然语言处理部分的 Scala 实现, 提供 Kotlin 重写的扩展函数和接口.
14. Apache Commons Math
一个通用的 Java 库, 包括数学, 统计, 以及机器学习
15. Hipparchus
最初是Apache Commons Math的分支,在其4.0难产后成为其后继。
16. NM Dev
Java 数学库, 包含了所有的经典数学运算.
17. OptaPlanner
针对最优规划问题(optimization planning problem)的工具库
18. Charts
用于科学计算的 JavaFX 图表库
19. CoreNLP
一个自然语言处理工具库
20. Dex
基于 Java 的数据可视化工具
21. Kotlin for Apache Spark
补足了 Kotlin 和 Apache Spark 之间缺少的兼容层. 它可以让 Kotlin 开发者使用熟悉的语言功能特性, 比如数据类, 以及在大括号或方法引用中将 Lambda 表达式用作简单表达式.
22. KotlinDL
是一个高级的深度学习 API, 用 Kotlin 编写, 受 Keras 启发. 它提供了简单的 API, 可用于从头开始训练深度学习模型, 导入既有的 Keras 模型用于推断, 以及利用迁移学习(transfer learning)调节既有的预先训练的模型, 供你的任务使用.
23. kotlin-statistics
对探索性的统计, 或真实生产环境的统计, 提供扩展函数. 它支持基本数值的 list/sequence/array 的各种函数 (从 sum 到 skewness), 切片操作符(slicing operator) (比如 countBy, simpleRegressionBy), 分仓操作(binning operation), 离散 PDF 采样, 朴素贝叶斯分类器(naive bayes classifier), 聚类分析(clustering), 线性回归(linear regression), 等等.
24. kmath
是一个受 NumPy 启发产生的库. 这个库支持 代数结构及其操作, 类数组(array-like)结构, 数学表达式, 直方图(histogram), 流运算(streaming operation), commons-math 和 koma 的包装, 等等.
25. krangl
是一个受 R 语言的 dplyr 以及 Python 的 pandas 启发产生的库. 这个库通过函数式风格 API 提供数据操作功能; 它还包括各种函数, 用于数据过滤, 变换, 聚合(aggregate), 以及重塑表格数据(reshape tabular data).
26. lets-plot
是一个 Kotlin 编写的的库, 用于统计数据绘图. Lets-Plot 是一个跨平台库, 不仅可用于 JVM 平台, 而且可用于 JS 和 Python 平台.
27. kravis
是受 R 语言的 ggplot 启发产生的库, 用于表格数据(tabular data)的可视化.
28. londogard-nlp-toolkit
是一个工具库, 用于自然语言处理(Natural Language Processing), 比如 字(word)/子字(subword)/语句(sentence) 嵌入(embedding), 字频统计(word-frequency), 终止字(stopword), 词干(stemming), 等等.
29. Catalano
Catalano Framework是一个 Java 和 Android 的科学计算框架。 主要计算功能:图像处理、模糊逻辑、数学计算、统计、机器学习、神经网络
30. Shared Scientific Toolbox
共享科学工具箱是一个用于科学和分布式计算的 Java 类库。它具有广泛的多方面的阵列线性代数和 FFT 支持;异步,高性能的网络层和诠释抽象类载入中,记录和消息传递。
31. JSci
JSci 是一个开源的包集合,这些包中包含数学和科学类。
32. bystroTeX
bystroTeX 是一个面向科学演示的幻灯片展示系统。特别适用那些大量使用复杂公式的技术演讲。使用 Scribble (the Racket documentation system) 来通过 LaTeX 格式生成 HTML 演示。
33. GraphBuilder
GraphBuilder 由英特尔研究院(Intel Labs)开发,是首个针对大数据的可扩展的开源 Java 库,可以将大数据集构建成图形 —— 能够反映数据之间关系的网络状结构图,帮助行业和学术界的科学家或数据分析师快速分析大型数据集。 GraphBuilder 使用 MapReduce 并行编程模型进行扩展。
34. BioJava
生物信息学在理论和工程上面临许多挑战。而要开发出复杂的生物序列分析系统,需要一些基础库的支持,BioJava 就是这样的一套基础库。 BioJava 是使用 Java 语言开发的、用于分析和表示生物序列(如 DNA、RNA 和蛋白质)的基础库。BioJava 提供了生物序列处理功能(如转录与翻译)、文件格式转换功能和一些简单的科学计算(如隐马尔科夫模型)。
35. jLab
jLab 是数值计算的 Java 执行环境。该 jLab 环境的目的是提供一个基于 Matlab / Scilab 喜欢的科学计算平台所支持的脚本引擎执行的 Java 语言。
36. Apache Hama
Hama 是个并行计算框架,基于 BSP (Bulk Synchronous Parallel 大容量同步并行) 计算技术,主要针对大规模科学的计算。
37. JavaSpaces
JavaSpaces技术是进行分布式计算的一种简单机制,在分布式计算应用程序中,JavaSpaces 提供了对象的提供者和请求者可用来方便地进行通信的共享虚拟空间,这允许以Java对象的形式对任务、请求和信息进行简单的交换...
39. GNU TeXmacs
GNU TeXmacs 是一个所见即所得的科学公式编辑软件,提供一个独一无二、使用便利的框架用来编辑结构化文档。
40. Java Math Library
Java数学库
41. JMathLib
JMathLib 是一个用于计算复杂数学表达式并能够图形化显示计算结果的 Java 开源类库。它是 Matlab、Octave、FreeMat、Scilab 的一个克隆,但完全采用纯 Java 实现。
42. JScience
是一个Java的科学计算包
43. Colt Matrix library
Colt Project 提供了一组开源的高性能的科学和数学计算的 Java 库。 Colt是一个高性能的数学库,由以下几个子库构成: Colt库:基本的动态数组、稀疏矩阵、线性代数。 Jet库:数理统计、直方图。 CoreJava库:类printf的打印函数,并行计算。