poster
2019-12-14, 20:13
我最近开始学习R,而不是开始在Matlab中进行编码,主要是因为R是开源的。我目前在数据挖掘和机器学习领域。我发现许多在R中实现的机器学习算法,而且我仍在探索在R中实现的不同软件包。
我有一个快速的问题:您如何将R与Matlab进行数据挖掘应用进行比较,其流行度,优缺点,行业和学术认可度等?您会选择哪一个?为什么?
我针对各种指标对Matlab vs R进行了各种比较,但是我特别想获得其在数据挖掘和ML中的适用性答案。由于两种语言对我来说都是很新的,我只是想知道R是否是一个不错的选择。
我感谢任何建议。
回答:
在过去三年左右的时间里,我每天都使用R,而每天的大部分使用都花在了机器学习/数据挖掘问题上。
我上大学时是Matlab的独家用户。当时我认为这是一套出色的工具/平台。我相信今天也是。
对于使用MATLAB进行ML /数据挖掘工作的人员而言,神经网络工具箱,优化工具箱,统计工具箱和曲线拟合工具箱都是非常理想的(如果不是必不可少的),但是它们都与基本的MATLAB环境分开 -在其他环境中的话,它们必须单独购买。
我在R中学习ML /数据挖掘的前5个列表 :
R中的采矿协会规则 (http://lyle.smu.edu/IDA/arules/)
这是指有两件事情:第一,R组包,所有的开始arules(可从CRAN)的;您可以在Project Homepage (http://lyle.smu.edu/IDA/arules/)上找到完整列表(arules,aruluesViz等)。其次,所有这些软件包都是基于称为“ 市场分析”或关联规则的数据挖掘技术。在许多方面,该系列算法是数据挖掘的本质-遍历大型事务数据库,并在这些数据库的字段(变量或特征)之间找到高于平均水平的关联或相关性。实际上,您可以将它们连接到数据源,并使它们通宵运行。上述集合中的中央R包称为规则 ;在arules的CRAN软件包页面上,您可以找到有关arules软件包和一般关联规则技术的几个出色的辅助资源(在R的词典中的短片 )的链接。
标准参考是Hastie等人的《统计学习要素》 (http://www-stat.stanford.edu/~tibs/ElemStatLearn/) 。
本书的最新版本可以数字形式免费获得 。同样,在本书的网站上(链接到上面)是ESL中使用的所有数据集,可以免费下载。 (顺便说一句,我有免费的数字版本;我也从BN.com购买了精装版本;数字版本中的所有色图均以精装版本复制。)ESL包含对至少一个示例的详尽介绍。大部分主要的ML准则-例如神经元metworks,SVM,KNN;无监督技术(LDA,PCA,MDS,SOM,聚类),多种回归,CART,贝叶斯技术以及模型聚合技术(Boosting,Bagging)和模型调整(正则化)。最后,从CRAN获得随书附送的R包(这将省去下载输入数据集的麻烦)。
CRAN 任务视图:机器学习
可用于R的+3,500个软件包按领域划分为大约30个软件包系列或“ 任务视图 (http://cran.r-project.org/web/views/) ”。机器学习就是这些家族之一。机器学习任务视图包含大约50个软件包。其中一些软件包是核心发行版的一部分,其中包括e1071(一个庞大的ML软件包,其中包含许多常规ML类别的工作代码。)
Revolution Analytics博客 (http://blog.revolutionanalytics.com/predictive-analytics/page/4/)
特别关注Predictive Analytics标记的帖子
R的ML教程 (http://blog.revolutionanalytics.com/2009/09/machine-learning-in-r-in-a-nutshell.html)由Josh Reich的幻灯片和R代码组成
对代码的深入研究本身将是R中ML的出色入门。
我认为这是一项很好的最终资源,但是在前5名中却没有做到:
机器学习入门指南[R] (http://abeautifulwww.com/2009/10/11/guide-to-getting-started-in-machine-learning/)
张贴在博客美丽的万维网
更多&回答... (https://stackoverflow.com/questions/4811995)
我有一个快速的问题:您如何将R与Matlab进行数据挖掘应用进行比较,其流行度,优缺点,行业和学术认可度等?您会选择哪一个?为什么?
我针对各种指标对Matlab vs R进行了各种比较,但是我特别想获得其在数据挖掘和ML中的适用性答案。由于两种语言对我来说都是很新的,我只是想知道R是否是一个不错的选择。
我感谢任何建议。
回答:
在过去三年左右的时间里,我每天都使用R,而每天的大部分使用都花在了机器学习/数据挖掘问题上。
我上大学时是Matlab的独家用户。当时我认为这是一套出色的工具/平台。我相信今天也是。
对于使用MATLAB进行ML /数据挖掘工作的人员而言,神经网络工具箱,优化工具箱,统计工具箱和曲线拟合工具箱都是非常理想的(如果不是必不可少的),但是它们都与基本的MATLAB环境分开 -在其他环境中的话,它们必须单独购买。
我在R中学习ML /数据挖掘的前5个列表 :
R中的采矿协会规则 (http://lyle.smu.edu/IDA/arules/)
这是指有两件事情:第一,R组包,所有的开始arules(可从CRAN)的;您可以在Project Homepage (http://lyle.smu.edu/IDA/arules/)上找到完整列表(arules,aruluesViz等)。其次,所有这些软件包都是基于称为“ 市场分析”或关联规则的数据挖掘技术。在许多方面,该系列算法是数据挖掘的本质-遍历大型事务数据库,并在这些数据库的字段(变量或特征)之间找到高于平均水平的关联或相关性。实际上,您可以将它们连接到数据源,并使它们通宵运行。上述集合中的中央R包称为规则 ;在arules的CRAN软件包页面上,您可以找到有关arules软件包和一般关联规则技术的几个出色的辅助资源(在R的词典中的短片 )的链接。
标准参考是Hastie等人的《统计学习要素》 (http://www-stat.stanford.edu/~tibs/ElemStatLearn/) 。
本书的最新版本可以数字形式免费获得 。同样,在本书的网站上(链接到上面)是ESL中使用的所有数据集,可以免费下载。 (顺便说一句,我有免费的数字版本;我也从BN.com购买了精装版本;数字版本中的所有色图均以精装版本复制。)ESL包含对至少一个示例的详尽介绍。大部分主要的ML准则-例如神经元metworks,SVM,KNN;无监督技术(LDA,PCA,MDS,SOM,聚类),多种回归,CART,贝叶斯技术以及模型聚合技术(Boosting,Bagging)和模型调整(正则化)。最后,从CRAN获得随书附送的R包(这将省去下载输入数据集的麻烦)。
CRAN 任务视图:机器学习
可用于R的+3,500个软件包按领域划分为大约30个软件包系列或“ 任务视图 (http://cran.r-project.org/web/views/) ”。机器学习就是这些家族之一。机器学习任务视图包含大约50个软件包。其中一些软件包是核心发行版的一部分,其中包括e1071(一个庞大的ML软件包,其中包含许多常规ML类别的工作代码。)
Revolution Analytics博客 (http://blog.revolutionanalytics.com/predictive-analytics/page/4/)
特别关注Predictive Analytics标记的帖子
R的ML教程 (http://blog.revolutionanalytics.com/2009/09/machine-learning-in-r-in-a-nutshell.html)由Josh Reich的幻灯片和R代码组成
对代码的深入研究本身将是R中ML的出色入门。
我认为这是一项很好的最终资源,但是在前5名中却没有做到:
机器学习入门指南[R] (http://abeautifulwww.com/2009/10/11/guide-to-getting-started-in-machine-learning/)
张贴在博客美丽的万维网
更多&回答... (https://stackoverflow.com/questions/4811995)