Browsed by
Tag: resource

机器学习可用数据集

机器学习可用数据集

UCI Machine Learning Repository 最有名的机器学习数据资源来自美国加州大学欧文分校. 该数据库已经提供了 200 多个可用的数据集. 其中很多数据常被用来比较算法的性能, 基于这些资源, 研究人员可以得到相对客观的性能比较结果. 大型公用数据集存储库 如果你是一个大数据的爱好者, 这个链接尤其不能做过. Amazon 拥有真正的大数据, 包括美国人口普查数据, 人类基因组注释的数据, 一个 150GB 的日志(维基百科的页面流量)和一个 500GB 的数据库(维基百科的链接数据). Data.gov Data.gov 启动于 2009 年, 目的是使公众可以更加方便地访问政府的数据. 一旦政府的某份数据可以公开, 他们就将该数据发布. 到 2010 年, 该网站就已经拥有了 250,000 个数据集. 但该网站还能活跃多久尚未可知, 因为 2011 年的时候联邦政府减少了对电子政府(Electronic Government Fund, 该网站的资金来源)的基金支持. 该网站提供的数据主要包含一些被召回的产品和破产的银行信息等. Data.gov Data.gov 还维持了一个包括美国州, 城市和国家等网站在内的超链接列表, 他们都提供类似的开放数据. Infochimps Infochimps 是一个公司, 公司的目标是让每个人可以访问世界上的数据集, 目前它已开放了 14000 多个数据集的下载. 与本列表中的其他站点不同, Infochimps 的其中一些数据集是需要购买的. 当然, 你也可以在该网站上出售自己的数据集. p.s. 另附《机器学习实战》源码和数据样本 百度盘 Dropbox